• 技术文章 >Python技术 >Python基础教程

    python数据离散化是什么

    小妮浅浅小妮浅浅2021-08-03 10:34:33原创4729

    概念

    1、连续属性的离散化就是将连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子区间的属性值。

    2、实现、分组,将分组好的结果转换成one-hot编码(哑变量)

    实例

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    # 1)准备数据

    data = pd.Series([165,174,160,180,159,163,192,184], index=['No1:165', 'No2:174','No3:160', 'No4:180', 'No5:159', 'No6:163', 'No7:192', 'No8:184'])

    # 2)分组

    # 自动分组

    sr = pd.qcut(data, 3)

    sr.value_counts()  # 看每一组有几个数据

    # 3)转换成one-hot编码

    pd.get_dummies(sr, prefix="height")

      

    # 自定义分组

    bins = [150, 165, 180, 195]

    sr = pd.cut(data, bins)

    # get_dummies

    pd.get_dummies(sr, prefix="身高")

    以上就是python数据离散化的介绍,希望对大家有所帮助。更多Python学习指路:python基础教程

    本文教程操作环境:windows7系统、Python 3.9.1,DELL G3电脑。

    专题推荐:python数据离散化
    上一篇:python中DataFrame的运算总结 下一篇:python文件的三大访问方式

    相关文章推荐

    • python数据变换如何实现• python可迭代对象的本质探究• python迭代器的应用场景• python温度转换代码• python输入成绩求平均分• python怎么将整数反转输出• python如何读取不同格式文件• python文件拆分与合并的方法• python数据预处理的三种情况• python自动化测试需要学习什么?• python pyglet模块如何使用• Python列表中有哪些索引• Python如何实现时间累加的计算器• python marshmallow如何提供默认值• python中filter()的多种筛选• python中apply和transform的比较• python中的Locust是什么• python中Locust的安装和使用

    全部评论我要评论

    © 2021 Python学习网 苏ICP备2021003149号-1

  • 取消发布评论
  • 

    Python学习网