• 技术文章 >Python技术 >Python基础教程

    python缺失值的解决方法

    小妮浅浅小妮浅浅2021-06-08 17:29:48原创173

    1、解决方法

    (1)忽视元组。

    缺少类别标签时,通常这样做(假设挖掘任务与分类有关),除非元组有多个属性缺失值,否则该方法不太有效。当个属性缺值的百分比变化很大时,其性能特别差。

    (2)人工填写缺失值。

    一般来说,这种方法需要很长时间,当数据集大且缺少很多值时,这种方法可能无法实现。

    (3)使用全局常量填充缺失值。

    将缺失的属性值用同一常数(如Unknown或负无限)替换。如果缺失值都是用unknown替换的话,挖掘程序可能会认为形成有趣的概念。因为有同样的价值unknown。因此,这种方法很简单,但不可靠。

    (4)使用与给定元组相同类型的所有样本的属性平均值。

    (5)使用最可能的值填充缺失值。

    可以通过回归、使用贝叶斯形式化的基于推理的工具和决策树的总结来决定。

    2、实例

    import numpy as np
     
    from sklearn.preprocessing import Imputer
     
    imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
     
    import numpy as np
    from sklearn.preprocessing import Imputer
     
    ###1.使用均值填充缺失值
    imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
    imp.fit([[1, 2], [np.nan, 3], [7, 6]])
     
    X = [[np.nan, 2], [6, np.nan], [7, 6]]
    print(imp.transform(X))  
    [[4.         2.        ]
     [6.         3.66666667]
     [7.         6.        ]]

    以上就是python缺失值的解决方法,希望对大家有所帮助。更多Python学习指路:python基础教程

    专题推荐:python缺失值
    上一篇:python字典键的两个特性 下一篇:python中Box-Cox变换是什么

    相关文章推荐

    • Python中使用xlwings整行删除• Python中concurrent.futures模块如何使用• Python kmeans聚类的使用• Python K-means算法的计算步骤• Python默认值的使用注意• Python特殊传参如何实现• python中的两种输出语句• python循环语句的两种类型• python继承的多种类型• python中pandas模块查看DataFrame• python merge()的连接• python join()合并DataFrame的操作• python concat方法的作用• python Unittest的组成• python中单向通信TCP服务器的搭建• python中客户端通信的实现流程• python列表元素的获取和查看• python列表新增元素的三种形式• python列表清除元素的四种方式• python元组有哪些获取元素的方法• python字符的获取方式• python处理字符串的常见方法• python字符串的多行输出• python序列的常用操作• python for循环的本质探究
    品易云

    全部评论我要评论

  • 取消发布评论发送
  • 

    Python学习网