• 技术文章 >Python技术 >Python基础教程

    Python中Tf-idf文本特征的提取

    小妮浅浅小妮浅浅2021-09-15 09:25:47原创2349

    说明

    1、TF-IDF是如果词或词组出现在文章中的概率较高,而在其他文章中很少出现,那么它就被认为具有很好的类别区分能力,适合进行分类。

    2、提取文本特征,用来评估字词对文件集或某个语料库中文件的重要性。

    实例

    def tfidf_demo():
        """
        用tfidf的方法进行文本特征提取
        :return:
        """
        # 1.将中文文本进行分词
        data = ["一种还是一种今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。",
                "我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。",
                "如果只用一种方式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]
        data_new = []
        for sent in data:
            data_new.append(cut_word(sent))
        # print(data_new)
        # 2.实例化一个转换器类
        transfer = TfidfVectorizer(stop_words=["一种", '因为'])
        # 3.调用fit_transform
        data_final = transfer.fit_transform(data_new)
        print("data_new:\n", data_final.toarray())
        print("特征名字:\n", transfer.get_feature_names())
        return None

    以上就是Python中Tf-idf文本特征的提取,希望对大家有所帮助。更多Python学习指路:python基础教程

    本文教程操作环境:windows7系统、Python 3.9.1,DELL G3电脑。

    专题推荐:python tf-idf
    品易云
    上一篇:Python中filecmp模块的介绍 下一篇:Python数据归一化如何理解

    相关文章推荐

    • Python脚本如何调用外部命令• python字符串转换为日期时间• python计算列表项出现次数的方法• Python操作PgSQL数据库的方法• Python numpy有哪些功能优于列表• python列表有什么特点• python操作文件模式的介绍• Python with as如何使用• Python如何从列表中获取笛卡尔积• python如何检测pygame中的碰撞• python Selenium如何等待元素出现• Python中cProfile分析工具的使用• Python如何列出目录中的所有文件• Python中filecmp模块的介绍

    全部评论我要评论

    © 2021 Python学习网 苏ICP备2021003149号-1

  • 取消发布评论
  • 

    Python学习网