• 技术文章 >Python技术 >Python基础教程

    python如何提取文本信息?

    小妮浅浅小妮浅浅2021-02-23 14:33:53原创4513

    1、信息提取

    先用句子分段器将文档的原始文本分成句子,再用记号赋值器将每个句子进一步分成单词。其次,给每一个句子做词性标记。以nltk中的默认工具为例,将句子分段器、分词器、词性标记器连接。

    1

    2

    3

    4

    5

    6

    7

    def ie_preprocess(document):

        # nltk 默认的句子分段器

        sentences = nltk.sent_tokenize(document)

        # nltk默认分词器

        sentences = [nltk.word_tokenize(sent) for sent in sentences]

        # nltk默认词性标记

        sentences = [nltk.pos_tag(sent) for sent in sentences]

    2、词块划分

    词块划分是实体识别的基础技术,对多个词的顺序进行划分和标记。

    如Noun Phrase Chunking(名词短语词块划分)

    使用正则表达式来定义一个语法,来进行名词短语词块的划分

    3、开发和评估词块划分器

    分区器可以用evaluate()方法评价分区器的性能好坏。

    以下是使用一元标记来建立单词块分割器的学习。但是,不是确定每个单词的正确单词性标记,而是根据每个单词的单词性标记,确定正确的单词块标记。

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    15

    16

    17

    18

    19

    20

    21

    22

    23

    24

    25

    # 使用一元标注器建立一个词块划分器。根据每个词的词性标记,尝试确定正确的词块标记。

    class UnigramChunker(nltk.ChunkParserI):

        # constructor

        def __init__(self, train_sents):

            # 将训练数据转换成适合训练标注器的形式。tree2conlltags()方法将每个词块树映射到一个三元组(word,tag,chunk)的列表

            train_data = [[(t, c) for w, t, c in nltk.chunk.tree2conlltags(sent)]

                          for sent in train_sents]

            # 训练一元分块器

            # self.tagger = nltk.UnigramTagger(train_data)

            # 训练二元分块器

            self.tagger = nltk.BigramTagger(train_data)

      

        # sentence为一个已标注的句子

        def parse(self, sentence):

            # 提取词性标记

            pos_tags = [pos for (word, pos) in sentence]

            # 使用标注器为词性标记 标注IOB词块

            tagged_pos_tags = self.tagger.tag(pos_tags)

            # 提取词块标记

            chunktags = [chunktag for (pos, chunktag) in tagged_pos_tags]

            # 将词块标记与原句组合

            conlltags = [(word, pos, chunktag) for ((word, pos), chunktag)

                         in zip(sentence, chunktags)]

            # 转换成词块树

            return nltk.chunk.conlltags2tree(conlltags)

    以上就是python提取文本信息的方法,希望能对大家有所帮助,更多知识尽在python学习网。

    专题推荐:python提取文本信息
    上一篇:python中pyqt5复选框怎么用? 下一篇:python中如何使用RE正则表达检验字符串

    相关文章推荐

    • python链表类中如何获取元素• python中pyqt5复选框怎么用?

    全部评论我要评论

    © 2021 Python学习网 苏ICP备2021003149号-1

  • 取消发布评论
  • 

    Python学习网