1、信息提取
先用句子分段器将文档的原始文本分成句子,再用记号赋值器将每个句子进一步分成单词。其次,给每一个句子做词性标记。以nltk中的默认工具为例,将句子分段器、分词器、词性标记器连接。
1 2 3 4 5 6 7 |
|
2、词块划分
词块划分是实体识别的基础技术,对多个词的顺序进行划分和标记。
如Noun Phrase Chunking(名词短语词块划分)
使用正则表达式来定义一个语法,来进行名词短语词块的划分
3、开发和评估词块划分器
分区器可以用evaluate()方法评价分区器的性能好坏。
以下是使用一元标记来建立单词块分割器的学习。但是,不是确定每个单词的正确单词性标记,而是根据每个单词的单词性标记,确定正确的单词块标记。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 |
|
以上就是python提取文本信息的方法,希望能对大家有所帮助,更多知识尽在python学习网。