在中文分词中,jiebe库是最为常见的,主要的原因还是它独特的支持分词模式如:精确模式、全模式、搜索引擎模式。也对应着三种方式,包括jieba.cut()方法、jieba.lcut()方法、jieba.cut_for_search()方法。下面就为大家实例操作这些分词模式,以及方法的使用,一起来了解下吧。
全模式:
1 2 3 | import jieba
seg_list = jieba.cut( "南京市长江大桥欢迎你。" , cut_all=True)
print(type(seg_list),seg_list)
|
精确模式:
1 2 | seg_list1 = jieba.lcut( "南京市长江大桥欢迎你。" , cut_all=False)
print(type(seg_list1),seg_list1)
|
搜索模式:
1 2 3 4 5 | seg_list2 = jieba.cut_for_search( "南京市长江大桥欢迎你。" )
print(type(seg_list2),seg_list2)
print( "全模式:" + "/ " .join(seg_list))
print( "精确模式:" + "/ " .join(seg_list1))
print( "搜索引擎模式:" + "/ " .join(seg_list2))
|
输出结果:
1 2 3 4 5 | <class 'list' > [ '南京市' , '长江大桥' , '欢迎' , '你' , '。' ]
<class 'generator' > <generator object Tokenizer.cut_for_search at 0x000002E04D1C43C0>
全模式:南京/ 南京市/ 京市/ 市长/ 长江/ 长江大桥/ 大桥/ 欢迎/ 你/ 。
精确模式:南京市/ 长江大桥/ 欢迎/ 你/ 。
搜索引擎模式:南京/ 京市/ 南京市/ 长江/ 大桥/ 长江大桥/ 欢迎/ 你/ 。
|
一组实例详细给大家演示讲解了关于 jieba库分词模式的使用方法,大家感兴趣的话,可以尝试学习下哦~