中文分词¶

发布日期：2019-09-29
难度：简单
类别：Web挖掘、自然语言处理
标签：Python、jieba、分词

1. 问题描述¶

基于Python第三方库jieba，对中文文本进行分词。

2. 程序实现¶

import jieba
text= "张小明来到了北京大学东门地铁站"
seg_list = jieba.cut(text, cut_all=True)
print("全模式：" + " ".join(seg_list))
seg_list = jieba.cut(text, cut_all=False)
print("精确模式：" + " ".join(seg_list))
seg_list = jieba.cut(text)
print("默认精确模式：" + " ".join(seg_list))
seg_list = jieba.cut_for_search(text)
print("搜索引擎模式：" + " ".join(seg_list))

全模式：张 小 明来 来到 了 北京 北京大学 大学 东门 地铁 地铁站 铁站
精确模式：张小明 来到 了 北京大学 东门 地铁站
默认精确模式：张小明 来到 了 北京大学 东门 地铁站
搜索引擎模式：张小明 来到 了 北京 大学 北京大学 东门 地铁 铁站 地铁站