中文分词

  • 发布日期:2019-09-29
  • 难度:简单
  • 类别:Web挖掘、自然语言处理
  • 标签:Python、jieba、分词

1. 问题描述

基于Python第三方库jieba,对中文文本进行分词。

2. 程序实现

In [2]:
import jieba
text= "张小明来到了北京大学东门地铁站"
seg_list = jieba.cut(text, cut_all=True)
print("全模式:" + " ".join(seg_list))
seg_list = jieba.cut(text, cut_all=False)
print("精确模式:" + " ".join(seg_list))
seg_list = jieba.cut(text)
print("默认精确模式:" + " ".join(seg_list))
seg_list = jieba.cut_for_search(text)
print("搜索引擎模式:" + " ".join(seg_list))
全模式:张 小 明来 来到 了 北京 北京大学 大学 东门 地铁 地铁站 铁站
精确模式:张小明 来到 了 北京大学 东门 地铁站
默认精确模式:张小明 来到 了 北京大学 东门 地铁站
搜索引擎模式:张小明 来到 了 北京 大学 北京大学 东门 地铁 铁站 地铁站
In [ ]: