关键词: python 结巴分词、结巴分词
1.分词
1.1主要分词函数
- jieba.cut(sentence, cut_all, HMM):sentence-需要分词的字符串;cut_all-控制是否采用全模式;HMM-控制是否使用HMM模型;jieba.cut()返回的结构是一个可迭代的 generator。
- jieba.cut_for_search(sentence, HMM):sentence-需要分词的字符串;HMM-控制是否使用HMM模型;这种分词方法粒度比较细,成为搜索引擎模式;jieba.cut_for_search()返回的结构是一个可迭代的 generator。
- jieba.lcut()以及jieba.lcut_for_search用法和上述一致,最终返回的结构是一个列表list。
1.2示例
import jieba as jb
seg_list = jb.cut("我来到北京清华大学", cut_all=True)
print("全模式: " + "/ ".join(seg_list)) # 全模式
seg_list = jb.cut("我来到北京清华大学", cut_all=False)
print("精确模式: " + "/ ".join(seg_list)) # 精确模式
seg_list = jb.cut("他来到了网易杭研大厦")
print("默认模式: " + "/ ".join(seg_list)) # 默认是精确模式
seg_list = jb.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")
print("搜索引擎模式: " + "/ ".join(seg_list)) # 搜索引擎模式
转载请注明:数据分析 » Python-jieba分词_结巴分词