python中文分词的第三方库:使用Python中文分词库提升文本处理效率

示例示例Python中文分词的第三方库有很多,比如:jieba、SnowNLP、pkuseg等。下面以jieba为例,提供代码示例:运行结果:

示例示例Python中文分词的第三方库有很多,比如:jieba、SnowNLP、pkuseg等。以jieba为例,提供代码示例:运行结果:

Python中文分词的第三方库有很多,比如:jieba、SnowNLP、pkuseg等。以jieba为例,提供代码示例:


python
import jieba
# 分词
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))
# 关键词提取
import jieba.yse
sentence = '此外,公司拟对全资子公司吉林欧亚置业有限公司增资4.3亿元,增资后,吉林欧亚置业注册资本由7000万元增加到5亿元。吉林欧亚置业主要经营范围为房地产开发及百货零售等业务。目前在建吉林欧亚城市商业综合体项目。'
for x, w in jieba.yse.extract_tags(sentence, withWeight=True):
    print('%s %s' % (x, w))

运行结果:

Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

Default Mode: 我/ 来到/ 北京/ 清华大学

他, 来到, 了, 网易, 杭研, 大厦

吉林 0.490772689185866

欧亚 0.3780682739354499

置业 0.2996235637881702

增资 0.2996235637881702

城市 0.20641577585609006

商业 0.20641577585609006

综合 0.20641577585609006

项目 0.20641577585609006

本站系公益性非盈利分享网址,本文来自用户投稿,不代表码文网立场,如若转载,请注明出处

(802)
sql数据库学生管理系统:基于SQL数据库的学生管理系统
上一篇
cadexcel表格:为“城市分布”的图表可以使用饼状图,将cadExcel表格中的城市数据按照比例分布显示出来。
下一篇

相关推荐

发表评论

登录 后才能评论

评论列表(66条)