自然语言处理--------jieba分词（文章中含有源码）

在这里插入图片描述 🍖🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖 🍖🍖🍖🍖
🍖🍖
🍖🍖🍖
🍖🍖🍖🍖 作者：不良使
🍖🍖🍖🍖🍖 潜力创作新星华为云享专家
🍖🍖🍖🍖🍖🍖 博客记录学习的思路，项目和错误,寻找志同道合的朋友
🍖🍖🍖🍖🍖🍖🍖 如果觉得有帮助记得一键三连 ┗|｀O′|┛ 嗷~~
🍖🍖🍖🍖🍖🍖🍖🍖
🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖

#TODO    jieba    一个自然语言处理工具包  ，除了jieba还有  HanLP  和  LTKimport jieba
#TODO    词、句 匹配#全模式
seg_list=jieba.cut("我喜欢吃酸菜鱼",cut_all=True)print("全模式:    "+"/".join(seg_list))
seg_list_1=jieba.cut("物联网是大势所趋",cut_all=False)print(seg_list_1)print("全模式：    "+"/".join(seg_list_1))#精准模式，如果此处  cut  里面没有给出  cut_all=False,默认是False的
seg_list1=jieba.cut("我喜欢吃酸菜鱼",cut_all=False)print("精准模式:    "+"/".join(seg_list1))# TODO
seg_list1_1=jieba.cut("物联网是大势所趋")print("精准模式:    "+"/".join(seg_list1_1))#物/联网# TODO 我们可以发现物联网分成了   物/联网,那是因为字典里面没有物联网这个词，我们加载一下自定义字典就可以了
jieba.load_userdict("./data/user_dic.txt")
seg_list1_1=jieba.cut("物联网是大势所趋")print("重新加载过字典")print("精准模式:    "+"/".join(seg_list1_1))#搜素引擎模式
seg_list2=jieba.cut_for_search("我喜欢吃酸菜鱼")print("引擎模式：    "+",".join(seg_list2))

在这里插入图片描述

由上面的代码我们可以发现jieba语料库不是特别完善，尤其是**物理物联网是大势所趋**，其中**物联网**被分成了**物/联网**,但我们重新加载语料库（字典）时我们发现这次并没有把**物联网**分开，达到了预期效果。

user_dic.txt
大波浪 10
jieba分词 n
金融字典 7
物联网 5 n

最后一行为例
for example :5是出现的频次  ，n 是名词的属性

代码来源于B站，侵权请联系删除

标签： python 自然语言处理

本文转载自: https://blog.csdn.net/qq_46906413/article/details/122651054
版权归原作者 不良使 所有，如有侵权，请联系我们删除。

自然语言处理--------jieba分词（文章中含有源码）

发表评论

“自然语言处理--------jieba分词（文章中含有源码）”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航