0


自然语言处理 之 文本热词提取--------文章中含有《源码》和《数据》,可以拿来玩玩

🎂主要就是通过jieba的posseg模块将一段文字分段并赋予不同字段不同意思。然后通过频率计算出热频词

**

  1. 数据放在文章里面了,就不用花积分下载了

**

**

🐱‍🐉💋代码

**

  1. # TODO 鸟欲高飞,必先展翅# TODO 向前的人 :Jhonimport jieba.posseg as psg
  2. text=open("data/冬奥会评论区的数据.txt","r", encoding="utf-8").read()
  3. text_psg=psg.lcut(text)# TODO  杨过 nrprint('人物名词性标注为:\n',' '.join(['{}{}'.format(w,t)for w,t in text_psg]))
  4. name_counts={}#定义字典用于存储词及其出现的次数for word_pair in text_psg:iflen(word_pair.word)==1:continueelse:if word_pair.flag=="nr"or word_pair.flag=="z":# TODO flag方法
  5. name_counts[word_pair]=name_counts.get(word_pair,0)+1#遍历所有词,每次出现对应的词都加1# print(name_counts) #{pair('叶老汉', 'nr'): 2, pair('卫州', 'nr'): 1, pair('叶三姐', 'nr'): 10,}
  6. item=name_counts.items()
  7. items=list(item)# print(items) # TODO [(pair('鲁滨逊', 'nr'), 1), (pair('武功', 'nr'), 825), (pair('言语', 'nr'), 96)]
  8. items.sort(key=lambda x:x[1],reverse=True)#根据词语出现的顺序从大到小排序
  9. name_list=open('./data/冬奥会人名出现次数.txt',"w",encoding="utf-8")for i inrange(len(items)):
  10. name,pos=items[i][0]
  11. count=items[i][1]
  12. name_count=name+': '+str(count)
  13. name_list.write(name_count+'\n')
  14. name_list.close()

代码里面注释的已经非常清楚,不同的可以私信我,或者在评论区打出来,看到了会及时解惑的。
**

🎂💋数据

**

  1. vv我,夺冠后齐广璞再次收获金墩墩!此前他在空中技巧混合团体比赛中获得亚军。
  2. 拉多拉夫,在本届冬奥会已斩获一金一银。
  3. 虎口水,齐广璞一金一银拿到金墩墩的他不断擦拭泪水,老将不易!
  4. 拉科罗l,在刚刚结束的自由式滑雪男子空中技巧决赛中,
  5. 酒啊就是你,中国队选手齐广璞在本届冬奥会上首次拿出5.0的高难度动作
  6. 会积极,并以出色的发挥获得129.00分,夺得金牌!这是继2006年都灵冬奥会
  7. 街廓,216日晚的崇礼,男子自由式滑雪空中技巧决赛
  8. 阿克苏九年,他的难度5.0动作拿下129分,圆梦夺金!赛后,齐广璞也热泪盈眶!
  9. 啊可能是,这也是中国代表团本届冬奥会的第七枚金牌!“我做到了,让五星红旗飘扬在最高处。
  10. 啊空间你是,但其实还不够好,本来还能有更高的分数。”
  11. 暗杀即可,中国老将齐广璞发挥出色。图/新华社
  12. 后即可,15日晚的男子资格赛,齐广璞和贾宗洋都是第1轮就凭借高分动作,
  13. 哈卡斯,排名前两位直接晋级决赛,后者更是高质量再现4.425动作,拿到125.67分。
  14. JJ看来我,老将贾宗洋拼尽了全力。图/新华社
  15. 哦怕,备战中,齐广璞曾遭遇困难,有一段时间情绪不是很好。
  16. 喀喀喀,精神压力较大,长时间失眠,但他都克服了。
  17. 阿克苏六年,“因为有梦想,什么都不是问题。”北京冬奥会就是他前进的最大动力。
  18. 郝鹏,这些年,齐广璞拿到的奖项不胜枚举,世界杯冠军、世锦赛冠军……不过。
  19. 肯德基,他参加过温哥华、索契、平昌三届冬奥会,都未能收获奖牌,这次能获得第

数据每行逗号前是名字,逗号后的是评论内容,数据不太正统,先凑合着用,后面你就会发现有点那个味道了。



**

🐱‍🚀💋结果:

**

  1. 齐广璞:79
  2. 冰墩墩:70
  3. 苏翊鸣:44
  4. 谷爱凌:43
  5. 徐梦桃:41
  6. 滑雪:30
  7. 范可新:15
  8. 贾宗洋:13
  9. 高亭宇:11
  10. 平昌:6
  11. 滑冰:6
  12. 世锦赛:5
  13. 索契:5
  14. 晋级:4
  15. 安斯卡:4
  16. 韩晓鹏:4
  17. 张虹:4
  18. 任子威:4
  19. 小鸣:4
  20. 温哥华:3
  21. 元老:3
  22. 张家口:3
  23. 阿克萨:3
  24. 祝贺:3
  25. 吉祥物:3
  26. 萨克森:3
  27. 张杰:3
  28. 金墩墩:2
  29. 亚军:2
  30. 都灵:2
  31. 安康:2
  32. 阿喀琉斯:2
  33. 杨紫:2
  34. 桂冠:2
  35. 凌空:2
  36. 韩聪:2
  37. 融宝:2
  38. 宝融宝:2
  39. 雪容融:2
  40. 明星:2
  41. 苗子:2
  42. 五星红旗:1
  43. 最高处:1
  44. 哈卡斯:1
  45. 郝鹏:1
  46. 肯德基:1
  47. 李玉:1
  48. 刘晨周:1
  49. 乌克兰:1
  50. 宝贵:1
  51. 阿奎那:1
  52. 梦中人:1
  53. 周转:1
  54. 高达:1
  55. 斯诺克:1
  56. 满怀希望:1
  57. 阿森纳:1
  58. 内存卡:1
  59. 利利斯:1
  60. 屠龙刀:1
  61. 东道主:1
  62. 马克:1
  63. 阿基:1
  64. 正佳:1
  65. 天成:1
  66. 折桂:1
  67. 热切地:1
  68. 齐天大圣:1
  69. 哈萨克:1
  70. 宝藏:1
  71. 宝贝:1
  72. 贺卡:1
  73. 谢幕:1
  74. 范迪安:1
  75. 雪容融:1
  76. 依旧:1
  77. 舒斯:1
  78. 施尼:1
  79. 曼德尔:1
  80. 肥墩墩:1
  81. 圣保罗:1
  82. 荣幸之至:1
  83. 熊猫:1
  84. 滚滚:1
  85. 仰泳:1
  86. 太棒了:1
  87. 康弘:1
  88. 最佳:1
  89. 大力支持:1
  90. 小胖:1
  91. 祝福:1
  92. 施图拜:1
  93. 孙琳琳:1
  94. 张雨婷:1
  95. 终封王:1
  96. 褚鹏:1
  97. 阿曼:1
  98. 陶士文:1

可以发现结果和前面的还是挺准的。当然还可以继续优化,也可以自己训练模型,但是训练集需要很大。我这个模型是官方的,训练模型数据1.84GB🐱‍👓


因为文本上传太多会被判刷量,所以删除了一部分。结果是之前的,没有改变,需要文本的可以去下载。测试数据下载



觉得有用的可以给个三连,关注一波!!!带你了解更多的python小知识


本文转载自: https://blog.csdn.net/qq_46906413/article/details/123689389
版权归原作者 不良使 所有, 如有侵权,请联系我们删除。

“自然语言处理 之 文本热词提取--------文章中含有《源码》和《数据》,可以拿来玩玩”的评论:

还没有评论