项目概述:
通过对微博评论进行预处理、分词以及特征选择等,建立特征词典,构建每条评论的特征向量。之后利用分类算法,如朴素贝叶斯、SVM等,针对训练集的特征向量以及类标签进行训练,得到分类模型,并通过计算在测试集上的预测准确率、召回率等对分类器的分类效果以及不同参数影响进行性能评估。
情感分析(Sentimentanalysis),也称意见挖掘(OpinionMining),主要是对带有感情色彩的主观性文本进行分析、处理、归纳然后进行推理的过程,例如对产品,话题,政策的意见。利用这些分析的结果,消费者可以深入了解商品的实用性,从而优化购买的决策,同时,生产者和经销商可以改善自己的服务,从而赢得竞争的优势。随着信息时代的到来,越来越多的公司开始组建数据分析团队对自身公司的数据进行挖掘、分析。比如某服装公司想调查自己制作的服装的受喜爱程度,就可以从服装的评论入手,挖据文本内容,判断留下评论的用户对服装的喜好态度,积极的、消极的或者是中性的评价。
微博的强大影响力已经深深的吸引了更多的人加入。而对微博的情感分析,不仅可以获取网民的此时的心情,对某个事件或事物的看法,还可以获取其潜在的商业价值,还能对社会的稳定做出一定的贡献。
问题定义
通过对微博评论进行预处理、分词以及特征选择等,建立特征词典,构建每条评论的特征向量。之后利用分类算法,如朴素贝叶斯、SVM等,针对训练集的特征向量以及类标签进行训练,得到分类模型,并通过计算在测试集上的预测准确率、召回率等对分类器的分类效果以及不同参数影响进行性能评估。
详细代码步骤:
版权归原作者 程序员uu 所有, 如有侵权,请联系我们删除。