注:本科课程作业,水平有限。Python代码东拼西凑但是可以跑哈哈哈,需要可私聊1310778864@qq.com
内 容 摘 要
本文选取了电子竞技这一较为新颖的范畴,以中国战队EDG夺得英雄联盟全球总决赛为切入点,将其与游戏的下载数据联系起来,通过断点回归、文本分析等统计学方法进行了研究。本文一方面验证了EDG夺冠等事件在起到极好宣传效果的同时,并未对游戏评分本身产生显著影响;另一方面探究了游戏评分的主要影响因素,并进一步揭示了游戏评分与评论背后反映出的问题,并提出了相应的改进建议。最后,本文建立了一个朴素贝叶斯分类器,以评论信息集为基础对用户的潜在评分作出预测,具有一定的应用价值。
关键词:英雄联盟 评论 文本分析
ABSTRACT
This paper selects the relatively new e-sports as the research category, takes The Chinese team EDG winning the League of Legends global finals as the entry point, connects it with the download data of the game download, and studies it through statistical methods such as breakpoint regression and text analysis. On the one hand, this paper verifies that events such as EDG winning the title play an excellent publicity effect, while not having a significant impact on the game score itself. On the other hand, it explores the main influencing factors of game ratings, further reveals the problems reflected behind game ratings and reviews, and puts forward corresponding suggestions for improvement. Finally, a naive Bayes classifier is established to predict users' potential ratings based on the review information set, which has certain application value.
*K***EY WORDS: **LOL comments text analysis
**目 **** **录
- 引言
电子竞技(Electronic Sports)是指使用电子游戏来比赛的体育项目,其利用电子设备作为运动器械,进行人与人之间智力与体力的对抗。随着电子游戏对经济、社会的影响力不断扩大,电子竞技早在2003年11月就已被中国体育总局承认为中国正式开展的运动项目。
《英雄联盟》(League of Legends: Wild Rift,简称LOL)是由美国拳头游戏(Riot Games)开发运营,深得全球电子竞技爱好者喜爱的一款游戏。作为全球范围内英雄联盟最高级别的赛事,2021年11月6日晚八点,万众瞩目的第11届“英雄联盟全球总决赛”正式打响,中国战队EDG鏖战五局,最终以3:2逆转战胜韩国赛区DK战队,夺得冠军。巧合的是,这款游戏的手游版本也于2021年10月8日正式上线,目前在中国内地由腾讯游戏代理运营。
那么,玩家们对这款新上线的手游评价如何?端游方面的赛事夺冠对新上线的手游是否产生了显著影响?英雄联盟手游有没有EDG那样牛呢?本文为探究以上问题,通过对游戏下载的评论进行文本分析,从玩家角度出发对英雄联盟手游进行评判。
本文大体思路如下:第一部分为引言,第二部分为数据收集与说明,第三部分为赛事夺冠对下载量及评分的影响,第四部分为对评论的文本分析。
- 数据收集与说明
为展开分析,本文首先考虑合适的数据来源。由于安卓应用市场是按品牌划分,“华为”、“小米”、“OPPO”等各种品牌都有自己独立的应用市场,分类较为复杂,并且从安卓应用市场获得完整数据并不容易,因此本文选择分析英雄联盟手游在IOS 端app store(中国地区)中的各类下载信息。信息包括游戏上线(10月8日)之后2个月内的下载量、38414条评论以及各评论的评分。具体变量说明见表1。
表 1 数据变量说明表
变量名
变量类型
变量说明
下载量
定量数据
日下载量
评论
文本数据
共38414条
评分
定性数据
1星至5星
评论类型
定性数据
根据评分划分好评和差评
赛事夺冠对下载量及评分的影响
对下载量的影响
利用收集到的下载量数据绘制时序图如图1所示。
就下载量变动趋势而言,英雄联盟手游的的下载量总体上呈现出下降的趋势,从刚上线时日下载量超40万逐渐跌至5万。经过与同类型游戏产品的比较,本文认为,游戏下载量的趋势主要受玩家新鲜感影响。对于前期宣传力度强劲的游戏应用,出现下载量陡峭下降的趋势为普遍存在的正常现象。
相对于下载量的下降趋势而言,本文认为其相较变动趋势更具有研究的价值。观察时序图发现,10月15日至11月15日之间,下载量有数次较明显的变动。对此进行事件研究后发现,下载量向上跳跃的时刻与游戏版本更新和EDG夺冠的时刻基本保持一致,因此可基本认定如版本更新、赛事夺冠此类重大事件对游戏的下载量产生了正向影响。并且,EDG夺冠事件产生的影响更加显著。那么,对下载量有如此大影响的事件对游戏评分是否依然有明显的正向影响呢?
图 1 下载量时序图
- 对评分的影响
为了探究评分的波动关系,首先绘制各评分的面积图(图2)。在所有的评分中,46.5%的玩家给出1星差评,40.6%的玩家给出5星好评,而2至3星评论占比较小,评论呈现出两极分化的情况。
从面积图中可以看到,在11月6日附近游戏评分稍有波动,但是绝对幅度不大、持续时间不长、甚至不如版本更新带来的波动。因此本文初步得出猜想:EDG夺冠对手游评分并无显著影响。
图 2 评分面积图
为得到更加有说服力的结论,接下来本文对日期与评分进行了断点回归(RDD)以验证猜想,将时间作为驱动变量。如果EDG夺冠对于评分有显著影响,那么11月7日两侧的评分应该会有显著差异。所以将11月7日作为分界线,对每日新增评分取均值,在分界左右两侧分别进行3次多项式拟合,均值及拟合结果如图3所示。进一步,对分界的处理效应进行假设检验,得到p值为0.12,统计学上不显著,断点两侧并没有明显跳跃,即EDG夺冠对于评分并无显著影响。
图 3 评分断点回归
至此,本文以统计学方法证明了如下结论:类似EDG夺冠这类激动人心的事件,它们的宣传效果极佳,所带来的直观影响就是游戏下载量激增,但是效果不具有可持续性,且对游戏自身的评价并无显著影响。为进一步探究真正决定玩家评分的因素,下文将对玩家的评论进行文本分析。
对评论的文本分析
高频词分析
所分析评论共38414条,评论文本具有数量巨大、无效信息多的特点,且有可能存在“刷评论”的现象。针对数量巨大的特点,本文在进行文本分析前,选择将评论文本进行分层抽样,考虑到不同时期评论可能存在不同特点,故分层抽样的具体方法为从每日评论中抽取10%,结果为抽取共计3795条评论进行后续分析。同时为避免刷评论现象的存在,对抽取评论进行去重。在做了分词和停用词处理后,针对无效信息多的特点,对诸如“游戏”“玩”“英雄联盟”“哈哈哈”等对分析意义不大的高频词选择删除。经过上述清洗后,将出现频率TOP100的词进行汇总,绘制词云图,结果如图4所示。
图 4 词云图
词云图中主要包含了两类词语,第一类是是游戏相关的各种专业术语,比如匹配机制,英雄,队友等等。其中“匹配机制”一词出现的频率极高,由此可见匹配机制可能是影响玩家游戏体验的一个重要因素。第二类是表达情感的词语,其中很大一部分是消极的情感型词语,比如“垃圾”、“恶心”等等。当然,在吐槽声中也不乏赞美,词云图中也有“希望”、“喜欢”等积极的情感词,但是所占比例小于消极词汇。
为了进一步分析好差评的评论内容,本文将全部评论按照星级划分为好评和差评。将4至5星的评论归类为好评词,而1至2星的评论作为差评词。由于3星本身处于中间位置,归为哪一类存在一定争议,并且3星评论所占比例并不大,故选择删除不以分析。将评论分类以后,分别提取好评与差评中出现频率最高的10个词语绘制出柱形图,如图5所示。
图 5 好、差评高频词柱状图
通过观察高频词柱状图,不难发现以下事实:
1.差评词相较好评词频数更高,且表明玩家不满之处相对集中;
2.差评词多集中于游戏本身的缺陷,如匹配、举报、机制等词代表游戏本身的设计还有待完善;
3.好评词集中于希望、终于、感觉等词,此外手游与端游两词高频的背后实际上也是玩家对手游能延续端游良好体验的期待;
4.特别地,本文发现在差评词和好评词中,王者一词出现的频率都较高。
基于以上事实,本文作出如下两方面解释,分别针对优劣评价本身和“王者”一词的高频率:
游戏下载评论所体现的一方面是游戏本身的质量高低,另一方面则是玩家的情怀所在。差评更多的是玩家对游戏本身制作方面的批评,是游戏实质性的缺陷。而好评展现的更多是期待和情怀,而不是对游戏本身的赞许,并非对游戏制作本身的肯定。这也从侧面与本文之前的结论相呼应,EDG夺冠如此激动人心的事件都无法对游戏评价产生显著的正面影响,这种仅仅依靠玩家充满感性色彩的好评或许也并不能持续太久。
图2所示的评分情况,虽然优劣评价从现有存量而言基本持平,但观察近期新增评级占比后即可发现差评的占比逐渐增加。不难得出结论,以情怀为卖点、收割玩家流量的游戏设计必然无法持续,游戏厂商应当从其端游的巨大成功中暂时跳出,认真思考端游手游定位及游戏体验究竟有何差距,唯有站在玩家的角度,为玩家着想,才能在已有成功的基础上争取新的成功。
手游与端游两好评高频词也表明了游戏厂商应该关注的重点。随着手机的普及,人们对于手机的依赖程度逐渐增大。并且在碎片化的时间里,利用手机游戏相比于电脑游戏显然更加便利。手游得到追捧似乎也是大势所趋。在评论中,很多玩家都表示了对于自己喜爱的游戏上线手游版本的欣喜,但既然是从端游版本转变而来的游戏,就难免会被拿来对比。目前游戏已经成功吸引到因为情怀而来的大批玩家,但是在玩家的情怀消耗殆尽时,厂商能否成功还原端游的游戏体验,能否展现出手游自己的优势进而留住玩家。目前来看,游戏在这方面还做的不够好,仍有待提高。
“王者”一词的高频事实上也在印证本文的解释。王者荣耀是另一款相似的游戏,属于同类竞争产品,自然也很容易被玩家拿来比较。通过对含有“王者”的评论进行提取整理后,将此类评论各评分与所有评论各评分作比值并绘制雷达图,结果见图6。可以看出高评分占比明显高于低分。这表明,有大量玩家在对比两款手游时为英雄联盟手游给出高分,但客观上王者荣耀由于在手游方面运营时间更长、机制更为成熟,因此可以推断这些高分恐怕还是大多出于对英雄联盟这款游戏的情怀。
图 6“王者”类评论各评分占比
- LDA主题模型
为进一步提出建议,本文对所有评论建立了LDA主题模型。LDA主题模型是近年来文本挖掘中一类较为流行的分析方法,它可以从大量文本中提取隐含主题,从而对文本内容进行总结和概括。这里使用主题模型从评论中提取出4个主题以发现游戏最应当改进的方向。经过调整与命名后,4个主题分别是“游戏机制”,“玩家交互”、“系统设计”与“产品对比”,各主题具体包含词语见表2。从各主题的数量上来看,涉及到游戏机制的评论最多,占35%,其次是产品对比的评论占27%,另两个主题分别占19%。
表 2 主题名称与所含词语
主题名称
词
游戏机制
匹配 机制 人机 队友 排位 皮肤 英雄 技能
玩家交互
挂机 人头 送 位置 禁言 举报 赢 输
系统设计
系统 登录 闪退 卡 优化 更新
产品对比
王者 手机 电脑 手游 端游 LOL
进一步计算每个主题在各星级评论中的占比情况,绘制气泡图,如图7所示。
图 7 各主题评分气泡图
主题“游戏机制”在1星评分中占比最大,这说明现在英雄联盟手游存在的最大问题就是游戏机制,大量玩家抱怨队友与自己水平不符,进而输赢穿插,在某一段位浮浮沉沉浪费时间。游戏制作方可能是想要用这种方式延长玩家活跃时间,但事实证明该做法只会适得其反。玩家交互方面是其次需要解决的问题,新游戏的举报禁言等体系还不够完善,玩家有苦难言,游戏体验也就不好。系统设计与产品对比两方面表现尚可。
因此,制作者应尽快改善游戏匹配机制,使高手与新手分别厮杀,避免出现同一局游戏中各水平玩家齐聚,破坏彼此游戏体验。同时,游戏设计应抓住手游社交属性较强的特点,完善互动、社交系统。最后,英雄联盟端游玩家是巨大的客户群体,制作者在尽可能还原端游方面的游戏魅力的同时,也不能将手游端游完全同质化,如此才不至于沦为评论中所言的“消费情怀的产品”。
- 朴素贝叶斯分类模型
由于当前评论已有星级分类,故可以尝试进一步利用所得到的文本数据,利用已有评论和好评差评的分类结果,训练出一个分类模型,模型所采用的是朴素贝叶斯方法。朴素贝叶斯基本原理是:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,并将此待分类项属于出现概率最大的类别。在本文的分析中应用时,将每一条评论作为一个文本特征向量来表示,并假设个词语之间没有联系。
将已有数据按5:1的比例分为训练集和测试集并拟合模型,并进行交叉验证。验证结果的准确率为77.4%,混淆矩阵结果如表3所示。
表 3 混淆矩阵
好评
差评
预测好评
0.834418605
0.165581395
预测差评
0.303782506
0.696217494
所得到的模型的分类效果较好,准确率较高。此模型可以应用于一些没有评分的评论中,比如得到b站评论却没有好差评的分类时,便可利用该模型进行情感分析得到分类,并进行更加深入的分析。
参考文献
[1]崔志刚. 基于电商网站商品评论数据的用户情感分析[D]. 北京交通大学, 2014.
[2]邹晓辉, 孙静. LDA主题模型[J]. 智能计算机与应用, 2014.
[3]周志华.《机器学习》[J]. 中国民商, 2016.
[4]以爱之名——基于《隐秘的角落》的豆瓣短评及原著《坏小孩》的文本分析
[5]数据分析告诉你,为什么《延禧攻略》能够霸屏整个暑假?
[6]马世军, 姚建与乔文, 基于贝叶斯理论的垃圾邮件过滤技术. 硅谷, 2009(13): 第58页.
版权归原作者 缉熙 所有, 如有侵权,请联系我们删除。