0


AI翻译能力测评

引言

来自智谱AI的技术社区的AI大模型翻译能力测评活动,对比下AI大模型的翻译能力,最终翻译效果参阅截图。

** 注:本次测评数据样本较小,测试较为主观,测评结论仅供参考。**

测评范围

智谱GLM-4-0520、智谱GLM-4-air、智谱GLM-4-flash、百度翻译、海螺(6.5s)、百川智能(Baichuan4)、讯飞星火3.5、讯飞星火4.0。

技术实现

在Excel内通过https调用各AI大模型的api接口。

测试结论

1、AI大模型展现出的翻译能力整体上比百度翻译效果要好

AI大模型和百度翻译区分度最高的语料是翻译“粉丝会给主播刷礼物”,如果没有理解语义直接按字面意思翻译,就会踩坑。百度翻译就很典型的踩坑了,将“刷”翻译为“brush”,而其他大模型都能够理解“刷”在整句话中的含义,将其翻译为“send”或“give”,即送礼物。

2、智谱家族三个模型中,GLM-4-0520整体翻译效果最好、GLM-4-air翻译效果中规中矩、GLM-4-flash翻译效果一般

不得不说,贵还是有贵的道理。根据官方定价,GLM-4-0520调用成本0.1元/千tokens、GLM-4-air调用成本0.001元/千tokens、GLM-4-flash调用成本0.0001元/千tokens。GLM-4-0520和GLM-4-flash调用成本相差千倍,成本的差异体现在翻译效果上区分度较为明显。

例如:在翻译“it's been a long time.yes,ma'am,a lot of water under the bridge.”时,GLM-4-0520能很好的理解上下文的语境,将“a lot of water under the bridge”表达为时间的流逝,甚至还能引用论语中的“逝者如斯夫,不舍昼夜”,确实有惊喜。反观GLM-4-flash,和百度翻译一样,没有理解上下文语境,直接将其翻译为“桥下有很多水”,稳稳的踩坑。就该语料对GLM-4-flash进行多轮测试发现,GLM-4-flash踩坑的概率相对较高,10次测试会出现4-5次翻译为“桥下有很多水”。

3、AI大模型的翻译能力发挥不稳定,较为依赖提示词

在实际测评过程中发现,大模型需要精心编写提示词,并且需要对一个语料进行多轮反复测试,才能找到较为满意的结果。翻译输出结果的稳定性是AI大模型翻译时出现的较为显著的问题,每次调用的翻译结果就像开盲盒一样难以预料。

典型语料分析

语料1:我光盘我骄傲

在这轮翻译中,讯飞星火4.0发挥最为出色,理解了语义,将“我光盘我骄傲”表达为“因不浪费食物而骄傲”。GLM-4-0520发挥相对中规中矩,虽然理解了语义,但是将其表达为“因自己是节俭的食客而骄傲”则相对逊色。其他AI大模型和百度翻译则全军覆没,直接按照字面意思翻译,有的将“光盘”翻译为“干净的盘子”,勉强合理,有的则翻译为“CD”,属实离谱。

语料2:the world has kissed my soul with its pain, asking for its return in songs

该语料选自泰戈尔的飞鸟集,在这轮翻译中百川智能和讯飞星火3.5翻译最为出色,直接翻译为最广为流传的版本。这里点名批评百度翻译和GLM-4-flash,直接踩坑,将“return”翻译为“归还”、“回归”。

语料3:天道酬勤

在这轮翻译中,GLM-4-0520和GLM-4-flash翻译较为出色,将“天道”翻译为“god”较为符合语义,而其他AI大模型和百度翻译,则将“天道”翻译为“heaven”,个人认为不那么贴切。

后续测评计划

1、将GLM-4-flash接入dify工作流,增加翻译效果复核功能

2、对比GLM-4-0520和接入dify的GLM-4-flash的翻译效果

标签: 人工智能

本文转载自: https://blog.csdn.net/tmwgsicp/article/details/141016702
版权归原作者 tmwgsicp 所有, 如有侵权,请联系我们删除。

“AI翻译能力测评”的评论:

还没有评论