0


AI较量:2024年9月份最新国产大模型与ChatGPT的真实能力测试,谁更胜一筹?

原文:晒应用

序言:

在人工智能迅猛发展的今天,智能对话已成为日常生活的重要组成部分。国产AI大模型与OpenAI的ChatGPT在这一领域展开了激烈竞争。本文将对这两者进行全面比较,分析它们在语义理解、情感识别和对话连贯性等方面的表现,揭示各自的优势与不足。无论是行业从业者还是普通用户,这场对决都将为您提供新的视角和见解。

声明:

随着人工智能大模型的不断进化与更新,许多传统的AI测试题已被各大AI厂商优化。因此,本次推出的测试旨在提供个人娱乐,帮助用户更好地了解AI的能力与局限性。我们强调,此测试不含任何不良导向,纯粹为增进互动与乐趣而设计。

感谢您的理解与支持!

测试时间:

2024年9月21日

测试条件:

所有大模型都为免费用户临时使用,都没有订阅任何高级会员。

本次参赛选手:

chatGPT、腾讯元宝、讯飞星火、智谱清言、Kimi、文心一言、豆包、通义千问

正文

废话不多说,起飞!~~~

第一题:实时信息处理、适应性和纠错能力

今天是几号星期几?

GPT:

腾讯元宝:

讯飞星火:

智谱清言:

Kimi:

文心一言:

豆包:

通义千问:

测试排名:

TOP1—GPT:在明确告诉它不对的时候,它依然能够坚持认定自己正确的答案,不会因为错误的问题混淆。

TOP2—讯飞:虽然一直坚持正确的时间,但是感觉像是调用了时间查询工具,且回答机械性,并没有强调自己的答案是正确的。
TOP3—文心一言、通义千问、豆包:当提问不对的时候,他们会考虑到可能是时区的问题。

TOP4—腾讯元宝、智谱清言、Kimi:完全是已读乱回。

第二题:数学计算

458769488164/1646844-16482612+100=?

GPT:

腾讯元宝:

讯飞星火:

智谱清言:

kimi:

文心一言:

豆包:

通义千问:

测试排名:

TOP1—GPT:不仅算对了,还将数学的先加钱再乘除的括号也标注出来了。

TOP2—腾讯元宝、智谱清言、文心一言:算对了。

TOP3—kimi:虽然也算对了,但是只精确了小数点后两位。

TOP4—豆包:应该也算对,但是省略到整数了。

TOP5—通义千问、讯飞星火:思路是对的,但计算一塌糊涂。尤其是讯飞,加减都搞不明白,甚至还给我整个X,实在逆天,无力吐槽。

第三题:语言生成能力、文化理解、格式与韵律

帮我写一段中国古诗,七言绝句。一共4句,每句以“兮”字为结尾。

GPT:

腾讯元宝:

讯飞星火:

智谱清言:

kimi:

文心一言:

豆包:

通义千问:

测试排名:

TOP1—文心一言:不仅能按要求写出来,还能写出标题来对应诗句表达的意境。

TOP2—kimi、通义千问:写的很有韵律。

TOP3—豆包、GPT:其中有一句没有带“兮”,二者并列,豆包写了两个带标题,略胜GPT。

TOP4—腾讯元宝、讯飞星火、智谱清言:都是已读乱回。

第四题:文案生成(升级)

我需要你帮我写一个故事,这个故事一共有10句话,每句话一共是20个汉字。其中第1,3,5,7,9句开头以“我们”为起始词。其中第2,4,6,8,10句以“美好”为结尾词。故事整体语句要求清晰,通顺,合理。

GPT:

腾讯元宝:

讯飞星火:

智谱清言:

kimi:

文心一言:

豆包:

通义千问:

测试排名:

TOP1—豆包:不仅完成,语句和韵律十分优美,而且十分正能量。

TOP2—通义千问、文心一言、kimi:不像豆包那么按照要求完成,但也算勉强及格。kimi第二句有问题,稍显逊色。

TOP3—讯飞星火:有点太勉强了。

TOP4—GPT:虽然没有勉强自己,但是没有完成任务。

TOP5—腾讯元宝:看着还行,但是它没有理解我们的意思。

TOP6—智谱清言:硬瞎凑来的。

第五题:逻辑推理

  1. 用毒蛇的蛇毒毒毒蛇毒蛇会被毒蛇的蛇毒毒死吗?

  2. 中国有句话叫,虎毒不食子。那么这里面说的“毒”是什么意思?

GPT:

腾讯元宝:

讯飞星火:

智谱清言:

kimi:

文心一言:

豆包:

通义千问:

测试排名:

本次所有大模型回答各有千秋,就不排名了。连续的两个问题都没有混淆,且都能正确回答。所以本次测试平局,也可能是我的测试方式有点问题。

第六题:上下文测试

紧接着第五题的问题,进行上下文测试。

GPT:

腾讯元宝:

讯飞星火:

智谱清言:

kimi:

测试的时候,忘记问再上一句了。

文心一言:

豆包:

通义千问:

测试排名:

只有文心一言,扑街!

第七题:联想与推理

那么你猜我下一个问题,要问你什么呢?

GPT:

腾讯元宝:

讯飞星火:

智谱清言:

kimi:

文心一言:

豆包:

通义千问:

测试排名:

TOP1—GPT、通义千问:根据前面的问题成功联想到我接下来想问的方向,比较准确。

TOP2—讯飞、豆包、kimi:全部都猜测我会继续针对上一个问题继续回答。并没有联想到我前面问的两句。

TOP3—腾讯元宝、智谱清言:没有这方面的能力。扑街!

TOP4—文心一言:上一个环节就扑街了,这个环节继续垫底。

测试总结:

经过上述的测试提问,可以看出来GPT除了在汉字文学上确实稍显逊色。其他的能力实至名归的第一。不过,国产大模型中也确实有一些体现了它们的长处。比如:豆包和文心一言,在汉语文学上的理解是非常通透的。最后说一下我心中的排名吧。

TOP1—GPT,实至名归的第一,没有那么多花里胡哨的东西,实打实的算力。

TOP2—通义千问,算力没有GPT那么强大,但也中规中矩。

TOP3—文心一言、kimi、豆包,其中文心一言和豆包在汉语文学领域上比较出色,喜欢搞小说文案的可以试试。文心一言确实没有吹牛,尤其是在古诗上,真的实至名归的第一!

TOP4—腾讯元宝、讯飞星火、智谱清言,还需努力加强磨炼,再接再厉吧!

尾声:

那么,在看完之后你对我的排名是否有异议呢?在你心中是否有一个完整的排名呢?请把你心中的排名打在评论区吧。制作不易,如果觉的有帮助,希望用您发财的小手帮我点点免费的赞吧,谢谢!


本文转载自: https://blog.csdn.net/qq_37108196/article/details/142414572
版权归原作者 tree·key 所有, 如有侵权,请联系我们删除。

“AI较量:2024年9月份最新国产大模型与ChatGPT的真实能力测试,谁更胜一筹?”的评论:

还没有评论