overfit同步小助手

2024-10-21 04:01:25

AI较量：2024年9月份最新国产大模型与ChatGPT的真实能力测试，谁更胜一筹？

原文：晒应用

序言：

在人工智能迅猛发展的今天，智能对话已成为日常生活的重要组成部分。国产AI大模型与OpenAI的ChatGPT在这一领域展开了激烈竞争。本文将对这两者进行全面比较，分析它们在语义理解、情感识别和对话连贯性等方面的表现，揭示各自的优势与不足。无论是行业从业者还是普通用户，这场对决都将为您提供新的视角和见解。

声明：

随着人工智能大模型的不断进化与更新，许多传统的AI测试题已被各大AI厂商优化。因此，本次推出的测试旨在提供个人娱乐，帮助用户更好地了解AI的能力与局限性。我们强调，此测试不含任何不良导向，纯粹为增进互动与乐趣而设计。

感谢您的理解与支持！

测试时间：

2024年9月21日

测试条件：

所有大模型都为免费用户临时使用，都没有订阅任何高级会员。

本次参赛选手：

chatGPT、腾讯元宝、讯飞星火、智谱清言、Kimi、文心一言、豆包、通义千问

正文

废话不多说，起飞！~~~

第一题：实时信息处理、适应性和纠错能力

今天是几号星期几？

GPT：

腾讯元宝：

讯飞星火：

智谱清言：

Kimi：

文心一言：

豆包：

通义千问：

测试排名：

TOP1—GPT：在明确告诉它不对的时候，它依然能够坚持认定自己正确的答案，不会因为错误的问题混淆。

TOP2—讯飞：虽然一直坚持正确的时间，但是感觉像是调用了时间查询工具，且回答机械性，并没有强调自己的答案是正确的。
TOP3—文心一言、通义千问、豆包：当提问不对的时候，他们会考虑到可能是时区的问题。

TOP4—腾讯元宝、智谱清言、Kimi：完全是已读乱回。

第二题：数学计算

458769488164/1646844-16482612+100=？

GPT：

腾讯元宝：

讯飞星火：

智谱清言：

kimi：

文心一言：

豆包：

通义千问：

测试排名：

TOP1—GPT：不仅算对了，还将数学的先加钱再乘除的括号也标注出来了。

TOP2—腾讯元宝、智谱清言、文心一言：算对了。

TOP3—kimi：虽然也算对了，但是只精确了小数点后两位。

TOP4—豆包：应该也算对，但是省略到整数了。

TOP5—通义千问、讯飞星火：思路是对的，但计算一塌糊涂。尤其是讯飞，加减都搞不明白，甚至还给我整个X，实在逆天，无力吐槽。

第三题：语言生成能力、文化理解、格式与韵律

帮我写一段中国古诗，七言绝句。一共4句，每句以“兮”字为结尾。

GPT：

腾讯元宝：

讯飞星火：

智谱清言：

kimi：

文心一言：

豆包：

通义千问：

测试排名：

TOP1—文心一言：不仅能按要求写出来，还能写出标题来对应诗句表达的意境。

TOP2—kimi、通义千问：写的很有韵律。

TOP3—豆包、GPT：其中有一句没有带“兮”，二者并列，豆包写了两个带标题，略胜GPT。

TOP4—腾讯元宝、讯飞星火、智谱清言：都是已读乱回。

第四题：文案生成（升级）

我需要你帮我写一个故事，这个故事一共有10句话，每句话一共是20个汉字。其中第1,3,5,7,9句开头以“我们”为起始词。其中第2,4,6,8,10句以“美好”为结尾词。故事整体语句要求清晰，通顺，合理。

GPT：

腾讯元宝：

讯飞星火：

智谱清言：

kimi：

文心一言：

豆包：

通义千问：

测试排名：

TOP1—豆包：不仅完成，语句和韵律十分优美，而且十分正能量。

TOP2—通义千问、文心一言、kimi：不像豆包那么按照要求完成，但也算勉强及格。kimi第二句有问题，稍显逊色。

TOP3—讯飞星火：有点太勉强了。

TOP4—GPT：虽然没有勉强自己，但是没有完成任务。

TOP5—腾讯元宝：看着还行，但是它没有理解我们的意思。

TOP6—智谱清言：硬瞎凑来的。

第五题：逻辑推理

用毒蛇的蛇毒毒毒蛇毒蛇会被毒蛇的蛇毒毒死吗？
中国有句话叫，虎毒不食子。那么这里面说的“毒”是什么意思？

GPT：

腾讯元宝：

讯飞星火：

智谱清言：

kimi：

文心一言：

豆包：

通义千问：

测试排名：

本次所有大模型回答各有千秋，就不排名了。连续的两个问题都没有混淆，且都能正确回答。所以本次测试平局，也可能是我的测试方式有点问题。

第六题：上下文测试

紧接着第五题的问题，进行上下文测试。

GPT：

腾讯元宝：

讯飞星火：

智谱清言：

kimi：

测试的时候，忘记问再上一句了。

文心一言：

豆包：

通义千问：

测试排名：

只有文心一言，扑街！

第七题：联想与推理

那么你猜我下一个问题，要问你什么呢？

GPT：

腾讯元宝：

讯飞星火：

智谱清言：

kimi：

文心一言：

豆包：

通义千问：

测试排名：

TOP1—GPT、通义千问：根据前面的问题成功联想到我接下来想问的方向，比较准确。

TOP2—讯飞、豆包、kimi：全部都猜测我会继续针对上一个问题继续回答。并没有联想到我前面问的两句。

TOP3—腾讯元宝、智谱清言：没有这方面的能力。扑街！

TOP4—文心一言：上一个环节就扑街了，这个环节继续垫底。

测试总结：

经过上述的测试提问，可以看出来GPT除了在汉字文学上确实稍显逊色。其他的能力实至名归的第一。不过，国产大模型中也确实有一些体现了它们的长处。比如：豆包和文心一言，在汉语文学上的理解是非常通透的。最后说一下我心中的排名吧。

TOP1—GPT，实至名归的第一，没有那么多花里胡哨的东西，实打实的算力。

TOP2—通义千问，算力没有GPT那么强大，但也中规中矩。

TOP3—文心一言、kimi、豆包，其中文心一言和豆包在汉语文学领域上比较出色，喜欢搞小说文案的可以试试。文心一言确实没有吹牛，尤其是在古诗上，真的实至名归的第一！

TOP4—腾讯元宝、讯飞星火、智谱清言，还需努力加强磨炼，再接再厉吧！

尾声：

那么，在看完之后你对我的排名是否有异议呢？在你心中是否有一个完整的排名呢？请把你心中的排名打在评论区吧。制作不易，如果觉的有帮助，希望用您发财的小手帮我点点免费的赞吧，谢谢！

标签：人工智能 chatgpt 语言模型

本文转载自: https://blog.csdn.net/qq_37108196/article/details/142414572
版权归原作者 tree·key 所有，如有侵权，请联系我们删除。

发表评论

登录后发布评论

“AI较量：2024年9月份最新国产大模型与ChatGPT的真实能力测试，谁更胜一筹？”的评论:

还没有评论

关于作者

overfit同步小助手

文章同步

相关阅读

网络安全法-网络运行安全

使用selenium/drissionpage时如何阻止chrome自动跳转http到https

docker desktop 里部署的Open WebUI 管理员密码忘记了的处理方法

在ubuntu20.04中搭建onsite比赛运行环境

利用开源的低代码表单设计器FcDesigner高效管理和渲染复杂表单结构

Kafka学习笔记

【前端】浏览器输入url到页面呈现发生了什么？

文章导航