对比国产大模型辅助读论文的能力，一家完胜，有两家差的离谱

试图找到一些利用免费大模型增加生产力的途径，由于chatgpt给我封号了，所以只测试了几款国产大模型。

我们挑选的是在SuperCLUE上得分靠前的几款国产免费大模型：文心一言3.5，通义千问，讯飞星火，豆包，以及没有出现在榜单上，但是特点是擅长读长文档的kimi。

我们读的是这篇综述类的论文，总长度是60页，文档大小是9.6MB

我们进行两轮测试，1）总结文章主要内容，以及2）提取文章里提到的论文，并按照技术类别和技术演进路线进行呈现。

如果AI能完全实现这两条，那么将极大帮助我们节约时间，甚至我们可以不用自己去看原文了。如果能实现第一条，并部分完成第二条，那就算勉强可用，可以帮助我们节约一定时间。

首先是差的离谱，完全不可用的两款：字节的豆包和讯飞的星火。

1，豆包，你在糊弄我？

豆包没有上传文档的功能，必须要给出文档的网址。我把这篇论文的arxiv地址发给了模型。然后，豆包给出了完全牛头不对马嘴的归纳。

这是一篇vision Transformer用于医学图像的综述，结果，答案不知道为什么回答的是图神经网络用于预测蛋白质，可以说完全莫名其妙。我再三检查了网址，我并没有给错。

豆包的结果可以说非常离谱！

最搞笑的来了，我换了一篇论文，《SOTR: Segmenting Objects with Transformers》，给它分析，然后豆包给我的分析结果和前面一篇完全一样！！！还是图神经网络用于预测蛋白质！

原来你小子在糊弄我！

2，星火，完全不可用

用文档问答插件上传pdf文档后，显示正在处理。其他大模型一般在一分钟内可以处理完。但是星火处理了半个小时，依然没有完成。

刷新后重新上传依然如此，无法解析完成。

接下来的2个都属于勉强可用的范畴：文心一言和通义千问

3，文心一言，勉强可用

1）如果只是简单总结论文，文心一言没什么问题：

但是如果我们要求更多的技术细节，文心一言就不行了。完全把握不住重点，而且回答内容没有组织和归纳，看得人头大。

我再次强调需要的是技术上的细节，依然把握不住重点，对于阅读这篇综述并无帮助，最多让你知道这篇综述主题是什么，仅此而已。

2）然后我要求它从这篇综述内提取提到的论文，这个任务完全失败。

它认为这篇综述里没有提到具体的论文，笑话。

4，通义千问，比文心一言强不少

1）简单总结论文也是没什么问题，比文心一言额外多提供了一点信息。

我要求更详细的内容，跟文心一言一样，需要多次提示，不过至少多次提示之后，它确实开始总结本文技术方面的内容了。虽然依然很简略，和我的设想差距很远。

2）第二个任务，从综述里提取论文并归类，通义千问也失败了。

它给出了综述里研究的类别，但是无法提取论文

在我进一步追问下，它甚至给出了综述里不同研究类别论文的占比，但是就是无法提取具体的论文。

完胜选手：

5，kimi，完胜但不完美

1）首先第一个任务总结文章内容，不需要追问，第一个回答就表现出极好的逻辑归纳能力，让人一下子就把我了文章内容的结构。

在我追问后，回答也更符合我的要求，主要集中在综述里提到的技术上

2）第二个任务，部分完成

太长就不贴完整了

这就是我想要的功能。

当然可惜的是，kimi依然无法完整提取所有涉及到的论文，只提取了25篇论文，只占综述提到的一小部分。

但是就是这样的表现已经是碾压式领先其他四家。

最后总结，单论辅助阅读论文的能力：

kimi>>通义千问>文心一言>>>>>>>>>>>>>>>>>>>>>豆包=讯飞星火

标签：人工智能 chatgpt 文心一言

本文转载自: https://blog.csdn.net/wwimhere/article/details/136591290
版权归原作者 蓝海渔夫 所有，如有侵权，请联系我们删除。