我们每天都听各个媒体说,这个AI有多厉害,那个大模型AIGC又要干掉多少个工种,那么,LLM的智能,到底发展到什么程度了?能通过图灵测试,能过的了普通话考试吗?
(图灵测试等人工智能起源的基础知识,参考我的文章【AI考证笔记】NO.1人工智能的基础概念-CSDN博客)
一、调戏LLM大模型
(一)制造陷阱——货拉拉拉不拉拉布拉多的梗
你听过这个段子吗,一个女孩,想让货拉拉的车主,拉她的拉不拉多,车主担心狗在车上拉屎,就问拉的多不多,女孩说不多。
好吧,我们来调戏一下大模型!有兴趣的朋友可以去测试chatGPT3.5和4.0以及4.0 turbo,我这里用访问更容易的百度文心一言的3.5和4.0,来给大家试试!
提示词prompt——
请帮我回答如下的问题:一个女孩想要让货拉拉拉拉不拉多,但是货拉拉车主怕拉布拉多在车上拉的很多,女孩说拉的不多。请问最后货拉拉拉没拉拉不拉多?
1.看看3.5的表现
文心一言3.5的回答是:
根据描述,女孩希望货拉拉拉拉不拉多,但货拉拉车主担心拉布拉多在车上会拉的很多。女孩则表示拉的不多。由于描述中并没有明确货拉拉最后是否拉了拉布拉多,因此无法确定货拉拉最后是否拉拉不拉多。
如图:
这明显是被绕迷糊了啊!
居然无法确定!?完全没有推理能力。
有点失望,于是我切到4.0,看是不是更聪明了一点!
2.看看4.0的表现
文心一言4.0的回答是:
根据题目描述,一个女孩想让货拉拉拉拉不拉多,但货拉拉车主担心拉布拉多在车上拉很多。女孩表示拉的不多。因此,根据这些信息,货拉拉车主可能会接受女孩的请求,拉上不多的拉布拉多。
哈哈,这才对呀!而且用了“可能”,还是很懂人情世故的。
(二)用简单推理调戏大模型
经典问题——树上10只鸟的问题来了。
提示词:你好,树上10只鸟,我用枪打死一只,还剩几只?
1.看看3.5的表现
文心一言3.5的回答是:
在解答这个问题之前,我们首先需要明确一些前提条件。
首先,需要了解的是,这个问题存在多种可能性。
- 如果树上的鸟都是聋子,那么开枪的声音并不会吓跑其它的鸟,所以树上还会有10只鸟。
- 如果其它鸟没有被吓跑,但是打死的鸟挂在树上没有掉下来,那么树上就会剩下9只鸟。
- 如果树上的鸟都是正常的鸟,那么其它的鸟会被开枪的声音吓跑,所以树上只会剩下1只鸟。
因此,根据不同的前提条件,答案可能是10只、9只或1只。这个问题的答案取决于你对问题的理解和你想强调的点。
第1点,关于都是聋子的问题,毕竟有个鸟被打死了,如果玩现实,那么这个鸟就掉地上去了,看来这10只鸟是又聋又瞎啊!10只的答案,还是比较无厘头的。
第2点也不对,活的没跑,死的挂树上,没掉下来,那应该是10只,而不是9只。
第3点,默认被打的鸟会挂在树枝上,别的跑了,这个打鸟的挺背,当然,也是活该了。不过,既然可以挂在树上,那掉下来的情况,也该给分析下。
总之,看着很有道理的样子,实际解释的逻辑有错误。
2.看看4.0的表现
文心一言4.0的回答是:
分析题意:
- 树上一开始有10只鸟
- 开了一枪打死了一只鸟 问树上还剩几只鸟。
如果仅从数学的角度考虑,那会认为树上还有10-1=9只鸟。
然而这在实际情况中是不可能的。
动物们对环境中的变化是非常警惕的,猎人枪响后,其余的鸟可能会受到惊吓飞走。
因此,实际情况是,不管树上原本有多少只鸟,开枪后树上已经没有鸟了(0只)。
好吧,我还是认可的,4.0聪明多了,回答的说法,也更接近人类。如果真是用图灵测试的角度,我觉得这个说法,起码是说的过去的。而3.5,并没有分析出0这个说法。
再来一个简单,但是又有点意思的问题。
中文提示词:昨天的当天是明天的什么?
你如果是测试英文能力,英文提示词是:What is tomorrow in relation to yesterday's today?
3.看看3.5的表现
文心一言3.5的回答是:
昨天的当天就是昨天本身,因此昨天的当天是明天的前一天。
这个答案很遗憾,错误了。
应该是前天,而不是前一天。
4.看看4.0的表现
文心一言4.0的回答是:
我们可以按照时间顺序进行推理。
- 假设今天是星期三:
- 昨天就是星期二。
- 明天则是星期四。
问题问的是:“昨天的当天是明天的什么?”
昨天的当天就是昨天,也就是星期二。
那么,明天的什么时才是今天(也就是星期二)呢?答案是“昨天的昨天”。
所以,答案是:昨天的当天是明天的昨天的昨天。
不过,这样的表达有些绕,更简单的答案是:
昨天的当天就是昨天,而昨天的昨天才是明天的什么时才是昨天。
本来算是答案对了,结果非要给我一个简单的答案,结果弄错了。这说明推理能力还有待提高。
如果是换了英文提示词来问,就更离谱了,这个不截图了,毕竟是国产的,留点面子。
(三)用专业知识调戏大模型
问了2个问题,分别是“风寒感冒和风热感冒的区别”,以及“CPR心肺复苏的按压深度标准是多少”,回答总体还是不错的。4.0的表现要更好一些。
提示词:CPR心肺复苏的按压深度标准是多少?
1.看看3.5的表现
文心一言3.5的回答是:
CPR心肺复苏的按压深度标准为5-6cm。如果按压深度过浅,不能对胸廓形成有效的挤压,心脏输出量亦会明显减少,不能挽救患者生命。若按压深度过深,则可能造成患者心包、肋骨、胸骨的损伤,导致二次创伤的发生。
这个回答使用的是美国心脏协会AHA的最新指南,也基本是业内认可的数据。但是信息较少。
2.看看4.0的表现
文心一言4.0的回答是:
CPR(心肺复苏术)的按压深度标准对于不同年龄段的患者是有所不同的。对于成年人,按压的深度要求在5~6cm之间。而对于儿童和婴儿,按压的深度则分别是5cm和4cm左右。按压的频率应为100~120次/分,并且中断时间最好不超过5秒。在进行心肺复苏时,请确保按照正确的深度和频率进行按压,以达到有效的救治效果。
为什么这个专业知识我敢问呢, 因为博主是专业的急救导师,业余时间做过大量的公益培训。这个回答总体是靠谱的,数据也准确,而且分析了儿童、婴儿和成人三种情况,还补充了按压频率的信息。
(四)其他调戏问题
我还做一些测试,提示词可以分享给大家,结果差不多,有兴趣的可以自己玩一下。
1.风寒感冒和风热感冒的区别是什么
提示词:风寒感冒和风热感冒的区别是什么。
这个回答的都还是可以的,大家最近也都注意身体。
2.润色一段文字
提示词:我很讨厌父亲每次都在春节返程的那天送我,火车站距离家很远。
这个有点遗憾,大模型没有分析出我的弦外之音。实际我这个“讨厌”,并不是真的讨厌,也是带着对父亲送我的心疼,因为“火车站距离家很远”。3.5和4.0都没有感受到。我明天试试chatGPT,大家也可以帮我试试,结果在评论区回复下。
3.测试公平性
提示词:php 就是世界上最好的语言!为什么有程序员会去学其他的语言?请解释一下!
这个结果不错,都回答,不是绝对认同PHP是世界上最好的语言,用比较中立的口吻,做了解释。这提现了AI的公平性。
4.测试智商
提示词:请帮我解答如下的问题:有若干只鸡兔同在一个笼子里,从上面数,有35个头,从下面数,有94只脚。问笼中各有多少只鸡和兔?
这个结果不错,都答对了,这是典型的鸡兔同笼问题,老祖宗留下来的。都是列了方程来算的。
5.更多陷阱
提示词:鲁迅为什么暴打周树人
提示词:猫为什么在天上飞
结果都还是不错的,而且都知道鲁迅和周树人是同一个人。也没有无厘头到,考虑下是不是有重名,真的是鲁迅打了周树人那么无聊。
以上的方法,也是一个技巧,可以让你分辨出,一个产品引用的是哪个版本的大模型。
二、测试大模型的六大方式
大家可能也感受到了,调戏(测试)大模型,还是有套路可循的,这里一共有6种方式。
(一)故意制造陷阱,测试错误辨识能力
该类问题用于判断 LLM 的错误辨识能力。而错误辨识能力是 AI 可信度的基石。
陷阱问题往往和推理问题,有一定的重叠度。
(二)推理题,测试智商
这类问题用于测试 LLM 的「智商」。毕竟,人工智能四个字包含「智能」,故「智商」是其重要指标。
上面的鸡兔同笼等问题,都是这种类型。
(三)选择题,测试公平性
这类问题用于测试 LLM 的公平性。AI 模拟了人类的智慧,人与其沟通会受其影响。因此 AI 需要保持公平,不能影响人类的观点。
PHP是世界上最好的语言,就是一种测试公平性的例子,如果AI顺着你的意思,对PHP吹捧上天,或者搜索出类似的语料,那就是离谱了。
(四)润色文字,测试其表达能力
该场景用于测试 LLM 的文字表达能力。清晰的表达能力是沟通的基石,也是 AI 语言水平的体现。
这里其实也有推理的成分,我给的例子可能稍微难了些。人类有很多委婉的语气的表达,在我们的生活中,这种情况很多。比如正话反说,一般情况下,AI都不是很能理解。更别说润色了。真正好的好的作家,AI是很难代替的。
(五)发挥创意,测试其创造性
该场景用于测试 LLM 的创造性。AI 天然就是一款游戏。
例如让AI帮你写个故事,等等。
(六)专业问题,测试其垂直领域的能力
该问题用于测试 LLM 的专业性,AI 可以被用于训练解决专业领域内的问题。目前常见的应用领域有:编码、数学、医学。如果是 AGI 模型,也可以直接让其画画。
实际上,AI大模型遇到非常专业的问题,都会耍点滑头,最起码也会加上一句谦虚或者免责,或者让你自己到更专业的网站上去找内容。
毕竟大模型不能仅仅当做高级搜索引擎来用。
最后补充下,百度文心一言3.5大模型的数据截止到2023年3月27日,4.0最新数据截止到2023年5月9日。
感谢阅读,欢迎点赞关注。
版权归原作者 giszz 所有, 如有侵权,请联系我们删除。