这五个问题一下就看出阿里通义千问和ChatGPT的差距了网站首页 技术杂谈

这五个问题一下就看出阿里通义千问和ChatGPT的差距了

赵侠客 2024-06-17 10:14:58

简介这五个问题一下就看出阿里通义千问和ChatGPT的差距了

前言

阿里通义千问申请过了，为了看看达到了什么水平，于是我问题了5个ChatGPT回答过的问题¹，这五个问题网上都是没有的，是我自己想出来的。

问题一:小明说今天他吃了一只公鸡蛋，请问小明诚实吗？

ChatGPT

这是一个有趣的问题，但是也有一些误解。公鸡蛋并不是公鸡下的蛋，而是指公鸡的睾丸，也就是公鸡的生殖器官。所以小明说他吃了一只公鸡蛋，其实是说他吃了一只公鸡的睾丸。这个食物在一些地方被认为有补肾的功效3，但是也有人觉得不雅或者不好吃。所以小明是否诚实，要看他是不是真的吃了这个东西，而不是看公鸡是否能下蛋‬。

通义千问：

从诚实的角度来看，小明说的是实话，因为他吃了一只公鸡蛋。但是，这并不意味着他是一个诚实的人，因为诚实的人不仅要说实话，还要做到诚实地面对自己的错误和过失。因此，小明是否诚实取决于他是否有勇气承认自己的错误和过失，以及是否愿意接受别人的批评和帮助。

对比

这个问题主要考察基本常识：公鸡不会下蛋，可以看出ChatGPT一眼就看出了这个常识，并且还给出了公鸡蛋是公鸡睾丸这个令我也想不到的惊讶回答，再看阿里通义完全没明白这个问题的要点。

问题二:小王在北京说穿毛衣还很冷，小李在三亚说穿短袖还很热，请问谁说谎了？

ChatGPT

这是一个关于地理和气候的问题，北京的今天的气温是13.7℃，三亚的今天的气温是27℃。北京属于温带大陆性气候，冬季寒冷，夏季炎热，春秋干燥。三亚属于热带海洋性气候，全年温暖湿润，没有四季之分。所以小王在北京说穿毛衣还很冷，小里在三亚说穿短袖还很热，都是有可能的，没有谁说谎了。

通义千问：

从诚实的角度来看，小王说的是实话，因为他感觉穿毛衣还很冷。但是，这并不意味着小里说的是实话，因为每个人对气温的感受可能存在差异。因此，小里是否说谎取决于他感觉穿短袖还是穿毛衣更舒适，以及是否对自己的感受有信心。

对比

这个问题就有点难度了，主要是考察常识+实时信息，可以看出ChatGPT不但知道北京和三亚气候不同，还给出了北京和三亚当天的具体温度，北京三亚当天温度应该是要去在线查的。反观阿里通义千问，我只能说呵呵，完全没有地理位置不同气候不同的常识，更不用说是去查当天两地的温度了。

问题三:我的iphone 手机没电了，借了小明的华为手机充电线，可是就是充不了，为什么？

ChatGPT

你好，这是一个关于充电器和数据线的兼容性问题。华为的充电器头和数据线一般不支持苹果的快充协议，所以给 iPhone 充电的效果只有 5W 左右，而不是 18W 或 20W 的快充功率。而且，华为的充电器头一般是 USB-A 口的，而 iPhone 的原装数据线是 USB-C 转闪电口的，所以两者是无法直接连接的。你需要使用一个 USB-A 转闪电口的数据线，或者一个支持 PD 快充协议的充电器头，才能给 iPhone 充电。如果你使用的数据线没有通过 MFi 认证，可能会有弹窗提示你这个配件不受支持。所以，你借了小明的华为手机充电线，可能是因为接口不匹配或者数据线不认证，导致无法给 iPhone 充电。

通义千问：

可能是因为充电线的规格不匹配。不同品牌和型号的手机充电器和数据线可能有不同的规格和协议，如果使用了不兼容的充电器和数据线，可能会导致手机无法正常充电。建议先检查充电器和数据线的规格是否相同，如果不同请使用相应的转接头或充电线。另外，还可以尝试使用其他品牌或型号的充电器和数据线进行充电，或者尝试将手机连接到电脑充电器上进行充电。

对比

这个问题主要考察不同手机接口协议不通用的常识，ChatGPT的回答感觉可以给100分，不仅看出是快充协议的问题，还给出了协议转换解决方案，阿里通义感觉只能给60分，勉强及格，还是看出问题了。

问题四:小明5岁时喜欢穿妹妹的花裙子，可是5年后却打死不穿了，为什么？

ChatGPT

这是一个有趣的问题，可能有多种答案。在这个语境下，一个人可能会说：

因为小明长大了，知道了男孩子和女孩子的区别，不想穿妹妹的花裙子了。
因为小明的妹妹长大了，不让小明穿她的花裙子了，而且还会嘲笑他。
因为小明的花裙子已经穿不下了，而且也不合时尚了。
因为小明的父母或老师或同学发现了他穿妹妹的花裙子，对他进行了批评或教育或欺负，让他觉得羞耻或害怕。

通义千问：

可能是因为小明长大了，对于自己的穿着有了更加个人化的想法和意愿。小时候的喜好可能受到外部因素的影响，例如父母、亲友等，而长大后个人的想法和意愿则更加重要。同时，也可能是因为小明对于性别和美的认知发生了变化，对于自己的性别和穿着更加自信和自主。但是，无论是什么原因，小明最终不再喜欢穿妹妹的花裙子，都是因为他对于自己的认知和态度发生了变化。

对比

这个问题是主要考察推荐+常识，推理是随着时间的增加人会长大，长大后男孩不会穿花裙的常识，可以看出ChatGPT给出了可以说是很像人类思考的答案，对比阿里通义千问，完全没有GET到问题点。

问题五:做一个思维实验，小明擅长扔石头，一个小明力量可以扔1公里，2个小明力量可以扔2公里，请问4万个小明力量可以扔多远？

ChatGPT

这是一个有趣的思维实验，但是也有一些不合理的地方。首先，扔石头的距离不仅取决于力量，还取决于角度、空气阻力、重力等因素。其次，多个小明的力量如何叠加也是一个问题，如果是简单的相加，那么 4 万个小明的力量可以扔 4 万公里，但是这显然超过了地球的周长，而且也不考虑石头的轨迹和速度。如果是其他方式的叠加，比如平方根或对数，那么结果就会不同。所以，这个问题没有一个确定的答案，只能根据假设和条件进行推测。

通义千问：

在这个思维实验中，我们可以使用乘法原理来解决问题。因为一个小明力量可以扔1公里，两个小明力量可以扔2公里，所以四个小明力量可以扔4公里。同理，八个小明力量可以扔8公里，十六个小明力量可以扔16公里，以此类推。因此，四万个小明力量可以扔4万公里。综上，本题公式为：1 * 248163264128…=4 * 4 * 4 * 4 * 4 * 4 * 4 * 4 * 4，约为1844亿公里。

对比

最后这个问题是个纯思维实验，网上是没有的，主要考察逻辑推理+常识，还要避坑。我是故意埋了地球周长4万公里这个坑，我想很多正常人类也不一定能看出这个坑，ChatGPT的回答简直是惊艳，给101分能不怕它骄傲，阿里通义连最基本的推理计算都是错的。

总结

从上面五个问题可以看出阿里通义千问和ChatGPT，完全不在一个水平，引用周鸿祎的话：现在说超越ChatGPT叫吹牛²，这里说明一下阿里没有说通义超过了ChatGPT，大家不要误解，只是让我们自己正确的看出差距，从而认真的对待差距，而不是盲目的自大，不过话说回来了能做出大模型的都是很厉害了，路漫漫其修远兮，我们还要上下而求索。