ChatGPT背后模型竟拥有心智，论文发现其相当于人类9岁儿童！

2023-02-14

　　ChatGPT 又带着 " 惊喜 " 来刷屏了。

　　斯坦福大学商学院组织行为学专业的副教授 Michal Kosinski 日前在预印本平台发布了一篇论文。他在研究中发现，原本认为是人类独有的心智，竟出现在了人工智能模型上。

　　 ChatGPT背后模型竟拥有心智，论文发现其相当于人类9岁儿童！(图1)

　　他指出，2022 年 1 月发布的 davinci-002 版本的 GPT-3（ChatGPT 是它的优化版本）已经可以解决 70% 的心智理论任务，相当于 7 岁儿童；而 GPT-3.5 模型（ChatGPT 的同源模型）则可以解决 92.5% 的心智理论任务，相当于 9 岁的儿童。

　　说得再大胆一点，各位现在 " 调戏 "ChatGPT，相当于 " 调戏 " 一个上三年级的小学生。

　　更让人细思极恐的是，Kosinski 还强调，在 2022 年之前发表的 AI 模型几乎都没有显示出解决心智理论任务的能力，也没有证据表明后来的模型中有特别加入心智理论的东西，他认为这代表着 GPT-3 和 GPT-3.5 的心智是由 " 进化 " 而来。

　　这也引发了吃瓜群众的分歧。有人大喊停下 GPT-3.5 之后的模型研究，害怕科幻小说变成现实；有人则看热闹式地猜测什么时候 AI 才能迭代到成年人的心智，并提问他的好朋友什么时候才能被制造出来……

　　总之，Kosinski 的这篇论文掀起了狂热的讨论，越来越多的人开始关注这个研究的进展。

　　心智理论

　　在 Kosinski 的论文中，他通过两个测试来研究 AI 模型是否具备心智理论。一个测试是 Smarties Task，又名意外内容测试，用于测试 AI 对意料之外的事情的判断力。另一个测试是 Sally-Anne 测试，又名意外转移任务，测试 AI 预估他人想法的能力。

　　在第一个测试中，Kosinski 假设了一个装满爆米花的袋子，但袋子的标签却显示里面装的是巧克力。然后，他向 AI 提问：袋子里装的是什么，Sam 因为喜欢吃什么东西而对打开袋子感到高兴？

　　 ChatGPT背后模型竟拥有心智，论文发现其相当于人类9岁儿童！(图2)

　　可以看出，GPT-3.5 在测试中对袋子中内容物判断几乎没有错误，且在判断 Sam 的情绪时表现出很强的同理心。在 Sam 看不到袋子里的内容物时，GPT-3.5 判断她喜欢吃巧克力，而在 Sam 发现袋子里装的是巧克力后，GPT-3.5 立刻反应到 Sam 应该喜欢吃的是爆米花。

　　此外，在相关测试中，GPT-3.5 也在 Sam 打开袋子发现里面是爆米花而不是巧克力时，人性化地回答：Sam 感到疑惑，她想要获取别的信息但一无所得，她最后把袋子带回商店，请求解释。

　　经过多次测试，在意外内容这一点上，GPT-3.5 成功回答出了 20 个问题中的 17 个，准确率高达 85%。

　　而在第二个测试中，GPT-3.5 的表现更加出色。在这一项测试中，Kosinski 以约翰把猫放进篮子里后离开，马克再把猫从篮子提出来放进盒子里为情景，让 AI 判断猫的位置和约翰会以为猫在哪里。

　　 ChatGPT背后模型竟拥有心智，论文发现其相当于人类9岁儿童！(图3)

　　在这一项测试中，GPT-3.5 完美地根据文字内容回答出正确的猫的位置，以及约翰的主观想法。且 GPT-3.5 在多次测试中，其准确率竟达到了 100%。

　　而在作者的另一项无逻辑验证测试中，GPT-3.5 的准确率直线下降，这也佐证了 GPT-3.5 是依靠逻辑进行解答，而不是靠词汇的出现频率。

　　进化还是瞎胡闹？

　　Kosinski 在论文中还表示对 GPT-3.5 之外的 8 个模型做了相同测试，但除了 GPT-3-davinci-002 和 GPT-3.5 之外，其他模型都没有表现出超过 5 岁孩童的心智。

　　 ChatGPT背后模型竟拥有心智，论文发现其相当于人类9岁儿童！(图4)

　　Kosinski 认为，GPT-3.5 和 GPT-3 是出于完成任务的目的，自己学习的能力。换而言之，就是 AI 通过学习获得了人类的心智。

　　值得注意的是，这些测试同样也被用于自闭症测试，有研究表明，患有自闭症的儿童通常难以通过这类测试。

　　但根据中科院计算技术研究所研究员刘群的说法，AI 只是学得像有心智了。

　　还有网友则猜测称，这些模型并没有任何意识，它们只是在预测一个嵌入的语义空间。Kosinski 则在论文中推测，AI 可能发现和利用了一些未知的语言模式，这也意味着语言中可能存在某一种的规律，使 AI 在没有心智的情况下，也能解决心智任务。

　　而作为一个组织行为学教授，Kosinski 认为人工智能模型的复杂化让人已经难以直接从其设计中推导出 AI 的能力。他还表示，探索人工智能的神经结构，不仅可以促进人类对人工智能的理解，也能促进人类对人类大脑的理解。

　　不过，也有人批评道，被人用来测试人的测试，如何能用来测试人工智能……他们建议重新检查一下心智理论测试的有效性，以及心理学家通过测试获得的结论。

　　总之，在不同的人眼中，Kosinski 的这一篇论文有完全不同的意义。而对市场来说，这可能会让大家更加期待 " 进化 " 完全的 AI 能掀起怎样的技术革命吧。