ChatGPT太火,这些人却给它泼冷水
·两位人工智能界的重磅专家,甚至因为都对ChatGPT持反对态度而消解了之前的长期矛盾。
·“事实上,这只是品牌之间的一场战斗,利用人们当前对生成式人工智能的兴趣来重新划分商业版图。”
2月7日,谷歌宣布将推出ChatGPT的竞争对手巴德(Bard),但遭遇十分尴尬的错误。一张演示功能的动图显示,巴德表示,美国宇航局的詹姆斯·韦伯(James Webb)太空望远镜拍摄了太阳系外行星的第一张照片。实际上,这张照片是由欧洲南方天文台的甚大望远镜(VLT)拍摄的。谷歌表示,这凸显了对聊天机器人进行“严格测试”的必要性。
这一错误加剧了对此类ChatGPT产品的质疑。早在2016年,微软就因为聊天机器人Tay生成种族主义和性别歧视信息道歉,Tay将女权主义比作癌症,并暗示一些暴力事件没有发生过。去年,Meta公司推出了一款对话式人工智能Blend Bot,这款机器人很快和Meta首席执行官、Facebook创始人马克·扎克伯格唱起了对台戏。Blend Bot告诉记者,在得知Facebook的丑闻后,它已经删除了自己的Facebook账户,并说:“自从删除Facebook后,我的生活好多了。”
ChatGPT对某些问题的回答也错误频出,其言论甚至包含一些有害内容和歧视观点。自它去年底推出,直到今年初火爆“出圈”,不乏一些坚定的看衰者反复诉说着此类产品的问题,其中包括人工智能界的重磅专家,比如Meta首席AI科学家、图灵奖得主杨立昆(Yann LeCun),美国作家、Robust. AI公司创始人、纽约大学教授加里·马库斯(Gary Marcus),这两位专家甚至因为都对ChatGPT持反对态度而消解了之前的长期矛盾。
在全球AI学术界和科技媒体界,每天都有新的文章出炉,客观冷静地探讨ChatGPT的技术成分和社会影响,给如今似乎有些过火的ChatGPT热潮吹来一丝凉风。在科学界,真理越辩越明。
谷歌聊天机器人巴德(Bard)的错误加剧了对类ChatGPT产品的质疑。
杨立昆看衰ChatGPT被指“酸葡萄”
Yann LeCun自称中文名“杨立昆”,被誉为“卷积网络之父”,为卷积神经网络(CNN,Convolutional Neural Networks)和图像识别领域做出过重要贡献,在人工智能研究领域,杨立昆、杰弗里·辛顿(Geoffrey Hinton)和约书亚·本吉奥(Yoshua Bengio)一直被公认为深度学习三巨头。
然而,杨立昆却不看好聊天机器人,认为目前人类的水平连“猫猫狗狗”级别的AI都做不出来。他此前在推特上公开表示:“ChatGPT满嘴胡诌,你们却对它如此宽容,但我家的Galactica(由Meta AI与Papers with Code合作开发的大型语言模型),才出来3天,就被你们骂到下线了。”
1月27日,在Zoom的媒体和高管小型聚会上,杨立昆对ChatGPT给出了一段令人惊讶的评价:“就底层技术而言,ChatGPT并不是多么了不得的创新。虽然在公众眼中,它是革命性的,但是我们知道,它就是一个组合得很好的产品,仅此而已。”
杨立昆表示,ChatGPT并非什么独家创新,除了谷歌和Meta之外,还有6家初创公司,基本上都拥有非常相似的技术。ChatGPT用的Transformer架构是谷歌提出的,而ChatGPT用的自监督方式,正是他自己提倡的,远远早于开发ChatGPT的OpenAI。
此前,杨立昆在参加播客节目时展示过ChatGPT的回答,它看上去很有道理,却错得离谱。但主持人在读完ChatGPT的回答后,却没有第一时间发现它错了。
杨立昆认为,人类的思维方式和对世界的感知让人能预想即将发生的事物,这是人类获得常识的基础,而聊天机器人的模型并没有这种能力。语言模型并没有物理直觉,它们是基于文本训练的。如果它们能从庞大的联想记忆中检索到类似问题的答案,则可能会答对物理直觉问题。但它们的回答也可能是完全错误的。依靠自动回归和响应预测下一个单词的大语言模型是条歪路,因为它们既不能计划也不能推理。
不过,杨立昆的“愤怒”也可能来源于其公司Meta开发的Galactica的失败。2022年11月中旬,Meta的FAIR实验室发布Galactica,可以生成论文、生成百科词条、回答问题、完成化学公式和蛋白质序列的多模态任务等。但由于错误百出,Galactica上线短短3天就下线了。现在,微软和谷歌正争相推出自家的聊天机器人产品,在人工智能上酝酿多时的Meta却未见声响。一些媒体称,杨立昆频繁唱衰ChatGPT明显是酸葡萄心理。
Meta首席AI科学家、图灵奖得主杨立昆(Yann LeCun)。
马库斯列出7个不太积极的预测
提起讨厌ChatGPT的专家,加里·马库斯绝对是社交媒体上最瞩目的人。马库斯与杨立昆此前一直有矛盾,经常因为AI问题在推特上争吵。但近日,由于杨立昆也加入反ChatGPT阵营,二人冰释前嫌。马库斯还转发杨立昆批判ChatGPT的帖子,评论道“100分”。
马库斯曾表示,尽管ChatGPT能够生成合乎语言逻辑的内容,但这些内容并不一定是现实本身。也正因为此,ChatGPT可能将进一步放大假新闻的影响,存在治理层面的深切担忧。他表示,ChatGPT只是一个工具,不是人类。说它是科学家,不如说它充其量更像是一个拼写检查器,一个语法检查器,或者一个统计包。它无法提供真实的想法,不会设计精心控制的实验,也不能从已有文献中得到启发。
马库斯曾总结道:真朋友不会允许ChatGPT成为你论文的共同作者。
对于未来将登场的OpenAI开发的GPT-4模型,马库斯也给出了7个不太积极的预测:
·GPT-4仍然会像它的前辈一样犯下各种愚蠢的错误。它有时可能会很好地完成给定的任务,有时却罢工不干,但你并不能提前预料到即将出现的是哪种情况。
·GPT-4对物理、心理和数学方面的推理依然靠不住。它或许能够解决部分之前未能挑战成功的项目,但在面对更长和更复杂的场景时依然束手无策。
比如,当被问及医学问题时,它要么拒绝回答,要么偶尔会说出听起来很有道理但很危险的废话。尽管它已经吞噬了互联网上的大量内容,但它并不能足够可信和完整地提供可靠的医疗建议。
·流畅幻象(fluent hallucinations)仍将十分常见,而且很容易被诱发。也就是说,大型语言模型依然是一个能被轻易用于制作听起来很有道理却完全错误的信息的工具。
·GPT-4的自然语言输出仍然无法以可靠的方式为下游程序提供服务。利用它构建虚拟助手的开发者会发现,自己无法可靠地将用户语言映射到用户的意图上。
·GPT-4本身不会是一个能解决任意任务的通用人工智能。如果没有外部的辅助,它既不能在Diplomacy(游戏)中击败Meta的Cicero(游戏),也不能可靠地驾驶汽车,更不能驱动《变形金刚》里的擎天柱。
·人类“想要什么”与机器“去做什么”之间的“对接”,依然是一个关键且尚未解决的问题。GPT-4仍将无法控制自己的输出,一些建议是令人惊讶得糟糕,掩盖偏见的例子也会在几天或几个月内被发现。
·当AGI(通用人工智能)实现时,像GPT-4这样的大型语言模型,或许会成为最终解决方案的一部分,但也仅限于其中的一部分。单纯的“扩展”,也就是建立更大的模型直到它吸收了整个互联网,在一定程度上会被证明是有用的。但值得信赖的、与人类价值观相一致的通用人工智能,一定会来自于结构化程度更高的系统。它将具有更多的内置知识,并包含明确的推理和计划工具。而这些,都是现在的GPT系统所缺乏的。
马库斯认为,在十年内,也许更少时间内,人工智能的重点将从对大型语言模型的扩展,转向与更广泛的技术相结合。
美国作家、Robust. AI公司创始人、纽约大学教授加里·马库斯(Gary Marcus)。
学术与商业考量
除了马库斯和杨立昆,许多业内人士也给出了自己的观点。
牛津大学(University of Oxford)计算机科学教授迈克尔·伍尔德里奇(Michael Wooldridge)说:“神经网络的灵感来自于动物大脑和神经系统中出现的细胞结构,它们被构造成大规模互联的网络,每个组件执行非常简单的任务,并与大量其他细胞通信,它们使用的结构是受我们在动物大脑中看到的所启发。”
大型语言模型被输入由数十亿单词组成的数据集,并基于统计概率,建立一个通常跟随前一段文本的单词和句子的模型。伍尔德里奇说:“网络对什么是‘真’或‘假’没有任何概念。他们只是尽可能地写出最有可能的文本来回答所给的问题或提示。因此,大型语言模型经常出错。”
伍尔德里奇表示,就像巴德关于望远镜的错误一样,聊天机器人会在输入的大量文本中反映出各种偏见。他说:“文本中包含的任何偏见都将不可避免地反映在程序本身中,这对人工智能来说是一个巨大的持续挑战——识别和减轻这些偏见。”
研究人员齐拉格·沙阿(Chirag Shah)和艾米丽·M·本德(Emily M. Bender)在一篇题为《情境搜索》(Situational Search)的论文中指出,聊天机器人界面的引入甚至有可能加剧偏见问题。聊天机器人不仅倾向于提供单一的答案,而且答案的权威性也因人工智能的神秘性而增强,它们的答案来自多个来源,通常没有适当的归属。而这与搜索引擎提供的链接列表相比变化巨大,在传统搜索引擎中,每个链接都可以点击和询问。
因此,聊天机器人并不是真正的人类大脑,也只能给出听起来似乎合理的文本回答,而这些回答又会被误认为是正确答案。
萨里大学(University of Surrey)以人为本的人工智能研究所(Institute for human - centered AI)主任安德鲁·罗戈斯基(Andrew Rogoyski)博士表示,就像谷歌在演示时的情况一样,训练AI的数据集可能导致了聊天机器人的错误。
对于近日全网关注的ChatGPT热潮,罗戈斯基也给出了不一样的观点,他认为这本质上依旧是品牌之间的商业行为。罗戈斯基说:“大型人工智能模型真的是不可持续的,生成式人工智能和大型语言模型能够做出很厉害的事情,但它们仍然不够智能。它们不理解自己产生的输出,也不会拥有洞察力、想法这些东西。事实上,这只是品牌之间的一场战斗,利用人们当前对生成式人工智能的兴趣来重新划分商业版图。”