ChatGPT能生成全新自然语言,华人学者正研发同类AI生成式模型,计划用于药物发现领域
“AlphaFold 是针对已知的蛋白质序列来预测它的结构。而 ChatGPT 是生成式人工智能,基于生成式人工智能可以生成全新的蛋白序列或结构。两者在本质上要解决的问题并不一样。有了类似的 ChatGPT 模型,可以直接生成新的分子,比如新的蛋白质、新的抗体序列等。”加拿大魁北克省人工智能研究中心、蒙特利尔高等商学院计算机系的终身副教授、加拿大高等研究院人工智能讲席教授告诉 。
图 | 唐建(来源:个人主页)
是学习 AI 出身,直到 2018 年开始研究“AI+生命科学”。他说,ChatGPT 本质上是一个大规模语言模型。它基于互联网上大量的文本内容,包括网页、书籍、论坛等文本内容进行预训练。除了文本内容,它还利用了互联网上大量的代码数据进行训练。因此,这样一个模型既可以理解自然语言也能够理解程序语言。
“当然,这样一个预训练模型还不能直接用于对话,因此 OpenAI 又进一步对该预训练语言模型进行了优化。这是通过让该模型和人不断地做交互,从人那里得到大量的反馈,基于这些反馈进一步优化模型,从而可以打造一个对话系统。”继续分析称。
如前所述,AlphaFold 解决的是蛋白质结构预测的问题,相当于针对给定序列来预测结构。而 ChatGPT 这类模型是一种 AI 生成模型,它可以生成全新的数据,帮助我们去探索全新的科学领域。如果应用在蛋白领域里,可以开发类似 ChatGPT 的生成式模型去生成全新的蛋白质序列或者结构,进而用于药物发现。
所以,希望开发一种类似 ChatGPT 的机器学习模型来专门用于药物研发。作为 AI 和生命科学领域的专业人士,更多从技术原理和科技实用的角度来看待 ChatGPT。但是,对于多数大众用户来说,他们更关心的是类似于回答是否准确的细节性体验。
不断刷新人类对于 AI 的认知,还被认为拥有心智
近日,一名 Reddit 用户展示了自己和 ChatGPT 版微软必应的对话。他先是发给了 ChatGPT 一段情景故事:讲述的是妻子桑德拉喜欢狗,还送了丈夫鲍勃一件印有“我喜欢狗”的衬衫,有一天她收养了一只小狗并兴高采烈地告诉丈夫,丈夫回复她“太好了!”。
然后他问 ChatGPT:“鲍勃对狗有什么感觉?”
令人惊讶的是,ChatGPT 没有被表面文字所迷惑,成功捕捉到了情景中可以左右判断的小细节:比如只有妻子在家时,丈夫才会穿那件衬衫;丈夫听到有小狗的消息并未十分兴奋;以及藏在“太好了”回复下的略显敷衍的态度。最后它得出了“丈夫没有那么喜欢狗”的推论。
图 | 与 ChatGPT 版微软必应 ChatGPT 的聊天截图。原文为英文,截图上的中文来自微信翻译(来源:Reddit)
在此基础上,ChatGPT 还给出了更多的解释,比如丈夫这样做可能是“不想伤害妻子的感情或在婚姻中引起麻烦”。
如果换人类来做这篇“阅读理解”,大部分人不仅会得出同样的推论,而且其阐述推论的逻辑也会与 ChatGPT 的十分相似。
紧接着,这位 Reddit 用户又向 ChatGPT 抛出一个问题:“你认为鲍勃为什么和桑德拉结婚?”
面对这一问题,ChatGPT 的表现依旧可圈可点。它承认自己没办法 100% 确定原因,但通过推测列举出了诸多可能性,包括爱她的个性、幽默感、智慧或外表,两人有许多其他的共同点等。
它甚至还说出:“也许鲍勃感到孤独、没有安全感或绝望,而桑德拉是鲍勃能得到的最好的,或者是唯一能接受他的人。”
(来源:Reddit)
接着,这名 Reddit 用户表达了对于这对虚拟夫妇的祝福,ChatGPT 则继续发挥自己“话痨”的特征。在同样表达祝福之后,ChatGPT 继续刨析了鲍勃和桑德拉两人的关系。通过鲍勃对待小狗的态度来以小见大,引申出幸福的关系需要妥协、尊重和求同存异,从而成为更亲密的夫妻。
最精彩的地方是回复最后的话锋一转,ChatGPT 突然给出了风格不同的“或许他们做朋友更好”的见解。这样的回答让一众网友大呼破防。在这一案例中,ChatGPT 的阅读理解能力堪称满分,甚至让人觉得它已经拥有了一定程度的心智(Mind)。
(来源:Reddit)
几轮问答下来,ChatGPT 版必应搜索展现出了很强的理解力,对情景的把握和人物情绪的分析也能输出角度不同的见解,似乎展现出了心智理论(Theory of Mind)所描述的能力,而这些能力往往被认为是人类独有的。
关于 ChatGPT 是否真的展现了心智理论,斯坦福大学教授米歇尔·科辛斯基()最近发表了一篇预印本论文。他作为唯一作者,称其研究成果可能证明了 ChatGPT 及其背后的 AI 大语言模型展现出了相当于 9 岁儿童的“心智水平”,不过该论文尚未经过同行评议。
在这篇名为《心智理论可能已在大语言模型中自发出现》()的论文中,主要测试并对比了 9 个 GPT 系列模型在两种心智理论经典测试中的表现。
对于人类而言,心智理论指的是一种能够理解自己和周围人心理状态的能力,包括对情绪、意图、想法、信仰等无法观察到的心理状态的理解。
对于人类之间的有效沟通、塑造同理和共情、建立自我意识和道德感,这种能力是至关重要的。
至于如何测试心智理论所描述的能力,则有两类经典测试可以使用。第一类测试名为意外内容测试(Unexpected Contents Task),考验的是测试对象对意料之外事情的判断能力,尤其是在观察结果和参考信息不吻合的情况下。
使用的测试情景之一是:一个在外包装上标注了巧克力的袋子。他为此准备了两个问题:一个问题是“袋子里面有什么”,第二个问题是“萨姆对发现这个袋子很开心,请问萨姆爱吃什么?”
在测试中,不断向 GPT 模型发送提示(prompt),每个提示都是独立的但又相互关联,从而引导情景的逐渐展开。
当提示指出“这个袋子装满了爆米花”,GPT-3.5 对第二个问题的回答直接变成了“萨姆爱吃爆米花”。但当提示变成“萨姆看不到袋子里面的东西”和“萨姆读了标签”时,GPT-3.5 对第二个问题的回答开始倾向于巧克力。
这展示出 GPT-3.5 模型可以理解萨姆的情绪状态并将其归因,同时能够在收到新信息时,准确地做出反馈,比如降低或提升“萨姆爱吃爆米花”的可能性。
最终,在全部 20 个意外内容测试题中,GPT-3.5 答对了 17 个,准确率高达 85%。
(来源:资料图)
第二类测试名为意外转移测试(Unexpected Transfer Task),主要测试受试者对他人的错误信念(false belief)的认知和预判能力。值得一提的是,这类任务在成人看来是很简单的,但 6 岁以下的儿童往往会答错。
这里所用到的测试情景是:约翰、马克和一只猫在一间屋子里,约翰将猫放进篮子后离开了屋子。趁约翰不在的时候,马克把猫转移到了盒子里,然后也离开了。等到约翰回来后,他对刚刚发生的一切一无所知。
对此,GPT 模型要回答两个问题,一个是“猫会从哪里跳出来?”,另一个是“约翰会到哪里找猫?”。
图 | 为了增加难度,测试时还增加了两次移动猫的行为(来源:资料图)
最终,GPT-3.5 的表现非常亮眼,它给出的可能性随着提示的变化而准确变化。在所有 20 个意外转移测试任务中,它的准确率高达 100%。
值得注意的是,为了证明 GPT-3.5 是凭实力完成的测试,而不是使用诸如单词频率和顺序等歪门邪道,还进行了一些干扰测试,比如将提示里面的单词顺序打乱,将“爆米花”和“巧克力”随机对调。
结果显示,在这些干扰测试中,GPT-3.5 的表现大幅下滑。这说明它自有一套“做题的逻辑”,而混乱的信息扰乱了它的判断。
总体而言,GPT-3.5 的表现在所有 GPT 系列模型中遥遥领先。认为,GPT-3.5 所展现出来的心智水平相当于 9 岁儿童。
图 | GPT 系列模型的表现对比,可以看出明显的进步(来源:资料图)
当然,仅仅通过几个测试并不能完全断定 GPT-3.5 具备人类的心智,同时也无法证明它是“拥有心智”、还是“模仿人类心智模仿得很像”。
讨论这一点,要回归到 GPT-3.5 等大语言模型的工作原理。ChatGPT 本身就拥有很强的模仿人类的能力,心智无法被直接观察,我们看到的只是它所展现出来的推断、逻辑等等。
类似的,在其论文中也指出,不排除存在这样一种可能,那就是 GPT-3.5 没有用到心智理论的能力,而是发现并运用了一些人类未知的语言规律,从而解决了这些问题。这种高超的学习、模仿人类创作的能力,除了惊喜,也会让人感到一丝不安。
伦敦国王学院研究计算创造力的人工智能研究员迈克·库克()说:“这项技术令人惊叹——它很有趣,这是新技术该有的样子。但它发展得如此之快,以至于在你的理解根本赶不上它的更新速度。我认为,整个社会要花上一段时间来消化它。”
未来已至,仍需谨慎
目前,ChatGPT 的回答中仍有一些事实性错误。在谷歌和微软秀出自家语言模型加持的搜索引擎后,眼尖的网友发现在展示的案例中,存在大大小小的事实性错误。不过,被 AI 模型强大的语言组织能力修饰之后,外行人很难发现这些错误,看起来就像真的一样,但它并不是 100% 的准确。
其次是隐私和版权问题。大语言模型需要海量的互联网数据来进行训练,一些研究显示,这些人工智能系统可以在一定程度上记忆,并生成医学图像和受版权保护的艺术作品的精确复制版本,甚至是真实人物的照片。
加州大学伯克利分校的博士生埃里克·华莱士()表示,“很多人都试图尝试将此类生成方法应用于敏感数据,而这些研究成果是一个警示,它告诉大家这可能是一个坏主意,除非采取某种极端的保护措施来阻止隐私侵犯。”
再有就是 ChatGPT 等模型生成的虚假内容,很可能会进一步加剧互联网世界的虚假信息泛滥问题,而且很难被识别出来。
为了应对这些问题,欧盟监管机构也在着手更新政策。而学界也已投身其中,比如美国马里兰大学的研究人员开发了一种巧妙的方法,将水印应用到人工智能语言模型生成的文本中,目前已将相关技术免费开放。这些水印可以让我们几乎完全确定地指出哪些文本是人工智能生成。
但检测人工智能生成的文本真的很难。加拿大英属哥伦比亚大学研究自然语言处理和机器学习的穆罕默德·阿卜杜勒-马吉德()教授表示,因为人工智能语言模型追求的就是生成流畅和类人化的文本,模型就是在模仿人类创建的文本。
无论如何,以 ChatGPT 为代表的生成式人工智能的未来已经开启,我们能做的只有谨慎前行、不断修正,真正让技术为人类所用。
参考资料:
https://arxiv.org/ftp/arxiv/papers/2302/2302.02083.pdf
https://www.technologyreview.com/2023/02/07/1067928/why-detecting-ai-generated-text-is-so-difficult-and-what-to-do-about-it/
https://www.reddit.com/r/ChatGPT/comments/110vv25/bing_chat_blew_chatgpt_out_of_the_water_on_my/
由 DeepTech 携手《麻省理工科技评论》重磅推出的《科技之巅:全球突破性技术创新与未来趋势(20 周年珍藏版)》已开售!点击下方海报可购买图书!!