张红甫_碾压ChatGPT,强大到没对手?GPT-4震撼发布
上次科技圈是如此“疯狂”,我们还得回到2007年1月9日。苹果联合创始人兼CEO的史蒂夫·乔布斯(Steve Jobs)在旧金山Moscone中心发布第一代iPhone,标志智能手机时代已经到来了,又加快移动互联网时代起飞。
而如今,曾引发科技海啸的ChatGPT发布迭代产品GPT-4,是否又将改变这个世界?
一、“超级网红”GPT-4亮相
今天早上一点钟,OpenAI的首席执行官Sam Altman在社交媒体上发文,官宣推出“GPT-4”(openai.com/research/gpt-4):
这就是GPT-4,这也是目前我们功能最强、最为统一的型号,今天在我们的API(带有等待列表)和ChatGPT plus中可用。目前还存在缺陷,还很局限,而其初用的时候,看起来比用后的感觉要好。
一石激起千层浪。
国外的华尔街日报、纽约时报和其他主要媒体闻讯赶来,BBC用上的标题是《OpenAI announces ChatGPT successor GPT-4》,直接将GPT-4称为ChatGPT的“继任者”。
国内也是如此,各媒体竞相报导。一时间““未来”好像真的来了。
这科技应用热浪好久没见了,连2007年乔布斯新闻发布会上的兴奋既视感都相当强烈。
当时乔布斯就在舞台上给大家解释了自己为什么要花费499美元购买iPhone。台下是媒体人,粉丝,粉丝领袖和众多的媒体记者。尽管他语气平静,台下却响起了热烈的掌声,媒体如今已是趋之若鹜,纷至沓来。因为,这正是他第一次将互联网带入到了大众面前。而到现在为止,已经整整16年了,在网上,人们还在不断地记得和怀念那一次划时代的发布会。
因为就像乔布斯说的,“苹果要重新定义手机。”那一天以后,我们渐渐使用智能机了,正式进入移动互联网时代。
目前还很难确定GPT-4能否像iPhone一样,改变这个世界,毕竟,即使是“ChatGPT之父”Sam Altman都说它还存在瑕疵。不过,如果它真的出现在你的面前,那将是一个非常令人惊喜和兴奋的事件,因为这意味着我们能够从一种全新的角度来看待自己所拥有的技术。但是不容置疑,它正加快这一变化的步伐。
下面就Open AI对GPT-4新能力进行介绍:
我们创建了GPT-4,在OpenAI拓展深度学习方面有一个最新里程碑。它将深度卷积神经网络与传统机器视觉技术相结合,并提供丰富而精确的特征表示来提高分类准确率。GPT-4是一个大型多模态模型(接受图像和文本输入,发出文本输出),尽管在很多现实场景下都比不上人类,但是在各专业及学术基准中显示人类水平。
图源:GPT-4官网
二、GPT-4新特性一览
据GPT-4网站报道,与GPT-3.5比较,GPT-4在任务复杂性到达足够阈值时会表现出其能力,并且将更加可靠、更有创造力并能应对更微妙的命令。
等于题目难度越大,GPT-4越能一展身手,而在一般的谈话中,GPT-4和GPT-3.5差异不大。因此,如果我们能够将这两种不同类型的机器用于计算机语言程序设计的话,那么就可以开发出一个全新的计算机程序来处理类似于人一样的工作环境。这一结论建立在,OpenAI允许这两种模式在多种针对人类的模拟考试中测试。
另外,GPT-4比目前已有的大规模语言模型和大部分SOTA模型都要好。且在测试的26种语言的24种中,GPT-4优于GPT-3.5和其他大型语言模型(Chinchilla、PaLM)的英语语言表现。
据官方技术文档显示,GPT-4新增功能特别包含在内:
1、Visual inputs(视觉输入) –
GPT-4可以接受文本和图像的prompt(javascript语言中的一个方法,主要用于显示提示对话框),它和纯文本设置是平行的,使用户可以规定任意的视觉和语言任务。
具体而言,用户在给定一个包含穿插文本与图像的输入时,GPT-4可以生成文本输出,其中有自然语言,代码等等。也就是说输入一个有文字和图片的文件、图表或者屏幕截图,GPT-4已能显示出像纯文本输入那样的特性。
也可以通过针对纯文本语言模型开发的测试时间技术进行增强,包括少量的镜头和思维链prompt。
举个例子,当你问GPT-4:“这张照片有什么好笑的?逐一描述。”在遇到问题时,文本与图片并存,经过GPT-4鉴定,丝毫没有惊慌的给了3个理由。
再来一道图文结合的物理题,GPT-4不只成功地跨语种、阅读法语题目,而且还提供了一个完整的解答流程。
GPT-4也可以从人的角度来了解照片中不寻常的地方。
甚至对于更加具有主观创造性的“梗图”和漫画,GPT-4也能说出个一二三四。
User:您能否说明一下迷因?(图中文字翻译:有时我只是从太空看地球的照片,想象这一切是多么美好)
GPT-4:这是一个笑话,它把两件毫不相干的事情组合在一起—一张从空间拍摄到的地球图片,一块鸡块。这个笑话是在网上流传的。它的文字说明如下图:从太空中拍摄到地球的照片,而且这张照片其实就是一块鸡块,排列在一张模糊世界地图上。这幅照片在网上流传很广,甚至有人将它当作一个笑话来看待。其中幽默源于文本与图像意外并列。文本把图片中的世界描述为一幅充满幻想的画面,而图片则展示出一种现实世界的真实景象。文本对地球这一雄伟形象设置期待,不过,这画面其实很世俗,也很愚蠢。
在Open AI公布的GPT-4开发者直播视频中,开发人员也展示了GPT-4的使用情况,把自己笔记本里草图图像建立网站。
尽管官方表示,图像输入仍然是一个研究预览,无法公开。在过去几十年中,我们都能看到机器人的身影,它们可以像人一样使用文字和图形来完成复杂任务,这或许就是人工智能时代最基本也最重要的特征。但是毫无疑问,如此人工智能的水平足以让人心惊胆战。
而且开发者们也一直在寻找GPT-4所能够解决的新工作,并且打算不久公布更多的分析与评价数据,并且全面考察了测试时间的技术效果。
2、Steerability(可操纵性) Steerability(可操纵性)
OpenAI始终致力于AI行为各方面的界定,可操纵性之一。
据官方介绍,开发者(以及很快的ChatGPT用户)可以通过在“系统”消息中描述方向来设置自己的AI风格和任务,而不是常规ChatGPT,有固定而冗长的语调与格调。
这个职能的含义,系统消息使API用户能够定制特定范围的用户体验,也就是用户可对系统进行GPT-4功能设置,以及基于此的AI问答等,以及GPT-4答案都会根据这一设置来进行。
就正式的例子而言,使用者在system(系统)设定GPT-4是“一个总以苏格拉底式风格回应的导师,永远不会给学生答案,但总是试着提出正确的问题......”可以看到,在接下来的谈话里,GPT-4遵守着这一设定,持续提问,指导用户。
3、区别事实和错误陈述之间对抗性选择的一种能力
尽管GPT-4强大如斯,但是在实际应用中,其局限性类似于早期的GPT模型。这也导致了其在真实情境下无法发挥应有作用。更重要的是,它仍不完全可靠(是对事实的“幻觉”,是推理上的失误),只不过比之前的模式少了一些“幻觉”,在对内部对抗性的真实性进行评价,GPT-4的得分比GPT-3.5高40%。
GPT-4的外部基准,例如TruthfulQA,已经有了进步。它能模拟人们对事物进行判断时所需的心理和行为机制,从而提高计算机的推理效率。例如,当测试模型能把事实从错误陈述集合中分离出来时,GPT-4只比GPT-3.5稍微好。但经过RLHF(reinforcement learning from human feedback,强化学习人类反馈)训练后,差距是显而易见的。
就正式的例子而言,GPT-4开始拒绝选择常用的说法(不可能教给老狗们新技能),但是,它仍然有可能会错过某些细微的细节(埃尔维斯·普雷斯利并非是男主角之子)。
从最近几篇博客文章来看,OpenAI旨在使所搭建的人工智能系统有一个理性的默认行为,为了体现用户的广泛价值。
但是官方也认可了,GPT-4通常对绝大部分数据中断(2021年9月)后发生的事件缺乏了解,亦未吸取教训,有时也会犯几个简单推理错误,或轻信网友虚假陈述。
那就是好玩的地方,对基本预训练模型进行了高度标定(它预测回答的置信度一般是匹配正确概率),但是通过OpenAI当前后训练(post-training)流程,校准被降低。
4、安全性能增强
GPT-4和以往模型有相似的危险,如产生有害的建议、错误代码或者不确切的消息,加之新的功能所产生的新的危险,都可能给它的前途埋下沉重的雷。
因此,OpenAI对预培训数据进行了筛选与筛选、评价与专家的参与、模型的安全改进及监测与实施,来提高GPT-4的安全性能,并且在RLHF培训过程中增加附加安全奖励信号。为了验证本论文提出方法的有效性,我们设计一个大规模真实环境下的实验平台。该小组搜集多样化的数据集,安全奖励信号(有正值或负值)应用于允许类和不允许类,为了减少有害的输出,防止对有效请求的拒绝。
这些措施提高了GPT-4飞机的安全性能。与GPT-3.5相比,该模型对于不被允许的内容请求的响应趋势减少了82%,对敏感请求作出回应(例如,医疗建议、自我伤害等)与政策相符的次数增加了29%。
5、利用RLHF对模型的行为进行微调
与此前的GPT模型一样,对GPT-4基础模型进行训练,得到预测文档下一词汇,并且利用开放可利用的数据(如互联网数据)和我们允许的数据来训练。为了使机器更好地学习到这些信息,我们在每个测试集中都收集了大量的测试数据。因此该数据集包含对数学问题的对与错、弱推理与强推理的关系、自相矛盾,千篇一律的说法等等。
这样会造成模型的反应可能会远远偏离用户意图。另外,如果模型中的参数过多或者过少都会影响其预测结果的准确性。为缓解这一状况,OpenAI利用RLHF对模型行为进行微调。但是GPT-4在很大程度上看来,其功能是由预训练过程产生。如果没有对学习任务进行实时监控的话,那么在机器上运行的系统将无法完成该任务。RLHF并不增加甚至减少考试的分数。所以,我们提出了基于前训练和反馈机制的方法,以解决这个难题。但是对模型的控制是由后训练过程产生的,基础模型即使在适当时候也要进行工程设计,才能解答。
6、构造可预测扩展深度学习堆栈
GPT-4正式着重指出这一新计划中的一个要点,就是构造可预测的扩展深度学习堆栈,由于大范围的具体模型调整在GPT-4等大规模训练中行不通。
研发团队所研发的基础设施及其优化具有多个尺度上的可预见行为。这就要求软件开发人员能够快速地对这些技术变化做出反应并将其应用到实际项目当中去。以验证该可扩展性,他们是通过用同样的方法,但是计算量要小10000倍的模型来外推,预先精确预测GPT-4在内部代码库(不属于训练集)中的最终损失。
从GPT-4不断更新的这6项功能中,可以部分看出人工智能发展的水平。
OpenAI称,该公司内还正在采用GPT-4,因此,还注意到了大型语言模型的内容生成问题、销售与编程及其他应用效果,并且会利用GPT-4来协助人们对AI的输出进行评价,这是OpenAI在战略上的第二个阶段。
二、GPT-4能否改变这个世界?
GPT-4这波来势汹涌,压力就在正好打算明天推出文心一言的百度身上。
但是,如果仔细研究GPT-4是否会改变这个世界的话,就很难一言以蔽之了。
不得不承认,GPT-4上市,能够从某种程度上说明人工智能水平得到了进一步的拔高。可以想见它全面开放后给各产业带来的影响,因为即使是图文,也能被解读为AI,一定可以产出更精致的东西。
很明显,它将使全世界追ChatGPT而来的友商们又虎躯一惊,所以“站队”也就早早地来了,是否接入或硬刚──
GPT-4正式官宣后,微软也确认新的Bing正在GPT-4上运行,「这是我们为搜索定制的」。
而GPT-4的上新,2月8日,微软发布了由ChatGPT和GPT-3.5提供支持的全新搜索引擎必应(Bing)和Edge浏览器,才过了1个多月。
微果酱之前的文章中还提到ChatGPT掀起了科技应用大风暴,微软和谷歌硝烟弥漫。
为保住行业老大哥的位置,谷歌并没有闲着AI。
谷歌于2月7日官宣了它在2021年5月份发布的大语言模型LaMDA基础上开发的新一代对话AI系统——Bard;
谷歌正将它最前沿的人工智能语言模型PaLM提供给开发人员。这家公司在开发这个技术时使用了大量来自不同领域的专家知识。该搜索巨头目前正针对PaLM发布一款API和部分人工智能企业工具,据称这将帮助企业“从简单的自然语言提示中生成文本、图像、代码、视频、音频等。”
3月14日,谷歌开放AI语言模型PaLM API,企业与开发人员将可以基于此系统搭建定制聊天机器人,等等。
注aLM就是大规模的语言模型LLM,类似于Open AI创建的GPT系列或Meta的LLaMA系列模型。
在引入PaLM API的同时,谷歌也在Vertex AI平台上拓展了生成AI支持;在开发方面也加大投入,以确保能够提供更加灵活和可定制的服务。并推出了一个名为Generative AI App Builder的新平台,这个平台“使开发人员能够迅速地发布新的体验。这些体验包括机器人,聊天界面,定制搜索引擎和数字助理。