OpenAI带来GPT-4,AI比“做题家”更会考试
OpenAI的聊天机器人ChatGPT在过去数月间,用近乎于人类的表现在科技圈掀起了一阵人工智能浪潮,大洋两岸的无数人更是为之倾倒。然而就在大家沉迷于ChatGPT时,北京时间3月15日凌晨,OpenAI方面在预热许久后带来了新一代的多模态大模型GPT-4,为ChatGPT的热潮又添了一把火。
在OpenAI官网公布的GPT-4技术文档中,前言部分是这样形容它的,“我们已经创建了GPT-4,这是OpenAI扩大深度学习努力的最新里程碑。GPT-4是一个多模态大模型(接受图像和文本输入,文本输出),虽然它在许多现实世界的场景中不如人类,但在各种专业和学术基准上表现出人类水平的性能。”
咋一看,GPT-4似乎并没有那么强大。相比于上一代的GPT-3,GPT-4的升级主要在于识图能力,文字输入的限制则提升至 2.5万字,回答准确性也显著提高,能够生成歌词、创意文本,并实现风格的变化。只不过在技术文档中,OpenAI展示了一个无限接近人类的AI系统。
GPT-4到底有多么智能,OpenAI为了向外界解释了这个问题,并没有扯太多的专业术语、也没有“不服跑个分”,而是用了绝大多数人都亲身经历过的考试。在被称为“美国高考”的SAT考试中,GPT-4在满分1600分的测试中拿到了1410分,而在美国律师资格考试Uniform Bar Exam和法学院入学考试LSAT中,得分则更是高于88%的应试者。
GPT-4的做题能力到底有多强呢?在面对一道巴黎综合理工学院的物理题时,GPT-4按照非常标准的分步解题步骤,拆解了整个问题,最终一步步推导出结果。如果抛开速度的差异,GPT-4真的就像大学生一样在做试题,实现了类似人类的视觉感知到语义理解,再到逻辑推理的一整套流程。
如果说OpenAI举例的这一系列考试对于国内用户太远,那么GPT-4相比于基于GPT-3.5的ChatGPT还有一个质的飞跃,那就是可以处理图像了,也就是说它能够理解图片的内容。比如说在OpenAI方面公布的DEMO中,GPT-4不仅可以解释图片中的笑话、能写出符合格律的诗作,更可以根据草稿纸上的一张草图,仅10秒就将草图变成与之相对应的网站。
不仅如此,GPT-4还能完成复杂的报税工作,并附带完整的计算过程和条款解释,还有网友用GPT-4针对骚扰电话写律师函,甚至用GPT-4直接生成一个简单的游戏。
其中从这里就不难看出OpenAI的野心,那就是GPT-4不仅仅是一个简单的聊天机器人,而是能在真正的生产力场景中用AI为人类赋能。
用英伟达AI科学家Jim Fan的说法,“GPT-4可以全靠自己考进斯坦福了”。图灵奖得主、“深度学习之父”Geoffrey Hinton也对GPT-4赞叹不已,并表示,“毛虫吸取了营养之后,就会化茧为蝶。而人类提取了数十亿个理解的宝藏,GPT-4就是人类的蝴蝶。”
尽管GPT-4的表现足够惊艳,但它依然没能摆脱“满嘴跑火车”这一现象。 在OpenAI的内部对抗性真实性评估中,GPT-4的得分比ChatGPT此前使用的GPT-3.5高出40%,但GPT-4一样也会出现编造事实的情况,也就是会一本正经的胡说八道,比如给出完全不存在的网址。
OpenAI方面对此也毫不避讳,“GPT-4仍有许多已知的局限性,我们正在努力解决,比如社会偏见、幻觉和对抗性提示。”
并且值得一提的是,在可控性方面,GPT-4则有了长足的进步。此前在应用了ChatGPT相关技术的新版Bing上,出现了在部分情况下会侮辱用户、撒谎等行为,甚至还会故意撒谎、侮辱用户或是情绪化操纵人类,以至于微软方面不得不限制用户每天的对话次数。按照OpenAI方面的说法,GPT-4的训练在去年8月、也就是ChatGPT上线之前就已经完成,这半年的时间都用来对AI模型多个方面特征的控制。
OpenAI在技术文档中解释到,GPT-4在RLHF(基于人类反馈的强化学习)训练中加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求,来减少有害的输出。并透露,“与GPT-3.5相比,它对不允许内容的请求做出回应的可能性低了82%。”
至于说GPT-4是否会冲击到现有的人类工作,答案是未来或许确实有这种可能性,但现在还不至于会让一部分人失业。毕竟,成本制约了GPT-4的发挥。来自OpenAI的价目表显示,GPT-4的API价格为0.02美元/1000token(约750英文单词或500汉字),而已经被用户吐槽很贵的ChatGPT-turbo则还要便宜十倍。
当然,相信绝大多数吃瓜群众最关心的话题,是我们现在能用上GPT-4吗?答案是可以的、但有代价,现在OpenAI仅向花费20美元订阅了ChatGPT Plus版本的用户提供GPT-4。但除了直接给OpenAI付钱外,有能力的用户还可以选择打工的方式去GitHub - openai/evals参与测试,提交高质量反馈来获得访问权限。
但如果既不想花钱、又不愿花时间,那么使用微软的新版Bing就是最简单的方式了。没错,微软已经发布新版Bing就已经就用上了GPT-4,要不当时微软的说法为什么是“基于类ChatGPT技术”,
【本文图片来自网络】