cha

GPT-4震撼来袭,ChatGPT的8倍,考试能力超过90%人类

  北京时间3月15日早间,人工智能初创公司OpenAI正式公布其最新一代人工智能语言模型GPT-4。

  GPT-4是一个超大的多模态模型,升级后其可以接受图像输入并理解图像内容,并且可接受的文字输入长度也增加到3.2万个token(约2.4万单词)。

  虽然它在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上它已经和人类水平表现相当。

  OpenAI表示GPT-4的诞生,是OpenAI努力扩展深度学习的最新里程碑。

  据了解,最新的GPT-4对月订阅费20美元的ChatGPT Plus的用户开放使用,同时也会纳入到微软的Bing聊天机器人中。

  似乎为了让对手们望尘莫及,OpenAI还放出了一系列大招,包括技术报告,SystemCard,以及API。

  不管从更新速度还是质量,看来生成式AI这场战役,OpenAI志在必得。

  01

  史上最强多模态大模型,

  GPT-4当之无愧

  在视觉输入方面,GPT-4可以接受文本和图像提示,这与纯文本设置并行,允许用户指定任何视觉或语言任务。

  具体来说,它在给定由散布的文本和图像组成的输入的情况下生成文本输出(自然语言、代码等)。即在包括带有文本和照片的文档、图表或屏幕截图等一系列领域,GPT-4展示了与纯文本输入类似的功能。此外,它还可以通过为纯文本语言模型开发的测试时间技术得到增强,包括少量镜头和思维链提示。一起通过具体案例来感受下。

  首先是强大的图片理解能力。

  更进一步,GPT-4可以理解图表中数据的含义,并做进一步计算。

  甚至可以直接把论文截图发给它,GPT-4给出对整篇论文的总结摘要。

  02

  虽然强大,但GPT-4仍有局限性

  尽管功能强大,但GPT-4与早期的GPT模型具有相似的局限性。通俗的来说就是会胡说八道。

  虽然这仍然是一个现实的问题,但GPT-4相对于以前的模型(它们本身在每次迭代中都在改进)已经显著减轻了幻觉问题。在OpenAI内部对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5高40%。

  在九类内部对抗性设计的事实评估中,OpenAI将GPT-4(绿色)与前三个ChatGPT版本进行了比较。所有主题都有显着的收获。准确度为1.0意味着模型的答案被判断为与评估中所有问题的人类理想回答一致。

  OpenAI在TruthfulQA等外部基准测试方面取得了进展,它测试了模型将事实与对抗性选择的一组错误陈述分开的能力。这些问题与事实不正确的答案配对,这些答案在统计上很有吸引力,如下图所示。

  GPT-4基本模型在此任务上仅比GPT-3.5略好;然而,在RLHF后训练(应用与GPT-3.5相同的过程)之后,存在很大差距。比如下面的例子。

  该模型的输出可能存在各种偏差——OpenAI在这些方面取得了进展,但还有更多工作要做。

  根据OpenAI最近的博客文章,其目标是让所构建的AI系统具有合理的默认行为,以反映广泛的用户价值观,允许这些系统在广泛的范围内进行定制,并就这些范围应该是什么获得公众意见。

  GPT-4普遍缺乏对绝大部分数据中断后(2021年9月)发生的事件的了解,并且不从其经验中吸取教训。它有时会犯简单的推理错误,这些错误似乎与跨多个领域的能力不相称,或者在接受用户明显的虚假陈述时过于轻信。有时它会像人类一样在难题上失败,例如在它生成的代码中引入安全漏洞。

  GPT-4也可能自信地在其预测中犯错,在可能出错时不注意仔细检查工作。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,通过OpenAI目前的训练后过程,校准减少了。

  左图是预训练GPT-4模型在MMLU子集上的校准图。该模型对其预测的置信度与正确概率密切相关。虚线对角线代表完美的校准。

  而右图是在同一MMLU子集上训练后的PPOGPT-4模型的校准图。OpenAI当前的过程对校准造成了很大的伤害。

  03

  不停迭代是GPT-4缓解风险的良好措施

  OpenAI一直在对GPT-4进行迭代,以使其从训练开始就更安全、更一致,工作包括选择和过滤预训练数据、评估和专家参与、模型安全性改进以及监控和执行。

  GPT-4会带来与之前模型类似的风险,例如生成有害建议、错误代码或不准确信息。但是,GPT-4的附加功能会带来新的风险面。为了了解这些风险的程度,OpenAI聘请了50多位来自AI对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家来对模型进行对抗性测试。

  他们的发现特别使OpenAI能够在需要专业知识进行评估的高风险领域测试模型行为。这些专家的反馈和数据用于OpenAI对模型的缓解和改进;例如,OpenAI收集了额外的数据来提高GPT-4拒绝有关如何合成危险化学品的请求的能力。

  GPT-4在RLHF训练期间加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害输出(如OpenAI的使用指南所定义)。奖励由GPT-4零样本分类器提供,该分类器根据安全相关提示判断安全边界和完成方式。

  为了防止模型拒绝有效请求,OpenAI从各种来源(例如,标记的生产数据、人类红队、模型生成的提示)收集了多样化的数据集,并在两者上应用安全奖励信号(具有正值或负值)允许和不允许的类别。

  与GPT-3.5相比,OpenAI的缓解措施显着改善了GPT-4的许多安全特性。与GPT-3.5相比,OpenAI已将模型响应不允许内容请求的倾向降低了82%,并且GPT-4根据OpenAI的政策响应敏感请求(例如,医疗建议和自我伤害)的频率提高了29%。

  总的来说,OpenAI的模型级干预增加了引发不良行为的难度,但这样做仍然是可能的。此外,仍然存在生成违反OpenAI使用指南的内容的“越狱”。随着人工智能系统“每个代币的风险”增加,在这些干预中实现极高的可靠性将变得至关重要;目前,重要的是用部署时安全技术(如监控滥用)来补充这些限制。

  GPT-4和后续模型有可能以有益和有害的方式对社会产生重大影响。OpenAI正在与外部研究人员合作,以改进OpenAI理解和评估潜在影响的方式,以及对未来系统中可能出现的危险功能进行评估。OpenAI很快将分享更多关于GPT-4和其他人工智能系统的潜在社会和经济影响的想法。

  04

  强化学习和人工反馈,

  是训练GPT-4利器

  与以前的GPT模型一样,GPT-4基础模型经过训练可以预测文档中的下一个单词,并且使用公开可用的数据(例如互联网数据)以及OpenAI已获得许可的数据进行训练。这些数据是网络规模的数据语料库,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,并代表各种各样的意识形态和想法。

  因此,当出现问题提示时,基本模型可以以多种可能与用户意图相去甚远的方式做出响应。为了使其与护栏内的用户意图保持一致,OpenAI使用强化学习和人工反馈(RLHF )来微调模型的行为。

  值得注意的是,该模型的能力似乎主要来自预训练过程——RLHF不会提高考试成绩(如果不积极努力,它实际上会降低考试成绩)。但是模型的转向来自训练后过程——基础模型需要及时的工程设计甚至知道它应该回答问题。

  05

  可预测的扩展带来的可能性

  GPT-4项目的一大重点是构建可预测扩展的深度学习堆栈。主要原因是,对于像GPT-4这样的非常大的训练运行,进行广泛的特定于模型的调整是不可行的。

  OpenAI开发的基础设施和优化在多个尺度上具有非常可预测的行为。为了验证这种可扩展性,OpenAI通过从使用相同方法训练但使用10,000倍更少计算的模型进行推断,准确预测了GPT-4在OpenAI内部代码库(不是训练集的一部分)上的最终损失:

  现在OpenAI可以准确地预测OpenAI在训练期间优化的指标(损失),OpenAI开始开发方法来预测更多可解释的指标。

  例如,OpenAI成功预测了HumanEval数据集子集的通过率,从计算量减少1,000倍的模型推断:

  不过有些能力仍然难以预测。例如,InverseScalingPrize是一项竞赛,目的是寻找一个随着模型计算量的增加而变得更糟的指标,而后见之明的忽视是赢家之一。

  就像最近的另一个结果一样, GPT-4扭转了趋势:

  OpenAI认为,准确预测未来的机器学习能力是安全的重要组成部分,但与其潜在影响相比,它并没有得到足够的重视(尽管OpenAI受到多家机构的努力的鼓舞)。

  OpenAI正在加大力度开发方法,为社会提供更好的未来系统预期指导,OpenAI希望这成为该领域的共同目标。

  有意思的是,就在GPT-4发布前,谷歌方面为了迎战微软,宣布将一系列即将推出的AIGC功能,应用到自家产品中,而原定的发布日是本周四,也就是明天。

  但timing is everything,微软这次很明显的杀了谷歌一个措手不及。面对强大的GPT-4,此前有过一次翻车经验的谷歌能否应战,十分值得期待。


您可能还会对下面的文章感兴趣:

登录 注册 退出