cha

被ChatGPT惊艳?你还什么都没看到

  ChatGPT凭借其生成有用文本的神奇能力,正在席卷全球。人工智能研究人员表示,随着作为ChatGPT的服务核心的大规模语言模型(LLM)越来越大,将会出现更卓越的人工智能。

  早在OpenAI于2022年11月30日向世界发布ChatGPT之前,围绕LLM的军备竞赛就已经升温。谷歌、Facebook和微软(与OpenAI合作)等科技巨头多年来一直在推动深度学习(DL)和自然语言处理(NLP)的边界,在神经网络中填充越来越多的层,在越来越大的数据集上训练它们,导致确定模型准确能力的参数数量不断增加。

  2020年初,微软研究院(Microsoft Research)揭开了图灵自然语言生成(T-NLG)的面纱,这是一个拥有170亿参数的LLM,是当时同类模型中最大的一个。几个月后,OpenAI推出了GPT-3,其参数达到1750亿。

  2021 年2月,谷歌对2019年推出的T5进行了调整,推出了Transformer架构,其参数高达1.6万亿。2022年4月推出了其Pathways语言模型(PaLM),采用5400亿个参数。Facebook也参与了这一游戏,并于2022年5月推出了OPT-175B,这是一种基于Transformer的大型语言模型,具有多达1750亿个参数,与GPT-3规模相同。

  我们可能距离GPT-4的首次亮相只有几周的时间。尽管OpenAI对这一备受期待的版本的细节保持沉默,但有传言称GPT-4将包含100万亿个参数,这将使其成为世界上最大的LLM。

  尽管近年来淡化大数据的重要性已成为潮流,但LLM的“大”正是所有新功能和兴奋的确切来源。事实上,研究人员正热切地等待着当LLM的尺寸更大时,他们可能会从LLM中挤出什么新的能力。

  这一期待在2022年8月发表的一篇题为《大型语言模型的涌现能力》的论文中得到了阐述。来自谷歌大脑、DeepMind、斯坦福大学和北卡罗来纳大学的研究人员讨论了如何从超大型语言模型中发掘出意想不到的“涌现”能力。

  几十年来,在一个问题上投入更多的硬件和数据是获得更好答案的可靠方法。这是高性能计算(HPC)社区用来解决科学和工程领域的严峻挑战的一种常用技术,过去二十年来,硅谷“黑客”一直试图在行业标准服务器上复制这种技术。

  作者写道:“扩展语言模型已被证明可以在广泛的下游任务上预测地提高性能和采样效率。本文讨论了一种不可预测的现象,我们称之为大型语言模型的涌现能力。”

  LLM的大小并不能100%产生意想不到的能力。事实上,在一些较小的LLM中同样可以观察到一些涌现能力。但如同量变到质变的物理真理,一点点铀没什么用,但当你把它装得足够密时,就会发生核反应。同样的情况也发生在其他物质和现象上,如DNA、水、交通和专业化。

  我们现在看到LLM中出现了意想不到的功能。来自谷歌、DeepMind、斯坦福和UNC的研究人员在他们测试的一系列LLM中记录了20多种能力,这些LLM包括GPT-3、LaMDA、PaLM、T5、Chinchilla、Gopher和Anthropic。

  谷歌大脑的Jason Wei是该领域的一名研究人员。在他最近的斯坦福大学演讲中,称一种叫做思维链(COT)提示的LLM技术将使性能曲线向上弯曲。具体而言,设计为通过推理过程以“元数据”为指导的LLM可以产生更好的结果。

  更大的LLM和COT提示的结合将能够解决更大的问题,例如数学单词问题、符号推理和具有挑战性的常识推理。这些问题是传统上使用标准激励方法培训的LLM难以解决的。“语言模型进行多步骤推理的能力随着规模的增长而显现,解锁了新的任务,有理由相信,语言模型将继续变得更大、更好。直至出现更多新的能力。”


您可能还会对下面的文章感兴趣:

登录 注册 退出