老黄20问OpenAI联合创始人：ChatGPT得益于数据爆发，让AI说“不知道”是难点

2023-03-29

　　GTIC 2023中国AIGC创新峰会3月24日举行，聚焦ChatGPT引发的范式革命，解构生成式AI开创的新世界。

　　老黄20问OpenAI联合创始人：ChatGPT得益于数据爆发，让AI说“不知道”是难点(图1)

　　10年前，OpenAI联合创始人就让老黄为深度学习准备好GPU。

　　作者 | 李水青

　　编辑 | 心缘

　　智东西3月23日报道，昨夜，在GTC大会主题演讲后，英伟达创始人兼CEO黄仁勋化身一名记者，与OpenAI联合创始人兼首席科学家伊利亚·萨特斯基弗（Ilya Sutskever）进行了一场50分钟的深度对话。

　　这是一场两位风口浪尖的科技圈大佬的巅峰级对话。就在昨天GTC大会上，老黄刚刚推出了ChatGPT专用推理GPU，针对生成式AI、大型语言模型等进行了大优化。他在会上盛赞ChatGPT“震惊世界”：“崭新的计算平台已经诞生，AI的「iPhone时刻」已经到来”。

　　而OpenAI这边，伊利亚已推动GPT-4和ChatGPT快速落地到搜索引擎、Office工具等微软多个产品，并用开放的API，引爆千行百业和数亿人的生产力革命。

　　在采访中老黄提到，大约十年前的一次会面中，伊利亚就如同先知般对他说：“GPU会影响接下来几代人的生活”、“GPU可能会对深度学习的训练有所帮助”。而伊利亚也回顾，ChatGPT诞生的源头则要追溯到更早的20年前，而后数据的爆发让质变到来。

　　伊利亚说ChatGPT实际上做的就是“预测下一个字符”，他坦言现在GPT-4还不及预期，存在逻辑死板、编造信息、不懂装懂等问题，下一步让模型更加可靠，同时学会说“不知道”是一大技术难点。

　　此外，老黄还与伊利亚探讨了关于摩尔定律、多模态、强化学习、自监督等更多关键问题。本文将两位大佬的对话内容呈现如下，内容做了不改变原意的编辑。

　　01.

　　溯源：20年前畅想机器像人一样学习，

　　模型只有上百个神经元

　　老黄：作为打造ChatGPT的最引入注目的顶尖科学家、工程师，你对深度学习技术有什么样的直觉？这一技术为什么会取得如此巨大的成功？

　　伊利亚：由于深度学习，我们的世界发生了巨大变化。我自己开始的初心是对各种问题有想要的直觉性理解，同时对于人类意识的定义，以及我们人类的智力是如何完成这样的预判，这是我特别感兴趣的地方。

　　在2002~2003年，当时的我认为“学习”是只有人类才能完成的任务，计算机是无法做到的。当时就想，如果能够让计算机去学习呢？可能会带来更多改变，但当时没有任何进展看起来是有希望的。

　　很幸运的是，当时我正在上大学，我研究的专业刚好是研究神经网络学习方向。我们希望了解如何通过神经网络去研究深度学习，以及神经网络如何像人类的大脑那样工作。当时的我其实并不清楚我们的工作路径是什么样的，只是觉得这会是有前景的行业。

　　老黄：那个时候的神经网络的规模是多大？

　　伊利亚：那个时候神经网络还没有讨论到规模的概念，我们只是有一百或者几百个神经单元，没想过现在居然能发展到现在如此之多的神经单元、以及如此多的CPU单位。

　　当时我们选用的是一个数学实验室，预算是非常有限的。我们先开始只做了各种各样不同的实验，并收集了各种不同的问题去测试准确度，一点一点去训练神经网络，这也是第一个生成式AI模式的雏形。我们不清楚下一步的方向是什么样的，但后来一想，发展神经网络、深度学习是一个重要节点。

　　02.

　　节点：2010年明确深度学习研究方向，

　　让老黄准备好GPU

　　老黄：在2012年这一节点，你就在神经网络领域有所建树。所以你是在什么时间点开始觉得计算机视觉、神经网络和人工智能是未来方向的？

　　伊利亚：在2012年之前大概两年左右，我逐渐意识到深度学习会获得很多关注。背后坚定的理论基础是：如果神经网络足够深、规模足够大，它就能够解决一些硬核内容问题，关键是需要神经网络兼备深度和规模，这意味着我们必须有足够大的数据库。

　　我们在优化数据模型上做出很多努力，我们的一个同事基于“秒”做出了神经网络的反馈。你可以不断训练神经网络，从而使得神经网络的规模更大，获得更多数据。有的人会说当时这个数据集大到不可想象，如果当时的算力能够处理这么大的数据，那么一定能触发一场革命。

　　老黄：当时是我们第一次相遇，你告诉我说，GPU会影响接下来几代人的生活，以及GPU可能会对深度学习的训练有所帮助。你是在什么时候意识到这一点的？

　　伊利亚：GPU在多伦多实验室中第一次尝试，我们并不清楚到底如何使用GPU、如何让GPU获得真正的关注。后来我们获得越来越多的数据集，我们也清楚传统的模型会带来更多优势。我们希望能够加速数据处理的过程，训练过去科学家从来没有训练过的内容，这是当时触发GPU使用的要点，促进我们不断培养训练神经网络。

　　03.

　　里程碑：从预测下一个字符，

　　到AI界的iPhone时刻

　　老黄：我们看到ChatGPT和OpenAI目前已经打破了过去计算机编辑图像的生成方式。

　　伊利亚：我觉得不是打破了计算机图像的生成方式，也不是打破了一种记录，而是：这样的数据集是显而易见而往往被忽视的，大部分人都是用传统的思维模式去处理数据集，但我们的处理方式“超越式”的，一旦超越就是几步的超越。当时非常艰难，但如果我们能做好，就是帮助人们跨越了一大步。

　　老黄：我觉得ChatGPT是“AI界的iPhone时刻”，你是如何达到这样的转变时刻的？

　　伊利亚：当我们开始时也不太清楚如何进行整个项目，而且，我们现在所得出的结论，和当时使用的逻辑完全不同。大家现在已经有这么好用的ChatGPT工具，来帮助大家创造出非常好的艺术效果和文本效果。但在2015年、2016年我们开始时，我们做了100多步实验和对比，当时看达成现在效果是很惊人的。当时大部分同事来自谷歌的DeepMind，他们有从业经验，但思想相对比较狭窄、受到束缚。

　　我们在OpenAI一开始有两大想法：一是让机器具备一种无监督学习能力，虽然今天我们认为这是理所当然的，但在2016年没有任何科学家有过相关的经验和洞见。“数据压缩”是技术上的瓶颈，ChatGPT实际上压缩了我们的训练数据集。最后我们还有一种数学模型，通过不断训练让我们压缩数据，这其实是对数据集的挑战。这个想法在Open AI最后展示中显示了成果，训练出了神经网络。

　　我们希望能够去训练神经网络预测下一个单词。我觉得，下一个神经元单位会和整个视觉神经网络密切相关，这重新证明了，下一个字符的预测、下一个数据的预测能够帮助我们去发掘现有数据的逻辑，这个就是ChatGPT训练的逻辑。

　　老黄：ChatGPT在全球揭开了一个工作的原理，就是只要我知道了这个工作的基本逻辑是什么，就能够观察学习下一步工作。（背后数据处理逻辑是什么样的？）

　　伊利亚：我可以用另一种方式描述这一过程。未受监管的数据不是更关注数据来源，而是关注你一开始为什么要寻找这些数据。关键你要意识到，训练这些神经网络识别文本是值得努力的目标，因此要用更多信息、语法预测下一个字符，这就是我们最想做的事情。

　　04.

　　原理：海量数据是ChatGPT基础，

　　人类反馈更重要

　　老黄：这么多年来，你一直说扩大数据规模能帮助提高AI能力。你认为GPT-1到GPT-4的演变过程，是否符合摩尔定律？你对数据集的扩大是否有预期？

　　伊利亚：OpenAI的一大目标是如何正确地扩大数据集，如何提升数据的高精准度。

　　比较明确的是，我们当时在做Open AI项目的时候，希望它能做一些策略性游戏，比如一个竞争性的体育游戏，它必须足够快、足够聪明，还要和其它队竞赛。作为一个AI模型，它其实是不断重复了这样一个基于人类反馈的强化学习过程，我们希望AI得出的结果和全球冠军队进行对比，从而进行继续迭代学习。

　　老黄：人们有一定误解，ChatGPT只是一个很大的语言模型，但我相信背后是有一个系统。你是如何精准调控给予人类反馈的强化学习的？是不是有其它附属系统支持ChatGPT的表现？

　　伊利亚：我可以给大家解释一下，我们的工作原理是不断训练神经网络体系，让神经网络去预测下一个单词。

　　基于过去我们收集的文本，以及看上去像在学习。实际上ChatGPT不仅是表面上的学习，而是预测的单词和过去的单词之间达成一定的逻辑上的一致。过去的文本其实是投射到接下来的单词的预测上了。从神经网络来看，它更像是根据世界的不同方面，根据人们的希望、梦想和动机得出的一个结论。神经网络体系了解了我们的情况，做出了一些展示。

　　但模型还没有达到预期的效果。

　　作为一个大语言模型，真正想做的是从一个随机写作的文本，如何随便摘几个句子做前言，在此基础上，不需要做额外的训练就能让ChatGPT写出一篇符合逻辑的论文。所以，我们不是简单地根据人类经验完成AI学习，而是根据人类反馈进行强化学习。我们是在教AI，和AI交流。人类的反馈很重要，越多的反馈会使AI更靠谱。

　　所以除了第一阶段让AI具备预测下一个单词，第二阶段的人类反馈更加重要，这决定了世界是什么样的。

　　老黄：你可以让AI做某些事情，那么能不能让AI不做某些事情？比如说告诉AI界限在哪里？

　　伊利亚：可以的。我觉得第二个阶段的训练，就是和AI、神经网络去进行交流。我们对AI训练得越多，AI的精准度越高，就会越来越符合我们的意图。所以我们不断地提高AI的忠诚度、准确度，它就会变得越来越可靠、精准，而且越来越符合人类社会的逻辑。

　　05.

　　挑战：ChatGPT逻辑思维较死板，

　　“不懂装懂”也是大问题

　　老黄：GPT-4的表现非常让人震惊，它接下来会有什么样的改善？

　　伊利亚：GPT-4基于过去ChatGPT的性能做了很多改善。

　　我们对GPT-4的训练大概是从6-8个月之前开始的，GPT-4和之前版本GPT最重要的区别，就是GPT-4是基于更大精准度去预测下一个单词的，因为有更好的神经网络帮助预测，让人有更清楚的理解，与过去的直觉有所不同。

　　比如说你自己在读一篇推理小说，小说中有各种不同的人物和情节、密室、有谜团，你在读推理小说的过程中完全不清楚接下来会发生什么。在最后一页，你知道谁是凶手。通过小说不同的人物和情节，你会预测凶手有几种可能性，GPT-4所做的内容就像一本推理小说一样。

　　老黄：GPT-4展现出了逻辑推理能力，语言模型是如何学习到推理和逻辑的？它现在还有什么样缺陷，需要接下来的版本上更进一步优化？

　　伊利亚：神经网络或许会面临一些挑战，逻辑和推理无法更精准定义。神经网络或许有一些缺点，比如让它打破固有思维模式，这就是神经网络能走多远的问题。

　　我们认为GPT的推理确实还没有达到我们之前预期的水平，我们希望推理和逻辑达到更高水平。如果我们更进一步扩大数据库，保持过去的商业运转模型，它的推理的能力会进一步提高，我对这个比较有信心。

　　老黄：ChatGPT有一种自然而然的属性，它能够不断去理解。

　　伊利亚：神经网络确实有这些能力，但是有时候不太靠谱，这也是神经网络接下来推广面临的最大障碍。

　　在很多情况下，神经网络会夸张、犯很多人类根本做不出来的错误。现在我们需要更多的研究来解决这些“不可靠性”，这会帮我们比较精准的结果，或者让神经网络去学会说“我不知道”，这是当下面临的一个瓶颈。

　　（老黄：编造也是ChatGPT面临一个问题。）

　　现在GPT-4的模型已经被公开发布了，它其实没有追踪数据模型的能力，它是基于文本去预测下一个单词的能力，所以是有局限性的，是数据调节出来的结果。

　　有些人可能会让GPT-4去找出某些数据的来源，然后会对数据来源做更深入地调查。

　　总体而言，尽管GPT-4并不支持内部的数据收集，它肯定会在持续的数据深入挖掘之中变得更加精准。GPT-4已经能够从图片中进行学习，并且根据图片和内容的输入进行反馈。

　　06.

　　趋势：为什么要做多模态？

　　图片理解比文字高效

　　老黄：多模态学习如何加深GPT-4对于世界的理解？为什么多模态学习定义了GPT和OpenAI？

　　伊利亚：多模态为什么如此有趣，有两个原因：

　　第一，多模态是确实有用的。它在视觉和图像识别上特别有用，因为整个世界是由图片形成的，人们和动物都是视觉动物，人脑1/3的灰质都是用来处理图像的。GPT-4也能够去理解这些图像。

　　第二，随着我们对世界理解加深，通过图片或文字理解是一样的。这也是我们的一个论证，但不那么显而易见。对于一个人而言，我们可能一生之中只会说10亿个词。

　　老黄：也就是说我脑海中闪过10亿个词？居然有这么多。

　　伊利亚：是的，我们可以计算一下人一生的时间有多久，以及一秒能处理多少词，如果再减去生命中睡觉的时间，就能算出一生处理了多少单词。

　　人和神经网络不同之处，就是有些过去对于文本而言的话，如果我们有一个十亿级的词汇无法理解的话，可以用万亿级的词汇来理解。你问ChatGPT两张图片哪个是紫色和橘色，它能够回答。这就是我们对于世界的知识和信息，可以通过文本慢慢渗透给AI的神经网络。但如你加上视觉图片等更多的元素，神经网络可以更精准地学习。我不是想说神经网络学习图片、文字上更倾向于学习图片，一个人，如果在十亿级图片学习是更高效的。

　　老黄：我们想要人工智能智能去理解事物背后的深层含义，比如日常一句话语调差别可能导致不同含义。这些模态会不会对AI去理解文本有一定帮助呢？

　　伊利亚：是的，你说的这类场景非常重要。对于语音和语调，包括声音的大小和语气，可能它们对图像、文本没那么重要，但也是非常重要的信息来源。

　　07.

　　展望：加强可靠性，

　　不懂的事情要说“不知道”

　　老黄：根据你们公布的任务，GPT-4在哪些内容上比GPT-3做出了更多的进步？

　　伊利亚：比如说在一些数学竞赛上，如高中数学竞赛，很多问题是需要图表来解答的。GPT-3.5对于图表的解读做得特别差，而GPT-4只需要文本，准确率大约能从2%提升到20%。如果加入视觉进行推理和交流，能得到更好效果。或许在ChatGPT的新版本，我们会推出更多视觉交互模式。

　　老黄：AI是否可生成专属于AI的数据来自我训练，形成一个闭环的模型？就像我们人类通过自己不断地去学习外部的世界、通过自我反思、通过解决问题来去训练我们自己的大脑。

　　伊利亚：我不会低估这个部分已经存在的数据，甚至比我们意识到的数据更多。

　　老黄：你是否可以总结一下现在AI所的发展阶段？展望大语言模型的未来是什么样的？

　　伊利亚：预测未来是很困难的。我们希望提供更多令人感到惊艳版本的系统。我们希望提高数据的可靠度，让系统真正能够获得人们的信任；如果系统不能完成预期，就说“不知道”，这是我们现在最大的问题。

　　如果让生成式的AI去总结某一些文本，然后得出一个结论。在AI在解读这个文本过程中，不会去验证文本的真实性以及文本所说的信息的来源，这一点是很重要的。我们让神经网络必须要意识到所有数据来源的真实性，让神经网络意识到用户每一步的需求，这是我们对未来的展望。

　　老黄：你第一次使用ChatGPT-4的时候，有哪些性能让你觉得特别惊艳和震惊的？

　　伊利亚：简而言之是它的可靠性。

　　对比之前的ChatGPT版本，神经网络只会回答问题，有的时候也会误解问题，但是GPT-4基本没有再误解问题，会以更快的方式去解决数学难题，能够去处理复杂的艰难的任务，这个对我来说特别有意义。

　　还有另一个例子，它能够写押头韵的诗，也能够写押尾韵的诗。并且它能够去解释笑话，能明白这个笑话背后到底是什么样的原理。

　　总体而言，我在这个行业从业差不多二十多年了，特别让我震惊的是，它是有用的，可以给人类带来帮助的。它从最开始毫不起眼的工作领域，慢慢变得越来越强。同样的一个神经网络，通过两种不同的方式来训练，能够变得越来越强大。

　　所以我会有一个惊叹时刻：退后一步看，这些神经网络是如何去成长如此之迅速的？我们是不是需要更多的训练？它是不是会像人脑一样不断成长？这让我感觉到特别惊讶的方面。

　　08.

　　结语：算法算力数据20年迭代，

　　推动今天ChatGPT引爆全球

　　一项引爆全球的技术背后，是20多年的一个小畅想“火种”的不断进化迭代。技术创新的逻辑也并不复杂，“让机器预测下一个单词”听起来简单，但最终产品走向世界却经过了长达20年一批又一批人的研究努力。

　　通过老黄和伊利亚两位大佬的对话，我们看到ChatGPT已经能够满足不少理解和问答需求，多模态也将增强模型的效率。下一步，如何让模型更加可靠，保证信息真实性，同时让机器意识到自己“不知道”，这些问题都将成为研发重点。

　　可以预测的是，这一波ChatGPT带动AI的又一次跃进。不论上层应用能否蓬勃发展起来，智能算力需求无疑都将大大释放，老黄无疑又成了背后稳稳的赢家。

　　（本文系网易新闻?网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

　　原标题：《老黄20问OpenAI联合创始人：ChatGPT得益于数据爆发，让AI说“不知道”是难点》

　　阅读原文

<<深圳市物联网产业协会主办的“ChatGPT技术分析论坛”圆满举行

ChatGPT翻车了？用户信用卡信息惨遭泄露，开发公司已发文｜信息泄露｜信息安全>>

老黄20问OpenAI联合创始人：ChatGPT得益于数据爆发，让AI说“不知道”是难点

您可能还会对下面的文章感兴趣：

随便看看