轩讲：我们用ChatGPT做了一期节目｜谷歌｜轩讲｜自然语言处理

2023-02-22

　　大家好，我是谷智轩。要说最近网上最火的东西，莫过于ChatGPT了。其实我们在去年讲AI绘画那期节目里，就简单介绍过这个智能聊天程序，当时还叫GPT-3。如今，经过迭代的ChatGPT，已经成为一个现象级的应用，似乎人工智能从未离我们如此之近。我们在使用了一段时间以后不得不说，这个程序的能力非常强大，既可以和人进行普通的聊天，也可以帮你写文章、写代码、创作诗歌、回答专业性的问题……不仅如此，ChatGPT还会承认自己的错误，甚至敢于质疑提问者的错误，拒绝回答不合理的提问。免费开放两个月以来，它的用户就破亿了，堪称历史上增长最快的消费者应用程序。ChatGPT的问世，更是引发了一波AI投资的热潮：谷歌发布聊天机器人Bard；微软宣布接入ChatGPT；在我们国内，百度、华为等科技企业也纷纷宣布，正在开发自家的聊天机器人，国产版ChatGPT呼之欲出。本期《轩讲》就来聊聊，ChatGPT到底灵不灵？它将会如何改变我们的生活？

　　我们先来看谷歌在2017年发表的一篇著名论文，叫《Attention Is All You Need》。论文中，谷歌提出了一种基于注意力机制的新型神经网络架构——Transformer。在Transformer之前，自然语言处理中使用的模型，主要是循环神经网络（RNN）和卷积神经网络（CNN），虽然这些模型在机器翻译等任务上取得了很好的效果，但它们在处理长序列数据时，依然存在不少问题，比如长期依赖性难以捕捉，计算效率低下。而谷歌的研究员在论文中，详细解释了Transformer如何克服这些缺点。

　　轩讲：我们用ChatGPT做了一期节目｜谷歌｜轩讲｜自然语言处理(图1)

　　Transformer使用了一种叫做“注意力机制”的方法，通过对每个位置上的单词进行自注意力计算，使得模型可以为不同位置的单词赋予不同的权重，从而更好地捕捉输入序列的上下文信息。听懂的小伙伴可以扣个1。听不懂的，我们来看谷歌工程师用来解释“注意力机制”的运作原理，而提出的两个句子：

　　第一句：“Server, can I have the check?”（服务员，结账）

　　第二句：“Looks like I just crashed the server.”（我的服务器好像崩溃了）

　　英文单词“server”在这两个句子中，具有完全不同的含义。人类可以通过观察它周围的单词，以及上下文的语境，来轻松消除歧义。而通过“注意力机制”，神经网络也可以根据周围单词以及上下文，来准确理解一个单词。当模型处理到第一个句子中的“server”时，可以通过注意后文的“Check”，来区分人类的服务员和金属的服务器。而在处理第二个句子时，神经网络则会通过注意“crash”，来把“server”的含义指向服务器。

　　轩讲：我们用ChatGPT做了一期节目｜谷歌｜轩讲｜自然语言处理(图2)

　　谷歌的这篇论文发表以后，Transformer架构开始被广泛应用于各种自然语言处理领域。2018年，OpenAI提出了基于Transformer的自然语言处理模型——Generative Pre-trained Transformer，简称“GPT”。

　　开发GPT，首先要解决的问题是，如何使用未标记数据与少量标记数据，通过“自监督学习”来应对广泛的任务。在这之前，大多数自然语言处理模型，都是通过“监督学习”来训练的，主要是用于像分类、翻译这样特定的任务。然而这种训练方式，存在两个问题：首先是在现实生活中，标记的数据很难获得，因而在提高模型的准确性方面存在局限。其次就是，它只能执行特定的任务。

　　而GPT使用“自监督学习”方法，可以通过自己的生成结果，来评估自己的准确度，并不断地进行自我调整和优化。在训练的过程中，模型会在输入文本里，随机遮盖一些单词，然后要求模型预测，这个被遮盖的单词是什么。比如说，输入文本马冬梅，模型会自己遮盖住“马”，再预测是什么冬梅，然后对自己预测的结果进行评估。下一步，模型还会自己遮盖住“冬”，然后预测是马什么梅，同样对自己预测的结果进行评估。接下来，模型还会遮盖住“梅”，然后预测是马冬什么，对自己的结果进行评估。就像是一个人背单词、背古诗一样，语言模型不需要人工注释，就可以自己监督自己学习。所以，只要能收集到大量的句子，就可以通过大量的学习，来提高机器预测句子的能力。OpenAI团队的论文显示：GPT-1在12个任务中的9个里，表现都优于经过监督学习专门训练的模型。

　　轩讲：我们用ChatGPT做了一期节目｜谷歌｜轩讲｜自然语言处理(图3)

　　2019年，OpenAI团队继续基于Transformer架构，推出了GPT模型的升级版——GPT-2。GPT-2比GPT更为强大，能够生成更加连贯、有条理的文本。次年，OpenAI推出了GPT-3，拥有1750亿个参数，性能有了显著的提升，可以生成更加逼真、多样化的文本，同时能够有效地处理各种自然语言处理任务。GPT-3的出现，进一步加强了自然语言处理领域的预训练技术，也带来了更多的研究和商业应用的机会。

　　到了去年，OpenAI发布改进版的GPT-3模型——GPT-3.5，使用了与GPT3相同的神经网络架构，但是进行了更大规模的训练，使用了更多数据，并且经过了更深层次的优化，从而在多项自然语言处理任务中，获得了更好的性能。GPT-3.5达到了1.75万亿个参数，是GPT-3的10倍，因而可以处理更大规模的语言数据。同时，GPT-3.5还对一些技术细节进行了改进。这次的ChatGPT，正是基于GPT3.5模型推出的。

　　ChatGPT使用了基于人类反馈的强化学习（RLHF），在实际的对话中，根据其当前的状态，包括对话历史、上下文等，生成一条回复，让人类评估者对回复进行评分，评分可以是好、中、差等级别的评价，也可以是更具体的分数评价。收到反馈后，ChatGPT将人类评估者的反馈作为奖励信号，使用强化学习算法，更新自己的模型参数，从而使其在未来生成回复时，更加接近人类预期的表现。如果评估者给出的评分高，就增加ChatGPT生成该回复时的权重，如果评分低，则降低权重，以此来影响ChatGPT后续生成回复的行为。

　　举个例子，输入“爸爸的爸爸叫”，模型的输出可能有两个结果，一个是“爷爷”、另一个是“什么”，这两个结果在语法上都是通顺的。但是显然，前一个答案才是人类更需要的结果。为了让AI的回答更加符合人类的需要，人类训练师就对这两个结果进行权重的排序，让“爷爷”大于“什么”。通过这种方式，ChatGPT可以根据实际对话中的反馈，不断调整自己的模型参数，从而提高对话的质量和流畅度。同时，基于人类反馈的强化学习，还可以使ChatGPT更好地理解人类语言，更好地处理一些复杂的对话场景。经过改进后的ChatGPT，相比于原始的版本，已经有了巨大的进步。

　　轩讲：我们用ChatGPT做了一期节目｜谷歌｜轩讲｜自然语言处理(图4)

　　ChatGPT问世后，我们媒体是首当其冲的行业。从去年11月以来，科技新闻网站CNET使用ChatGPT以假乱真、偷偷撰写整篇文章，但几个月后事情被曝光，CNET也受到了巨大的争议，也有舆论质疑AI创作存在剽窃的嫌疑。后来，CNET不得不在文章的最后加上“编辑声明”，告诉读者文章的写作中借助了人工智能引擎。此外，CNET也发现，AI写的文章里面，也存在不少错误。比如说一些报道里，公司的名称不完整、数字颠倒，或者使用一些含糊不清的语言，这些问题都需要编辑在后期进行人为的更正。

　　轩讲：我们用ChatGPT做了一期节目｜谷歌｜轩讲｜自然语言处理(图5)

　　而在使用的过程中，我们也发现了ChatGPT存在着一些局限性。我们来看ChatGPT给出的这段富有哲理的话：“历史是反复出现的，因为人性的本质没有改变”、“透过现象看本质，理解人性的基本规律，才能更好地理解社会和历史”、“当我们不再追求所谓的道德高地，而是更加注重解决实际问题，才能真正做到改变世界”……你一定猜不到我问的问题是什么。问题是：观察者网的谷智轩在《轩讲》节目中，说过哪些“名言”？ChatGPT这一通输出，直接让我产生了自我怀疑，我一个B站UP主，怎么就成了“当代苏格拉底”了呢？但实际上，这些话我一句都没说过。这也是ChatGPT现在的不足之处，当遇到不懂的问题的时候，AI经常会装懂，甚至胡编乱造，像极了某个国家的前领导人。这就导致，用它来搜集信息的时候，经常会出现一些误导人的答案。

　　轩讲：我们用ChatGPT做了一期节目｜谷歌｜轩讲｜自然语言处理(图6)

　　再比如，我们让ChatGPT根据我们的要求，写了一篇关于“调休制度”的诗。它给出的回复，虽然还是有些整体不通顺的地方，但也算是有诗歌的样子了。此外，AI还可以根据我们的要求，改变诗歌的格式，比如变成七言诗，或者换一种语言，改编成日本的俳句。不过我们也发现，AI现在还并不能很好地理解押韵，这也算是现在还不足的地方。

　　轩讲：我们用ChatGPT做了一期节目｜谷歌｜轩讲｜自然语言处理(图7)

　　我们媒体工作者，每天都需要接触大量的外媒报道、浏览外语文献，所以比较关心ChatGPT的翻译能力。我让ChatGPT翻译了一段外交部发言人毛宁在记者会上的发言，AI给出的结果大部分没有问题，但却在人名的翻译上，犯了即使是普通翻译软件，也不会犯的低级错误。翻车的原因，是ChatGPT的数据库只截止到了2021年，库里没有新发言人的信息，所以就没有办法给出准确的回答。看来在短期内，ChatGPT还没有办法完全让我失业，我还能再苟一阵。

　　轩讲：我们用ChatGPT做了一期节目｜谷歌｜轩讲｜自然语言处理(图9)

　　除了翻译错误之外，ChatGPT在回答一些其他的问题上，同样容易犯简单的错误。比如说，我向它咨询特斯拉公司最新的市值，它告诉我：截止到2023年2月15日，特斯拉的市值是1.99万亿美元，数据显然是错误的，实际应该是6000多亿美元。我问ChatGPT，为什么会给出错误的答案，它还是说，这是因为数据库只截止到2021年的9月，没有办法得到最新的市值数据。然而，这个说法也有问题，因为特斯拉的市值，最高也就在1.2万亿美元左右，从来没有达到过1.99万亿美元。当用户向它咨询一些可能超出了它能力范围的问题时，ChatGPT就会开始胡编一个答案，如果不进行相应的查证，可能就会被人工智能给误导。

　　轩讲：我们用ChatGPT做了一期节目｜谷歌｜轩讲｜自然语言处理(图12)

　　在处理一些数学计算问题的时候，ChatGPT也给出了错误的答案，比如：114514乘以1919810的结果是多少，ChatGPT给出的答案和正确的答案有些接近，但实际上却是错误的。ChatGPT解释，这是因为它的内存和处理能力有限导致的问题。我知道屏幕前有不少同学，都在幻想用ChatGPT帮忙写作业。注意了，它可能改变不了“学渣”的身份。

　　轩讲：我们用ChatGPT做了一期节目｜谷歌｜轩讲｜自然语言处理(图16)

　　但不管怎么说，ChatGPT的出现，依然是AI领域的一件大事。过去的人工智能技术虽然发展迅速，但科技公司大多是“烧钱做研发”的状态，AI的应用局限于安防、人脸识别之类的领域，始终缺乏合适的落地场景。

　　而ChatGPT的出现，代表着人工智能技术已经越来越成熟，能够实现更加自然、流畅的对话交互，从而更好地服务人类，也为人工智能的商业化，提供了广阔的应用前景。比如说，可以用于客户服务、营销推广、智能客服，实现更加便捷、高效的人机交互，为企业节省用人成本。此外，还可以集成到搜索引擎里，帮用户节省查找资料的功夫，更快地找到有用的信息；也可以集成到类似RPG、GalGame等游戏里，让游戏里的角色，可以不再根据设定好的脚本对话，提供更开放的游戏体验。虽然ChatGPT目前还存在着很多问题，在对话质量的稳定性、对多语言的支持、隐私保护等方面，都需要进一步优化和完善。但是，这些问题都可以通过技术创新和不断的实践来解决，ChatGPT的商业化应用前景依旧十分广阔。它的出现，绝对称得上是人工智能发展的一个重要里程碑，值得我们期待和关注。

　　那么回到我们的主题，这期节目的部分内容，就是使用ChatGPT来撰写的，各位可以猜一猜，哪些是出自它之手。点赞投币加关注，我也不会告诉你，我这饭碗能端一天是一天。

　　好了，本期《轩讲》就到这儿。这档节目固定在我的个人号发布，带你一起走在时代的前端，每周两更，一般是在周三晚间和周六早上，还请各位点个关注、不吝一键三连，我们下期再见！

　　特别声明：以上文章内容仅代表作者本人观点，不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。

<<ChatGPT引发人才迁徙：谷歌AI人才大军流向OpenAI

轩讲：我们用ChatGPT做了一期节目｜谷歌｜轩讲｜自然语言处理

您可能还会对下面的文章感兴趣：

随便看看