ChatGPT吹牛皮大赛,谁能胜出?
去年12月,咱们已经聊过一回ChatGPT。过了俩月,这东西更是红得发紫了。而且,在中国的泛IT圈,它掀起了一场前无古人的吹牛皮大赛!不信,您瞧瞧下面这些新闻:
咱们再看看所谓“ChatGPT概念股”里,某天股价长势最喜人的几家,赵丽蓉讲话:我瞅这些咋就不像唱评戏的呢?
当然,这里面肯定有认真消化和研究技术的实践者,不过在吹牛大赛的氛围下,除非产品问世,否则也就难辨雌雄了。
而对其中的吹牛选手来说,除非有一天虾酱也成了海鲜,他们与ChatGPT的距离,才会跟牛郎星和织女星的距离差不多。
我并不是大赛种子选手,当然也不是骂街来的。想知道吹牛大赛的结果,您得了解这项新技术的一些底层逻辑:它的初心是解决什么问题?它与之前的技术有什么进展?复现它的难度和门槛在哪里?理解了这些,到底谁是真冠军,谁是吹牛皮,您可以自行判断。
纯粹讲技术的干货,很多大佬写过,只是多数读者未必看得懂。所以,我想完全用浅显的例子和比方,帮大家粗浅地理解一下它的原理和背景。不过请谨记,这些并不是严肃讨论,只当是扩充一下茶余饭后的谈资吧。
ChatGPT这东西,是大语言模型的一种。有多大呢?大约1750亿个参数。您想想,一个参数就算4个字节,1750亿个......反正不老少的了!
没错,不光是ChatGPT,从2018年谷歌的Bert开始,当今的语言模型研究界就有个无奈的共识:大,才是真的好。这虽然是经过实践效果检验过的技术路线,但是具体到语言的建模,还是有一些根本原因。
长时间以来,人类对自己的语言本质到底是什么,一直是搞不大清的。一度大家认为,语言就是“语法结构 + 词汇”:词之间的关系框架确定了,再把词意套进去,就能明白一句话说的是啥了。所以在我刚进入AI领域的那个年代,对句子结构的自动分析和对词义的建模,都是自然语言处理的重要任务。
可是实际上,这个认识是有根本缺陷的!为什么这么说?您看看下面这一对句子:
稍微琢磨一下就能发现:第一句里的“他”,指代的是“儿子”;而第二句里的“他”,指代的是“爸爸”。这两句话的结构一模一样,只有一个字做了反义替换,为什么连指代关系都变了呢?很显然,仅仅靠这两句话本身的信息,是没法解释这样的理解过程的。也就是说,人类在理解语言的过程中,一定有一个庞大的常识和背景知识网络,在背后默默做支撑。
打个比方,要理解一句话的意思,字面上的信息只是冰山露出来的那一小块,而水面下还有庞大的一坨常识和背景知识,那才是理解的关键。细想想这也很好理解:一个人要善解人意,那总得见多识广,通晓世情,机器又何尝不是如此呢?
既然如此,何不干脆就把人类能收集到的各种语料,从教授讲课到泼妇骂街,从医学杂志到黄色网文,一古脑儿地塞到一个巨大的模型里,看看他能学出啥来,如果真学得有点模样,再去理解人类语言,是不是能有所突破?
一般人即使敢想也不会干,会干也玩不起,因为这个模型的规模实在是太太太大了!可是,谷歌有钱又敢干,他们在2018年出了个Bert大模型,庸俗化地说,就是上面的思路,这个模型一出,在学术界就引起了轰动,虽然说当时离今天我们看到的ChatGPT还有不少差距,但是在一些学术性指标上,把自然语言理解这个多年徘徊不前的任务,往前推进了一大步。
就这样,又一次在“大力出奇迹”的思路下,我们似乎看到了理解语言的一线曙光。
虽然ChatGPT也属于大语言模型的范畴,但是,它可能是第一个人类愿意坐下来跟它盘道的聊天机器人,产业里程碑的意义和影响力显然已经高于Bert这个前辈。
那么,ChatGPT有什么独门武功呢?是不是就因为模型更大,数据更多,才力压Bert的呢?不能这么说,虽然它们底层的一些技术如Transformer等一致,但是OpenAI在问题的定义上,一开始就选择了一条更根本、也更困难的道路。
与自然语言相关的任务有很多,比如翻译、客服、甚至是编程、写诗。我们好不容易搞了个大模型,怎么用在这些五花八门的任务上呢?
按照谷歌的设想,大模型只做通用背景知识的学习建模,目标也简单:从一个句子里扣掉几个词,让大模型做完形填空,看它是不是能填准。如果要解决某个具体领域的任务,那么就利用领域数据,把通用大模型捏咕捏咕,打造一个领域模型来用。
在这个路线下,如果有个初中数学答疑的领域AI,即使你问他什么数学问题它都对答如流,但是一旦跳出来问一句“今晚上你觉得我应该吃点啥”,会立刻不知所云,愤而死机。
那么,OpenAI是如何定义问题的呢?他们认为,不应该一个领域搞一个模型,而是应该根据聊天过程中用户的提示,也就是“Prompt”,随时灵活地切换任务模式。如果这个能实现,上面例子里从数学课里跳出来讨论晚饭的场景,你就不会觉得对面的数学特级教师瞬间变成二傻子了。
也就是说,谷歌的思路,是给你准备一个排的专业秘书,但是每人只会一样;而OpenAI的思路,是给你搞一个全能秘书,白天有事都是这秘书干。当然,晚上人家就不管了。
显然,后面这个难得多了。所以,OpenAI以前发布的模型,都没能达到比谷歌更惊艳的体验。然而这次,它显然是跨越了这个体验门槛。
其实仔细分析一下,就信息质量而言,ChatGPT胡说八道的地方还多了去了。但是,让大家感到惊艳的,是这家伙你问什么都接得住:翻译、编程、写作文,先不论结果如何,人家没有二傻子一样的盲区。而这就是OpenAI的问题定义长期努力的结果。
当然,除了这个更远大的目标,ChatGPT在学习技术上,也有一些效果很好的突破,其中最关键的是RLHF,“依据人类反馈的强化学习”。
这是句黑话,大家不用理它。实际上,它就是在大语言模型的学习过程中,加入了“模拟考试”的环节。
原来的大模型,就像是“题海战术”:把所有收集到的语料往里一堆,你自个儿练去吧。当然,见得多了,就算是没有老师点拨,这家伙的应试能力肯定也会提高。而这次的ChatGPT,加入了这么一个环节:你练完了,我找个老师跟你聊,看你哪句答得不像话,就给个小叉叉,这不就是模拟考试嘛!拿着这带小叉叉的试卷回去再题海战术,这么一轮一轮来,成绩提高得可就快了。
咱们这儿说说简单,上面这一大堆被我庸俗化了的思路,要变成具体的计算公式和解决方案,那可真不是件容易的事儿。绝不是只要有钱、敢吹就能搞定的。
说回中国IT圈的吹牛大赛。除了嘴皮子功夫,要在中国搞出ChatGPT水准的技术和产品,有哪些核心的门槛和难度呢?
依我看,这里有两个硬条件、一个软条件:
第一个硬条件,当然是把技术基本吃透。
这事儿,能实践参与的就不多:学术界因为算力和数据规模限制,靠自己的力量基本无法复现这些研究,最多也就是推推公式;产业界因为巨大的投入可能累及企业利润,能够大规模投入的也是凤毛麟角。
不过,我觉得这一点还只是时间问题:资本市场热成这样,牛皮也都吹了一通,成本上的顾虑已经不重要了。正如Yann Lecun说的,ChatGPT其实也并非在底层技术上有巨大突破,这话虽然有点酸葡萄,倒也还算比较公允。所以假以时日,几家大厂至少消化现有的ChatGPT技术,然后堆算力搞个中文版出来,我还是比较乐观的。
第二个硬条件,是数据的质和量。
说到这个,我们就不得不有点悲观了:首先,中文互联网总体的信息量,比起英文互联网有着数量级的差别。
除了数据的量,数据的质也有问题。我们知道,严肃的知识内容,比方说最新的科技期刊、金融分析等,几乎都以英文行于世。
巧妇难为无米之炊,从这个意义上说,即使是OpenAI原班人马搞一遍中文模型,我感觉在对话流畅程度、信息正确性等方面,也会有一定差距。这个倒也不是完全没办法——把英文的语料翻译过来就得了呗。不过那就还要依赖翻译的质量,这路就越走越绕了。
说个具体例子,要不是微软收购了GitHub,你以为ChatGPT能学会写代码?
当然,中文互联网也不是全无优势。ChatGPT解决的是个人机对话问题,人人对话数据显然是有直接价值的重要语料,而在这个领域,有家中国公司的数据,可以说在全球范围内那是蝎子拉屎——独一份儿。只不过,这家公司是否愿意积极投入基础研究,就不得而知了。
再说说软条件,这个我觉得才是最难的:发自内心的长期主义。
ChatGPT一出,所有的一二级市场,都蠢蠢欲动起来了。这两天,我也接到很多找我交流的电话,让我这个二手科学家都应接不暇。他们最急迫地想得到答案的问题是:这东西能在哪些商业场景落地?市场潜力有多大?
从这些问题里,我感觉大家有个误解:似乎随着ChatGPT的推出,自然语言和人机对话的研究,就到了关底了,得赶紧想想摘桃子、分蛋糕的事儿。
哪儿有那么容易啊!其实,这次的ChatGPT让很多做垂直领域自然语言处理的公司非常尴尬:前几年做法律文书的、广告文案的,你领域化深耕的哪个模型,现在还不如人家通用模型啦!这就好比大家一起去野外探险,发现个铜矿,有几位就赶紧掉队挖起来了,可是等人家再往前走找到金矿,您挖的那点铜,早没人要了。
我们上面也说了,ChatGPT的成功,某种意义上要归功于它开始就选择了一条更曲折但是更光明的道路。包括谷歌在内,这些一流团队的一个共同特质,是在完全看不见目标还有多远、遑论有什么商业模式的漫漫长夜里,还能坚定地努力,并不戚戚于大概率的失败。
这样的长期主义,才是今天中国的AI研究最需要的。否则,即使这回你跟上了,下回人家再发现个钻石矿,谁能保证你还一定能跟上?
当然,咱也不能站着说话不腰疼,这么做需要有足够的家底儿,要不然走着走着饿死了咋办。不过,对中国的一些大厂来说,连送个菜都能先砸几百亿,我觉得他们的家底儿根本不是问题。
好了,咱们聊了这么多,那么中国正在如火如荼举行着的ChatGPT吹牛皮大赛,结果将会如何,您是不是已经有了自己的判断?