发展“类ChatGPT”产品,科技企业缺“心”和“芯”
作者:盘和林 浙江大学国际联合商学院数字经济与金融创新研究中心联席主任、研究员,工信部信息通信经济专家委员会委员
2022年11月,OpenAI发布了ChatGPT,继而在短短2个月时间就获得了上亿用户。ChatGPT背后是2021年OpenAI发布的GPT3.0技术,由于在GPT3.0技术上做了一些优化,所以ChatGPT又被认为是GPT3.5版本,而在3月14,OpenAI再次发布了新版本GPT4.0,并将其作为plus订阅服务发布,新版本再次掀起热潮,订阅支付通道一度拥堵瘫痪。
ChatGPT一次又一次掀起热潮,是因为ChatGPT突破了人工智能应用瓶颈,未来以生成式AI为代表的人工智能产业将进入全面爆发阶段。面对科技的新一轮爆发,中国做好准备了吗?
GPT带来了什么?
ChatGPT是生成式AI,其通过机器学习来训练AI,用上一个字生成下一个字,再用下一个字生成下下个字。首先,ChatGPT采用非监督式学习,用海量语料来教会AI说话方式。随后,ChatGPT用监督式学习来辅助矫正语言规范,通过标注语料进行机器训练,让ChatGPT知道面对某个问题应该如何生成回答。最后,当ChatGPT能够回答问题,逐字生成答案的时候,再用强化学习来给ChatGPT的回答打分。简单说,通过填鸭式的非监督学习,ChatGPT学会了说句子,通过范例的、预标注的预料进行监督式学习,ChatGPT学会了回答问题,再通过强化学习来了解人类的“回答偏好”,多给高评分的答案。
为什么ChatGPT需求爆发,而其他AI没有。总结看,ChatGPT有几个独到之处:
其一、ChatGPT是大模型。对监督式、非监督式、强化学习的原理,在AI产业里早已是常识性的技术认知。但自然语言处理这个领域太过复杂,因为人类说话非常随机,所以之前AI企业将机器学习用在很多领域,语音识别、机器视觉、图像识别(人脸、医学影像)、蛋白质特征预测、文本识别等等,但很少将机器学习用在自然语言处理。“念头往往一闪而过,但付诸实施的往往是少数”。而OpenAI耐着性子竟然坚持了下来。
二、ChatGPT是机器学习,不是数据库。普遍以来,AI领域认为机器学习不适合自然语言处理,所以一直以来,自然语言处理采用逻辑推理的AI实现方式。建立一个语料数据库,在语料数据之间建立关联性,比如知识图谱,再通过逻辑搜索的方式,从数据库中找到对应答案。但ChatGPT并没有数据库,ChatGPT采用机器学习,是一种AI能力集成,而不是一个数据库集成。也正因为ChatGPT的这个属性,ChatGPT并不局限在文本对答。也正因为如此,ChatGPT能够进入任何领域,比如和搜索结合,比如和办公软件结合。当前尤其善于处理文本,比如编程和学术教育领域,ChatGPT的功能几乎是通用的。ChatGPT具备完善的表达能力,且通过对不同领域内容的学习,ChatGPT最终会变得无所不能。而这些在数据库和逻辑搜索下是无法实现的。
其三、ChatGPT有强大的上下文语义理解能力。用户可以让ChatGPT扮演角色,ChatGPT可以在用户引导下故意给出“符合用户要求”的错误答案。用户在提问的时候,ChatGPT也会引导用户补充问题信息,并最终给出符合逻辑的答案。过去我们遇到的AI聊天软件有两种:一种是基于数据库的,必须按照数据库给定的提问方式,另一种是基于机器学习,但只是一问一答。结合上下文语义理解的ChatGPT能够更好的找到用户的需求点,给出适合用户最想要的答案。
综上,ChatGPT的强大在于,其本身是一种机器能力,而不是数据库,ChatGPT自身的语义理解能力、语言组织能力、搜索能力才是其本质,这也使得ChatGPT可以套用在任何领域。而对于人类来说,ChatGPT是提升人类认知水平的一个重要工具。
人类之所以区别于其他动物,关键点在于人类的知识是可以传承的,这使得人类通过知识传承积累来实现发展。到工业革命前期,古登堡印刷机成为科技进步的催化剂,除了代代相传知识积累,人类拥有了新的知识积累工具,打破认知局限性,所谓“好记性不如烂笔头”,有了纸张就可以将知识记录下来,从而加快积累速度。再后来,信息时代出现互联网,纸张逐渐被数据存储器取代,信息时代是“数据要素”驱动的时代,数据里包含信息和知识,海量信息和知识存储在互联网上,人类通过搜索便捷获取,知识的堆积再一次提升人类认知水平。
那么ChatGPT呢?互联网持续繁荣,人类面临的难题已经不再是信息、知识获取,与此相反,人类现在处在信息过载,莫衷一是的状态。所以互联网时代,最为重要的一种能力是“搜索力”,是如何通过算法和搜索在浩如烟海的互联网信息中找到答案的问题。ChatGPT提升了人类的搜索力。当ChatGPT嫁接到搜索引擎之后,ChatGPT就能从海量信息中迅速找到你要的信息,比如你是程序员,ChatGPT可以以自身能力组织出一段代码,也许这段代码的很多段落零散的分布在各类网站上,ChatGPT减少了你浏览各类网站找代码范例的时间。同样的情况,也可以发生在PPT制作,论文书写,考试答题上。
当然ChatGPT并不局限于搜索力,它不仅能找到知识点,还能通过自己的语言能力表达出来。比如和办公软件结合。你有一组数据,想做一个PPT,有了ChatGPT,可以直接生成若干方案。
综上,ChatGPT对于人类是一种能力加持,一种能够大幅度提高人类生产力的工具性能力。
ChatGPT的中国式难题
如果ChatGPT是一种生产力提升工具,那么拒绝生产力工具是不明智的,中国需要生产力工具。人类社会的每一次科技进步,最终结果都是人类去适应科技。在工业时代,少部分国家采用闭关锁国的方式来对抗科技进步,但最后多以失败告终。所以对于中国,ChatGPT是需要的。但围绕ChatGPT,依然存在几个问题:
问题一:自力更生等待国产ChatGPT,还是引进ChatGPT?
现阶段直接引进ChatGPT存在制度上的障碍,因为ChatGPT是生成式AI,它背后不是数据库,它会随机生成答案,而有些随机生成内容是违规的,比如被别有用心的用户引导给出了“恐怖主义”言论。当然,ChatGPT也是可以调教的,前面说过,生成式AI可以通过范例的预标注词条进行监督式学习,也可以通过评分来规范回答,但ChatGPT的母公司OpenAI毕竟是美国公司,美国和中国存在很大的文化差异,这些文化差异会让ChatGPT在中国出现水土不服甚至犯法。
但反过来说,国内如今缺少ChatGPT的对标产品。比如百度文心一言,在中文内容应答方面和ChatGPT不相上下,但如果你将场景切换到编程代码,实际上百度文心一言和ChatGPT有很大差距。换句话说对生产力支持方面,百度文心一言有欠缺。故而,如果你不让ChatGPT进来,那么就没办法短期内提高生产力。而你要ChatGPT进来,则需要适配规则提高对生成式AI内容生成的包容性。
进一步可以演化为两个选项:一个选项是通过特别规则来引进ChatGPT,人工智能不具备主观恶意,回答是“有口无心”,给予适度包容,让ChatGPT和国内各个领域迅速结合,提升生产力水平,当然,也要对教育等领域进行改革,以适应ChatGPT带来的改变。另一个选项是先拒绝ChatGPT,等待未来国产ChatGPT的平替产品。OpenAI成立至今不到10年,却已有如此成就,ChatGPT的形成原理并不深奥,关键还是要大量资金、人才、时间去烧出一个技术未来,需要排除万难持续投入,通过“你追我赶”,预期未来5年内必然出现类ChatGPT的产品。
问题二:中国科技企业在研发类ChatGPT过程中的瓶颈在哪?
在生成式AI领域,中国科技企业缺两个东西:一个是心,是耐心和信心。另一个是芯,是算力芯片。
为什么说缺耐心和信心?
耐心方面,不只是中国企业缺,实际上在OpenAI推出ChatGPT之前,美国硅谷科技巨头也缺耐心,比如一直标榜人工智能领头羊的谷歌仓促应战,结果产品体验并不能达到用户预期,结果谷歌股价暴跌。最近几十年,机器学习是人工智能领域的显学,尤其是深度学习等算法,但之前大多数科技企业都因为生成式AI投入周期长,成本高而忽视了这条路线。企业的本质是盈利,会考虑成本效益问题。而OpenAI比较特殊,他之前是非盈利组织,后来微软入主,转变为有限盈利组织,微软只负责给钱,不干预研发,OpenAI从从容的在几年内烧掉超过40亿美元的资金,未来还要烧掉百亿美元资金优化。
OpenAI在一个细分领域投入如此集中,周期如此之长,且在之前并没有体现出应用价值,而ChatGPT的能力一旦表现出来,尤其是其对接更多应用的接口能力。便出现“十年寒窗无人闻,一朝成名天下知。”的状况。而当前聚拢到生成式AI的科技公司,无一例外的需要再走一遍OpenAI走过的路,所以耐心是必须的。比过去更好的地方在于,我们已经看到生成式AI的前景,当前这个领域不乏资本支持。
耐心之外,还有信心。导致中国科技企业信心不足的原因如下:
其一、很多AI领域的从业者认为:当前中文互联网存在高质量语料不足的问题。这个问题的因素很复杂,但换个角度看,中国需要在高质量语料数据上投入更大成本。
其二、很多AI领域的从业者担心合规性问题。和ChatGPT引进的问题类似,谁都担心自己辛苦开发的成果不能应用。但这里并非无“技”可施。监督学习和强化学习本身会规范生成式AI的生成,法规只需要对少数情况给予适度包容即可。比如用户恶意引导AI“非法回答”要明确是用户的责任。
其三、很多AI领域的从业者担心算力受制于人。之前英特尔就A100显卡曾有过对华禁售,而ChatGPT成功的背后是微软为其部署的超过3万张的A100显卡,智算中心算力需求和数据中心并不相同,其核心主要还是在GPU芯片,我国在高端芯片上的瓶颈会限制中国生成式AI发展。
综上,中国“类ChatGPT”产品还需要算力、数据上的支持,也需要制度、法规上的支持,面对科技革命,我们依然要落地到软环境和硬环境两方面,软环境就是合规性和产权规则,只有明确制度规范才能让企业有信心加大投入,所谓“恒产者恒心”。硬环境就是硬件设施,就是算力和数据上的支持。
综上,生成式AI的时代已经到来,AI从玩具转变为工具。由于ChatGPT经历过用户使用验证,所以生成式AI必然不是一阵风的热点概念,而是长期的、重要的科技高地,其产生意义可能类似于互联网,是改变人类生产力水平的关键应用。面对如此大的科技变革,中国需要抓紧转向去适应科技的变化,将科技转化为生产力,为我所用。与此同时,我们也要不忘初心,牢牢抓住“自力更生”这一点,提升我国在这一领域的技术自主能力。我们需要对生成式AI发展保持耐心,因为这是一个长周期的投入过程,生成式AI不能一蹴而就,当前要做的,是优化好环境生态,一步一个脚印,推动生成式AI产业发展。