cha

中国版ChatGPT,你会长成啥模样?

  2022年11月30日,美国人工智能研究公司OpenAI正式发布了一个名为ChatGPT的自然语言生成式模型,今年1月便已达到1亿月活跃用户,用户增长速度堪称史无前例。其优秀的通用性能力和逻辑推理能力,令人意识到人工智能的交互能力已经实现了跨越式进展。

  ▲在ChatGPT大獲成功的鼓勵下,中國版ChatGPT的到來並不遙遠。(周苑文製圖)

  事实上,ChatGPT之所以被人惊呼具有跨时代的意义,核心在于其大规模预训练语言模型、通过针对具体任务的句子示例或引导的模型微调和人机互动式强化学习以及背靠微软的强大算力。从这些维度来看,中国是否有能力创造出与ChatGPT相媲美的应用,而这款中国版的ChatGPT又将会呈现出什么模样?

  打造ChatGPT三要素:

  算力、数据和算法

  “一个大家都有的共识是,人工智能的三个基本要素是算力、数据和算法。算力可以理解为是背后的资金投入,数据其实是生产资源,算法实际上可以理解为人力资源也就是人才。”粤港澳大湾区数字经济研究院(IDEA)院长办主任陈志鸿接受本刊记者采访时说。

  在算力方面,OpenAI背靠微软,可用算力包括28.5万个CPU核心、1万个英伟达V100 GPU。据OpenAI早前对外曝光的ChatGPT训练成本显示,其离线训练成本达到1200万美元,千亿参数级语料包的语言大模型,训练一次的成本就要花掉460万美元。2月12日,国盛证券估算,今年1月,平均每天约有1300万独立访客使用ChatGPT,对应芯片需求为3万多片英伟达A100GPU,初始投入成本约8亿美元,每日电费5万美元左右。而GPT-3训练一次,成本约为140万美元,对一些更大的大模型,训练成本介于200万美元至1200万美元之间。

  陈志鸿告诉记者,“受中美关系影响,芯片供应出现了一些问题,ChatGPT的芯片需求大概是1万张英伟达芯片,然而目前中国,拥有超过1000张的公司或机构不超出10家,拥有1万张的更是只有1到2家。”

  数据上,资料显示,OpenAI于2018年6月推出GPT-1,使用了5GB的预训练数据,参数量达到1.17亿;2019年2月,发布GPT-2,使用了40GB的预训练数据,参数量达到15亿;2020年5月,继续推出GPT-3,使用了45TB的预训练数据(3000亿语料),参数量达到1750亿。

  鹏城实验室副研究员曾炜等人在2022年发布一篇论文中就提到,目前已有3个100GB以上规模的中文语料数据集,分别是爬虫公司Common Crawl抽取到的CLUECorpus2020,模型规模为100GB;阿里巴巴集团发布的M6中文多模态模型,规模为300GB;北京智源研究院面向合作者发布的300GB高质量中文语料。文章写道,“与目前同等规模参数量的英文预训练模型所使用的数据量相比,上面这些中文语料数据仍不能满足训练数据需求”。

  而在算法方面,ChatGPT的核心技术之一是由谷歌的人工智能的团队“谷歌大脑”发布的Transformer,是一种用于序列到序列(Sequence-to-Sequence)任务的神经网路模型,具有多个注意力机制,它能够在不同文本序列中学习和捕捉长期以来性和上下文信息,这种架构可以有效地处理自然语言生成任务,例如回答问题、完成文本生成等。通信行业教授级高级工程师钱鸿生博士撰写的《ChatGPT技术架构及中国人工智能未来发展趋势报告》指出,Transformer的精度和性能上都比之前流行的CNN(卷积神经网路)、RNN(循环神经网路)等模型,大幅提升了模型训练的效果,让人工智慧在更大模型、更多数据、更强算力的基础上进一步增强运算能力。

  中国信通院云计算与大数据研究所所长何宝宏接受《国是直通车》采访时表示,“我国大模型底层技术布局薄弱,虽然已涌现一批大模型,但均从谷歌提出的Transformer等基础模型衍生而来,当前大模型底层技术、基础架构均由国外头部企业掌握,且部分模型不开源仅提供接口服务,我国技术存在‘卡脖子’隐患。”

  中国版ChatGPT何时能够推出?

  对于“中国版ChatGPT何时能够推出”这个问题,记者首先问询了下ChatGPT本尊,它的看法如下:

  “中国在计算机科学、人工智慧和大数据等领域有着强大的实力和发展潜力,也拥有丰富的数据资源和计算资源,因此理论上说,中国有能力推出像ChatGPT这样的大型语言模型。但是,实现这样的目标需要大量的投入和努力,需要各方面的支持和助力。我们可以预期中国在自然语言处理和语言模型领域会有更多的进展和创新。”

  事实上,在ChatGPT大获成功的鼓励下,中国版ChatGPT的到来并不遥远。记者了解到,早在2020年,北京智源研究院曾推出超大规模智能模型“悟道”项目,阿里达摩院自研预训练模型框架ALICE。2021年,深圳鹏城实验室为首的联合团队,推出参数为2000亿的大模型“鹏程·盘古”,探索通用人工智能。目前,包括百度、阿里巴巴、科大讯飞、360等多家国内知名企业和研究机构都相继表态有相关业务的布局。

  不过业界共识是,中国目前大模型研发与OpenAI仍有差距,至少需要2年才有可能实现赶超,这需要大量的研究和开发投入以及对中文语言和文化的深入理解及应用。

  正如3月5日举行的十四届全国人大一次会议第一场“部长通道”上,科技部部长王志刚在谈及ChatGPT所举得两个例子,“同样一种原理,在于做得好不好。比如发动机,大家都能做出发动机,但质量是有不同的。踢足球都是盘带、射门,但是要做到梅西那么好也不容易。”

  (文/本刊记者 舒志勇)

  (原文刊登于2023年3月20日出版的香港《经济导报》,总3539期)


您可能还会对下面的文章感兴趣:

登录 注册 退出