ChatGPT热潮背后的冷思考:应加大各类大模型的投入
本报记者 李静 北京报道
近日,由美国人工智能实验室OpenAI发布的一款人工智能技术驱动的自然语言生成式聊天机器人——ChatGPT迅速火遍全球。紧随其后,国内外多家知名科技公司也相继宣布推出自己的相关应用,争先恐后入场。
热闹的ChatGPT背后,中国科学院院士褚君浩、中国工程院院士蒋昌俊等专家,近日在科创中国数字经济技术创新峰会上发表演讲指出,以智能化为特征的第四次工业革命已经发生,ChatGPT就是这次工业革命的一个标志性成果。但需要看到的是,我国人工智能产业链结构偏重于应用端,在产业基础和感知能力方面受限较多,这一短板亟待补长。
“ChatGPT热闹的背后,我们更应该关注对各类大模型的投入。”中国智能体图谱第一人、北京大数据协会理事、北京融信数联科技有限公司(以下简称“融信数联”)副总裁张广志博士对《中国经营报》记者表示,“ChatGPT是基于GPT-3.5架构的大模型所产生惊艳效果的典型代表,可以说是全球科技创新进入空前密集活跃时期的划时代产物。ChatGPT与之前常见的语言模型相比较,通俗说来就是导弹与弓箭的区别。当前,国际主流研究机构已经全面拥抱大模型,我们一定要引起最高程度的重视。”
知识生产新模式加速形成
张广志表示,ChatGPT之所以能在全球迅速掀起浪潮,就在于“Chat”作为“大模型”的分支之一,与工业、政务等其他垂直细分领域的“大模型”相比,给公众带来了更加强烈的参与感和效果冲击,代表着一种以人工智能为基础的知识生产新模式正在加速形成。
ChatGPT和之前的聊天机器人或者智能客服的不同之处,就在于ChatGPT的数据集十分广泛,并能满足垂直领域切分,比如绘制表格,同时还有大量的人工标注和训练,以及巨额的硬件设备投入。“这是非常烧钱的。”张广志说。
何为大模型?举例来说,控制一个灯的亮或不亮只需要一个人按一个开关就可以,这是一个简单的小模型。但如果想要实现一个灯可根据时间、人的状态等变量因素,调整到最宜人的亮度则完全不同,这需要将包括色温、色差、亮度等在内的多个维度同时配合。而这可能需要用到成百上千的“开关”,才能实现最佳的“亮灯”效果。因为涉及的数据量十分庞大,是难以用人力去完成的。这即为“大模型”,这里的“开关”只能通过计算机来计算大量的数据去实现。
而所谓的数据集,也就是以大数据为代表的各种资源对其的“喂养”和训练。比如,ChatGPT中文的很多训练语料很可能就来自各类中文平台。所谓人工标注,简单地理解,就是由人工去对数据内容进行整理、分类等。例如,人告诉机器这是一个杯子,它就会将其识别为一个杯子。正是因为投入巨量的资源,越来越多类似的标注、训练和反复纠错,人工智能才会更加智能。
张广志表示:“从某种层面来说,ChatGPT的用户也是在帮它进行人工标注,这将使其更聪明。”
大模型训练投入应不遗余力
据国盛证券发布的《ChatGPT需要多少算力》报告估算,GPT-3训练一次的成本约为140万美元。而对于一些更大的LLM(大型语言模型),训练成本则介于200万美元至1200万美元高价之间。以ChatGPT在2023年1月的独立访客平均数1300万计算,其对应芯片需求为3万多片英伟达A100 GPU,初始投入成本约为8亿美元,每日仅电费就在5万美元左右。
“以ChatGPT为代表的人工智能,在很多专业领域做的工作比人要强得多,因为人会因为各种各样的原因而出错,机器则不会。但它会犯一些2岁小孩子都不会犯的错误。”张广志说道。很多人担心人工智能最终是否会如好莱坞大片中的剧情一样取代人类,这其实完全不用担心。因为人是自然界的高级智能代表,而这正是人工智能所不具备的。
“科学界一直以来都在计算π的值,但至今尚未算尽,这说明自然界并不是被某种力量安排或控制的,而是由随机性产生的。但计算机系统却是人为创造出来的,是伪随机的,这是由其电子性能所决定的。就如同计算机生成不了一个随机数。现代计算机按照人的要求所生成的随机数,实际上是根据当下的时间值所得出的,也就是说它是以时间为基础、因时间而改变的,这是可以被计算和复原出来的。而人一秒钟内则可能产生很多个想法,完全是随机。人会冲动,而计算机不会,它的一切都是有根据和理性思考的。”张广志说。
“ChatGPT热闹的背后,我们更应该关注对各类大模型的投入。”张广志表示,“伴随云计算、物联网、大数据、5G等数字新基建的大量投入,以及对大模型的不断训练,包括ChatGPT等在内的一系列人工智能技术和应用,将实现更大的发展。”
伴随ChatGPT的横空出世,一时间谷歌、百度、京东等科技巨头纷纷推出了自己的相关应用,为此,有人质疑是在跟风而上。“事实上,国内很多科技公司已经有了大量的相关技术和应用储备,只是大家将人工智能应用到的技术服务领域以及对大模型的训练方式不同而已。但大模型的理论核心是一样的。”张广志谈道。
事实上,张广志所在的融信数联推出的智能体图谱也是基于大模型开发的,并且服务于B端(企业)和G端(政府)的技术流派,目前已在多类应用场景得到充分验证和良好应用。
“智能体图谱也是将大量的数据有机地组成一个有机体,让数据像生命一样不断学习,使数据不仅可以真实反映人们的生产生活,还可以为政府、企业等提供建议,乃至决策和执行。”张广志说。对智能体图谱而言,其数据来源主要是数字化的自然人、数字化的法人机构、数字化的智能设备三大类。所谓数字化的人,即自然人通过一系列的行为所产生的数字画像;数字化的法人,即政府机构、企业单位等法人单位;而数字化的智能设备则包括工业机器人、摄像头等在内的一切物联网设备。