cha

旷视科技研究院张祥雨:ChatGPT核心逻辑在于规模化效应

  本报记者 曲忠芳 李正豪 北京报道

  “ChatGPT自2022年11月发布以来,我基本上每天都在使用。我主要关注它的逻辑推理能力,而不仅仅是它拥有哪些知识。我认为,逻辑推理能力对判断一个模型是否达到了类似人的思维水平更重要。”近日,通用型对话机器人ChatGPT持续火热,旷视科技研究院基础科研负责人张祥雨在接受《中国经营报》记者采访时说道。

  张祥雨通过体验与观察注意到,ChatGPT在语言逻辑推理,尤其是在多轮对话以及高阶指代关系推理方面具有很强的能力。另外,它也存在一些问题,主要是在常识建模尤其是数学逻辑能力比较欠缺,对数字的敏感性(比如大小关系等)不强。“总体来看,ChatGPT的能力超出了预期。”

  针对当下全民关注ChatGPT的火爆现象,业界有一种较高的呼声是,它正在带动AI(人工智能)新一轮发展浪潮的看法。在张祥雨看来,引发AI新一轮浪潮的不止是ChatGPT——它只是大模型技术的一种应用,近几年自然语言大模型方面呈现跨越式发展的核心逻辑在于规模化效应。简单来说就是,在AI模型里,可以通过不断地增加数据、增加模型大小来实现性能的持续提升。

  就在2月24日,科技部高新技术司司长陈家昌在“深入实施创新驱动发展战略加快建设科技强国”发布会上表示,科技部下一步将把人工智能作为战略性新兴产业,作为新增长强擎,继续给予大力支持。在谈及ChatGPT形成现象级应用时,陈家昌指出,这表现出自然语言模型已具备了面向通用人工智能的一些特征,在众多行业领域有着广泛的应用潜力。

  “ChatGPT科研价值更大”

  自深度学习(Deep Learning)提出十几年来,业界很多人认为规模化效应“到头了”,因为随着模型的增大和数据量的增多,模型的收益逐渐递减,即所谓的“边际效应递减”——越增加数据,收益就越来越不明显,性价比就越低。张祥雨指出,这两年,在自然语言处理大模型上却出现了一个不同的现象,即当模型的参数量、训练数据量达到千亿量级时,模型的高级思维能力突然出现了跨越式的增长,这一增长是过去从来没有发现过的。现在大概在千亿量级这个参数“关口”,数据和模型量稍微增加一些,模型突然出现了原来不曾有的推理能力,还激发了一些之前往往被认为只有人类才有的能力,如思维链能力。当然,这背后还有诸如代码预训练等许多技术,共同推动了AI的跨越式发展。

  那么,ChatGPT将会对哪些行业产生影响呢?张祥雨表示,以现在ChatGPT它所代表的大模型的发展水平,最被看好的、最先落地的应用可能是智能搜索引擎,此外像各种文字编辑工作,以及各种垂直领域都有落地的潜力。当然在落地过程中可能也会遇到一些问题,比如说如何保证答案的精准程度,如何保证生成的内容是正确的,以及在部署推理的时候要怎么把这个大模型给用起来,真正做到高效并且降低运行成本,这都是落地时需要讨论的。

  “我认为,目前以ChatGPT为代表的AIGC(利用人工智能技术来生成内容),包括它背后的大模型的意义,不仅仅是在落地本身,在我看来它的科研价值可能更大。”张祥雨分析道, 科研价值主要体现在研究人类智能如何产生。从技术角度来看,AI大模型的设计和训练过程并没有专门针对智能做特殊的设计。它的逻辑推理、思维链、reasoning的能力,是研究人员通过大幅增加参数量、增加训练数据量的过程中突然激发出来的,这个现象是非同寻常的。其实这和生物的进化包括人类的进化史也是非常像的。这种突然产生的智能背后不是靠专门的设计,是模型自然而然所形成的。关于这一点到底要如何理解?现在“有智能”的大模型相对于原来“没有智能”的那些模型到底产生了哪些质变?这些都是非常前沿且有趣的课题,值得我们探索。

  与此同时,张祥雨也指出,规模化效应这条路线是否可持续,现在还很难说,需要业界共同去探索。当突破初步的逻辑推理能力瓶颈之后,或许很快会遇到规模化效应如何持续的问题,很可能通过增加数据量获得的收益会再次陷入非常少的状态。此外还要考虑算力的限制,现在大模型已触及算力的上限,如果硬件或者系统架构没有显著变化,模型想再上一个规模化会有很大困难。

  国产AI企业如何做?

  记者注意到,ChatGPT的成本投入引发了业内的关注与讨论。国盛证券研报的测算,ChatGPT仅访问算力和前期训练两项费用初始投入就近10亿美元,单日电费达数万美元,在公有云下,单次训练约为百万至千万美元。因此,如何降低大模型的训练成本,成为摆在AI技术公司面前的一道难题。

  张祥雨称,在过去一年里,其团队针对视觉模型的规模化做了许多努力和尝试,在提升视觉感受、不增加显存消耗方面取得了一些成效。同时也面临许多挑战,尤其是来自视觉和自然语言的差异成为最大的挑战。他认为,如何把视觉模型,尤其是视频这种具有时序性的、信息密度很低但是信息总量很高的数据有效利用起来,然后再设计相关的无监督、自监督的方法,让模型能够从中学到信息,这点非常关键。

  需要指出的是,旷视科技在2022年时就提出的“大”和“统一”是当下视觉AI系统研究的新趋势。张祥雨表示,旷视科技团队在2022年底通过一系列实验和验证,发现视觉模型“统一”的落脚点在于识别类问题和生成类问题的统一。具体来说,生成类的问题比如AIGC是通过生成式的模型产生的;而识别式问题比如传统的分类、检测、分割等,其实从原理上来说既可以用生成类模型来实现,也可以通过判别类模型实现。而为了简单,我们在视觉落地的时候一直用的都是判别式模型。但判别式模型有一个非常大的缺点,当模型很小的时候很好用,一旦需要规模化到很大的量级的时候,会发现它对数据尤其是人工标注的数据要求非常高。此外,它的规模化效应目前已经遇到了上限。这说明生成式模型能更好地利用数据本身的特点,尤其是可以更好地利用无标签标注的数据。

  据张祥雨透露,今年的核心工作重点是要用生成式的模型来实现整个视觉大模型的统一。旷视科技的布局思路是扎根具体的公司主营业务,包括智慧城市、AIoT(物联网)、智慧物流等几大主要场景,从每一个场景出发,先把“从物理世界中来,再到物理世界中去”的这条闭环跑通。只有形成了数据闭环、反馈闭环,模型得到的监督信号才会越来越多,才有条件把这个模型越做越大。所以,“大”和“统一”的趋势是不可阻挡的,是现在解决AI 赋能的主要思路,但要形成更大的规模化就必须要打通全链路,这无论是在商业布局还是在科研方面都必须要坚持的一点,就是要创造条件,想办法为模型做大提供契机。


您可能还会对下面的文章感兴趣:

登录 注册 退出