思必驰联合创始人：ChatGPT是继Alpha Go之后最大的里程碑进步

2023-03-07 137

　　|| 本期访谈人物 ||

　　苏州国际科技园毕业企业——思必驰

　　联合创始人兼首席科学家俞凯

　　“GPT是人工智能发展的一个集中式突破，包括对话智能技术、深度学习大模型技术、工程化能力以及大数据的整体突破。”

　　个人介绍

　　思必驰联合创始人兼首席科学家、上海交通大学教授。清华大学本科、硕士，剑桥大学博士。

　　入选国家级重大人才工程，上海市“东方学者”特聘教授。

　　IEEE Speech and Language Processing Technical Committee 委员（2017-2019），中国计算机学会语音对话及听觉专委会副主任，中国人工智能产业发展联盟学术和知识产权组组长。世界顶尖科学家论坛（World Laureates Forum）青年科学家委员会委员，全国信标委用户界面分委会委员。

　　发表200余篇国际论文，获得多个国际研究挑战赛冠军，担任Inter Speech、ICMI等国际会议程序委员会主席和ACL、NAACL、EMNLP等国际会议对话交互领域主席。

　　曾获中国人工智能学会吴文俊人工智能科学进步奖、中国计算机学会青竹奖、2016年《科学中国人》年度人物。

　　第一标签

　　引领人工智能领域发展的长期主义者

　　公司简介

　　思必驰基于自主研发的全链路智能对话系统定制开发平台和人工智能语音芯片，围绕“云+芯”进行布局，提供软硬件结合的人工智能技术与产品服务，在智能家电、智能汽车、消费电子等物联网领域以及数字政企领域，提供智能人机交互软件产品、软硬一体化人工智能产品以及对话式人工智能技术服务。截至目前，思必驰拥有近100项全球独创技术，已授权知识产权近1400件，其中已授权专利近700项，软件著作权近400项，牵头/参与了近50项国家/团体标准。

　　2022年11月30日上线的人工智能聊天机器人模型ChatGPT近期火爆全球，仅仅2个月即实现月活破亿。伴随着ChatGPT的出圈，不仅海外科技巨头微软、谷歌打响AI搜索大战，国内包括百度、阿里、腾讯、华为、京东、网易有道等大厂在内的诸多科技公司均已披露相关方向的研发进展。

　　国内专业对话式人工智能平台型企业思必驰已掌握全链路语音及语言交互技术，涵盖语音信号处理、识别、合成、语言理解、问答聊天、知识图谱等人机信息交互闭环涉及的各个模块级技术，能够感知用户意图和情感，并基于用户画像实现拟人化的语言风格互动。

　　日前思必驰联合创始人兼首席科学家俞凯接受了记者专访，就思必驰在类ChatGPT对话机器人方面的研发进展、ChatGPT问世对于行业的意义、海内外玩家差距、生成式AI面临的挑战等话题进行分享。

　　思必驰的语音和语义通用基础模型已达到亿级参数

　　Q |在类ChatGPT的对话机器人研发方面，公司目前有何进展？

　　俞凯：

　　在技术的迭代发展上，ChatGPT本质就是一个统计类的深度学习对话通用大模型。

　　思必驰应该算是国内最早一批去进行统计类对话模型的产业化研究的公司之一，并且在任务型对话上也取得了很多很好的研究成绩和应用成绩。思必驰已有的语音和语义的通用基础模型，已经达到亿级参数。

　　在通用基础模型技术方面，目前思必驰使用千块GPU卡量级的超算资源，正在整合扩展资源，在已有算法研究和数据积累的基础上，将亿级参数模型扩展到百亿以上量级。

　　Q |在类ChatGPT的对话机器人研发方面，公司未来有何计划？

　　俞凯：

　　现在的ChatGPT还是以文本机器人的形式来出现，我相信这只是一个开始，未来一定会往语音对话机器人去进阶，会逐渐强化对语音和文本的深度融合。在听觉感知技术方面，思必驰能够实现高精度的语音转文字和高质量的声音播报效果；能够解决在人机交互过程中面临的远距离、复杂声场的多噪音干扰、多说话人判断；满足用户对方言、外语的识别及合成的需求。

　　在聊天机器人方向，融合语音、文本、图像信号的多模态交互技术也有很大机会。以当前新起的虚拟数字人为例，多模态、智能化的完整解决方案可以更好地应对不同场景的复杂变化，多模态交互成为行业发展的必然趋势。在多模态及交互技术方向，思必驰公司在业界率先发布了全双工对话架构，形成了独特的闭环人机对话系统构建的底层综合技术优势，与国际主流先进技术相比，取得声纹验证、语音分离等指标的显著提升。

　　ChatGPT是继Alpha Go之后最大的里程碑进步

　　Q |您怎么看此次ChatGPT火出圈？可能存在哪些原因？

　　俞凯：

　　ChatGPT可以算是继Alpha Go之后最大的一个里程碑进步。Alpha Go解决的是确定规则情况下的搜索和处理，而GPT在无确定语法规则前提下，部分解决了自然语言交互的问题。我们并不能把GPT简单理解为某一个特定单点技术的突破，而是人工智能发展的一个集中式突破，包括其中的对话智能技术、深度学习大模型技术、工程化能力以及大数据的整体突破。

　　ChatGPT爆火还有个原因，即产业应用的需求对技术的召唤得到了回应。各种智能硬件发展到现在，功能上逐渐愈发同质化，体验上也很难做出自己的特色。ChatGPT的创作能力则满足了产业应用级的需求，打开了新的空间。

　　Q |据路透社记者统计，AI、生成式 AI、机器学习等词出现在美国科技巨头最新季财报会议中的频率是上一季度的2-6倍。巨头纷纷发力生成式 AI，您认为有哪些原因?

　　俞凯：

　　本质上，是因为生成式AI在落地应用后，更能达成用户对“智能人机交互体验”需求的满足程度。生成式AI更强调学习、归纳后的创造、推理，生成式AI的创作能力则是以内容创作为主，用来辅助人类决策。用户对“辅助”的标准会低一些、宽容度会高一些、安全性和准确性的期望值也会低一些，更容易引起大家的关注和期待。

　　其次，生成式AI有“创作性”的天然属性：即没有绝对的正确错误之分，甚至有些仁者见仁、智者见智的意味。决策性AI的结果一旦错误，很容易被诟病；而内容创作的多样性结果，则会被欣然接受。比如，现在的ChatGPT，在对一些事实性内容的结果是不太准确的，但大家仍然能够宽容接受，因为它的对话是流畅的、回复是有效的。

　　Q |您预判未来随着生成式AI能力的提升，将在哪些行业快速渗透?

　　俞凯：

　　短期来看，关于需要基于一定背景知识的创作型产业，以及一切刚需AIGC的场景、重视SOP（标准作业程序）的行业，能够快速突破。比如智能写作、文档管理、代码生成、流程管理、甚至游戏NPC等。

　　长远来看，搜索引擎和基于搜索的相关产业，有可能被颠覆。

　　海内外玩家技术上并没有明显差距

　　Q |近期多家中国企业已经宣布了相关进展，在您看来中国科技公司与海外企业之间的差距如何？需要哪些方面的努力？

　　俞凯：

　　中美的差距，其实是在工程化能力、基础架构设置方面，另外还有人员经验的问题、长期信念决心的问题。

　　ChatGPT的核心是大模型技术和对话智能技术，大模型是指通用基础模型，当参数足够大的时候，比如当有千亿级以上的大模型的时候，不再需要额外的采取数据对各个领域进一步训练。大模型的算法是通用的，而数据量在超过千亿级之后，对比也就不再那么明显。

　　底层基础的算法是公开的，并且国内外一流的研究机构都有非常不错的研究成果，在算法的迭代创新方面并不存在明显差距。当数据量足够大，微不足道的数据差距影响也没那么明显。

　　简而言之，技术上并没有明显差距，但存在技术实现的时间差问题。

　　Q |您预判，中国何时能有产品对标ChatGPT?

　　俞凯：

　　由于一些客观因素，ChatGPT在国内可能会水土不服，短时间测试没问题，但没办法长期稳定调用。我看到国内有巨头有在准备发布相关产品。这是很好的方向。类GPT的产品，确实是需要依赖巨头企业的投入和决心，但更令人期待的是，中国创业企业在基于该方向上的应用级创新。

　　由于各方面综合因素，从研发环境来看，国外更关注从0到1的基础创新，而国内更擅长从1到N的应用级创新。

　　新技术出现的本质，是为了投入应用，而不是停留在技术指标层面的对比。我很期待中国的创业公司能够基于用户需求、产品情况，去探索出更多的类GPT应用，不管是在AI辅助、智慧办公、智能客服，还是在更大层面的产业应用上。

　　生成式AI仍面临挑战

　　Q |近期围绕着ChatGPT 成本、法律与伦理问题有诸多讨论，您认为生成式 AI 面临哪些主要挑战?

　　俞凯：

　　大模型的训练的确是很昂贵，所以从成本来说，目前只有巨头能负担起高昂的投入，但当大规模应用起来，从长远看，大模型技术反而能够降低机器学习的成本、提高应用效率。

　　伴随人工智能技术发展的，便一直是“AI有所为、有所不为”的讨论。技术本身是中性的，关键是运用技术的人，应该向善、不作恶。

　　生成式AI面临的两大挑战，一是数据合规，包括数据来源合规、数据处理合规、数据生成合规；二是应用边际，包括需要从人员管理上、工程化实现、场景领域上去规范应用边界，如何更好地“协助人类”而不是“替代人类”，甚至是沦为deep fake的帮凶。

　　人工智能，说到底还是人的智能。ChatGPT可以基于上下文理解的基础上，根据对话聊天来不断完善自我学习和进化，但是这种学习进化的机制，本质上也是由人类设计的。当然，为了保证AI的良序发展，我们的确需要去嵌入一些相应的限制手段和规则约束。

　　Q |近期Google对外指出了AI技术发展迅速而大公司行动缓慢的原因：需要将AI融入现有的产品与服务中，符合公司的业务战略才能展开，并不能如OpenAI这样只需要研发一款最佳模型就可以。对此您怎么看?

　　俞凯：

　　基础AI技术创新，必须最终走入产业，结合场景应用才会变得有价值。

　　作为新基建一环的AI技术，不能单靠底层原始创新来推动发展，其落地应用需要结合行业认知和客户需求输出整体性、结果导向性的实用解决方案。当然， OpenAI这样的基础模型工具也具有巨大价值。基础研究和应用研究本身就属于不同范畴，商业公司更多的还是要为市场负责，要计算投产比，更倾向于投入应用型研究；但基础性研究却可以更纯粹地去看更底层的算法工具和更前瞻性的技术未来。

　　近几年，行业也在加强产学研一体化合作，技术型企业和高校之间展开紧密合作，以推动基础研究和应用研究的融合，例如讯飞和中科大，思必驰和上交大。毕竟人工智能发展是一个长期主义，为了将来更稳定、更强的突破，必须重视基础创新和原始创新能力，短期内看研发投入会很高，但长远看却能降低成本、提高整体效率，也有利于建立中国人自己的“AI矿场”，更好地赋能传统百业。

<<计算机行业专题研究报告：ChatGPT训练及多场景推理成本测算

“聪明的小孩”确实有“ChatGPT那味儿”>>

思必驰联合创始人：ChatGPT是继Alpha Go之后最大的里程碑进步

您可能还会对下面的文章感兴趣：

随便看看