为什么本土大厂造不出全新的ChatGPT?
ChatGPT革命,掀起了全球科技竞赛的巨浪。
据报道,因为ChatGPT大热,三星、SK 海力士高带宽内存接单量也大增,最新的 HBM3 解决方案价格已经翻了 5 倍。
国外的ChatGPT还没弄明白,国内的“文心一言”已经开始行动了。
最近澎湃新闻、大众日报、上游新闻、封面新闻、大象新闻、每日经济新闻等新闻平台,
钛媒体、新浪财经、证券之星、电脑报、Tech星球、36氪等财经媒体都轮番宣布接入百度“文心一言”。
除了媒体外,携程、爱奇艺、集度、金蝶、智联等企业也加入文心一言生态圈。
甚至连少林寺都宣布介入了“文心一言”。
不仅是百度,阿里、京东、网易、小米等一线大厂也紧随其后,纷纷承诺了对ChatGPT的投入和开发。
说到底,ChatGPT的火爆还是引发了许多人的思考,其中就包括习惯“观望”的互联网大厂。
但对于市场的普遍观点来说,算法训练是一件没有办法弯道超车的事情。
同时也可以具体到国内的技术发展上,第一时间便寻求变现或是以能够看得见的变现为投入基础,一直是国内普遍存在的缺点。
这种想法从某种程度上堆高了大厂的投资收入,但也压垮了国内众多行业深度发展起来的低线。
也可以说,国内创业公司对风险超强的把控,以及经久不息赚快钱的心态,让越来越多的新兴行业都有了一个“能看到头”的未来。
不过,对于国内厂商来说当下最关键的是,如何确定一个具体的应用场景。
一、搜索引擎是中国AI的新起点?
搜索引擎的ChatGPT之争将难以避免。
谷歌2022年Q3财报显示,搜索引擎的广告收入占其广告收入的72.57%、总收入的57.23%。
搜索引擎在广告层面的收入,显而易见。
紧接着,微软(MSFT.US)于北京时间2月8日宣布推出由OpenAI提供技术支持的最新版Bing(中文名“必应”)搜索引擎和Edge浏览器。
一夜之间,Bing和Edge浏览器在AppStore下载量猛增,Bing的下载量已经上升到AppStore免费应用榜中的前十名。
此时,根据Statcounter GlobalStats数据显示,2022年全球搜索引擎市场份额中,谷歌为92.42%,必应市场份额为3.45%。
在微软企图通过OpenAI重新对抗昔日的老对手谷歌,而引发的ChatGPT争夺战之时,国内互联网巨头对于ChatGPT已经从关注转向发展。
截至目前,从相关技术到项目名称再到开放日期,百度是公布信息最明确的国内科技公司。
作为在人工智能和自然语义处理领域积累最多的中国互联网公司,百度早就布局了深度学习大模型“飞桨”,甚至用通用AI芯片“昆仑芯”进行训练。
这些是百度训练“ChatGPT”的基本环境和前提。
不仅如此,据悉,百度CEO李彦宏2023年一季度OKR关键任务为“引领搜索体验的代际变革”,这意味着百度搜索或将全线接入文心一言,搜索产品将迎来颠覆性变化。
此外,近期有媒体报道称,字节正悄悄准备重启已经关停了两年的悟空搜索,如果对ChatGPT产品与搜索工具的关系进行想象,不难看出字节同样对ChatGPT的“兴趣”。
很显然,当一大堆AI公司都在梦想着造出自己的ChatGPT之时,搜索引擎巨头们则希望用其彻底改造搜索引擎行业。
结合来看,在广泛的应用场景之下,即时的搜索工具似乎是弥补ChatGPT“离线模式”的不足,亦或者将ChatGPT赋能搜索工具提高搜索引擎的营收,而这些都成为了当下互联网大厂角力的根本原因。
在众多搜索引擎玩家纷纷宣布踏入“搜索引擎+ChatGPT”的当下,微软已经发起了攻势。
北京时间2月8日一早,“新必应”上线,简介是:“提出实际问题。获取完整的答案。”
与互联网初代所不同,进入移动互联网时代后,每一个移动端的App几乎都是一座信息“孤岛”。
也是在众多内容社交平台间断性爆火的背景下,国内搜索引擎使用率开始下滑。
根据CNNIC发布的《第50次中国互联网络发展状况统计报告》显示,截至2022年6月,我国搜索引擎用户规模达7.88亿,较2021年12月减少737万,占网民整体的78.2%,2020年6月,我国搜索引擎用户的使用率为81.5%。
两年时间,搜索引擎网民使用率同比下降3.3%。
如果说内容方在过去需要依赖搜索引擎,那么如今就是搜索引擎需要依靠众多APP来实现自身以外的内容扩充。
可以说,为了完善自身的内容池,搜索引擎还需要进一步解决自身与APP之间的“壁”。
经过各大行业对ChatGPT长达三个多月的关注,C端更是对“AIGC”充满了想象,那么在如此内卷的赛道中,互联网大厂除了对“文本生成”类应用场景具有“幻想”以外,是否存在着更“高阶”的应用场景呢?
谁能成为中国版的ChatGPT?
人工智能的技术栈可以分为四层:芯片层、框架层、模型层和应用层。
只有千亿参数规模以上的大模型,才可能出现“突现能力”,而具备“突现能力”的大模型是ChatGPT得以诞生的必要条件。
训练一个千亿的大模型是对算力、算法、算据的全流程考验。
公开资料显示,ChatGPT的前身GPT-3参数量达到了惊人的1750亿,训练一次所要消耗的成本就高达近8400万元人民币。
2022年谷歌研究院联合DeepMind和斯坦福大学发表论文,研究了谷歌、DeepMind和OpenAI的5个语言模型系列的8个“突现能力”,得出结论:
只有模型达到GPT3的规模, 即参数大于1000亿, 模型才有可能形成“突现能力”。
国内大厂能不能做出ChatGPT?先发条件就是是否拥有千亿参数规模的大模型。
先看呼声最高的百度。
“文心一言”被很多人认为是“最可能的ChatGPT国产替代”。
百度文心是“纯粹”的自然语言模型,有2600亿参数规模的ERNIE 3.0 Titan的训练框架, 训练输入都是结构化的文本内容。
根据官方2022年的公开资料,ERNIE 3.0 Titan模型和GPT3.0模型在知识问答数据集上的对比效果,准确率比GPT3.0高8%。
此外,百度还有上文提到的全栈打通的Paddle训练框架生态,对标的是PyTorch和TenserFlow。
但百度的问题是,在算法、算力、数据、场景上都非常理想,但在“产品”上还有差距。核心搜索业务过于强势,以及技术思维影响过大,导致了其他产品能力有点变形。
再看阿里。
近日,阿里也公布了申请的“人机对话及预训练语言模型训练方法、系统及电子设备”专利。
另据天眼查显示,阿里巴巴达摩院(杭州)科技有限公司发生工商变更,注册资本由1000万人民币增至3亿人民币,增幅高达2900%,持续投入人工智能(AI)等底层技术。
2022年9月,阿里发布最新大模型“全家桶”——通义M6。
公开资料里能看到,M6的训练数据包括300GB文本和2TB图像, 作为对比,GPT3.0用了45TB文本训练,华为的盘古号称用了40TB, 而阿里的M6训练数据少的可怜。
而且M6的带头人杨红霞已经在2022年9月离职,未来 M6走向何方,也要打个问号。
科技公司华为也一直被关注。
华为2020年开始在大模型布局,2021年发布了鹏城盘古大模型。
盘古NLP大模型和百度文心一样,都是“纯粹”的自然语言大模型,宣称有2000亿参数。
最后看腾讯。
BATH四巨头中,腾讯的千亿级别大模型最晚发布。去年4月,腾讯才对外公布了“混元”AI大模型的研发进展。
混元大模型的能力,被强调的是跨模态的“文本-视频”的理解和检索,也就是主要是视频相关。
另外京东云旗下言犀人工智能应用平台宣布推出了产业版ChatGPT:ChatJD,并公布了ChatJD的落地应用路线图“125”计划。
三、国产AIGC还不够“万能”
事实上,仅仅是从本土发展来看,AIGC产业链的发展算不上缓慢。
据量子位AIGC图谱显示,从上游的数据供给、开源算法,中游的行业玩家以及下游的包括文字、图像、视频、音频、游戏等应用场景,关于AIGC的一条初步产业链已经悄然形成,产业生态的完善也为后期的发展奠定了基础,而在不同的应用场景下,已出现了一批代表性的玩家。
需要注意的是,在国内,大多数AIGC的应用场景几乎都聚焦在内容侧。
首先,这是一个短期利润和长期价值的博弈过程。
AIGC烧钱的程度,并不亚于互联网发展的初期。
小冰CEO李笛举过一个例子:若用ChatGPT的方法,以小冰框架当前支撑的对话交互量计算,每天成本将高达3亿元,一年成本超过1000亿元。
AIGC需要一定的工程技术,除了具备固定流动资金的大厂,创业公司即便对应用场景具有清晰的发展路径,也几乎很难按照OpenAI的路径发展。
其次,国内AIGC的生态环境相对来说更独立。
在长期投入的产品上,无论是创业公司亦或是大多数的大厂,几乎都是专注垂直赛道的场景应用。
于是对于国内而言,渴望以最快的速度赶超海外的同时,大多数的AIGC业务其实还处于发展的边缘地带。
此外,据了解,GPT-3的模型参数不开源,仅以付费API(应用程序编程接口)的形式提供给海外用户。
基于此,我们需要清醒认知到的是,现在国内仅仅是处于正在开启智能时代大门的初期,距离生产力的革命还有很远的路要走。
最后,在相关法规尚未形成之时,即便再心急,也可能会功亏一篑。
根据第一财经报道,中国初创公司元语智能在2月3日上线了中国首个“ChatGPT”,名叫ChatYuan,但上线后不久,ChatYuan界面就显示“涉嫌违反相关法律法规和政策,已暂停服务”。
这显示了ChatGPT在中国应用的风险,审查机制及与之相关的合规问题。
ChatGPT在提供回答时不会避开在中国较为敏感的问题。
参考资料:
郭静的互联网圈:ChatGPT爆红,百度、搜狗、360等搜索引擎尴尬吗?
华进知识产权:ChatGPT“中国化”,正在进行中......
剁椒TMT:“按ChatGPT模式做AI,我们一天成本要3亿”
新京报:“中国版ChatGPT”将花落谁家?
中国科学报:ChatGPT火了!国内AI风往哪儿吹