ChatGPT时代,AI的未来是谁的天下?
随着 ChatGPT 引爆了大众的热情,业内人士开始预测未来 AI 市场的走势。其中市场潜力最大的无疑是 LLM(大型语言模型)。LLM 的未来可能会出现这几种局面:1)一家独大 2)寡头垄断 3)百花齐放 4)模型不重要,品牌、分销与产品才是关键。究竟会是哪种情况呢?这个与技术发展的 S 曲线走势紧密相关。文章来自编译。
boxi用midjourney生成
AI 的世界大致可分为 3 个领域(当然了,这是一种过于简化的说法):
大型语言模型。这些属于通用模型,如 GPT-4 或 Chinchilla,LLM 会摄取 web(或其他文本/语言来源)的内容,然后转换成可以做任何事情(比如生成法律文件摘要,使用搜索引擎,或作为友好的聊天机器人)的模型。图像生成,包括 Midjourney、Dall -E 或 Stable Diffusion 等模型以及当前一些易用的视频制作工具以及 NeRF 等 3D 模型。这些模型可让用户输入提示来生成图像。其他(这一类包括的技术和市场范畴非常大,确实不应该硬凑在一起)。其中包括了机器人技术、自动驾驶汽车、蛋白质折叠等众多其他应用领域。我这里出于简化需要把它们统统归为一类显然是很愚蠢的做法。显然,AlphaFold 2 与自动驾驶汽车的模型架构和终端市场都不一样。不过,因为相对于一本书而言,这是一篇篇幅不长的文章,所以请多多包涵。就本文而言,我会暂时忽略放在其他框的内容。
当大家在谈起“生成式人工智能”时,往往会将这些领域混为一谈。实际上,每个市场都有不同的底层 AI 模型架构、计算、扩展需求、质量标准以及应用领域。重要的是将它们分开以尝试推断它们可能带来的未来。
A. 图像生成与 LLM:在成本、质量、规模、细分领域方面都截然不同
图像生成与LLM的差别
图像生成可能会改变多个领域,包括:
社交产品和图像(比如 Lensa 类产品的未来版,或这类产品与核心社交平台的集成)图形与可视化设计电影、漫画、动漫、日本漫画视频游戏CAD建筑电子商务方面等等等等
当然,高性能视频(和语音)也可以开辟更多的应用领域。
图像的社会变革应用范围虽然很大,但在短期内与文本和语言的应用范畴总和相比要小得多。当然,这在未来可能会逐渐改观——通过视频、语音等其他接口。现在大多数的 B2B 应用都是以语言为中心的(文本,以及小部分语音),而消费者应用则是混合型的(社交网络如 Twitter、Facebook、TikTok、YouTube,电子商务如 Amazon、Airbnb 等) 。
虽然上面列出的图像生成应用领域的机会都很大,但如果研究一下相应公司的市值与收入,图像生成与语言生成的潜在应用相比就相形见绌了。语言是一切 B2B 交互、社交产品、商业及其他领域的核心部分。就经济而言,LLM 在短期内的重要性可能要比图像生成高好几个数量级,而图像生成也是非常重要的一个领域。
A.1 与 LLM 相比,图像生成的建模成本更低
一般来说,已经取得巨大成功的图像生成模型只需相当少量的资金和计算即可完成训练。比方说,最新版的 Stable Diffusion 的训练可能最多只用花数十万到数百万美元的 GPU 时间。
A.2 图像生成质量:像素的交换与文字的交换不一样
一般来说,图像生成质量评估的主观性要比语言生成更强。情人眼里出西施,即便是不完美的图像生成的输出也可能很有用。换掉两个像素对图像的价值可能不会产生太大影响,但换掉两个单词就可以显著改变段落的含义。
A.3 图像生成的潜在市场结构
图像生成模型的未来发展路径似乎更容易预测——除了通用闭源模型工具(Midjourney 、 Dall -E)以及特定领域的闭源模型(“Graphic Design AI startup co”)外,我们很可能还会看到专有闭源模型(制作迪士尼图像的“迪士尼模型”)与开源模型(Stable Diffusion 等)的混合。这些模型的训练成本可能相当低(数十万到数千万美元),而且很大程度上会靠 IP 或特定用例实现差异化(比方说“漫威漫画数据集” Vs “专业照片设计工具”)。可以想见,这些模型的子集将来可放在手机或其他设备本地运行,而不是仅在云端运行——从而让应用领域进一步扩大。
图像生成的差异化最终会靠专有数据以及训练方法实现,但短期内差异化可能是靠资本/计算以及数据的原始规模实现。大多数图像生成方法都基于扩散模型,有些人正在探索向 transformers 或混合模型过渡。其他模型也可能影响到这些模型的方法或经济性,进而影响行业的发展。不过,在短期内,未来几年图像生成可能世界的不确定性较小。随着时间的推移,开源很可能会继续对该领域的产品发展发挥关键作用。
这意味着更大的不确定性领域是——LLM 的可能路径是什么?
B. LLM 与基础模型
语言包括以下应用:
搜索大多数 B2B 交互、销售、ERP、文档使用与管理、电子邮件等代码、数据交互、代码生成、SQL、excel 等。金融大部分的社交与消费产品聊天、短信及其他应用“一切的副驾”——所有白领工作(法律、会计、医学等)
这些领域当中有哪些领域需要大型语言模型?哪些领域需要较小规模的小众语言模型?这仍然是个悬而未决的问题。迄今为止,LLM 似乎在某些领域(但并非所有领域)优于小众模型。
大型语言模型以及潜在的终端市场结构存在部分可能的路径。市场结构非常重要,因为它决定了生态体系当中的经济赢家和人才赢家(谁收割了所有的收入、人才、利润、市值与创新)。
B1:潜在的 LLM 市场结构
潜在路径包括:
1. “台积电世界”—— 大规模赢家(随着时间的推移概率降低)
台积电是全球最大的外包晶圆厂。其制程工艺精良,规模宏大,采用了全球最先进的半导体设备。其市值比任何其他晶圆厂都要大得多,而且它在内部拥有高度专业化的专业知识来实施。
以台积电作为类比,就目前活跃的市场参与者来看,OpenAI 暂时处于领先地位,成为唯一的赢家。通过与微软(或其他)的合作伙伴关系的规模与资本化,再加上在聚拢数据、人才、技术与计算方面明显在加快速度,它目前的领先地位还会得到加强。
如果谷歌的新产品能设法将 OpenAI 揽入旗下的话,那么它成为这个世界上唯一赢家的候选人的可能性是第二高的。谷歌似乎已经意识到了 OpenAI 与其他公司的竞争威胁。别的初创企业,如 Anthropic、Character 等,或试图开发 AGI(通用人工智能)的初创公司,总能给 AI 未来的最终赢家之战带来一些未知因素。
“台积电世界”大致是个垄断市场,一家独大。随着这一市场竞争的升温,这种可能性似乎越来越小。
2. 云服务提供商世界——寡头垄断市场(最有可能的世界)
云计算之战已经结束,以 AWS、Azure 以及 GCP 成为仅存的三家大规模、竞争激烈的对手而告终。这是一个没有单一赢家的寡头垄断市场。根据我们目前对这个世界的了解,这似乎是基础语言模型近期最有可能的市场结构,但市场发展现在还处在早期阶段,未来还不确定。
LLM 的寡头垄断市场会是 OpenAI 、谷歌以及其他 1-2 家公司的天下——如果最终它们在 AI API 以及服务领域都拥有强大的市场份额的话。跟我交谈过的很多使用 LLM 平台的客户都想要 OpenAI 以外的第二个源模型,不管是为了拥有更大的议价能力,还是想体验更多的数据隐私,这都会为另一个竞争对手提供空间。比方说,有人可能会提出 Juniper 之所以存在是因为企业可以拥有思科以外的第二来源。
之所以认为近期会出现寡头垄断市场,而不是碎片化的市场,是因为后续每一个性能更好的 LLM 模型所需的资本/计算/数据规模成本目前已有据可循。如果 GPT-3 当时的训练成本是几百万到千万美元左右的话,从零开始训练的 GPT-4 成本可能估计在几千万美元到一个亿美元之间,也许 GPT-5 是几亿美元,GPT- N 是十亿美元。当然,这是在假设成本的增长速度快于技术突破或 GPU 下降速度(或专用硬件成本下降)的前提下,这些假设也有可能是错的。
然而,一般来说,“规模”已被证明对很多的深度学习方法都很重要,算法方法一般会大规模地重新应用。
如果规模越来越大的模型对资本的需求也会持续扩大,就会产生一些潜在影响:
在一段时间内,基金会模式公司会拥有一道强大的护城河,把新进入者挡在门外(或迫使每一家初创公司都要找到财力雄厚的“战略”支持者)。比方说,如果训练每一代新模型的成本最终都要在 5 亿美元以上的话,那就没几家公司能够负担得起竞争的代价。单一架构基础模型的最终能力应该会逐渐逼近渐近线,到最后各个模型/规模的竞争优势都会消失。这可能需要一些时间,而且在极端情况下是逼近渐近线与 AGI 的竞赛,以及可能会无限期加速进步的进一步技术突破。摩尔的“定律”与其说是一条实际定律,不如说是一项观察,其持续时间比任何人最初预期的都要长。对旧版本模型进行重新训练得到的等价物可能会更便宜,这意味着碎片化和/或开源会落后一代。比方说,假设训练 GPT N 的成本为 10 亿美元,则训练 GPT N-1 等价物的价格可能是前者的 1/10,训练 GPT N-2 等价物的价格可能只有 1/100。这样一来,任何利用早期版本模型的应用就不再需要靠主要平台的 API 才能用,而是可以恢复成开源或其他的模型。
类似半导体的行为——尖端技术 vs 落后两代
从短期来看,LLM 很可能类似于 1990 年代与 2000 年代的微处理器行业。在那个时代,英特尔的技术优势明显,始终比 AMD 等竞争对手领先 2-3 年。这意味着用英特尔芯片可以给 PC 性能带来明显优势。
每一款 Intel CPU 的设计以及晶圆厂(在约 18 个月的迭代时间窗口内——听起来很熟悉?对,就是摩尔定律)的建造成本都要比上一代高很多。这一点,再加上聪明的销售与营销交易,强化了英特尔在市场的护城河。这条护城河从 1980 年代一直持续到最近都很牢固。
晶圆厂的建厂成本节节攀升
芯片越小,设计与建造成本越高
人人都垂涎性能始终优于上一代的最新英特尔 CPU 。这意味着最前沿的应用需要最新的微处理器。但是,旧芯片以 1/10 或 1/100 的价格找到了许多应用。
同样,落后一两代的 LLM 训练成本可能非常低(比方说,如果今天再从头开始训练 GPT-2的话)。前几代模型可能默认就是开源或碎片化的。我们最终可能会看到这样一个世界:GPT N(或同等产品)站在前沿,让关键应用具备明显的差异化,而 GPT N-1 或 N-2 价格低廉,可广泛用于对保真度要求较低或模型“够用就好”的应用。
如果假设基础模型每个后续模型的训练成本会继续攀升的话,那么未来 2-3 年也许是初创公司进入这个市场的最后机会了——在没有微软、谷歌、Facebook、苹果或亚马逊等财力雄厚的“战略”支持者资金支持的情况下。
在那之后,从收入和技术进步的角度来看,初创企业需要突破逃逸速度才能获胜。不过,也可能有一些有趣的技术突破可能会影响这一点——比方说,如果初创企业发明了 AGI ,或可以通过写自己的代码,并且实现比人类更快的训练速度来自力更生的话。
以云计算的时机为例
尽管拥有开发云平台的基础设施,但谷歌花了 2 年时间才推出第一款 GCP 服务,然后再用了几年的时间,GCP 才成为一个更完整的解决方案。同样地,Azure 在 AWS 的第一块服务推出 4 年后才推出。大公司通常需要几年时间才能对威胁做出反应并采取行动。对于谷歌和 AWS 等云计算平台提供商来说,要想具备竞争力,LLM 将是它们需要应对的类似东西。
代理人战争——阿里巴巴/腾讯模式
有时,公司可能会通过长臂管制代理进行竞争。比方说,中国的阿里巴巴和腾讯经常投资/收购一大笔所有权,然后分销竞争性产品。同样地,IBM 曾经资助 Linux 来对抗微软,作为浏览器代理战争的一种形式;谷歌、苹果和 Mozilla 也都支持过 webkit 的不同分支。就 AI 而言,之所以要保持一定距离的关系,可能有公关和安全方面的原因,间接子公司或代理人的灵活性更高、更自由的原因,或者出于金融激励或其他的原因。
未来世界的可能版本之一也许是 OpenAI /MSFT 对抗 Anthropic/谷歌 、Stability/亚马逊以及Cohere/Meta(都是一大一小的搭配!!!!)。换句话说,每一位既有者都会选择一个创业合作伙伴来承担品牌与安全风险,同时买下该创业公司的一大笔所有权。作为交换,初创公司可获得既有者的数据、分销渠道以及其他资源。从某种程度来说,这会导致与(2)大致相同的市场结构。
3. 小众模型很重要,要么会出现开源的主要支持者。
这个世界的另一个版本是,对于大多数应用(或至少是最重要的应用)来说,最终小众模型的性能与大型模型的性能将大致相同或更好。在这个世界里,一个针对性极强的强大数据集与一个大型基础模型一样有效,这意味着进入壁垒在计算与数据标记/清理方面会花费数十万到数百万美元,从而大大降低市场的进入门槛。早期的数据点表明,在接下来的一年时间里,用小众数据集(比方说 Codex 与 Github copilot)增强的 LLM 往往优于小众模型,但从现在起再迭代几代的话,这个结论也许就不会成立了。在未来 1-2 年内不太可能会发生小众模型的性能与大型模型性能相当这种情况,但在未来这种情况可能会变得至关重要。在这种情况下,AI 会碎片化,大型模型在某些领域的重要性会下降。
相应地,可能会出现一位庞大的开源资助者,去建立“开放模型替代方案”。也许海湾国家会创建“石油人工智能基金”,或者某家资金雄厚的公司认为开源基础模型对自己的市场结构很重要(类似于 1990 年代的时候,为了抵消微软和其他公司的影响,IBM 成为了 Linux 的主要支持者)。如果最终有足够的资金资助开源替代方案,那么市场和这个世界会更加碎片化。
4. 品牌、分销、产品影响很大。
另一种观点认为,模型会迅速商品化,但品牌、分销以及产品的地位依旧或者变得更加重要。比方说,Bing 从很多方面来说跟谷歌搜索大致相当,但谷歌通过购买付费分销 + 品牌来维持其市场地位。在这个世界的未来版本里,最终会出现 2-3 个由大公司(比方说 OpenAI + MSFT、谷歌以及其他公司——比方说亚马逊或 Facebook + Anthropic)提供的核心 API 平台,然后会有一堆开源或定制模型联合起来涵盖众多用例。
B2:开源(OS) vs 封闭:
靠雄厚资金支持跟上还是始终落后 1-2 代(1-3 年)?
大多数成功的开源项目( webkit 、 linux等)最终都能获得大型企业的资助与开发支持。比方说,Linux 在 1990 年代得到了 IBM 的大量资助,从而在服务器端软件方面与微软可以抗衡。加密货币(BTC 和 ETH)是明显的 OS 反例,尽管有人可能会提出异议,直接内置到这些加密货币协议的货币化机制等同于那帮人在自筹资金。从某种意义上说,加密货币就是它自己的企业赞助商。
OS LLM 的潜在支持者可能包括政府(比方说 Bloom 部分是由法国资助的)、主权财富(海湾的“石油换 AI”贸易)、没有参与其中但可能因更多 LLM 的使用而受益的大公司(NVIDIA?亚马逊?)、或某项重大的慈善事业。
如上所述,计算规模对于尖端 LLM 模型来说确实很重要。这表明在中期,除非 OS LLM 出现大规模的支持者,否则由于训练的成本高昂,OS LLM 可能最终要比闭源的模型落后一两代(1-2 年?)。
落后 1 代的模型对于各种开发者和应用已经非常有用,但是用于最先进用途的最尖端、最高保真的模型可能会保持闭源状态。比方说,一旦出现了 GPT-7 时,如果其训练成本为 5 亿美元的话,那么开源的基础模型可能会达到 GPT-6 或 GPT-5 等价物的水平。这对很多应用来说也许很重要,也许不重要,关键要看处在 S 曲线的什么位置,开源模型也许是某些应用的绝佳选择。
计算的规模、成本随时间变化情况
从开源转向到闭源模型也可能体现在 AI/ML(人工智能/机器学习)研究来自学术界与工业界的份额占比变化上。越来越多的工业实验室表示,随着市场竞争的加剧,他们将不再把结果尽量公布出去,开源软件与学术界掌握该领域进展的机会也将减少。
学术界越来越研究不起大规模AI
从长远来看,S 曲线的性能可能会达到饱和(除非出现真正的 AGI ),这意味着如果没有重大支持者的资助,开源软件仍将迎头赶上,并可能最终超越闭源。
B3:扩展的瓶颈与办法?
一个靠资本充当护城河的世界也是一个绝对规模(计算、数据和其他因素)关系重大的世界。建立在金钱基础上的护城河只存在于投入扩张的速度总是大于行业成本上升速度的世界里。图像生成就是一个很好的反例,现如今金钱和 GPU 规模并不能阻止新人进入或创新。至于 LLM,随着时间的推移可能会影响模型的成本和扩展的因素有:
数据可用性及规模。到了一定时候,web 作为数据源将会耗尽。视频(YouTube、 Vimeo 、 TikTok等)、语音(呼叫中心日志)、代码存储库、所有已出版的书籍以及其他的数据源到了一定时候可能就会耗尽,或本身就是专有的。不妨想象这样一个未来世界,在这个世界里,有人原因花钱让大家记录自己的生活,然后被动地将其捕捉到模型之中。随着时间的推移,合成数据会变得越来越重要,而且已经成为自动驾驶汽车及其他 ML 驱动领域的关键组成部分。它对 LLM 的重要性也可能会提高。人类反馈与训练。对于减少对特定源自人类的任务的提示工程 + 训练模型需求来说,RLHF(利用人类反馈的强化学习)是核心组成部分。特定领域的扩展最终可能会是一件相当资本密集型的任务,并最终从基于人的反馈变成以机器的反馈为基础。微调与训练。适当微调后,小型模型的性能可能会优于大型模型。半导体层。在芯片级仍有大量优化工作要做——早期的 TPU 就是说明该行业可以从日益定制化的 ASIC 中获益多少的突出例子。与此同时,不断研究GPU 或 TPU的使用技巧,以便从现有硬件榨取出额外性能仍有一定的发展空间。系统优化。 LLM 的系统及基础设施方面仍有很大的优化空间。同样地,也在探索按复杂性或信息内容对文字进行差异化的加权。推理与训练。当一个人遇到问题时,往往会在采取行动之前停顿几秒钟或花几分钟进行思考。同样地,虽然现在非常重视训练,但在推理时应用更多的方法(及计算)可能也会有所帮助新的架构。就像 transformer 对之前的卷积模型产生的影响一样,新的突破性架构可以让 AI 领域出现新的飞跃。也许部分 AI 方法的价值只有在规模化时才会显现,只是现在探索起来成本太高。Transformer以外的其他算法/模型。人脑有用于特定功能的专门模块。增量或专用类型的模型也许可以优化整个 LLM 系统和输出。
总的来说,虽然有很多相对独立的方法可以扩大规模,而不仅仅是依靠资本,但就中期来看,哪怕你采取了其中的很多方法,规模仍将会为 LLM 带来优势。
B4:基于规模的价值什么时候会逼近天花板?
很多技术最终都会逼近一条渐近线,往往呈现为 S 曲线(S 型函数)的形式。有时候,这条曲线会受到底层物理因素的驱动——比方说,芯片晶体管的线宽最终会遭遇原子极限——而这反过来最终会限制某些半导体技术的发展水平。有个问题现在还是未解之谜,也就是大概到什么时候扩大计算能力会让现有数据集和 AI 架构达到饱和。如果 AI 迅速扩展到 S 曲线的顶部,市场也将迅速碎片化,涌现出更多的参与者以及更多的开源(因为成本会逐渐下降,但模型性能不会有太大的提升)。相反,如果逼近这条渐近线的时间跨度很长的话,则基于上述的潜在结果,整个行业结构可能会维持相对静态,因而发展也更为受限。
创新的 S 曲线 - 情景演化
B5:价值集中在平台侧还是应用侧?
在某些世界里,随着平台前向集成到少数在该平台上表现最佳的应用上,大部分应用价值都会聚拢到平台上。比方说,众所周知,微软把 MS Office 的所有竞争对手全都收购或者干掉了。相比之下,AWS、Azure 和 GCP 都是大业务——但几乎所有的 SaaS 、ToB与ToC型公司都能从这些平台受益,因为这些平台并没有向前集成,所以它们能积攒自己的价值。总的来说,目前技术领域质量最高、规模最大的企业(苹果、亚马逊、谷歌、微软)占据了设备平台(iOS 、webkit、MS OS、Android)以及云平台(Azure、AWS、GCP)。不过,众多其他的平台或 API 业务(Stripe、 Adyen 、 Twilio等)、数据基础设施(Snowflake、 Databricks、 dbt)以及应用(Meta、 Salesforce 等)也能在这个世界欣欣向荣。
平台 Vs 应用之争最可能的答案是“兼而有之”。一些平台会向前集成到已经很突出的应用(ChatGpt?),而大多数应用将是独立的,并且能够创造出自己的巨大价值。不过,其他一些应用会使用定制的小众模型以及专有数据来实现差异化。
以上都有可能是错的
在 AI 世界里,情况的变化速度是惊人的。技术或性能的突破可能会颠覆上面所写的一切。我们也仍然不知道各大科技公司会如何反应。因此,唯一真正可以确定的是,我们正生活在一个激动人心的时刻,技术正经历一次断裂。这实在是太令人兴奋了!
译者:boxi。