张红甫_ChatGPT 背后的经济账,可能比你原想的复杂的多

2023-02-25

　　ChatGPT幕后经济账

　　ChatGPT能否取代Google、传统搜索引擎如百度等？如果能够的话，它们将给我们带来哪些改变？中国为何无法迅速作出ChatGPT的决定？如何在现有的条件下快速有效地将大规模复杂的搜索结果自动转换成人们能够接受的信息呢？目前，关于这些问题的讨论大都局限于大型语言模型（LLM）在技术上的可行性，忽视或十分粗疏地估算出达到上述目的背后所付出的经济代价，由此导致了LLM发展与应用与现实存在偏差的错误判断。

　　在这篇文章中，笔者以经济学为切入口，对寻找类ChatGPT模型所需代价进行了详细的推导、培训GPT-3和绘制LLM费用轨迹通用框架，以期对探索LLM成本结构及其未来发展问题提供一个有价值的参考视角。

　　重点概述：

　　以LLM为动机进行搜索已经济上可行了：粗略估计，根据已有搜索成本结构，高性能LLM推动搜索所需费用大约为目前估计广告收入/询问费的15%。

　　但是经济上可行并不等于经济上合理：以LLM为动力进行搜索，其单位经济性获利巨大，但是，对于搜索收入超1000亿美元的已有搜索引擎而言，增加这一特性可能会意味着增加超过100亿美元。

　　还有一些新兴LLM驱动业务获利丰厚：比如Jasper.ai使用LLM生成文案，很可能会有SaaS服务一样的毛利率（超75%）。

　　对大公司来说，培训LLM（即使是从头开始）费用不高：现在，公有云上培训GPT-3只需要大约140万美元，即便是像PaLM这样最先进的车型，也只需要1120万美元左右。

　　LLM费用可能明显减少：自从GPT-3问世两年半来，与GPT-3表现相同的模型，其训练及推理成本降低80%左右。

　　数据对LLM性能产生了新的瓶颈：相对于增大高质量训练数据集规模而言，加入模型参数个数可得到边际收益越来越低。

　　动机方面

　　LLM令人惊叹的性能引起了广泛的推测，这些推测主要涉及LLM潜在触发的新兴商业模式，以及对已有模式产生的冲击。

　　2021年，搜索是个有趣的机会，仅谷歌在搜索相关广告上的营收就超过1000亿美元[1]。ChatGPT（一种使用LLM的聊天机器人，能够生成高质量的答案，以回答类似搜索的问题）的「病毒式」传播引发了人们对搜索领域潜在影响的诸多思考，其中之一是LLM现在在经济上是否可行：

　　一名自称谷歌雇员的男子对HackerNews说，为了实现LLM推动下的查找，首先要把它的费用减少10倍。

　　同时，微软也有望于今年3月发布LLM版Bing产品[3]，而且搜索初创公司，例如You.com等，也在其产品中植入这项技术[4]。

　　近日《纽约时报》消息称，谷歌今年将发布一个带聊天机器人的搜索引擎[5]。

　　更大范围内存在：把LLM融入现行产品及新产品中是否经济可行？如果考虑到消费者的购买行为，则是否能够为企业带来更大的收益？本研究对现今LLM成本结构进行梳理，并对其今后可能发展的趋势进行了分析。

　　重温LLM的工作原理

　　尽管后续章节的技术性更强，但是本文对于机器学习的熟悉程度并没有提出任何要求，即便是对这一领域比较陌生的读者，也能安心读下去。文章最后部分是结论，即在本文中所提到的算法都有一定的实用价值。以解释LLM有什么特别之处，现略加回顾。

　　语言模型预测给定上下文中可能会输出token：

　　自回归语言模型（Autoregressive Language Model）输入上下文和输出内容的图示（在实践中，token通常是子词：即「happy」可能被分解为两个token，例如「hap」、「-py」）

　　以产生文本，该语言模型基于输出token概率对新token进行反复采样。如果当前输入的是多个词，那么模型可以通过使用这些词来构造一个组合。比如在ChatGPT等业务上，模型从一个初始prompt开始，这个prompt是以用户查询为背景，以及产生token，以构造响应（response）。当返回给用户时，系统会计算每个候选值与所有输入进行比较，如果不满足则停止更新，从而使最终结果更符合人们对其期望的效果。新的token产生之后，将附加在上下文窗口中，提示下次迭代的进行。

　　语言模型的出现已有数十年的历史。当前LLM性能的背后，是数十亿参数的高效深度神经网络（DNN）驱动。为了提高机器学习能力，需要对这些参数进行更多的运算以达到更好的效果。参数为训练与预测所用矩阵权重，浮点运算（FLOPS）值一般和参数的个数（parameter count）成正比。这些操作都是在GPU等矩阵操作优化处理器中进行计算、TPU等特殊芯片。

　　当LLM参数量成倍增长时，上述运算对计算资源的要求也越来越高，这可能会造成LLM成本上升。

　　LLM驱动搜索所需费用

　　在这一部分中，我们会对LLM驱动搜索引擎运行的代价进行估计。在许多情况下，这些成本可能会导致一些用户放弃搜索。应怎样实现这类搜索引擎，目前仍然是个积极的研究方向，我们在此主要审议了对提供这类服务所需费用范围进行评估的两个途径：

　　1、ChatGPT Equivalent：一个LLM，用于海量训练数据集，它将训练过程中的知识存储到模型参数中。在推理的过程中（使用模型生成输出），LLM不能访问外部知识[6]。

　　此法主要存在以下两个弊端：

　　很容易就会出现「幻想」的事实。

　　模型知识具有滞后性，只含有最终训练日期前可利用的信息。

　　2、2-Stage Search Summarizer：结构相似的LLM，可在推理过程中进入Google或者Bing之类的传统搜索引擎。在此阶段，我们利用一个基于概率统计和随机游走策略的分类器来预测搜索到的所有可能答案，并计算出这些答案之间的距离。在该法第一阶段，我们在搜索引擎中操作查询，检索到前面的K条结果。第2阶段，对各结果进行LLM操作产生K个响应，模型又向用户返回分数最高的应答[7]。

　　该方法与ChatGPT Equivalent比较具有优势：

　　能在检索出的搜索结果上引用它们的出处。

　　能够得到最新的资讯。

　　但对同一参数个数LLM，此法所需计算成本较大。本文提出了一种基于机器学习的快速搜索策略。采用该方式的代价还会提高搜索引擎原有的费用，由于我们将LLM加入到已有搜索引擎结果中。

　　一阶近似：基础模型API等

　　最为直接费用的估计方式就是参照市场已有基础模型API进行标价，这些业务的价格中包含了费用中溢价的那一部分，这一部分为供应商提供了利润。本文介绍了一些最新的成本评估技术和工具，并指出它们在实际应用中所面临的挑战。一个代表性的服务是OpenAI，提供了一种基于LLM生成文本的服务。

　　OpenAI的Davinci API由GPT-3的1750亿参数版本提供支持，与支持ChatGPT的GPT-3.5模型参数个数相同[8]。该模型能够根据用户需要自动地确定每个词汇的词频、词长以及它们之间的相关性等信息，并在此基础上对词汇间关系做出相应判断。现在用该模型进行推理的价格约为0.02美元/750个单词（0.02美元/1000个token，其中1000token约等于750个单词）；在本文中使用的价格是指用户所选择的商品或服务的价格。计算定价所用单词总数由输入与输出两部分组成[9]。

　　基本模型API定价（OpenAI）按模型功能分类

　　我们在此提出几个简单的假设，以估算将要付给OpenAI搜索服务的成本：

　　1、在ChatGPT equivalent的实现中，我们假设该服务平均针对50字的prompt生成400字的响应。如果这个策略能够得到最优解的话，那么它就可以提高系统性能并且减少计算开销。才能生产出质量较好的成果，我们也假定该模型对于每一个查询采样都有五个反应，从中选最佳响应。所以：

　　实现2-Stage Search Summarizer时响应产生过程类似。这是因为在该算法中，每个用户都有一个共同的目标函数——最小化最大代价。但是：

　　提示显然较长，因为其中既包括了查询又包括了与搜索结果有关的内容

　　对每个K搜索结果分别产生LLM响应

　　2、假设K=10并且搜索结果中的每个相关部分平均为1000个单词：

　　3、假设优化的缓存命中率为30%（谷歌历史搜索缓存命中率最低[10]）和OpenAI云服务的毛利率为75%（与典型的SaaS服务一致），我们一阶估计表示：

　　在数量级上，ChatGPT Equivalent服务的预计云计算成本为0.010美元/次，符合公众评论：

　　OpenAI首席执行官Sam Altman谈ChatGPT每次聊天的成本[推特]

　　(https://twitter.com/sama/status/1599671496636780546?lang=en) (https://twitter.com/sama/status/1599671496636780546?lang=en)

　　鉴于ChatGPT Equivalent的上述缺点（即幻想事实、模型信息陈旧），在实践中，LLM驱动搜索引擎开发者比较容易部署2-Stage Search Summarizer变体。

　　2012年，谷歌搜索主管表示，其搜索引擎月处理量达到1000亿搜索次数[11]。在互联网普及程度如此之高的今天，互联网的发展已经成为推动人类社会进步、提高人们生活质量的重要力量之一。据世界银行统计：全球互联网普及率由2012年的34%提高至2020年的60%[12]。可见，随着互联网技术发展和网民数量增加，搜索对人们生活影响越来越大，成为人们获取信息、获取知识、了解世界的重要渠道。假定搜索量成比例地增加，那么，它的年搜索量预计为2.1万亿，搜索相关收入将达到1000亿美元左右[13]，一次搜索的平均收入为0.048美元。

　　换句话说，2-Stage Search Summarizer的查询成本为0.066美元/次，大约是一次查询收入0.048美元中的1.4倍。

　　通过如下优化，预估成本将降至1/4:1左右、量化（使用较低精度的数据类型）；2、知识蒸馏（通过学习较大的模型去训练一个较小的模型）；3、训练较小型之「计算优化」模式，这种模式具有相同的性能（以后会对其进行更加深入的探讨）

　　假设云计算毛利率在50%左右，相对于对云服务提供商的依赖性，运营自建的（内部）基础设施（infrastructure in-house）将把费用减少到目前的二分之一。

　　综合上述改进，在减少到原费用的八分之一后，将高性能LLM集成到搜索上的费用约占目前查询收入的15%左右（除已有基础设施成本外）。通过实验证明该算法能够有效提高查询效率、减少计算时间和内存开销，并且具有较好的扩展性和灵活性。（注：成本最低可降至0.066美元/次*1/4*1/2，约定于0.008美元，因此大约占每次查询收入0.048美元的15%）

　　深度解析：云计算的代价

　　目前，SOTA大型语言模型通常采用可比较的模型体系结构（其中，只有解码器Transformer模型最为普遍），推理过程中每token的计算费用（以FLOPs为指标）约为2N，其中N为模型参数数量（model parameter count）[14]。

　　当前，NVIDIA A100在AWS上可以作为一种成本效益GPU的选择，如果预定1年使用GPU，拥有8个A100的AWS P4实例的有效时薪（effective hourly rate）将达19.22美元。这种设计使得计算量大幅减少并降低了硬件复杂度，从而使其成为一种高性能并行计算机体系结构。[15]每个A100提供峰值312 TFLOPS（万亿次浮点数/秒）FP16/FP32混合精度吞吐量，度LLM训练与推理关键指标研究[16]。FP16/FP32混合精度指的是16位格式的运算（FP16），并采用32位格式（FP32）进行信息存储。由于FP16的开销较低，混合精度既支持FLOPS吞吐量较高，而维持精确结果要求的数值稳定性将是恒定的[17]。

　　假定模型的FLOPS利用率为21.3%，与训练期间的GPT-3保持一致（虽然最近越来越多的模型效率得以提升，但其FLOPS利用率对于低延迟推理而言仍充满挑战）[18]。另外，本文也提出了一个新的基于机器学习和深度神经网络技术来优化模型的方法，该方法可以在不需要额外增加任何硬件开销的情况下获得更好的性能。所以对GPT-3等参数为1750亿的车型来说：

　　我们也应用了基于GCP TPU v4定价（GCP TPU v4 pricing）相同的计算方法，得到了类似的结果[19]：

　　估计GPT-3通过云服务提供商（AWS,GCP）每处理1000个token所需的推理开销

　　OpenAI的API定价为0.02美元/1000词，但是，我们估计它的费用大约是0.0035美元/1000字，约占定价20%。因此，该算法在计算时间上并不存在明显优势，但是在计算精度方面却具有一定优越性。意思是说：对一个永远在工作的机器来说，毛利率在80%左右。如果我们将价格因素考虑进来，那么我们可以得到一个非常合理的结果——在不影响性能的前提下，通过对应用程序进行适当地修改，我们能使系统实现更高的盈利水平。这个估计和我们以前想象中的75%毛利率差不多，进而为ChatGPT Equivalent和2-Stage Search Summarizer搜索成本估算提供了合理性验证（sanity check）。

　　训练成本是多少？

　　另一个热门话题是GPT-3（拥有1750亿参数）或最新的LLM（如拥有2800亿参数的Gopher和拥有5400亿参数的PaLM）的训练成本。本文提出一种新方法来估算这些模型所需计算的成本。根据参数的个数与token的个数，我们为计算成本估计搭建了框架，虽略有改动，不过，这也是一样的道理：

　　每个token的培训费用一般在6N左右（而推理成本约为2N），其中，N为LLM中参数的个数[20]

　　假定在培训期间，模型的FLOPS利用率为46.2%（而在之前的推理过程中，模型的FLOPS利用率约为21.3%），与在TPU v4芯片上进行训练的PaLM模型（拥有5400亿参数）一致[21]。

　　1750亿参数模型的GPT-3在3000亿token上训练。它可以对所有已知的语言和语音样本进行学习。谷歌使用了GCP TPU v4芯片来训练PaLM模型，如果现在和谷歌一样，那么现在训练成本只有140万美元左右。

　　另外，本研究也把此框架运用于几个较大的LLM模型来瞭解它们的训练成本。

　　估算了LLM对GCP TPU v4芯片的培训费用

　　画出成本轨迹

　　的一般框架

　　为导出LLM推理代价/训练代价，本文归纳出以下几个框架：

　　密集激活纯解码器LLM模型Transformer（Densely Activated Decoder-Only Transformer LLMs）的推理成本和训练成本（其中「N」是模型参数数量，「processor」是指TPU、GPU或其他张量处理加速器）

　　所以我们假定LLM具有类似的结构，然后，推理成本与训练成本会根据以上变量改变。尽管我们对每一个变量都进行了细致的思考，但下面几个环节却是关键点：

　　自2020年GPT-3发布以来，利用GPT-3一样强大的模型进行训练和推理的代价大大降低，低于先前的五分之一。

　　通过和2020年发布的GPT-3进行比较，总结出了其性能等效后模型在推理和训练成本上的下降

　　参数数量效率：巨型语言模型参数以每年10倍的速度递增的神话

　　鉴于模型参数在近5年来成倍增加，我们一般推测：新一代的LLM模型很可能是万亿参数（密集激活）模型：

　　LLM内模型参数个数的增加情况

　　尽管LLM中参数数量以每年10倍左右的速度递增，但大部分模型训练数据集规模并未发生明显改变：

　　选择LLM的模型参数个数与训练token个数（训练并计算出最优大语言模型）

　　不过最新的文献显示，假定计算资源和硬件利用率（也就是训练出一个计算最优的模型）不变，注意扩展参数的个数（scaling parameter count）并不是性能最大化的最好方法：

　　Google DeepMind研究者对其实验结果拟合出了参数函数（parametric function），研究发现，参数个数N增速应该和训练次数token个数D增速差不多，这使得模型损失L达到最小化（即性能最大化）：

　　模型损耗的参数函数（训练并计算出最优大语言模型）

　　他们还训练了一个名为Chinchilla的模型（拥有700亿的参数）。这个模型可以通过增加参数值来提高预测准确度并减少计算时间。尽管该模型的计算资源与Gopher（拥有2800亿参数）相同，但是该模型是在1.4万亿 token上进行训练的而非3000亿 token。这意味着它将成为第一个能够同时满足大规模数据处理、高通量数据分析以及海量数据挖掘需求的高性能模型。Chinchilla在性能上显著好于有同样FLOPs预算规模的模型，从而证明了大多数LLM过度支出了计算量和对数据的渴望（译者注：也就是说，对于大部分LLM而言，用较多数据进行训练比用增加模型参数量更经济）。

　　通过训练数据的大小和模型参数对模型损失进行预测（错误更少：Chinchilla自然环境意义）

　　虽然Chinchilla的参数（以及推理计算需求）比GPT-3少60%，但它比参数为1750亿的GPT-3模型要好得多。

　　实际上，即使我们用与GPT-3相同的3000亿 token数据集去训练一个万亿参数模型，仍然可预见，这一模式的性能没有Chinchilla那么好:

　　万亿参数模型对应损失项相对量级（0.03，训练token损失为0.25，是一个模型参数）亦显示，通过增大模型规模所获得的边际效益小于数据量增大所带来的边际效益。

　　展望未来，模型中的参数数量并没有持续增加，而是把增量计算资源（incremental computational resources）迁移到质量相当的更大的数据集上进行训练，为了达到优良的效果。

　　Cost/FLOP 效率 Cost/FLOP 效率

　　对培训LLM来说，最重要的硬件性能指标（hardware performance metric）是可实现的混合精度FP16/FP32 FLOPS。针对传统算法存在的不足进行了优化设计与分析。改善硬件的目的是使成本最低，同时，使峰值FLOPS吞吐量最大，模型FLOPS利用率最高。

　　尽管这两部分硬件的开发是分不开的，但是，要使分析更加容易，这一部分主要研究吞吐量，下节再次探讨利用率问题。

　　现在我们通过查看云实例定价（cloud instance pricing）来估算Cost/FLOP效率。在这一领域中，我们发现一个有趣问题，即计算出的结果是有可能不精确的，因为它与真实值之间存在着偏差。以便进一步的探索，我们对操作下列机器所需费用进行了估计。我们将计算出的这些费用与我们的预期结果做比较。主要有如下两方面的内容：1）硬件购买（hardware purchase）2）能源支出（energy expense）。如果我们能够将计算得到的性能与实际值比较的话，那么我们就可以确定我们所采用的方法是否合理。为了说明这一点，我们再来看看GPT-3（一款由OpenAI推出的模型，该模型在Microsoft Azure的10000个V100 GPU上训练了14.8天）[22]：

　　2020年用英伟达V100 GPU训练GPT-3的成本（碳排放与大型神经网络训练）

　　黄仁勋定律（英伟达首席执行官黄仁勋于2018年提出）指出，从硬件成本上看，GPU增长速度较五年前加快25倍[23]。随着计算机计算能力和数据存储能力的不断提高，人们越来越希望通过加速计算速度来获得更大收益。以培训LLM为情境，GPU在性能上有较大改进，这很大程度上得益于张量核心（Tensor Cores）（AMD采用的是矩阵核心（matrix cores））。这种架构能够提供强大的计算能力和内存资源。另外GPU也不再以矢量为计算原语了，但转化为矩阵，因而达到较好的性能、计算混合精度较高效率。

　　NVIDIA于2016年在V100数据中心GPU上首次发布张量核心。这是该架构在硬件层面上最大程度地提高性能的一次重大变革。相对于原来介绍的张量核心而言，尽管这种提高是显而易见的，但各代张量核心的吞吐量进一步增加。现在针对培训LLM用数据中心GPU进行研究，我们依然可以看到，每代GPU吞吐量增加50%（或年吞吐量增加约22%）。

　　数据中心GPU FP16/FP32吞吐量/美元（NVIDIA）

　　桌面GPU和数据中心GPU、吞吐量/美元按精度分类（英伟达；深度学习推理；计算与能源消耗趋势）

　　能源效率得到了更快的改善。现在就能看出来了，数据中心GPU用于LLM培训的代际吞吐量/瓦特增加80%（或年吞吐量增加34%）：

　　数据中心GPU FP16-FP32吞吐量-瓦（英伟达）

　　按精度划分的桌面和数据中心GPU吞吐量/瓦特（英伟达。深度学习推理的计算与能耗趋势）

　　单从V100（用于训练GPT-3）到即将推出的H100的改进，我们预期内部训练成本会下降58%（也就是说，训练成本从74.4万美元降至31.2万美元）。

　　目前使用英伟达H100 GPU训练GPT-3的成本

　　展望未来，在硬件设计不断革新的今天，硬件成本与能效会逐渐提高。未来处理器性能的提升将会是一个持续的过程。例如，从V100到A100 GPU,NVIDIA添加了稀疏特性（sparsity features），这样，在一些深度学习架构中，吞吐量进一步增加两倍[24]。此外，通过使用新技术来优化网络性能也是一个重要的方向。NVIDIA在H100上增加了本地支持FP8的数据类型，在结合推理量化和其他已有技术的情况下，吞吐量可进一步增加[25]。

　　另外，TPU等专用芯片的诞生也从本质上重构了深度学习用例芯片结构。这些专用芯片可以通过优化配置来达到性能上更高的效率。谷歌的TPU建立在脉动阵列结构（systolic array architecture）之上，可以明显降低寄存器的使用量，增加吞吐量等[26]。正在以下部分中提及，当我们在大规模的参数模型中推广训练与推理的时候，近来，很多硬件的重点是提高利用率。

　　提高了硬件利用率

　　由于内存需求，在LLM训练过程中，一个重大挑战是如何把这些模型由单个芯片推广至多个系统及集群级别。为了实现该目标，需要对每个模块进行建模以获得更多有效信息。在LLM训练的典型案例，设定保存优化器的状态、梯度与参数需要20N内存，其中，N为模型的参数个数[27]。

　　因此，BERT-Large（2018年早期的LLM之一，拥有3.4亿参数）仅需6.8GB内存，你可以很容易地将它装入一个桌面级的GPU。另一方面，对于GPT-3等1750亿参数模型，内存需要变换到3.5TB。同时，NVIDIA最新的数据中心GPU（H100）仅包含80GB的高带宽内存（HBM），这意味着至少需要44个H100才能满足GPT-3的内存需求。[28]此外，即使在10000个V100 GPU上训练GPT-3也需要14.8天。

　　所以，即便我们提高了训练用芯片的数量，FLOPS利用率仍需维持较高的水平，而这一点是至关重要的。

　　硬件利用率首先表现为单芯片水平上。当一个A100 GPU对GPT-2模型进行训练后，硬件利用率为35.7%[29]。实践证明片上内存（on-chip memory）及其容量是制约硬件使用的一个瓶颈：在处理器内核上进行计算要求对HBM进行反复存取，以及带宽不足对吞吐量的抑制作用。类似地，本地内存容量的限制也将迫使更多地从推迟的HBM中阅读，由此制约了吞吐量的提高[30]。

　　第二维度硬件利用率涉及芯片向芯片扩展。在大规模集成电路中，处理器之间存在大量的互连，而这些互连又常常是通过片上存储器来实现的。训练GPT-3等LLM模型时，需跨越多个GPU将模型与数据分割。由于在不同处理器之间执行任务会产生延迟，因此这种情况下的计算效率很低。就像片上存储器带宽会是硬件使用的瓶颈，芯片之间相互连接的带宽，也会是硬件使用的一个约束。在V100上市之际，NVIDIA的NVLink实现了每个GPU 300GB/s的带宽。这使得我们可以通过将处理器与其他部件之间的接口设计为并行结构来提高系统性能。对A100的宽带速度已经达到600GB/s的水平[31]。

　　硬件利用率上一个层次是从系统向系统延伸。单机容量最大可达16个GPU，因此，向更多GPU拓展需要跨系统互连，这不可能是一个性能瓶颈。目前主流的解决方案是采用多个处理器来实现异构性和可扩展性之间的平衡，然而这种方法需要大量额外资源以支持大规模应用中的并行化问题，并且会带来巨大功耗。为此，Nvidia的Infiniband HCA在过去3年中将最大带宽提高了2倍[32]。

　　在第二维度和第三维度，软件划分策略对有效使用硬件至关重要。采用模型与数据并行技术相结合的方法，2022年使用MT-NLG的Nvidia芯片集群级别的LLM训练的模型FLOPS利用率达到了30.2%[33]，而采用GPT-3模型的FLOPS利用率2020年仅为21.3%：

　　选择LLM的模型FLOPS利用率（PaLM：使用路径扩展语言建模）

　　TPU和其他专用硬件达到较高效率。

　　谷歌5400亿参数PaLM模型，在TPU v4芯片中达到46.2%模型FLOPS利用率，比GPT-3的训练利用率提高了2.2倍~[34]

　　FLOPS利用率的提高得益于更高效的并行训练（使用Google的Pathways ML系统）和从根本上说TPU具有完全不同的体系结构。芯片的脉冲阵列结构和每个内核的显着局部存储器密度（local memory density）降低了高延迟全局存储器（global memory）的读取频率。

　　类似的还有Cerebras、Graphcore、SambaNova以及其他公司为处理器分配较高共享内存容量。这也是由于他们能够更好地利用存储器空间。展望未来，我们期待着其他新兴的创新，比如，把芯片推广至晶圆级，降低了延迟/提高了带宽，或者通过可编程单元来优化数据访问模式，等等，都会进一步促进硬件利用率提高[35]。

　　大规模语言模型

　　即将进入全盛时期

　　最近，《纽约时报》报道，谷歌声称ChatGPT就是它搜索业务中的红色警报（code red），其搜索量是病毒式的。

　　[36]在经济上，通过大致的估计，在搜索中加入高性能LLM，将会产生大约15%的查询收入，由此可见，该项技术的布署已具有一定的实用性。不过谷歌在市场上的主导地位使其无法在这一领域率先发力：谷歌现在搜索收入达到了1000亿美元，在搜索中加入高性能LLM，谷歌盈利能力将下降一百多亿美元。

　　另一方面，怪不得微软计划把大语言模型融入Bing中[37]。尽管LLM支持的搜索成本高于传统搜索，并和谷歌进行了对比，微软搜索引擎所占市场份额远远低于此，但微软并没有赔钱。因为它已经拥有足够的用户基础和技术资源，可以通过对其已有数据进行分析而获取有用信息，从而为搜索提供更有价值的服务。所以，微软若能在谷歌手中顺利抢占搜索市场份额，那就算是已有的查询成本高，微软依然可以实现超高的盈利。

　　说来也巧，对别的产品来说，通过配置LLM，已能够通过SaaS实现利润。这意味着用户不再需要花费时间去下载和编辑一个广告脚本，而只需在一次点击中完成内容制作就可获得回报。比如最近的估值是15亿美元、使用LLM生成文案的Jasper.ai收费为82美元/100000字（相当于1.09美元/1000个token）[38]。这些数据表明，在某些情况下，我们完全有能力将广告预算缩减到最小程度。使用OpenAI的Davinci API定价为0.02美元/1000个token，甚至我们还采样了多个响应（response），毛利率还可能比75%高很多。

　　也让人吃惊不已，现在，公有云中只需大约140万美元就能培训GPT-3，而且，即使是SOTA模型（如PaLM，约1120万美元），训练成本也不会太高。这些新方法和新技术正在使我们能够更好地理解计算系统中的各种应用。近两年半，像GPT-3这样的模式训练成本降低80%以上，高性能的大语言模型训练成本会进一步下降。

　　也就是说，培养一个大的语言模型不是一件廉价的事情，不过，也没有这么烧，训练一个大语言模型要有很大的先期投资，但是这些投资将每年都有收益。因此，我们认为，如果想要提高训练效果和效率，就必须从更多地投资于训练大语言模型上做起。更近的Chinchilla的文章显示了将来比金钱，高质量数据将是培训LLM中一种新的稀缺资源，由于扩展模型中参数数量所产生的收益呈递减趋势。

<<ChatGPT识别器准确率仅26%，检测AI生成内容为何这么难？

高校、中学……ChatGPT“侵入”校园>>

张红甫_ChatGPT 背后的经济账,可能比你原想的复杂的多

您可能还会对下面的文章感兴趣：

随便看看