cha

ChatGPT深度研究:细探商业模式与供给端决定因素

  来源:(报告出品方/作者:海通国际)

  1.ChatGPT:以GPT-3.5架构革新AI对话模型,商业化前景仍需探索

  ChatGPT 是美国 OpenAI 公司研发的对话 AI 模型,是由人工智能技术支持的自然语言 处理(NLP,Natural Language Processing)工具,于 2022 年 11 月 30 日正式发布。它 能够学习、理解人类语言,并结合对话上下文,与人类聊天互动,也可撰写稿件、翻 译文字、编程、编写视频脚本等。

  与现存的其他同类产品相比,ChatGPT 的独特优势在于:1)基于 GPT-3.5 架构,运用 海量语料库训练模型,包括真实生活中的对话,使 ChatGPT 能做到接近与人类聊天;2)应用新技术 RLHF (Reinforcement Learning with Human Feedback,基于人类反馈的 强化学习),从而能更准确地理解并遵循人类的思维、价值观与需求;3)可在同一 阶段内完成模型训练;4)具有强大算力、自我学习能力和适应性,且预训练通用性 较高;5)可进行连续多轮对话,提升用户体验;6)更具独立批判性思维,能质疑用 户问题的合理性,也能承认自身知识的局限性,听取用户意见并改进答案。

  1.1、历经多轮迭代,参数量指数性上升,商业模式已见雏形

  2015 年,特斯拉 CEO 埃隆·马斯克、Y Combinator(美国著名创业孵化器)总裁 Sam Altman、PayPal 联合创始人 Peter Thiel 等投资 10 亿美元,在旧金山创立了非营利性组 织 OpenAI,致力于开发 AI 技术。2017 年谷歌大脑推出生成式预训练模型 Transformer,经大量数据集训练后成为当时最高水平的 LLM(大型语言模型)。

  Transformer 模型内部创造性地采用了自注意力结构(Self-Attention),相比 NLP 中的 两大主流结构 RNN(Recurrent Neural Network,循环神经网络)、CNN(Convolutional Neural Network,卷积神经网络),每层具有更佳的计算复杂度,能更好地学习语 法、语义等,提高训练和计算效率;由于未采用循环结构,Transformer 处理长序列时 也能避免梯度消失或爆炸。具体而言:1)相比不能并行计算的 RNN,Transformer 允 许并行处理输入序列中的所有位置,可直接计算点乘结果;2)相比 CNN, Transformer 可使任意两个单词间距离为 1,计算两个位置间关联的操作次数不因距离 而增多,从而解决了 NLP 中长时依赖的难点问题。

  2018 年 OpenAI 公司基于 Transformer 结构推出 GPT-1(Generative Pre-training Transformers, 创造型预训练变换模型),参数量为 1.17 亿个,GPT-1 超越 Transformer 成为业内第一。2019年至2020 年,OpenAI 陆续发布 GPT-2、GPT-3,其参数量分别达 到 15 亿、1750 亿,其中GPT-3 训练过程中直接以人类自然语言作为指令,显著提升 了 LLM 在多种语言场景中的性能。2019年OpenAI 转型为封顶盈利机构,成立 OpenAi LP 公司,同年 7 月获得微软的10亿美元投资,9 月授予微软 GPT-3 模型的独家使用权(不影响付费用户使用)。2020 年6月,公司发布第一款商业化产品 OpenAI API。2022 年 1 月,OpenAI 在 GPT-3 基础 上进行微调,并在训练中加入人类反馈数据,推出 InstructGPT。

  2022 年 11 月 30 日,OpenAI 推出人工智能对话聊天机器人 ChatGPT(InstructGPT 的兄 弟模型),其训练数据集为开源数据集,且参数量达到 GPT-3 的 10 倍以上,辅以人工 标注数据与强化学习的运用,实现了突破性进展——ChatGPT 能够围绕大量话题进行 对话,拥有更接近人类的逻辑思维,可借助对话反馈强化学习,且能模仿人类的情 绪。例如:1)ChatGPT 不仅通晓古今历史,能识别出问题中的事实性错误,还拥有想 象力和价值判断能力,能够想象古人在现代的生活并从现代价值观视角进行评判,且 语言不乏文学性;2)当用户重复同一提问时,ChatGPT 会分析提问者的反馈,推测其 想法、态度,据此调整回答,并结合普世价值观,给出合理且迎合提问者心理的答 案。同年 12 月 5 日,注册用户数超过 100 万;截至 2023 年 1 月底,ChatGPT 月活用 户已高达 1 亿,成为史上活跃用户规模增长最快的应用。

  2023 年 2 月 2 日,OpenAI 推出 ChatGPT 的付费订阅版 ChatGPT Plus,提供比免费版更 为快速的服务以及新功能优先试用权,月费为 20 美元。同日微软宣布旗下的全线产 品将与 ChatGPT 整合,包括云计算平台 Azure 以及此前已宣布的搜索引擎 Bing(必 应)、Office 等。2023 年 2 月 7 日,微软推出由 ChatGPT 支持的最新版 AI 搜索引擎 Bing 和 Edge 浏览器,次日凌晨宣布已将 GPT-4 整合到 Bing 和 Edge 浏览器中。

  1.2、得益于技术提升,应用层面正突飞猛进

  ChatGPT 的问世得益于近年来 AIGC(AI-Generated Content)技术的持续发展,也对其 他 AIGC 模型具有重要意义,尤其是依托文字、语音模态的类型。未来 OpenAI 可将 ChatGPT与其他 AIGC模型集成,拓展更丰富的功能和应用场景,进而助推 AIGC浪潮、 赋能整个 AI 产业链。Gartner 预计,到 2025 年 AIGC 将占据所有生成数据的 10%。据 Frost & Sullivan 和头豹研究院测算,2021 年中国对话式 AI 市场规模为 82.7 亿元,到 2026 年有望增长至 265.8 亿元,CAGR 达 26.3%。目前 ChatGPT 已被应用于多种工作职能中,基于其技术逻辑和特点,中短期内拥有多 样化应用方向与场景,兼顾 To B 和 To C,具体主要包括:

  1)应用于内容创作,提升内容生产效率和丰富度:①完成翻译、收集素材、选题策 划、写作稿件等任务(例如美国新媒体巨头公司 Buzzfeed 宣布将用 ChatGPT 辅助内容 创作,美联社使用的 Wordsmith 每秒可完成 2000 篇报道),②在文艺、影视等领 域,协助编写剧本和视频脚本,比如国内海马轻帆旗下的“小说转剧本”工具,已深度 参与了 3 万多集电视剧和 8000 多部电影的剧本创作过程;③与视频类 AIGC 集成,基 于文字合成、剪辑视频以及生成虚拟场景等;2)在商务场景中,协助培训员工,运用其多轮对话能力担任智能客服协助营销、把 握消费者需求,从而降低公司用人成本,例如亚马逊运用 ChatGPT 生成员工培训文 档;

  3)在办公场景中发挥办公助手、语音转换文字、代码生成等功能,比如微软计划将 Office软件与ChatGPT,推出Microsoft Teams高级版(付费),可自动生成会议笔记;4)在工业场景中,与图片类 AIGC 整合、基于对话中的关键词辅助制作设计图,减少 工程设计用时,比如 Jasper 旗下的 Stable Diffusion,可基于文本生成图像,采用了目 前全球最大的开放图像-文本对数据集 LAION-5B,且生成效率提高 30 倍,Jasper 的付 费用户目前有 IBM、Autodesk 等;5)此外,ChatGPT 在教育、工业、医疗等行业中也有较大应用空间,比如在教育场 景中为学生批改作业、答疑、查漏补缺,在医疗场景中为患者预诊、录入电子病历 等。

  海外主要玩家现状:现阶段海外 AIGC 赛道玩家数量较多,市场格局尚未定型。其中,领先的生成式 AI 公 司除 ChatGPT 之外主要有 Stability AI、Jaspers AI 和 Midjourney 等,在文字、图片、音 频生成等领域拥有独特优势,且已积累一定的用户规模。

  Stability.AI 公司致力于开发 AI 开源工具,于 2022 年 8 月推出了图像生成模型 Stable Diffusion,可根据关键词产生图片,图像文本对数量超过 5000 亿,在消费级显卡上生 成的图像与 DALL·E 2 品质相当,成为其主要竞争对手。Stable Diffusion 的程序代码免 费、开源,允许所有用户使用、调整,也可根据自身需求开发应用,已有超 20 万用 户运用其源码开发了图像、语言、音乐等领域的 AI 工具,目前各渠道的日活用户规模 累计达 1000 万以上。此外,Stability.AI 还发布了 DreamStudio,使用门槛较低,没有 编程背景的用户也能输入提示词精准生成高质量图像,最快仅需几秒,DreamStudio 用户已超过 150 万,生成图像数量超 1.7 亿。目前 Stability.AI 公司估值约 10 亿美元。

  Jaspers AI 成立于 2021 年 1 月,主要针对商业营销用途,为商家和个人用户提供 AI 文 字生成和图片生成功能。其中,文字生成工具 Jasper 可帮助用户生成营销文案、社交 媒体文章、新闻稿、TikTok 视频脚本、邮件等文本,支持 29 种语言;附加功能图片生 成系统 Jasper Art 可根据用户输入的文字生成图像,并能调整画法、风格,且拥有无 版权图片库。据公司数据,使用 Jasper 生成文案初稿可节省 80%的时间,ROI 达 400%。Jasper 和 Jasper Art 均采用付费订阅制,其中,Jasper 订阅服务分为 Starter/Boss Mode/Business Mode 三档,收费标准分别为$29/$59/$499 每月。

  相比同业竞对公司,Jasper AI 的主要优势在于:1)集成大量机器学习模型,包括业界 最新的语言生成模型 GPT-3.5(由 OpenAI 开发)和 BLOOM(由 Hugging Face 开发), 文字出品质量较高;2)针对目标用户群体的需求特点对模型进行微调,提供大量实 用模板、创作工具(例如翻译器、抄袭检验等),通过优化关键词生成更契合 Google SEO 规则的内容,且速度提升 5 倍,帮助用户增大流量曝光、改善营销效果;3)同时 支持图文生成功能,为用户创作营销材料、文艺作品等带来便利,在电商、社媒、视 频制作等多个新兴行业领域具有较高的商业潜力。

  2022 年 10 月,Jasper AI 宣布估值超过 15 亿美元,已获得 1.25 亿美元 A 轮融资,将用 于打造核心产品、与更多应用整合以及收购 Outrite(一款用于检查语法和风格的 AI 软 件,全球用户数已超过 100 万),计划于 2023 年整合两家公司的产品。据公司创始人 透露,截至 2022 年 10 月,Jasper 用户数已超过 10 万;2021 年收入达 4500 万美元, 预计 2022 年实现收入 7500 万美元以上,同比增长约 66%。

  Midjourney 是 AI 绘画赛道近期最受欢迎的应用,能根据输入的关键词生成高质量图 像,现已嵌入 Discord 平台,用户基于该平台的 bot 机制提交 Prompt(即提示词)即 可生成图片,目前已拥有 381 万用户。Midjourney 允许付费用户创作的图像用于商业 用途,但若收益超过每月 2 万美元则需支付 20%作为分成,也可与公司官方协定分成 比例。Midjourney 擅长人像生成,图像接近照片级品质,制作的 3D 艺术品也十分逼 真、精细,在建筑设计、艺术创作等对图像质量、审美要求较高的领域拥有显著优 势,应用前景广阔。据称,目前 Midjourney 每月收入约 200 万美元以上。

  2.细探ChatGPT出圈原因:爆款应用背后,长期技术拐点已现

  ChatGPT 在上线 5 日内突破 100 万注册用户,超越 Facebook 和 Twitter(分别用时 10 个月和 2 年),两个月内突破 1 亿用户,成为全球最快用户破亿的互联网软件,对比 之下,TikTok 和 Instagram 分别用时 9 个月和 2 年半才实现亿级用户量。用户活跃度方 面,据 SimilarWeb 报告显示,ChatGPT 在 1 月的日均访问量达到 1300 万人次。我们分 析,ChatGPT 能够如此迅速火遍全球,主要得益于:1)ChatGPT 长期积累的技术优 势;2)公司大胆尝试得到市场认可;3)科技巨头纷纷躬身入局,释放重视信号;4)大趋势上,AIGC 行业逐渐成熟。

  2.1、技术上,多轮迭代训练后已具备先发优势

  由 OpenAI 公司推出的 ChatGPT 在正式面世之前,GPT 家族已有三个基于 Transformer 技术的自然语言处理模型,分别为 GPT-1/2/3,模型每迭代一次,参数量都在几何式 增长,从最初的 1.17 亿增加到第三代的 1750 亿,GPT-3 已成为全球最大的语言模型之 一。ChatGPT 使用的 GPT-3.5 模型是在 GPT-3 的基础上加入 Reinforcement Learning from Human Feedback(RLHF,人类反馈强化学习)技术和近段策略优化算法,其目的是从 真实性、无害性和有用性三个方面优化输出结果,降低预训练模型生成种族歧视、性 别歧视等有害内容的风险。ChatGPT 训练的过程主要有三个阶段。

  第一步是训练监督策略,人类标注员对随机抽取的提示提供预期结果,用监督学习的 形式微调 GPT-3.5,生成 Supervised Fine-Tuning(SFT)模型,使 GPT-3.5 初步理解指 令,这一步与先前的 GPT-3 模型训练方式相同,类似于老师为学生提供标答的过程。第二步是奖励模型,在 SFT 模型中随机抽取提示并生成数个结果,由人类标注员对结 果的匹配程度进行排序,再将问题与结果配对成数据对输入奖励模型进行打分训练, 这个步骤类似于学生模拟标答写出自己的答案,老师再对每个答案进行评分。

  第三步是 Proximal Policy Optimization(PPO,近段策略优化),也是 ChatGPT 最突出 的升级。模型通过第二步的打分机制,对 SFT 模型内数据进行训练,自动优化迭代, 提高 ChatGPT 输出结果的质量,即是学生根据老师反馈的评分,对自己的作答进行修 改,使答案更接近高分标准。简而言之,我们分析,ChatGPT 的优势在于,1)使用 1750 万亿参数的 GPT-3 为底层 模型进行预训练,为全球最大的语言模型之一;2)算力上得到微软支持,使用上万 片 NVIDIA A100 GPU 进行训练,模型的运行速度得到保障;3)算法上使用奖励模型和 近端优化策略进行迭代优化, 将输出结果与人类预期答案对齐,减少有害性、歧视性 答案,使 ChatGPT 更拟人化,让用户感觉沟通的过程更流畅。

  2.2、管理上,OpenAI管理结构更为灵活,为大胆创新奠定了基础

  在 ChatGPT 上线之前,许多科技公司也在培育 AI 语言模型。如 Google 一直训练的 LaMDA 模型,在 2020 年开始训练,初代于 2021 年 5 月公布,但由于模型与谷歌的广 告业务发展方向无法匹配,迟迟未推出。该模型使用 1370 亿参数,1.56 万亿单词量, 是 ChatGPT 的 5 倍。去年夏季曾传出新闻,Google 工程师因为认为 LaMDA 具有独立 思想而被开除;CEO 桑达·皮查伊明确表示,公司将秉持对 AI 的原则(产品有益于社 会发展、安全可靠、对人负责等)以及对信息完整度的最高标准来研发和开放 AI 产 品,Google 不同于其他初创公司,不能承担 AI 犯下的错误对公司的信誉和其他倍受信 赖的产品造成的影响,Google 对于 AI 产品的研发和开放持有十分谨慎的态度。

  既没有上市,也没有盈利目标的 OpenAI 则显得更为进取。ChatGPT 的前身 GPT-3 模型 于 2020 年发布,在此模型基础上,公司加入 RLHF 训练和 PPO,培育出 GPT-3.5 模型, 该模型对应的 InstructGPT 在 2021 年 1 月开始内测,于 2022 年初对外公布,兄弟版 ChatGPT 在 2022 年 11 月末正式推出,即 GPT-3. 5 模型从灰测到对外公布仅用时不到 2 年。公司能够快速且大胆推出 ChatGPT,除了基于 ChatGPT 本身的优越性能,也是为 GPT-4 收集更多公开对话数据,继续扩大可用参数规模。尽管 ChatGPT 仍有明显缺 陷,在推出后屡现 “胡说八道”的情况,且面对复杂的数理化问题无法提供正确答案, 但瑕不掩瑜,用户对于这位先行者的错误结果展现出更多包容,相比之下,Google 于 2 月 6 日推出的 AI 对话机器人 Bard 由于答案出错,公司当日股价一泻千里。

  占据先发优势的 ChatGPT 在面世后迅速风靡各行各业。据 Study.com 对超过 1 千名大 学生调查显示,已有 89%的学生使用 ChatGPT 辅助完成作业,48%的学生在做居家测 验时使用 ChatGPT,53%的学生将其用于写论文,22%的学生用于写论文框架;除了教 育行业,广告从业人员、网文写手、探店博主等都在尝试使用 ChatGPT 辅助撰写软文 和稿件。企业方面,微软已宣布将 ChatGPT 嵌入必应搜索引擎,未来会陆续整合进 Windows 系列产品、Teams 和云服务;奢侈品电商寺库和美国著名媒体公司 BuzzFeed 于近期宣布与 ChatGPT 开展业务合作;亚马逊员工也在 Slack 表示已经将 ChatGPT 应 用在多种工作职能中,但目前律师警告员工勿将公司机密信息告诉 ChatGPT。

  2.3、科技巨头躬身入局,发布重视信号

  在 ChatGPT 对外公布并成为全球热点之前,微软公司早在 2019 年已经投资 10 亿美元 成为 OpenAI 的金主之一,并在 2020 年 GPT-3 发布时获得独家授权访问底层代码,将 API 整合到微软的产品和服务中。此次 ChatGPT 走红,微软继续加码 100 亿美元投资。作为 AI 和搜索引擎两个领域的领军企业,Google 在 12 月 21 日发出红色警告,表示类 ChatGPT 聊天机器人将会颠覆搜索引擎行业,对 Google 的广告业务带来重创,随后于 2 月初,Google 宣布投资 4 亿美元在 OpenAI 的竞对公司 Anthropic,并推出 AI 聊天机 器人 Bard,紧跟热潮。国内同样可见科技巨头如百度、阿里和京东等纷纷宣布打造类 ChatGPT 产品,加速布局 AIGC 产业。

  OpenAI: ChatGPT 使用的 GPT-3.5 模型,是由基于 1750 亿参数的 GPT-3 迭代而来。据悉,GPT-3 模型中的世界知识来自 3000 亿单词的训练语料库,其中 60%来自于 2016 至 2019 年的 C4 语料库,22% 来自于 WebText2(WebText 是由 OpenAI 收集 Reddit 网站内 3 分以上 的回答整理而来的数据集,截止至 2017 年 12 月共汇总 8,013,769 份文件,规模达到 40GB,而 WebText2 是在 WebText 的基础上继续更新数据至 2020 年 4 月,且包含所 有语言的回答),16% 来自于书本以及 3%来自于维基百科。GPT-3.5 是在 GPT-3 这个 预训练大型语言模型的基础上进行代码训练和指引微调迭代的模型,由于 GPT-3.5 目 前没有接入互联网,模型内的数据更新截止至 2021 年。

  Google:Google 紧跟 OpenAI 推出的 Bard AI 对话机器人,使用了 LaMDA 模型。该模型使用 1370 亿参数,主要训练分为两个阶段。在预训练阶段使用的数据集由 1.56 万亿单词组成, 后续将这些单词整理成 2.81T 个令牌的数据库进行训练,数据主要来源是公开的网络 文件。训练的第二阶段是微调,也是 LaMDA 作为开源模型比 GPT-3. 5 更有优势的一 点。LaMDA 的微调包括两个方面,1)对生成文本进行性能安全和质量评估,主要观 察 SSI 三个方面,分别是合理性(Sensible)、针对性(Specific)以及趣味性 (Interesting);2)对生成文本进行外部信息检索,通过学习外部知识,使回答更尽 可能不违背事实。第二项微调对比 ChatGPT(数据更新截止至 2021 年),LaMDA 获取 的数据量更大,为用户提供最新的信息回复。在算力上,LaMDA 主要使用 Google 自 研 TPU v3 芯片集群。

  除了 LaMDA 之外,Google 于 2022 年 4 月推出另一大型语言模型 PaLM,规模达到 5400 亿参数,使用的芯片是自研 TPU 最新版 v4。TPU v4 芯片主要与集群相连应用,每一个 集群中包含 4096 枚芯片,运行速度可以达到百亿亿次每秒,在测试训练语言模型 BERT 时,同样数量的 TPU v4 对比 NVIDIA A100,TPU v4 的速度提升了 1. 15 倍。在训 练 PaLM 时,Google 使用了两个 TPU v4 集群。由于 Google 的 LaMDA 和 PaLM 模型目前暂未全面开放,公司没有公布模型训练和使 用的成本。

  Meta:Meta 的开源 AI 对话机器人 Blenderbot 初代于 2020 年公布,参数规模为 94 亿,是当 时市面上最大系统的 3.6 倍,经过两代更迭,Meta 在 2022 年 8 月推出 Blenderbot3, 共 3 个参数版本,最大规模达到 1750 亿,预训练数据集包括 180B 个令牌,数据主要 来自于 RoBERTa 的训练数据集、CC100 的英文数据集、Pushshift.io Reddit 和 The Pile 数 据集。除了对数据集进行预训练,Blenderbot3 的主要改进是持续学习计划。在微调的 过程中,模型会同时开展对外搜索和对内索取长期记忆,将信息整合输出回答。在答 复发出之后,用户可以点赞或点反对,Blenderbot3 会继续跟进用户反馈生成新的对 话,继而收集资料对模型进行微调优化。

  据资料显示,Blenderbot3 在训练时使用了 128 张 40gb 的 NVIDIA A100 芯片,推出后仅在美国上线,且只有 30 亿和 300 亿参数 规模的两个小模型对外开放,1750 亿参数的模型需要额外提交申请方可使用。

  Amazon:Amazon 推出的大规模多语言模型 Alexa TM 主要用于提升语音助手 Alexa 的服务,该 模型的参数规模只有 200 亿,采用 seq2seq(串行到串行)的编码器-解码器架构,主 要用于多语言翻译和生成文本摘要。经测试,包括了编码器架构的 Alexa TM 在文本摘 要和语言翻译的效果明显优于只有解码器架构的 GPT-3 和 PaLM。作为世界头部云厂 商,Amazon 更多发力在自研芯片和处理器,在 2022 年举行的云科技 re:Invent 全球 大会上,Amazon 公布了 3 款新芯片及对应的弹性云计算应用实例。其中 Inferentia2 高 性能机器学习推理芯片是为运行 1750 亿参数规模的大型语言模型而生,相比前一代 Inf1 提高 3 倍计算性能,运算速度达到 2.3 千万亿次/秒,对比基于 GPU 的同类应用实 例,搭载了 Inf2 的实例吞吐量提高 2.3 倍,成本降低 70%。

  3.微软作为破坏性创新者,在算力+算法+应用生态上已呈现完整布局

  作为 OpenAI 的主要投资人,微软在 AIGC 算法领域布局较早,其 2019 年 3 月就对 OpenAI 进行了 10 亿美金注资。今年 1 月 24 日,微软公司在官方博客宣布已与 OpenAI 公司扩大合作伙伴关系,两家公司合作伙伴关系进入第三阶段,微软将向 OpenAI 进 行一项为期多年、价值数十亿美元的投资,以加速其在人工智能领域的技术突破。我 们认为,微软在 AIGC 领域的完整生态,可助力其在未来发展中保持优势。具体而 言:

  3.1、强大的算力为微软在AI领域奠定了良好基础

  自 2019 年注资 OpenAI 开始,微软便成为了 OpenAI 的独家云计算服务商。微软的云 服务一直为 OpenAI 的产品、API 服务和研究中所有的工作负载提供支持,同时双方在 Azure 上合作研发人工智能超级计算技术。此后,微软于 20 年便推出了用于在 Azure 上训练超大规模人工智能模型的超级计算机,其拥有超过 28.5 万个 CPU 核心和 1 万 个 GPU,其中每 GPU 拥有 400Gbps 网络带宽。根据微软 20 年 Build 开发者大会介绍, 此超算平台性能位居全球前五,并且得益于在 Azure 上托管,这台超级计算机拥有现 代云计算基础设施的各种优点,包括快速部署、可持续发展的数据中心并可以访问所 有 Azure 服务。

  强大的算力是 ChatGPT 不断迭代进化的基础:从数据需求看,GPT 3.0 使用了 1750 亿个参数进行训练,根据 Linux 中国报告,GPT-4 预计将使用数万亿参 数。这预示着更多的算力需求以及高集中度的云服务。从专注于感知型(图像、声音 和视频等感官数据的解读)人工智能进化到生成型人工智能(新内容的创建),这将 需要成倍增长的计算能力。我们认为,微软的强大的算力叠加生态服务,为公司在 AIGC 领域奠定了良好基础,且这一优势已在过去云基础服务市场所验证:在全球云基 础设施服务市场,根据 Synergy Research Group 数据显示,微软 Azure 在 2Q22 市场份 额已达到 21%,仅次于亚马逊 AWS,并呈节节上升之势。

  3.2、AIGC算法层面,微软在自研与合作上同时进行:

  1)与 OpenAI 紧密合作,后者已在为微软定向研发下一代大型语言模型(LLM )- 根 据 2 月 8 日微软发布会介绍,这一模型专为搜索服务定制,其吸取了 ChatGPT 和 GPT3.5 的重要经验,而且速度更快、更准确,这一模型将搭载在全新的 Bing 服务上。此 外,微软与 Open AI 合作研发的 “Prometheus Model”也将应用在新的 Bing 搜索服务上, 其可提高搜索结果相关性,同时更加安全;

  2)此外,微软联手英伟达推出了威震天-图灵自然语言生成模型(Megatron TuringNLG),其包含 5300 亿参数,几乎三倍于 ChatGPT 3 的参数数量,为目前全球规模最 大,同时也是性能最强的 NLP 模型。3)同时在去年 4Q,微软推出了新的视觉基础模型 Florence,其具有 6.4 亿参数量, 该模型将表征从粗粒度(场景)扩展到细粒度(对象),从静态(图像)扩展到动态 (视频),从 RGB 扩展到多模态。通过结合来自 Web 规模图像 - 文本数据的通用视觉 语言表征, Florence 模型可以轻松地适应各种计算机视觉任务,包括分类、检索、目 标检测、视觉问答(VQA)、图像描述、视频检索和动作识别;

  3.3、应用上,商业化落地已见雏形;搜索市场份额有望提升

  首先,21 年微软与 OpenAI 共同推出 AI 编程工具 GitHub Copilot。在 2022 年 6 月 22 日,Copilot 已正式上线,定价每月 10 美元(约 66.9 元人民币)或每年 100 美元(约 669 元人民币),对学生用户和流行开源项目的维护者免费提供。根据微软 CEO 纳德 拉,最近在 GitHub Copilot 上突破了 1 亿开发者,且有用户使用 GitHub Copilot 构建了 80%的代码。其次,微软也在将 ChatGPT 整合进入自身的云生态之中。据微软披露,ChatGPT 版 Teams 工具可以辅助用户完成更多的办公功能,比如起草工作邮件,记笔记、做会议 纪要等事务性工作,并且能够自动提供在办公平台上举行的会议的回顾,根据会议讨 论情况生成任务清单,并提供会议记录和总结。另外,微软旗下的 Dynamics 365 ERP 产品宣布在 Viva Sales 客户关系管理软件中集成 ChatGPT,可以生成对企业客户的电子 邮件回复,进一步代替人工完成重复的文字工作。

  此外,近期关注度更高的是其即将推出的搭载了 AI 功能的 Bing 搜索引擎。根据微软 CEO 纳德拉在 2 月 8 日的发布会上所言,传统搜索引擎痛点主要在于结果不准确,而 新的 Bing 搜索引擎将有效解决这一痛点:“目前的搜索引擎,人们 40%的时间都是点 击搜索链接并立即返回,这表明搜索结果并不可信,我们希望在搜索领域再次进行创 新- 微软称其为’您的网络副驾驶’,这个副驾驶的核心是一个全新的 Bing 搜索引擎和 Edge 网络浏览器,其中 Bing 将直接回答您的问题,并提示您发挥更多创意”。

  具体来讲,全新 Bing 在技术上将有四重突破:1)模型上:Bing 将在 Open AI 的下一 代 LLM (大型语言模型)上运行,其专为搜索定制,带来全新的交互体验;2)搜索 算法上,微软与 Open AI 合作的“ Prometheus Model”可提高搜索结果相关性,同时更 加安全;3)将人工智能应用于核心搜索算法。微软将 AI 模型应用于其核心必应搜索 排名引擎,从而实现了二十年来相关性的最大跃升。有了这个 AI 模型,即使是基本的 搜索查询也更加准确和相关;4)用户体验设计上,新的 Bing 将带来集答案、聊天和 浏览一体的搜索体验。

  4.Google等玩家作为防守者,短期面临更大的竞争压力

  我们发现,受到 ChatGPT 直接负面影响的玩家(如搜索引擎),更多是通过加速推出 自研的聊天机器人来进行对抗:Google 这样可以提供算力和资金的巨头同时采用联合 和投资 ChatGPT 的竞对的手段来建立自己的护城河。而 AI 实力较弱的下游公司,更多 是采用合作的态度对待 ChatGPT。非直接对抗,有自己 AI 研发能力的公司,比如 Amazon 会采用谨慎合作的态度,在使用 ChatGPT 功能时,同时防止自身信息泄露。

  4.1、防守策略之一:直面竞争

  ChatGPT 的问答模式,长期来说,很可能在目前 Google 垄断的搜索引擎市场撕开裂 缝,特别是跟 Microsoft 结合之后。Google 的搜索广告业务在变现端也会承压,因为 其广告业务建立在从关键词到链接到页面的基础上,页面给到广告以展示空间,而用 户的浏览记录也是公司的数据资源,帮助提高广告投放的效率。鉴于 ChatGPT 的迅猛的发展势头以及未来很大可能的对 Google AI 地位和搜索业务的挑 战,在 ChatGPT 推出后,Google 对其是对抗态度,主要举措包括对 ChatGPT 的竞对进 行投资和合作,以及,紧急发布自研聊天机器人。

  (1)谷歌 CEO Sundar Pichai 在公司内部发布了“红色警报” (Code Red),并称将围绕 ChatGPT,全面调整 2023 年谷歌在 AI 领域的工作。据《纽约时报》,谷歌内部包括研 发、安全和信任等多个部门的团队被重新分配工作,辅助开发新的 AI 技术原型和产 品。

  (2) 2023 年 2 月 4 日,Google 向 Anthropic 投资近 4 亿美元,获得 10%股份, 同时 Google Cloud 为 Anthropic 首选云供应商,为其提供 AI 算力。Anthropic ,由 OpenAI 前 研究副总裁达里奥·阿莫迪(Dario Amodei)、GPT-3 论文一作 Tom Brown 等人于 2021 年成立,推出了聊天机器人 Claude, 在此之公司发布了论文,描述了一个基于无监督 方式训练、520 亿参数的模型 AnthropicLM v4-s3,直接对标 OpenAI 的 GPT-3 模型。目 前,Claude 尚未向公众发布,计划在未来几个月内扩大个人对 Claude 的访问。Anthropic 强调其旨在构建“可靠、可解释和可操纵的人工智能系统”。

  这个目标让 Anthropic 比 OpenAI 更加谨慎和可靠,但也限制了 Anthropic 的模型开发速度。据拿到 内部试用权的网友,Claude 在逻辑性和信息正误判断上,优于 ChatGPT。Google 这一 举动表现出,其可以基于 Google 云计算平台来跟生成式 AI 公司绑定关系,从而搭建 AI 护城河的意图。除了 Anthropic, Google 云也和 Cohere 和 C3.ai 合作,未来会发布更 多细节。

  (3)另外,2023 年 2 月 8 日,Google 开发布会展示 Bard,并表示未来几周将提供更广 泛的服务,比如整合了聊天机器人的新搜索页面(该搜索页面,可能会使用问答形 式,主搜索页面提供五个不同的潜在问题提示,搜索栏还会添加聊天标志)。Google 强调,Bard 会把世界上的信息知识和 Google 的语言模型结合,基于实时网络。Bard 目前向有限开发者推出,而不像 ChatGPT 一样,一开始便全开放。

  其他的搜索引擎玩家也采取了相应的措施,推出结合自己优势的聊天机器人产品,比 如 Neeva,意图推出能够同时展示综合答案和相关网页来源的问答产品,使用户能够 确定结果的真实性和可信度。对比 ChatGPT 和 Bard, 我们认为两者都都可以将复杂的信息和多个视角提炼成易于理 解的文字输出格式。不同的点有 1)因为两者基于的模型不同,从而实现的高效的场 景是不同的,Bard 基于 LaMDA 的模型,在大量的对话数据上训练,能够生成有对话性和语义意义的文本 ;ChatGPT 基于 GPT 模型,是用于生成语言的,有助于任何需要 生成文本的工作,如文章写作,故事写作等;2)目前开放的范围,ChatGPT 大于 BARD, 前者面向公众开放,已经有 1 亿月活用户(2023 年 1 月);后者目前只是面对 有限的开发者开放测试。

  虽然,ChatGPT 的开放比 Google 更早,但我们认为 Google 仍有优势进行追赶:1)全 球搜索主导地位,无论从用户量、用户搜索行为数据还是搜索资源上,Google 有优于 OpenAI 和微软;2) Google 储备了许多大型 AI 语言模型,包括 BERT, MUM 和 LaMDA 等,所有这些都被用于改进谷歌的搜索引擎和 AI 相关输出,Google 后续还有 PaLM (可达 5400 亿参数);3)更强的资金实力,Google 在利润规模,研发费用规模上明 显高于 Microsoft. 长期来说,我们还是看好 Google 在 AI 方面的技术、资金和数据优 势,不过短期来说,Google 势必要投入更多的时间和资源在 AI 研发上来应对 OpenAI 带来的威胁。因此,我们认为 Google 短期利润承压。

  虽然,ChatGPT 的开放比 Google 更早,但我们认为 Google 仍有优势进行追赶:1)全 球搜索主导地位,无论从用户量、用户搜索行为数据还是搜索资源上,Google 有优于 OpenAI 和微软;2) Google 储备了许多大型 AI 语言模型,包括 BERT, MUM 和 LaMDA 等,所有这些都被用于改进谷歌的搜索引擎和 AI 相关输出,Google 后续还有 PaLM (可达 5400 亿参数);3)更强的资金实力,Google 在利润规模,研发费用规模上明 显高于 Microsoft. 长期来说,我们还是看好 Google 在 AI 方面的技术、资金和数据优 势,不过短期来说,Google 势必要投入更多的时间和资源在 AI 研发上来应对 OpenAI 带来的威胁。因此,我们认为 Google 短期利润承压。

  4.2、防守策略之二:展开合作

  一些非搜索引擎类公司对 ChatGPT 采取的是合作态度,特别是内容创作,分发等公 司,比如 Buzzfeed 宣布计划采用 ChatGPT 协助内容创作。亚马逊对 ChatGPT 是采取谨 慎合作的态度,据 Slack, 亚马逊的员工已经使用 ChatGPT 运用在各种工作职能, 包括回 答面试问题、编写软件代码和创建培训文档等.但是律师警告员工信息保密政策,即不 要向 ChatGPT 提供“任何亚马逊机密信息。亚马逊 Amazon Web Services(AWS)云部 门已经成立了一个小型工作组,以更好地了解人工智能对其业务的影响。亚马逊为员 工使用 ChatGPT 设置了许多内部防护措施。例如,当员工使用工作设备访问 ChatGPT 网站时,会弹出防火墙警告消息。

  5.国内发展如何?基础设施服务商应率先获得红利;未来应用端价值有望被进一步挖掘

  ChatGPT 目前并没有正式进入中国,根据其目前在海外的产业结构,可以分为上游基 础设施层,中游模型层、和下游应用层:基础设施层:主要包括硬件制造商,云厂商以及数据服务商,用以承载 AI 模型的 训练和推理。根据 ChatGPT 的回答,它的基础设施构建在云上,由大量的高端 CPU和 GPU组成的高性能计算机集群,以及网络环境和存储系统组成。OpenAI 采 用的是微软 Azure 云服务,其他海外 AI 云厂商还包括亚马逊 AWS 和谷歌 GCP 这 样的头部云厂商,以及 CoreWeave 这样的专门 GPU 云厂商等。

  业内普遍认为该系统主要使用的是英伟达 GPU,根据 JPR 统计,英伟达 3Q22 在高端 GPU 的出货量市占率高达 90%,是 AI 芯片的绝对龙头,其他海外玩家主要包括 AMD, 英特尔等芯片厂商,以及类似谷歌和苹果这些为自家产品推出自研 AI 芯片的科技厂 商。我们把 ChatGPT 用于训练模型的数据源也考虑进基础设施层,根据 ChatGPT 的回答推 断,ChatGPT 既使用外部数据合作方也使用自身的数据集进行训练。一般提供 AI 云服 务的云厂商也会提供机器学习和 AI 训练所需的数据集,其他海外数据方还包括一些专 门的数据商,例如 Kaggle(拥有超过 5 万组公共数据集和超过 40 万组非公共数据 集)。

  模型层,即 ChatGPT 所在的环节,是整个产业链的核心,模型层的技术突破才使 整个产业链得以实现。除了 ChatGPT 外,海外其他头部玩家还包括和谷歌研发的 和 ChatGPT 一样同为 Transformer-based 语言训练模型的 BRET,Stability.AI 的开源 图片生产 AI 项目 Stable Diffusion 等。应用层,即基于模型层的训练模型,开发终端应用或插件的公司,可以大致分为 三类:1)以 API 接口的形式在自家 App 或插件上接入其他厂商模型来面向终端 用户,例如接入 ChatGPT 接口的文案自动生成平台 Jasper,使用 OpenAI Codex 提 供实时的代码编写或辅助服务的 GitHub Copilot 等。2)采用自研模型的生成式 AI 产品,例如 ChatGPT 本身和谷歌 AlphaGo 等;3)将 AI 模型本身作为产品出售的 公司,例如 Runway 等。

  类比海外产业链,中国产业链尚在形成过程中,我们认为:中国产业链在基础设施 层,主要是芯片方面和海外存在巨大差距,但这在芯片被卡脖子的现实下,也预示着 发展空间。其次国内模型层的研发存在落后 1-2 年,但我国产业链在云基础设施市场 增速较高,且在下游应用端存在竞争优势。具体而言:

  中国 AI 云基础设施市场增速可观,但在芯片方面差距巨大:根据 IDC,2022 年中 国 AI 公有云服务市场规模将达 74.6 亿元,同比增长 69%,而根据 Technavio 预测 推算,2022 年全球 AI 云服务市场规模约为 545 亿元,中国公有云市场规模占比 全球市场约为 8%。同时 Technavio 预测全球 AI 云服务市场在 2022-26 年 CAGR 约 为 21%,远低于中国市场增速;并且在过去三年间,中国 AI 公有云服务市场的增 速均高于中国整体 AI 软件市场的增速,说明中国 AI 公有云市场正在蓬勃发展, 并有望提升在全球市场的份额。

  其中主要玩家包括百度云,阿里云,华为云和腾讯云等,根据 IDC 和我们的估计, 1H22 这四家头部玩家依次占据 28%/28%/21%/17%的市场份额。对比 2020 年到 1H22 的市场份额变化,可以发现,百度智能云四年居第一,但其市场份额在逐步缩小,从 33%收缩到了 28%,腾讯云的市场份额从 19%收缩到了 17%,而华为云的份额从 12% 扩张到了 21%,华为云在逐步扩张势力。

  在芯片层面,根据 IDC,目前中国仍以 GPU 为主实现数据中心计算加速,市场占有率 近 90%;和国际情况类似,国内 GPU 的主要供应商同样是英伟达。但在 22 年 8 月美 国政府禁止英伟达向中国出口其广泛用于 AI 产业的高端 A100 和 H100 芯片以及搭载 这两款芯片的系统或设备,以及未来性能更高的芯片。随之,英伟达选择推出性能较 低的替代产品 A800 来绕过监管,但其芯片间传输性能较 A100 下降了 50%,对于多芯片训练场景,传输性能的降低意味着训练效率的降低。

  同时,比较 A800 和国际领先 的 H100,其在制程、性能和传输速度上都和 H100 有较大差距,意味着国内 AI 训练和 推理在芯片硬件端的条件和国际存在较明显差距。虽然短期而言,A800 依然可用于 AI 模型训练,且国内还有部分 A100 存量可以使用,但本身 A800 就与英伟达海外流通产 品有性能差距,随着英伟达未来不断迭代其高性能芯片,国内玩家在算力方面的追赶 依然具有挑战性。

  芯片产业一直是我国被美国卡脖子的行业之一,目前国内进行自研 AI 云端计算芯片的 龙头企业主要包括华为、百度、阿里、腾讯、寒武纪、璧仞科技、墨心人工智能等, 我们对比了国产 AI 芯片和英伟达领先芯片的参数,可以发现国内厂商即使是小厂也有 技术能力设计出参数上领先国际水平的芯片,但考虑到国内芯片制造技术的限制,能 否量产成为了制约这些先进芯片落地的重要因素。此外,芯片在 ChatGPT 等大模型的 训练中并不是单独使用,而是作为云服务厂商或 AI 技术厂商的网络架构和服务器的一 部分进行使用,因此芯片的适配性和可扩展性也是制约国产 AI芯片落地的重要因素;并且此前国内 AI 模型训练多以搭载英伟达芯片适配的网络结构和服务器为主,进行国 产化替代的转化也要面临适配性挑战。

  6.国内应用端玩家现状一览:百度、阿里、腾讯积累深厚;其他玩家亦在积极入局

  在 AIGC 基础大模型领域,国内领先的玩家有阿里巴巴、百度、腾讯等。百度进度最 快,其主要模型为文心,目前已在绘画、产品搜索有产品上线,据百度官方微信公众 号消息,类 ChatGPT 产品“文心一言”预计将于 3 月发布;阿里主要基于 M6 模型进行 AI 产品开发,在智能客服、商品检索等场景已有产品上线,类 ChatGPT 也进入内测阶 段;腾讯的混元模型在跨模态领域有优势,类 ChatGPT 产品也有相关布局,但仍在推 进研究,尚无产品上线的时间线。此外京东、字节、快手等互联网公司也均有 AI 相关能力积累,并对类 ChatGPT 产品展 开了专项研究;非互联网公司中,华为、商汤在算力、模型上也具备竞争力。

  6.1、百度:国内AI先行者,类ChatGPT产品“文心一言”将于3月上线

  百度作为国内搜索及 AI 领域头部公司,在 AI 行业布局较早,新业务均以 AI 作为重要 技术底座。除了广告收入外,公司其他新业务包括云服务、智能设备及服务、智能驾 驶等,与人工智能技术有较强关联,是当前公司重点发力投入的第二、第三曲线业 务,在 AI 发展方面把握先机。

  基础层:在云、芯片方面均有积累。百度智能云在 AI 领域领跑。根据 IDC 报告,AI 公有云服务厂商市场格局相对稳 定,2022 上半年百度智能云仍然稳居第一,整体市场份额占比 28.1%,这也是百 度智能云连续四年市场份额第一。前四位分别为百度智能云、阿里云,华为云、 腾讯云。

  自研 AI 芯片昆仑,具备软硬一体的全栈 AI 能力。2021 年百度自研昆仑 2 代芯片 量产(据《科创板日报》报道,百度集团执行副总裁沈抖透露,3 代预计将于 2024 年初量产),采用 7nm 制程,可提供 256TOPS@INT8 以及 128 TFLOPS@FP16 算力。根据 Apollo 开放者日信息,昆仑芯片已经在互联网、工业质检、智慧交 通、智慧金融等场景均有规模部署案例。此外昆仑芯 AI 芯片也已与飞腾等多款国 产通用处理器、麒麟等多款国产操作系统以及百度自研的飞桨深度学习框架完成 了端到端的适配,拥有软硬一体的全栈国产 AI 能力。

  模型层:文心大模型基于千亿级参数训练,开源深度学习平台飞桨也积累了大量开发 者。文心大模型:2019 年,百度基于谷歌在 2018 年发布的自然语言处理模型 BERT, 开发推出大型人工智能语言模型“文心”,同时加入了很多知识类的中文语料进行 训练,一度被称为最强中文 NLP 模型。经过多年发展,“文心”现在已成为 NLP (自然语言处理)算法集、预训练模型、开发套件、平台化服务于一体的大型平 台。2022 年 11 月,文心大模型一次性发布 11 个大模型,涵盖基础大模型、任务 大模型、行业大模型的三级体系,全面满足产业应用需求,大模型总量已增至36 个。

  飞浆平台:根据百度港股招股书,飞浆是全球范围内累计拉取请求数量第二的开 源学习框架,是中国拥有开发者数量最多的 AI 开源学习平台,根据 WAVE SUMMIT 及 2022 深度学习开发者峰会,截至 2022 年 11 月,飞桨平台已凝聚 535 万开发者,服务 20 万企事业单位,基于飞桨创建了 67 万个模型。

  应用层:基于文心大模型已推出 AI 作画产品“文心一格”、产业级搜索系统“文心百 中”,据百度官方微信公众号消息,类 ChatGPT 产品“文心一言”预计将于 3 月上线 在“文心”系列目前已公布的产品中,AI 艺术与辅助创作平台“文心一格”于 2022 年 8 月 19日推出,其功能主要是理解用户以自然语言输入的绘画特征及画风要求并输出 AI画 作。产业级搜索系统“文心百中”于 2022 年 11 月 30 日发布,其主要功能是基于 NLP、 CV 及跨模态技术增强搜索的语义理解能力,并支持图片、视频等格式搜索。而类似 ChatGPT 的应用“文心一言” 预计将于 3 月完成内测并发布,上线之后将以此为基础打 造针对智能设备场景的“小度灵机”,增强公司在智能硬件、智能家居等品类的竞争 力。

  6.2、阿里巴巴:领先的云计算将为其提供云算力保障,类ChatGPT产品处于内测中

  阿里为云计算行业的领头羊,为进军 AIGC 领域打下了坚实技术基础。根据 IDC《中国 公有云服务市场(2022 上半年)跟踪》报告显示,2022 上半年中国公有云服务市场 整体规模(IaaS/PaaS/SaaS)达到 165.8 亿美元,其中 IaaS 市场同比增长 27.3%,PaaS 市场同比增速为 45.4%,整体市场来看,阿里云份额是 33.5%,具体到 laaS 市场中阿 里云份额为 34.5%,均为市场第一。

  算法模型层面,M6 模型参数已突破 10 万亿。据阿里研究院公布的信息显示,阿里巴 巴达摩院在 2020 年初启动中文多模态预训练模型 M6 项目,同年 6 月推出 3 亿参数的 基础模型;2021 年 1 月模型参数规模到达百亿,成为世界上最大的中文多模态模型;2021 年 5 月,具有万亿参数规模的模型正式投入使用,追上了谷歌的发展脚步;2020 年 10 月,M6 的参数规模扩展到 10 万亿,成为当时全球最大的 AI 预训练模型。阿里 云曾表示,作为国内首个商业化落地的多模态大模型,M6 已在超 40 个场景中应用, 日调用量上亿。

  应用推广层面,已构建 8 大 AI 应用场景,M6 模型也已实现落地,类 ChatGPT 产品仍 在内测中。1)阿里基于其语言语义、图片识别、智能语音技术搭建了八大场景的 AI 方案,包括智能客服(智能营销、智能外呼、在线客服等)、信息审核、图片搜索、 智慧媒体(用于运营及内容制作)、智能会议、智慧法庭、智慧课堂、智慧医疗等;2)其中,M6 大模型的已落地的应用包括但不限于在犀牛智造为品牌设计的服饰、为 天猫虚拟主播创作剧本,以及增进淘宝、支付宝等平台的搜索及内容认知精度等, M6 模型在设计、写作、问答等方面表现突出,预计将在电商、制造业、文学艺术、 科学研究等场景中率先发力;3)阿里版“ChatGPT”处于内测阶段。

  2 月 8 日,阿里巴 巴宣布,阿里版聊天机器人 ChatGPT 正在研发中,目前处于内测阶段。其一份内部标 名“预发布”的文件被认为是阿里版的 ChatGPT 新品的应用截图,显示阿里可能将 AI 大 模型技术与钉钉生产力工具深度结合。

  6.3、腾讯:跨模态AI模型领先玩家,公司正在进行类ChatGPT产品专项研究

  腾讯主要通过 AI Lab 进行 AI 相关技术的研究,其成立于 2016 年,基础研究方向为计 算机视觉、语音技术、自然语言处理和机器学习,应用包括游戏、数字人(虚拟形象 平台“异次元的我”、手语数智人“聆语”等)、内容(写稿机器人“梦幻写手”等)和社 交 AI 等,目前腾讯 AI Lab 的 AI 技术在微信、QQ、天天快报和 QQ 音乐等腾讯产品中 已得到落地使用。2022 腾讯全球数字生态大会上,腾讯宣布内部多个与 AI 技术、产 业相关的团队正在不断融合,聚合成“腾讯云智能”体系。体系内部包含四大层级,最 底层是算力(芯片等)、中间是腾讯云智能 TI 平台,从标注、训练、推理到应用都涵 盖在内,然后是 AI 落地加速及全场景数智化,比如数智人、语音助手、智能客服,让 用户真正“开箱即用”。

  腾讯的 AI 大模型为“混元”,该模型包含但不限于:计算机视觉、自然语言处理、多模 态内容理解、文案生成、文生视频等多个方向的超大规模 AI 智能模型。与业界其他 大模型相比,混元首创了层级化跨模态技术,可将视频和文本等跨模态数据分别做拆解,通过相似度分析,综合考量并提取视频和文本之间层次化的语义关联。该模型已 落地于腾讯内部数据挖掘、搜索、广告推荐等。根据腾讯,2022 年 4 月,“混元”AI 大 模型在 MSR-VTT,MSVD,LSMDC,DiDeMo 和 ActivityNet 五大跨模态视频检索数据集 榜单中取得精度第一名的成绩。腾讯尚无类 ChatGPT 产品线上,据媒体报道,公司在 ChatGPT 及 AIGC 方向上已有布 局,专项研究也在有序推进。

  6.4、京东、华为、字节、网易、快手亦有布局

  华为在 2012 年就建立了诺亚方舟实验室负责人工智能领域的研究,研究方向囊括自 然语言处理、人工智能决策等领域,具有 AIGC 模型开发的技术基础。据官网介绍, 公司 AI 方向的研究重点为可以协助人们日常决策的 NLP 模型,其功能包括机器翻译、 语言系统等,同时公司在人机对话领域也有专利积累。

  2021 年 4 月的华为开发者大会 2021(Cloud)上,华为云发布了盘古系列超大规模预 训练模型,包括 30 亿参数的视觉(CV)预训练模型,以及与循环智能、鹏城实验室 联合开发的千亿参数、40TB 训练数据的中文语言(NLP)预训练模型。2021 年 5 月, 华为联合鹏城实验室发布了全球首个两千亿稠密参数中文 NLP 大模型“鹏程·盘古”。2021 年 9 月,华为 HC 大会发布全球首个三模态大模型“紫东·太初”,首次实现语音生 成视频功能,模型创造力升级。2021 年 9 月, 华为与鹏城实验室联合发布了面向生物 信息研究的“鹏程·神农”,以人工智能赋能加速新型药物筛选与创制。

  2 月 10 日,京东云旗下言犀人工智能应用平台宣布将整合过往产业实践和技术积累, 推出产业版“ChatGPT”:“ChatJD”。京东同时公布了 ChatJD 的落地应用路线图“125”计 划。据了解,“125”计划包含一个平台、两个领域、五个应用。1 个平台是指 ChatJD 智 能人机对话平台,即自然语言处理中理解和生成任务的对话平台,据京东云发布会介 绍,参数量预计达千亿级;2 个领域分别为零售、金融;5 个应用包含内容生成、人 机对话、用户意图理解、信息抽取、情感分类,涵盖零售和金融行业复用程度最高的 应用场景。

  7.未来展望:供给端的决定因素在于模型、数据、算力和软实力

  在中国,目前比较领先的超大规模语言模型是清华大学 2022 年推出的开源开放的双 语(中文和英文)双向稠密模型GLM-130B 模型,在任务表现上超过了GPT-3的性能。它是一个 1300 亿参数规模的双语(中文和英文)双向语言模型。它的底层架构是基 于通用语言模型(GLM),在超过 4000 亿个文本标识符上预训练完成。然而其目前面 对的挑战来自两方面:1)训练量不足,目前所训练的数量是 ChatGPT 的十分之一,需要赞助商和计算平台 来支持 GLM-130B 的进一步训练;2)算力昂贵:GLM-130B 以 FP16 精度进行训练,总共需要 260G 的 GPU 内存来存储模 型权重。DGX-A100 服务器提供了 320G 的 GPU 内存,所以可以天然地支持 GLM130B。然而,A100 的价格对于绝大多数研究者来说仍然是无法承担的。由此可见, 数据和算力是这项技术在国内继续推进的关键制约因素。

  ChatGPT 的演变历程,也揭示了算力、数据和模型都是环环相扣,必不可少的供给端 决定因素:从 2018 年起,OpenAI 就开始发布生成式预训练语言模型 GPT(Generative Pre-trained Transformer),可用于生成文章、代码、机器翻译、问答等各类内容。每 一代 GPT 模型的参数量都爆炸式增长,堪称“越大越好”。2019 年 2 月发布的 GPT-2 参 数量为 15 亿,而 2020 年 5 月的 GPT-3,参数量达到了 1750 亿。由此可见,若想达到 ChatGPT 的任务表现级别,需要在数据、模型层面做长期持续的 打磨,这需要大量研发人员的深度参与。目前,中国的类似大模型在训练方式上和国 外不同,基本采用预训练+fine tune 的模式,其实尚且缺乏 RLHF 环节。而 ChatGPT 则 引入 human feedback 的强化学习,可以让模型不断的能够迭代学习升级,解决痛点。在模型上的差距中美至少还有 1-2 年距离。

  (本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

  未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。


您可能还会对下面的文章感兴趣:

登录 注册 退出