投资人竞相追逐的数据标注公司，能撑起国产ChatGPT野心吗？｜数智前瞻

2023-03-01

　　文 |潘程、真梓

　　编辑 |真梓

　　01 数据标注，众星捧月

　　一个月来，与ChatGPT有关的故事还在持续上演，甚至已经蔓延到了数据标注领域。

　　这期间，数据标注平台估值高涨、文本公司需求激增、AI大厂开始分拆数据标注团队……那个被“选择性无视”、被“认为没有讨论价值”的数据标注行业，再一次支棱起来了。

　　这种全行业认可首先反映到资本层面，国内一二级市场的相关公司应声实现了新一轮估值高涨。

　　春节后A股的第一个交易日，上市公司海天瑞声就结结实实走出了第一个涨停板，此后连续12天其股价一路高歌，从81.6元飙升到244.8元，市值超过百亿，比此前翻了3倍还多。

　　尽管海天瑞声在公告中已经作出风险提示：“自然语言业务对公司整体贡献大约在10%左右”“公司尚未与OpenAI开展合作，其ChatGPT的产品和服务尚未给公司带来业务收入”……但资本的热情不减，截止发稿海天瑞声的股价仍处于214.20元高位。

　　而在一级市场，B轮及以前的十余家早期项目集体迎来了接近100%增幅的高估值，其中不少人已趁机敲定新一轮融资。有业内知情人士向36氪透露，“目前，即便是刚成立1-2年的新公司，其价格已经很贵了。”但数据标注公司每天迎来送往的早期投资人仍络绎不绝，甚至有创业者为了见投资人只能将招聘时间安排在夜里23:30之后。

　　随后，国内不少正在布局ChatGPT的文本公司，对数据的需求激增。

　　对标海外各家大厂的大模型与数据标注平台的合作，Google的LaMDA选择与美国供应商合作，预训练语料库大小为2.81T；Meta的BlenderBot3与亚马逊MTurk合作，预训练语料库大小为180B；OpenAI的ChatGPT/InstructGPT与upwork和Scale AI合作，虽然没有公布详细数据，但预计预训练语料库不会太小。

　　不难看出，每个大模型的背后依然有数据标注平台的服务支撑。而此时，国内不少追随者已经开始对ChatGPT背后的文本数据构建产生兴趣。

　　“这段时间，我们能非常明显的感受到来咨询合作的文本公司暴增，他们普遍都在关心文本怎么构建、数据集如何制作等问题。”某数据标注公司CEO表示，“一周时间，找过来的公司已经有大几十家。”

　　这种价值认可还在AI大厂中蔓延。

　　Forrester分析师卢冠男此前曾表示，“ChatGPT对训练数据的标注方式提出了新的思路，所以在训练数据的工程准备上，企业也需要摸索和改进。”

　　据知情人士透露，“目前，已经有不少AI大厂开始着手把自己AI标注的部分工作独立出来了。”

　　数字标注在这种价值认可中，也试着摘掉“堆人力”“血汗工厂”的标签，逐步走向自我升级。在旷视研究院看来，“近年来随着大模型、自动驾驶等data hungry型应用的不断规模化，驱使数据标注行业不断向低成本、高质量、高效率进发，开发高效的采标一体化平台，采用AI辅助标注、human-in-the-loop、模拟仿真等技术手段提高标注质量和效率、降低标注成本，已成为数据标注行业的前沿阵地。”

　　02 大模型背后，数据标注被迫升级换代？

　　超乎寻常逻辑，ChatGPT能带火数据标注行业，并不是因为数据量激增。

　　纵使OpenAI积累了包括维基百科、专业论坛、论文、图书在内的众多高质量英文文本数据，纵使GPT-3拥有1750亿参数，训练语料超45TB，但本质上，大模型对低层次的数据标注需求很低。

　　这与其背后无监督（含自监督）、半监督的机器学习方式有关。

　　早前，实现人工智能的主流方法是监督学习。这种训练方式中，训练集中的各项数据特征和目标都是人为标注的。也就是说，这种模式需要进行大量基础数据标注工作，且高质量的数据被“淹没”其中，很难从中摘出来。

　　图灵奖得主、CNN之父Yann LeCun曾将无/自监督训练比作“人工智能蛋糕上的樱桃”。

　　因为无监督学习不需要前期大规模的数据标注，在训练数据中，只需要给定输入，没有人工给出正确的输出，目的是让模型开放式地、自己学习数据之间的关系。

　　半监督学习则处于两者之间。在这种学习方式中，模型会尝试从未标记的数据中提取信息来改进它的预测能力，同时也会使用部分已经标注过的数据进行结果验证。

　　换句话说，在如今火爆的大模型训练浪潮中，传统的数据标注需求，很可能是下降的。

　　但与此同时，让ChatGPT更具有“人味”的关键——强人工反馈 RLHF，却带来另一种更高要求的数据标注需求。

　　相关分析显示，“在RLHF环节，模型首先在大数据集上进行预训练，再与专业的人工智能训练师进行交互，专业的标注人员会对ChatGPT生成的回答进行标注、评估和反馈，给出一个针对回答的分数或者标签。这些标注数据可以作为强化学习过程中的“奖励函数”来指导ChatGPT的参数调整，最终帮助模型进行强化学习和不断优化。”

　　也就是说，让ChatGPT"更具人味儿"的精妙之处很可能就在于——它可以利用人工标注的反馈结果不断优化自身模型，实现更合乎人类思维逻辑的表达。

　　紧跟趋势的国内公司已意识到这件事。在36氪的观察中，最近围绕大模型、ChatGPT的一个必谈话题就包括RLHF。而在实践层面，一家重注大模型的大厂专家对36氪表示，"现在公司已有上百人都在做强人工反馈相关的事情。"在他的眼中，不少同行同样对RLHF深度布局。

　　按照常理，RLHF应该完全属于数据标注公司的业务范畴。但如今一些有财力也看重这一需求的AI公司，也就是数据标注公司的客户，很可能在自己搭建、重组团队。

　　原因或许出乎意料——RLHF，可能是传统数据标注模式难以满足的需求。

　　图注：OpenAI开展RLHF方法的三步骤

　　前文提到，在开展RLHF之前，大模型的训练需要海量无标注数据以获得"基本的感知能力"。

　　这对数据标注公司提出了第一个创新需求——利用已按各类场景被标注、被清洗完善的数据集进行训练，成为刚需。而在过去，数据标注公司的主流商业模式以销售工具系统和标注服务为主，由于缺少自有数据很少有出售精准数据集的服务。

　　在「拓元智慧」王可泽的观察中，数据质量不高，会影响到无监督学习的效果，最终也影响大模型的精准性。

　　“ChatGPT价值最大的一部分就在于其拥有一部分精细的、被标注的指令数据。”王可泽说，“通过与ChatGTP的交互，就能感受到其技术团队在数据量和数据种类方面花了很多心思。”

　　一些投资人也看到这一趋势。商汤科技投资总监王暘表示：“现在已经看到大家在研发和训练大模型时，都较倾向选用已经标注好的开源或公共数据集。同时，为了提升训练质量，对购买已经标注好的数据集也有需求。”

　　而在完成这一步后，RLHF训练还涉及到不少事实判断和价值判断。其中，价值判断涉及到公认的"公序良俗"，理论上是更容易拉齐AI认知的部分，事实判断则涉及各行业Know-How，往往需要行业专业人士出手——这些不是传统数据标注员，简单针对词性、图片细节进行标注就能实现的。

　　也就是说，要跟上新一代AI浪潮，数据标注公司不仅需要在数据层面进行升级，人才的更新换代同样重要。

　　“得先训练好标注同学，才能训练好模型。”这句来自AI从业者的网络调侃，并不是一句虚言。

　　03 中国数据标注公司，能力是否配得上未来？

　　新的需求已然清晰。

　　ChatGPT所代表的大模型，并不全盘需要传统的数据标注业务——为了精准性，它们看重数据集和RLHF所代表的人工反馈需求。

　　于是，一系列灵魂拷问出现在数据标注公司面前：如何才能快速提供可靠的数据集？又该如何升级人才架构？

　　首先针对数据集，目前国内多数传统数据标注公司并不提供这项业务。明确将“数据集”产品在官网提及的海天瑞声，产品集中在语音识别、语音合成、自然语言处理、计算机视觉数据集，垂直领域、热门场景下的高质量数据集仍相对稀缺。

　　另一方面，人才升级作为一个系统工程，对数据标注公司的考验更高。

　　36氪了解到，目前的确已有标注公司开始在内部撰写《人员提升教程》。他们将在接下来重点培训标注人员对“升级后”的标注需求理解，以及回答方式的合规性等。

　　但是，在专业壁垒非常高的医疗等领域，数据标注仍面临着人才困境。某数据标注公司运营负责人曾向36氪表示，“特别是医疗，有些是普通人经过培训可以标的，有的必须要医疗从业者，这背后的人才招聘难度可想而知。”

　　王可泽向36氪进一步拆解，如今的人工反馈还处于"初级状态"。在更精细化的场景中，AI需要很可能是一系列的深度专业意见。"比如在学术场景中，我们往往需要详细的指导，而不是简单的打分或者排序。"他打了个比方。

　　显然，这部分非常专业化的工作，远超数据标注公司的能力范畴。

　　但即便困难重重，也不意味着数据标注公司会立马进行一波洗牌——至少，在大模型训练的几个阶段内，初始阶段的半监督学习同样对传统数据标注存在需求。

　　比如，《时代周刊》报道显示，OpenAI在2021年底与Sama签署了三份总价值约20万美元的合同，雇佣普通数据标注员为数据库中有害的内容进行标记。再加上，虽然大模型的机会往往属于财大气粗的少数大厂，但却可能长出不计其数的新型AI应用。这部分应用的AI训练，也需要传统数据标注。

　　也就是说，新一波AI浪潮留给数据标注公司的机会并不少。就算是无法直接吃到大模型红利的传统业务，也可以依靠AI应用的增多分到一杯羹。

　　这意味着，一段时间内传统数据标注的总需求大概率不会减少。而这种阶段，或许也是"时间窗口期"——数据标注公司能一边依靠传统业务积累营收，一边依托收入投入新业务建设。

　　这种经营模式对数据标注行业而言并不陌生。只不过，过去它们的自我迭代方向是利用自动化手段撕下"堆叠人力"标签。

　　一家成立近15年的数据标注公司告诉36氪，行业内平均每家众包平台上都有上万人，人员流失率却多在30%以上。为提升标注精准性和人员工作效率，这家公司会对AI辅助标注的研发投入重金。现在，AI辅助标注工具的研发已成为全行业都认可的投入方向。

　　而面对大模型和RLHF的机遇，重现大规模投入似乎在所难免。

　　王暘认为，如果数据标注公司期望在垂直领域做更高层级的数据服务，可能要成立一个全新的产品线。"虽然人才可能通用，但具体做的事情和阶段差异还挺大的，而且RLHF对垂直领域的应用关联度非常强。"他补充。

　　"数据标注公司需要升级自己的人才梯队。甚至，具备AI研发背景的创始人会是更合适的数据标注创业者。"一位长期参与AI建设的专家如此预判，原因是，这样的创业者更可能合理地传递各行业客户的RLHF需求。

　　面对新一代AI浪潮，没有人可以躺着挣钱——这是每一次技术迭代冲击背后，暗中标注好的"价格"。

<<3月金股名单曝光！“超级牛散”陈发树、葛卫东持仓股被调入，这只“狂飙”的ChatGPT股

A股明日风口：超20省市已执行公积金购房新政 ChatGPT获得“正经编制”>>

投资人竞相追逐的数据标注公司，能撑起国产ChatGPT野心吗？ ｜ 数智前瞻

您可能还会对下面的文章感兴趣：

随便看看

投资人竞相追逐的数据标注公司，能撑起国产ChatGPT野心吗？｜数智前瞻