百度文心一言对标ChatGPT，在中文理解及多模态生成上表现更优

2023-03-18

　　此前，ChatGPT频登热搜，让人颇感好奇，如今国内首款对标ChatGPT的产品揭开神秘面纱，给予百度的大语言模型，它终于千呼万唤始出来。从现场演示来看，文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成等方面有突出能力。百度创始人、董事长兼首席执行官李彦宏直言，文心一言刚刚起步，确实不完美，不比较。不过，文心一言仅刚刚起步，它会越来越完美，带给我们更多惊喜，让我们的生活中，有更多“不可能”变为“可能”。

　　在OpenAI创新引领全球风尚之时，国内，百度文心一言迅速站了出来，文心一言成为全球第一个ChatGPT实质性的竞争者，是勇气、是挑战、是探索、是创新，同时更是机遇。

　　3月16日，百度如约召开新闻发布会，介绍其对标 ChatGPT的大语言模型、生成式AI产品文心一言，并展示了文心一言在五个场景中的综合能力。它能解题“鸡兔同笼”、它能写新闻、它能理解人类意图……一些网友直呼，AI时代大潮下，以后可以解放人类了，交给文心一言就好了。

　　在文心一言诞生之际，有期待、有热议、有讨论，众多评价中，无论是赞扬还是批评，其实都是给予文心一言更多的关注，相信批评的言论背后，也更多饱含着大众对文心一言的鞭策和激励。今日，百度港股、美股大涨，也侧面反映出国人对文心一言的认可。文心一言对标ChatGPT门槛很高，百度在全球大厂中第一个做出来，更多体现的也是一种创新和探索精神，百度方面也在采访中表示，请相信，文心一言会越来越完美。

　　从demo效果上看，文心一言某种程度上具有了对人类意图的理解能力，回答的准确性、逻辑性、流畅性都逐渐接近人类水平。

　　百度同时公布了文心一言的邀请测试方案。3月16日起，首批用户即可通过邀请测试码，在文心一言官网体验产品，进行内测，后续将陆续开放给更多用户。此外，百度智能云即将面向企业客户开放文心一言API接口调用服务。3月16日起正式开放预约，搜索“百度智能云”进入官网，可申请加入文心一言云服务测试。

　　而就在百度文心一言新闻发布会召开前一天，OpenAI突然宣布发布多模态预训练大模型GPT-4。大洋两岸，两家极具代表性的科技企业几乎同时地向通用人工智能迈进了坚实的一步，这又一次说明了大语言模型和生成式AI已成为新的技术范式，这场AI浪潮将席卷全球每一个行业、每一家企业。

　　人无我有、人有我优

　　文心一言展现五大能力

　　新闻发布会现场，百度展示了文心一言在五个场景下的综合能力。根据其演示的demo，文心一言不仅具备了文学创作、商业文案创作、数理推算等大语言模型较常见的优势和能力，还表现出了更优秀的中文理解、多模态生成能力。

　　具体来看，在文学创作场景中，文心一言根据对话问题将知名科幻小说《三体》的核心内容进行了总结，并提出了五个续写《三体》的建议角度，体现出对话问答、总结分析、内容创作生成的综合能力。面对《三体》电视剧演员于和伟和张鲁一“有哪些共同点”、“谁更高”这类问题，文心一言也基于推理能力得出了准确答案。

　　与ChatGPT相比的不同之处在于，百度的搜索增强，补齐了生成式AI在回答事实性问题时常常“胡编乱造”的短板。demo演示中，文心一言准确回答了《三体》作者、电视剧角色扮演者等事实性问题，这得益于百度知识增强的大模型理念，大幅度提升了事实性问题的准确率。

　　在商业文案创作场景中，文心一言顺利完成了给公司起名、写Slogan、写新闻稿的创作任务。

　　连续三次内容创作生成，文心一言既能准确理解人类意图，又能清晰地表达，这是基于庞大数据规模而发生的“智能涌现”。我们常说“读万卷书”，而文心一言可以说“读书破千亿卷”。据介绍，文心一言大模型的训练数据包括万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据，以及5500亿事实的知识图谱等。

　　文心一言还具备了一定的思维能力，能够学会数学推演及逻辑推理等相对复杂任务。面对“鸡兔同笼”这类锻炼人类逻辑思维的经典题，文心一言能理解题意，并有正确的解题思路，进而像学生做题一样，按正确的步骤，一步步算出正确答案。

　　作为扎根于中国市场的大语言模型，文心一言具备中文领域最先进的自然语言处理能力，在中文语言和中国文化上有更好的表现。在现场展示中，文心一言正确解释了成语“洛阳纸贵”的含义、“洛阳纸贵”对应的经济学理论，还用“洛阳纸贵”四个字创作了一首藏头诗。

　　多模态生成方面，百度现场展示了文心一言生成文本、图片、音频和视频的能力。有趣的是，文心一言甚至能够生成四川话等方言语音；文心一言的视频生成能力，因成本较高，现阶段还未对所有用户开放，未来会逐步接入。

　　多模态能力也是OpenAI最新发布的GPT-4最关键的一项升级，正如李彦宏在新闻发布会上所说：“多模态是生成式AI一个明确的发展趋势。”未来，随着百度多模态统一大模型的能力增强，文心一言的多模态生成能力也会不断提升。

　　厚积薄发、抢占先机

　　百度在全球大厂中第一个做出来

　　大语言模型训练成本和门槛很高，在ChatGPT发布后，在全球范围内的大厂中，目前只有百度做出了对标产品。虽然文心一言还有很大迭代空间，但它已经是百度基于十余年积累交出的一份足以令人满意的答卷。

　　为什么是百度在今天推出了文心一言？从外因来看，这是市场强烈需求下的产物；从内因来看，这是百度过去多年努力的延续。

　　从百度承认文心一言的存在至今，短短一个月时间内，已经有650家企业宣布加入文心一言生态。此外，百度自己也早已宣布计划将文心一言接入搜索、智能云、自动驾驶等多项主流业务。中国市场在期待尽早用上最新最先进的大语言模型。

　　从内因来看，百度从某种意义上说已经为今天的文心一言准备了多年。

　　百度深耕AI领域十余年，各业务中都有AI应用。搜索方面，自2019年3月以来，文心大模型在改进搜索结果方面发挥了重要作用，带来排名改进和多模态搜索能力。智能云方面，百度为传统行业（如制造、能源和公用事业）提供特定AI解决方案和应用。智能驾驶业务是百度AI能力护城河又一证明，根据guidehouse自动驾驶产业排名，百度位居全球领导者之列，是中国唯一上榜企业。

　　并且，百度是全球范围内少有的在IT四层技术栈架构中，每一层都有领先产品的公司。人类进入人工智能时代，IT技术的技术栈发生了根本性的变化，可分为“芯片-框架-模型-应用”四层，从高端芯片昆仑芯，到飞桨深度学习框架，再到文心预训练大模型，到搜索、智能云、自动驾驶、小度等应用，各个层面都有领先业界的自研技术。

　　全栈布局的优势在于，百度在技术栈四层架构中可以实现端到端优化，大幅提升效率。尤其是框架层和模型层之间，有很强的协同作用，可以帮助构建更高效的模型，并显著降低成本。在框架层，超大规模模型的训练和推理给深度学习框架带来很大考验，为了支持千亿参数模型的高效分布式训练，百度飞桨在2021年4月专门研发了4D混合并行技术。在芯片层，百度自研AI芯片“昆仑芯”已在多场景实际部署几万片，性能十分领先，这让文心一言底层算力有所保证。昆仑芯片已经为百度的搜索服务优化了十年。百度的搜索服务，每天响应几十亿次真实的用户使用需求，每天进行1万亿次深度语义推理与匹配，能够提供最真实、最及时的反馈，从而倒逼大模型、深度学习框架和芯片的优化。

　　还需要指出的是，虽然文心一言现在细究起来还存在许多bug，但只要开放测试，真实的人类反馈能够促进大语言模型飞速迭代。文心一言与ChatGPT背后，实际都是SFT（模型微调， Supervised fine-tuning）、RLHF（强化学习，reinforcement learning from human feedback）、Prompt（真实的用户指令）等技术逻辑，这些方法跟大模型通过海量无标注数据训练是不同的，需要人的参与，作用是更好地理解人的意图，生成符合人的价值观、表达习惯的回复。

　　1947年的第一个晶体管和现在的晶体管全然不同；2022年11月的ChatGPT和现在的ChatGPT相比，也出现了明显进步。数据飞轮一旦开启，文心一言未来可能会带来“士别三日，当刮目相看”的惊喜。

　　三大产业机会来袭

　　创业者不可错过

　　有机构预测，到2030年，人工智能可以将每一个知识工作者的生产力提高4倍以上。可以预见的是，随着文心一言这类大语言模型的迭代，带来所有人都能使用的最先进生产力工具，很多人的工作性质会发生不可逆转的改变。

　　百度对文心一言的定位是人工智能基座型的赋能平台，通过新技术帮助企业创建最好的客户体验，让任何公司有机会离客户更近，从而深刻地影响千行百业中每一家公司，实现智能化变革、效率提升，获得更强的竞争优势，创造更大的商业价值。

　　这也意味着，文心一言将不仅影响到搜索或者互联网公司，而是影响到每一家公司。根据李彦宏的预测，文心一言将会打开三大产业机会。

　　第一类是新型云计算公司，其主流商业模式从IaaS变为MaaS。文心一言将根本性地改变云计算行业的游戏规则。之前企业选择云厂商更多看算力、存储等基础云服务。未来，更多会看框架好不好、模型好不好，以及模型、框架、芯片、应用这四层之间的协同。

　　这是一场toB领域决定性战役。文心一言将通过百度智能云对外提供服务，帮助企业构建自己的模型和应用，农业、工业、金融、教育、医疗、交通、能源等重点领域，都会因此效率大幅提升，并在每一个行业快速形成新的产业空间，助力数字中国的实现。百度预告称，百度智能云将于近期举办发布会，发布基于文心一言的云服务和应用产品，既有公有云服务和也可以做私有化部署，值得期待。

　　第二类是进行行业模型精调的公司，这是通用大模型和企业之间的中间层，他们具有行业Knowhow，调用通用大模型能力，为行业客户提供解决方案。简单来说，预训练的大模型是基础设施，在此基础上可以快速抽取生成场景化、定制化、个性化的小模型，实现不同行业、垂直场景的布局。比如百度文心大模型，已经在电力、金融、媒体等领域发布了10多个行业大模型。

　　第三类是基于大模型底座进行应用开发的公司，即应用服务提供商。就像移动互联网时代，最成功的商业产品不见得是安卓和iOS，而是基于安卓和iOS开发的微信、淘宝、抖音等各种超级应用。

　　对于大部分创业者和企业来说，真正的机会并不是去从头开始做ChatGPT和文心一言这样的基础大模型，这很不现实，也不经济。资料显示，跑通一次100亿以上参数量的模型，算力至少需要1000张GPU卡。GPU芯片中领先者如A100售价达1万美元，微软Azure云服务为ChatGPT部署了超过1万枚英伟达A100芯片。即使不使用顶级芯片，按照一张GPU五万元的市场均价计算，1000张GPU意味着单月至少5000万的成本。业界测算，GPT-3单次训练成本至少460万元。

　　而且，大语言模型是个马太效应非常明显的行业，可以说如果落后18个月，就基本没机会了，因为先一步发布的产品已经迭代得非常先进了。

　　因此，真正的机会可能是基于通用大语言模型，抢先开发重要的应用服务。基于文本生成、图像生成、音频生成、视频生成、数字人、3D等场景，涌现出很多创业明星公司，可能就是未来的新巨头。比如说海外的法律服务聊天机器人DoNotPay和AI文案生成平台Jasper.ai，已经引起了硅谷投资者的广泛关注。

　　正如李彦宏所说：“AI的长期价值，对各行各业的颠覆性改变，才刚刚开始。”未来，将会有更多的杀手级应用、现象级产品出现，将会有更多的里程碑事件发生。生成式AI时代，好戏已经开场。

　　专家观点

　　多点耐心，给国产大语言模型产品更多成长机会

　　据悉，百度十几年前就开始投入AI研究，市场有需求，百度即可落地创新产品，因此，文心一言的问世也并非偶然，且具备突破创新的特点。在业内，文心一言生态普遍被认可。其实，百度在中文语言的处理上始终处于独一无二的位置。而文心一言大模型，在自然语言问答和创意内容生成上也有突出表现。作为扎根于中国市场的大语言模型，文心一言具备中文领域最先进的自然语言处理能力，中文语言处理上也是独一无二的。短短一个月时间，超600家合作伙伴宣布加入文心一言生态，期待尽早用上最新最先进的大语言模型。

　　创新的本质本就“九死一生”，民营企业坚持创新，且有所突破实属不易。中国创新想要发展，需要给企业健康、有利、安静的发展空间。在上海交通大学计算机系专攻大语言模型方向的博士生陈星宇看来，整场演示内容流畅，亮点不少，达到了他的预期。而演示最出彩之处当属文心一言将一段文本生成了图片、音频和视频，这是全球发布的产品级大语言模型中首个实现多模态输出的模型——即使是前一天发布的GPT-4，也只展示了多模态输入功能。陈星宇表示，目前尚没有一篇正式出版的文章介绍多模态输出是如何实现的，这属于百度自己的“独门秘籍”。

　　复旦大学计算机学院教授、深耕人工智能和自然语言处理20余年的黄萱菁认为，ChatGPT的成功表明，人工智能已经找到一条对的路。既然路走对了，迭代速度将是很快的。上海交通大学计算机系助理研究员陈露表示，在类ChatGPT这条赛道上，中国并非没有机会，但需要给它们更多成长空间。

　　此次，文心一言，是百度面对全球科技竞赛升级，又一次站出来的魄力和决心。

　　新报记者张珊珊

　　责任编辑 / 翟玉静

　　值班编辑 / 姜晓凤

　　审校 / 窦怀国

　　责校 /王永波

<<任正非最新讲话：ChatGPT对华为的机会是什么？

ChatGPT冲击劳动力市场：我们如何重塑工作和教育？｜万字分析｜AI｜劳动力市场>>

百度文心一言对标ChatGPT，在中文理解及多模态生成上表现更优

您可能还会对下面的文章感兴趣：

随便看看