百度文心一言体验：不够完美，但在ChatGPT面前已展现威力

2023-03-19

　　原标题：百度文心一言体验：不够完美，但在ChatGPT面前已展现威力

　　在等待了一个多月后，百度的文心一言终于正式发布，只是对于百度来说整个发布会过程多少有点“煎熬”，现场没有进行实机测试，而是用一段视频来展示文心一言的功能。

　　百度似乎对文心一言的表现有些忐忑，甚至从李彦宏的演讲过程来看，这位中国互联网的传奇人物，竟然有点紧张。对于百度来说，文心一言的重要性不言而喻，甚至有人将其看做是中国互联网对抗ChatGPT的唯一希望，而在过去的一个月里，已经有众多企业宣布与文心一言合作，进军未来的人工智能行业。

　　气氛烘托到这个程度，文心一言的具体表现将会直接影响投资者以及用户对百度的信心。

　　百度文心一言体验：不够完美，但在ChatGPT面前已展现威力(图1)

　　图源：文心一言发布会

　　果不其然，从发布会上用视频代替实机演示的时间点开始，百度的股价就开始暴跌，仅10分钟的跌幅就达到10%，240亿元的市值就此蒸发，换算一下，每过一秒百度就损失四千万元市值。

　　不过，就像过去很多大企业在发布新品时的遭遇一样，百度的股价同样坐上了“过山车”，16日暴跌，17号暴涨，百度的股价甚至高于16号的最高值。

　　百度的市值忽起忽落，不知道李彦宏的心情是否也一样跟着上下颠簸。不过，至少在发布会现场，李彦宏也承认，现如今的文心一言还有很多不完美的地方，但是未来将会变得更好，用一句网友熟悉的话来形容：未来可期。

　　文心一言的表现到底如何？

　　文心一言，会画画？

　　在正式发布前，百度就已经对外宣传文心一言除了可以提供类似于ChatGPT的对话问答功能外，还支持生成图片、视频等功能。不过在测试中，内测版的文心一言似乎并不能提供视频生成功能，而是直接生成了一段文字。

　　百度文心一言体验：不够完美，但在ChatGPT面前已展现威力(图2)

　　虽然答非所问，但是从文字描述来看，对应的视频画面倒也是符合我的要求。

　　对此，李彦宏其实也给出了解释，视频功能未上线主要是因为对资源的消耗过大，考虑到整体用户体验所以在内测版中没有推出。

　　视频功能不行，那么绘画呢？

　　我尝试用不同的描述来让文心一言生成不同的照片和画作，不得不说结果确实出乎我的预料。

　　这是生成的第一张照片，草原、太阳，基本上符合我的要求，只是太阳似乎少了一个。

　　百度文心一言体验：不够完美，但在ChatGPT面前已展现威力(图3)

　　以毕加索的风格生成一幅油画呢？

　　百度文心一言体验：不够完美，但在ChatGPT面前已展现威力(图4)

　　我想文心一言恐怕对毕加索风格有“亿”点误解。

　　试试梵高风格？

　　百度文心一言体验：不够完美，但在ChatGPT面前已展现威力(图5)

　　居然比毕加索的好多了，文心一言难道是个梵高粉丝？

　　再来看看日系风格。

　　百度文心一言体验：不够完美，但在ChatGPT面前已展现威力(图6)

　　木屋里变成木屋外，远方还有个雨伞头怪人，虽然意境上是符合描述，但是BUG也不少。

　　再来试试科幻风格的，比如机甲大战怪兽。

　　百度文心一言体验：不够完美，但在ChatGPT面前已展现威力(图7)

　　看着挺不错的，但是怪兽呢？

　　百度文心一言体验：不够完美，但在ChatGPT面前已展现威力(图8)

　　拿武器的男人、异形都没有，只有一片农田。

　　在尝试用不停的话术来生成照片后，可以看出文心一言的绘画功能处于一个不稳定的状态，即使是类似的描述，也有可能因为描述内容而出现差别极大的结果，可以是大致符合的，也可以是背道而驰的。

　　至少从测试结果来看，虽然文心一言的绘画照片生成速度和质量都很不错，但是在对用户语义和内容的理解上，显然是存在一定的问题，后续还有着很大的优化空间。

　　对话文心一言

　　对比绘画功能，对话式问答或许才是大多数人需要的功能，百度或许是把更多的精力用在对话功能的优化上了？那么就让我们看看，文心一言在对话式问答上的表现如何。

　　我首先尝试着让文心一言评价一下2023年的春节档电影《流浪地球2》。

　　百度文心一言体验：不够完美，但在ChatGPT面前已展现威力(图9)

　　单看评价内容确实可圈可点，但是注意看第一行回复，“该片于2020年春节期间上映”，《流浪地球》是2019年的春节档电影，《流浪地球2》则是2023年的春节档，不管是1还是2显然都与2020年搭不上边，逻辑上的错误使得这个回复的评分大打折扣。

　　如果我们指出回答的错误会怎样呢？

　　得，直接变成未上映了。

　　换一种方式提问会怎样？

　　我们得到了一个前后矛盾的回答。

　　实话说，就现在的表现来看，文心一言即使在常识性的问答上都有不少的错误，甚至会在一个回答中给出完全相反的观点。

　　特别是涉及到具体时间的问题回答上，文心一言似乎有严重的BUG。

　　再来试试脑筋急转弯。

　　回答不出所料。

　　有意思的是，在我指出回答中存在的问题后，文心一言居然圆回来了。

　　脑筋急转弯还是有点难度过高，让我们试试普通的提问。

　　终于回答正确了，不容易啊。

　　再来测试一下其他应用场景。

　　百度文心一言体验：不够完美，但在ChatGPT面前已展现威力(图10)

　　咋看之下，这个回答是没有问题的，只不过，若是懂行的人看到这份回答，恐怕会忍不住笑出声。比如，锐龙9 6900HX确实是一颗高性能处理器，而RX 5800XM则是一个不存在的产品，即使有也是AMD的显卡产品而非处理器。

　　再来看显卡推荐，RTX 2060是正确的，但是Intel iGPU就多少让人摸不着头脑了，Intel自己估计都不知道还有这样的东西，下面的内存、硬盘两项回答上同样有不少问题。

　　让我们换个领域试试。

　　百度文心一言体验：不够完美，但在ChatGPT面前已展现威力(图11)

　　看来在生活领域的问答中，文心一言的准确度要高很多。

　　换个方式问，同样回答正确。

　　百度文心一言体验：不够完美，但在ChatGPT面前已展现威力(图12)

　　再来上点难度。

　　百度文心一言体验：不够完美，但在ChatGPT面前已展现威力(图13)

　　虽然去两遍长城有点让人摸不着头脑，但是从计划来看，并没有太大的问题，完全是一个可实现的简略旅游计划。

　　那么能否生成一个详细一点的旅游计划呢？

　　百度文心一言体验：不够完美，但在ChatGPT面前已展现威力(图14)

　　可以说，如果你想来一趟短暂的广州旅行，但是却不知道去哪里，按照这份攻略来走基本上不会出错，文心一言在生活问答方面的表现远远超出了我的预料。

　　虽然在涉及到文艺作品、数码等领域的问答存在许多问题，但是在使用率最高的生活问答中，文心一言的表现已然合格，结合手机端的APP定位和用户人像，可以提供更准确、详细的建议。

　　至少在旅游娱乐方面，文心一言已经展示出很大的潜力。

　　文心一言，可以成为生产力工具吗？

　　在此之前，我们聊到ChatGPT，除了惊叹于强大的对话式问答功能，其在生产力方面的表现也让许多人产生了危机感，甚至有声音认为，ChatGPT将会取代许多工作，导致失业危机。

　　那么，文心一言作为同类型的人工智能产品，在生产力方面的表现又如何呢？

　　首先来一篇简单的广州风土人情介绍文章。

　　百度文心一言体验：不够完美，但在ChatGPT面前已展现威力(图15)

　　额，好像被我玩坏了。

　　百度文心一言体验：不够完美，但在ChatGPT面前已展现威力(图16)

　　在删去字数要求后，文心一言给出了正常的回答。

　　换个条件再试试。

　　百度文心一言体验：不够完美，但在ChatGPT面前已展现威力(图17)

　　还是正常的。

　　让我们继续测试。

　　百度文心一言体验：不够完美，但在ChatGPT面前已展现威力(图18)

　　额，看样子“500字”似乎是文心一言的死穴，随后我对500字进行了一些微调，但是给出的回答都是正常的，恐怕这里存在一个未知的BUG，有待后续百度的工程师进行修复。

　　抛开意外触发的BUG不谈，文心一言确实可以生成简单的文案，可以为使用者提供一个基本的内容框架，只需要进行内容填充就可以成为一篇简单直白的介绍文。当然要求不高的话，直接复制粘贴使用也是可以的，在生产力方面，文心一言的表现并不如生活领域的表现突出，甚至可以说有些稀疏平常。

　　百度文心一言体验：不够完美，但在ChatGPT面前已展现威力(图19)

　　图源：文心一言发布会

　　不过，考虑到目前文心一言还是初始内测版本，后续的优化空间还是很大的。综合体验下来，文心一言给我的感受既有惊喜也有“惊吓”，虽然在一些专业性质较强的领域上，文心一言有着不少的问题，但是在一些重点优化的领域，如生活娱乐，可以看到文心一言的回答已经有了不错的表现。

　　在生活娱乐领域表现出来的潜力，或许就是百度在发布文心一言后，第二天股价暴涨的原因，虽然在生产力等方面的表现不如人意，但是却已经表现出了惊人的潜力。

　　对于文心一言的未来，个人是十分看好的。

　　责任编辑：

<<小i机器人：瞄向垂直行业的“中国版ChatGPT”

复旦再推AI文本检测工具“谛听” 识别ChatGPT成功率达80%>>

百度文心一言体验：不够完美，但在ChatGPT面前已展现威力

您可能还会对下面的文章感兴趣：

随便看看