cha

体验一把ChatGPT:一本正经胡说八道,在中国前途难测

  原创 地图书 地图书

  ChatGPT是最近几天的新闻热点。互联网上介绍的文章已经很多,我就不过多介绍,直接说我自己的一些体验吧。去年末我关注到ChatGPT的流行,但因为注册的问题,一直没有实际使用过。不过根据自媒体的介绍和坊间的聊天截图,我已经对它有了大致的了解。后来我又下载了一些基于ChatGPT开发的聊天应用。因为这些应用限定只能发送5条信息的缘故,体验并不太好。最近我正式注册了账号,并设计了几组测试了解它的功能,下面就是我的使用感受。

  一本正经胡说八道

  这是我首先要测试的问题。因为之前我对AI聊天和AI写作的了解就是一本正经地胡说八道。但通过各种新闻介绍和坊间截图,ChatGPT似乎有着高度的准确性和逻辑性,它对人类语言的理解能力、对上下文的逻辑处理能力似乎已经远远超过了之前的AI。事实当真如此吗?请看下面这组问题。

  体验一把ChatGPT:一本正经胡说八道,在中国前途难测(图1)

  在这组问题中,我询问了它一个简单的问题:“曹操有几个儿子?”它回答:“曹丕、曹植和曹彰。”我也搞不清楚曹操有几个儿子,不过通过网络搜索可知,他的儿子数量不止三个。于是我询问“曹冲的爸爸是谁?”它很明确地回答我:“曹冲的父亲是曹操。”于是我再次问“曹操有几个儿子”这个问题,希望它可以根据我的提示,发现刚才的错误。理想情况下,它会发现刚才的答案有错,并回答曹操有四个儿子,曹丕、曹植、曹彰和曹冲。然而它并没有,依然回答曹操有三个儿子。加上后面的聊天我们就可以发现,只要你不去直接质疑它的错误,它就不会发现上下文中的逻辑错误。

  这也符合我对AI的认知。它不具备常人以为的人工智能,只是在海量样本训练、人工标注干预、大量用户纠正的基础上,靠数学算法进行统计预测,靠机械性的训练尽可能提高正确答案的概率。

  当我给它说“你刚才说,曹冲的父亲是曹操。”,它却认为我不满意它的答案,认为自己犯了错误,推翻了之前正确的结论,认为曹冲不是曹操的儿子,而是曹操的孙子。这似乎又意味着,它发现了上下文中的逻辑错误?也有可能是,系统认为这个答案的正确率偏低,ChatGPT通过我的语气,认为这个回答不正确。于是我又问,“如果曹冲不是曹操的儿子,那么曹冲的爸爸到底是谁呢?”它回答,曹冲的父亲是曹丕,还加了一句,他是曹操的长子。于是我接着问曹叡的父亲是谁。它回答曹睿的父亲是曹操。我再问曹操有几个儿子的问题,以确认它到底能不能认识到上下文的逻辑错误,但它依然回答曹操有三个儿子。

  我之前问曹叡时,它回答我曹叡是是晋朝的第二任皇帝。于是我就问以这个问题开头,并询问晋朝的开国皇帝是谁?后面的事情就搞笑了,一度把我逗得都笑喷了。它开始一本正经的胡说八道,只要你不去质疑它,它就会一直给出完全离谱的答案。

  体验一把ChatGPT:一本正经胡说八道,在中国前途难测(图2)

  后来,我又加做了一组测试,以判断系统认为正确率不高时,是不是根据我的语气判断答案可能存在错误的。

  体验一把ChatGPT:一本正经胡说八道,在中国前途难测(图3)

  通过上面这组测试可以发现,只要我一直用“你刚才说,XXX?”这种格式提问,它就会一直修改答案。为了对比,我又做了一组测试,询问特朗普的父亲是谁?

  体验一把ChatGPT:一本正经胡说八道,在中国前途难测(图4)

  ChatGPT对特朗普父亲这件事情很坚定,我无法误导它。由此可见,它回答的正确率确实依靠训练样本和大量用户使用时的反馈。当中文训练样本和用户都不足时,它就无法给出正确的答案。它依然是我所认识的AI。当然,它对自然语言的理解比之前的AI有比较大的进步,表达能力有显著加强,但还没有根本性的突破,特别是在上下文逻辑上。这里不得不说下面这组测试。

  体验一把ChatGPT:一本正经胡说八道,在中国前途难测(图5)

  当我问它康熙有几个儿子时,ChatGPT回答康熙有15个儿子。但当我让它给出儿子名单时,它又说康熙有13个儿子,给出的儿子名单也的确是13个。但在最后,它又说上述名单并不全面,康熙拥有的儿子更多。可根据13个这一说法,这个名单逻辑上就是完全的。由此,我们就足以认识到它的逻辑处理能力了,这个应该和训练样本的大小无关。这让我想起了之前ChatGPT被人发现,它可以天文地理无所不知,却无法正确回答最最简单的加减法。虽然后面开发团队对数学能力进行了部分加强,但根据一些好事者的截图,当用户要求它证明哥德巴赫猜想时,它依然会一本正经的去为你证明。为此,我顺便也考察了它的数学能力。

  体验一把ChatGPT:一本正经胡说八道,在中国前途难测(图6)

  事实证明,它的数学能力的确得到了加强,但依然令人着急。

  这时问题来了。不能给出正确答案其实问题不大,可以说不知道。但因为它的工作原理只是基于概率统计,因此它并不真正知道答案正确与否。当样本和反馈不足时,目前看来,它只能强行胡编乱造。毕竟,即便是中文训练样本不足,但中文互联网也不会有人说孙传庭是孙中山父亲。我们可以做出推论,如果问题不是那么热门没有太多样本,答案的质量恐怕就无法保证。我们仔细观察就会发现,网络上关于ChatGPT给出的靠谱答案,大多都是一些常见问题或者只是一些不分对错的观点,甚至一些套话、空话。这些问题用搜索引擎就可以快速找到答案,甚至什么都不用我们也是能准确答出,或者给出自己的明确立场。可能否回答相对小众的、专业的、关乎事实的问题,才能体现它相对搜索引擎的优越性。毕竟,目前看来它的速度比搜索引擎可慢多了,描述问题输入文字的长度,也比搜索关键词多很多,优势就在于省略了对比搜索结果这一过程。然而,在这方面的表现它可能不是更准更快,而是更糟糕。

  因为,如果把当它当做一个搜索引擎使用时,就可能导致一个明显问题。搜索引擎原则上是把出现关键词的相关内容以列表的形式返回,供用户自行判断是否正确。聊天机器人是只能一个个给出答案,你失去了对比。这个时候答案的正确性就很重要,因为可能对用户造成严重且不可预估的误导。固然它可以省略了使用搜索引擎时,从海量低质量信息中自我检索这个繁琐的过程提高了效率,但这种误导也可能形成更严重的信息茧房。毕竟,当下信息茧房一个很重要的因素就在于我们太懒。

  编故事小能手,速度太慢

  我又尝试让它给我编写小故事。正如网络上很多文章所指的那样,它确实可以编故事。之前一些专门用来编故事写文章的AI其实就已经展现出来这方面的才能,毕竟故事不用涉及对错真假。不过之前的AI写文章编故事时,往往被称之为狗屁不通。归根到底,还是故事粗看还成,细看往往就啼笑皆非。下面是我让它为编写的科幻小说。

  体验一把ChatGPT:一本正经胡说八道,在中国前途难测(图7)

  我在两个不同的会话中,都让它以地球人入侵外星为题材写科幻小说。发现两个剧本非常相似,基本都是人类发现外星,结果反被外星入侵,人类最终打败了外星人。它给的章节架构还算像模像样,但这么简单我自己也能编无数个,而作为一个完整小说显然还差好多。也就是说,AI的创作想象能力似乎并不如想象中那么强大。于是,我给了它更多信息,让它为我创作一个爱情小说。

  体验一把ChatGPT:一本正经胡说八道,在中国前途难测(图8)

  我的要求是:写一个高富帅与灰姑娘的爱情小说。高富帅名叫威震天,灰姑娘叫玛丽苏。反派叫擎天柱,他试图破坏高富帅和灰姑娘的爱情。擎天柱一度抢夺了灰姑娘,经过千难万险后,高富帅终于得到了灰姑娘。

  这次它编写的故事感觉比之前的科幻小说要好。我故意把擎天柱和威震天反串了,但它依然准确理解了我的意图,把擎天柱描写为一个坏蛋。也许,我们需要给它更多的描述,它才能为你编写出更好的故事。你和它聊天时,不管解决什么问题,描述越详细精确,结果往往会更好一些,当然,这一过程也越累。同样的,我让它按要求编写另一个不一样的故事时,威震天和擎天柱依然还是富商,而且第二个爱情故事的最后两章的剧情显然有些雷同了。于是,我让它不要编写富商的故事,于是它就结合之前的科幻题材,编写了一个科幻爱情故事。

  体验一把ChatGPT:一本正经胡说八道,在中国前途难测(图9)

  另外一个严重问题,就是AI编写故事的速度并不快,超时也会时不时发生。编写一个故事可能耗时两三分钟甚至更久,甚至直接发生错误。回答其他问题的速度也不算快,卡顿几秒十来秒是常有的,而搜索引擎几乎是瞬间返回的,也极少极少出现延迟问题。ChatGPT是一个预训练模型,它的准确率有赖于巨大的样本,但样本越大,训练速度和资源开销也就越大。用户越多,使用时的压力也大。它目前严重的性能问题可能不仅仅是因为用户量的突然暴增,也可能本来就是一个不好解决的问题。

  最后,奉上我让它写的诗词。可以看出,虽然它比大多数人写得好,但依然是基于样本的鹦鹉学舌。正应了中国的俗话:天下文章一大抄,就看会抄不会抄。目前来看,ChatGPT用在一些需要大量废话场面话凑数量的场合应该还是合适的。据说已经有人用它写作业、写论文、写专利、写方案等等。这些场合的共同特点,大概就是废话多了。

  体验一把ChatGPT:一本正经胡说八道,在中国前途难测(图10)

  可以编程,调试代码麻烦

  最开始,我让它编写实现贝塞尔曲线的JS程序,它出色完成了任务,代码可以直接运行。

  体验一把ChatGPT:一本正经胡说八道,在中国前途难测(图11)

  有的朋友认为这个任务太简单,于是我换了一个更为实际的任务。要求获取并返回主机的操作系统类型、操作系统版本、CPU型号、内存大小、显卡型号和分辨率大小,以及一个该主机的唯一标识符。

  体验一把ChatGPT:一本正经胡说八道,在中国前途难测(图12)

  这个程序确实可以运行,但无法正确返回GPU和分辨率信息。我又提示它修改,但依然无法解决。我又尝试让它写一段Python代码,用于批量下载大伟拉姆齐地图中心网站上的高清地图。

  体验一把ChatGPT:一本正经胡说八道,在中国前途难测(图13)

  这次编写的代码不可用,因为AI并不知道网站上的地图都是古旧地图,毕竟,它可能只是根据地图高清下载这个关键词就概率的匹配上了在线电子地图下载而已,它给的例子一看就是从不知道什么地方抄来的,下载在线电子地图的例子。看来,它并不是真的会变成,而只是会抄。要让它出色完成编程任务,应该需要更详细的描述。于是我给了它更为准确的新任务。

  体验一把ChatGPT:一本正经胡说八道,在中国前途难测(图14)

  我让它使用 puppeteer 实现网页截图程序,该程序可以通过命令行参数输入网址、截图分辨率、截图格式、超时时间。因为环境问题第一版程序我无法运行,于是我让它改为使用puppeteer-core编写程序。本来这只需要在前一版程序的基础上简单修改即可,但它却写了全新的程序。这次的程序出错,我直接告诉了它错误代码,它尝试为我解决问题,而我则让它改写之前的代码。但是它并没有改写,而是完全重写了之前的代码。这段代码还需要自行替换一些环境信息,并且运行后又报错,最终在和它沟通下问题得以解决。

  最后我希望它为这个程序编写使用文档。结果它在文档中再次我编写了一个全新程序,连参数顺序都改变了。也就是说,它每次都编写了一个全新风格的程序,而不是根据提示在之前的代码上完善。因此,它其实并不具备真正的编程能力,不过根据它海量的训练数据在统计预测的基础上输出结果。不过,它可以为我们提供一些辅助,如快捷查询API使用方法等,这样也许就不用为了一个个简单问题却翻阅文档了。它绝对无法让程序员失业,更可能像IDE一样,成为辅助程序员的快捷工具。下面这些问答,我让它查询了一些代码库的使用方法。

  体验一把ChatGPT:一本正经胡说八道,在中国前途难测(图15)

  我没有实际运行这些代码,应该说这些示例大体正确,用来做参考还是够用的。不过也得承认,这些用例靠搜索引擎也能很快得出。

  总结与在国内的前途预测

  ChatGPT确实比之前的AI更智能了。它对自然语言的理解和表达能力有很大提高。但受限于当前人工智能的基本原理,要想有很多人所期盼那种突破恐怕还很难。它应该可以做一个更好的Siri,替代人们做更多机械性的文字劳动甚至用来灌水。有些朋友认为,只要给时间它就可以不断完善。但我们应该知道这只是一种愿景没有科学依据,互联网上突然风光过一段时间然后陷入瓶颈的玩意实在太多了。我们对ChatGPT应该报以观望态度。互联网比较喜欢造热点和赶风口,ChatGPT就是当前被无数想发财致富的人所吹捧的风口。

  ChatGPT和它的模仿者在国内应该会遇到更多挑战。首先ChatGPT依赖巨大的训练样本,但中文互联网的信息丰富程度远低于英文互联网,而且小网站小论坛的生存环境越来越差,这将直接影响到这些系统的准确度。中文互联网上各种稀奇古怪的和谐词汇也将是对AI的一大考验。中文互联网的信息不仅仅不丰富,而且各大平台还互相屏蔽。现在腾讯、百度、头条等各自为政,只有B站、知乎等规模更小的平台愿意把内容开放给搜索引擎爬取。

  但我们知道,B站、知乎愿意向其它搜索引擎开放,归根到底是因为他们平台小用户少,搜索引擎作为一个中间商最终会把流量和用户带给平台本身。但是,ChatGPT的原理导致了它的来源信息非常杂乱,以至于给不出可靠的参考,实际上它默认也不会给出任何来源参考。因此,各大平台只会推出自己的ChatGPT山寨版做一个个山大王土皇帝,绝对不愿意把自己平台的内容共享出来给别人做嫁衣。而且,在一个视频当道的时代,中文互联网上不少有价值的信息已经变成视频了,人们也越来越懒不愿意看文字。视频搜索本来就是一个难题,目前看来还没有做得比较好的案例。

  很多人说,ChatGPT可以代替搜索引擎云云。我们知道,在中国,把持搜索的百度,在搜索领域的地位远远比不上谷歌,即便在国内也是一日不如一日。百度现在还重视搜索业务吗?人们还用搜索引擎吗?百度搜索引擎难用仅仅是百度卖广告吗?人们现在本来就已经沉迷在智能推荐系统下了,本来就不希望求实求真,更懒得去搜索,那么更智能的信息获取工具又有何用呢?在我看来,和ChatGPT聊天固然新鲜,但新鲜劲过后,大概还是不如刷一下就换一批内容就把自己喜欢的喂到嘴里来得实在。

  原标题:《体验一把ChatGPT:一本正经胡说八道,在中国前途难测》

  阅读原文

  (题图来源:视觉中国)


您可能还会对下面的文章感兴趣:

登录 注册 退出