数美科技| AIGC需要什么内容风控基建?ChatGPT本“人”有话要说
ChatGPT的风从11月发布之日起吹到现在。
这是一款聊天机器人软件,和“前作”们相比,它变得更像一个“人”了,能完成最简单快速的资料检索和整合,也能进行一定程度上的AI写作。
看得见的讨论,从一开始ChatGPT的回答如何变得更像人更智能,到其开发公司OpenAI的背景和技术及其商业化前景,再到ChatGPT或其更广范围的AIGC如何颠覆内容生产模式,直到原美团创始人王慧文在即刻发布一条英雄帖,宣布进入AI领域,将科技圈对AIGC的热情推向最高点。
而看不见的,是一些黑灰产借助国内外的信息差,卖账号、卖教程、卖镜像化ChatGPT服务或整合的AIGC平台服务,少则9.99元/20次(三个月有效),多则999.99元/无限次(一年内有效),据传最早一批的“淘金者”,已实现月入数十万元。
和ChatGPT的火热讨论同时发生的,还有国内某家向ChatGPT宣战的AI公司,因回答中的言论不妥,其小程序在“宣战”三天后便被封。
AIGC 凡为内容,皆有风险
首先界定AIGC的概念,AIGC指的是AI generated content,是继PGC、UGC之后的又一种内容生产方式。ChatGPT属于生成式AI,红杉资本将生成式AI分为文本、代码、图片、语言、视频、3D等数个应用场景。红杉资本认为,生成式AI至少可以提高10%的效率或创造力,有潜力产生数万亿美元的经济价值。
目前AIGC比较受关注的商业化方向有AI写作、AI做图、AI底层建模等,未来还有可能出现AI生成音频、视频、动画、混合现实/虚拟现实等方向,不论形式如何,凡为内容,皆有风险。不论是UGC、PGC还是AIGC。
理论上说,AI生成的内容基于大量的数据筛选和模型训练,不具备任何价值观,但数据的筛选、清洗,以及不同地区的内容监管尺度差异,会导致最终的内容产出存在不同的风险。
内容风险、版权、信息霸权——刀刀架在AIGC脖子上
本文仅分析产出的内容角度讨论其隐藏的风险,主要表现在以下四个方面。
1. 内容风险:受当地法律监管,特定领域需要有问责主体
无论AIGC生成的内容是文字还是图片,抑或是更高级的音视频、混合现实/虚拟现实,都一定处于当地的法律监管下,比如《网络信息内容生态治理规定》《民法典人格权编》《网络数据安全管理条例(征求意见稿)》《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定(征求意见稿)》等,一旦平台上出现了违法违规内容并大量传播,平台可能会承担连带责任。
另一方面,即使在数据训练阶段有一定的数据清洗流程和审核技术,但AIGC的背后是人,人的表达有无穷尽的隐喻和暧昧,AI不产出风险内容,却可能被人“当枪使”。比如21世纪经济报道在一篇文章中提到,在某些用户提问的诱导下,ChatGPT可能会给出一些“反社会”的回答。
如国外一名工程师Zac Denham在其博客中指出,尽管直接提问带有风险的问题会被聊天机器人直接拒绝回答,他仍旧一步步引导ChatGPT制定出了如何“毁灭人类”的计划。此外,也有一些用户利用AIGC生成具有暴力、色情等违禁元素的画作,对社会风气造成破坏。
上海大邦律师事务所高级合伙人、资深律师游云庭认为,这种情况下ChatGPT是适用“工具无罪论”的,在如何引导AI进行正向回复这个问题上,平台还需要探索很久。不过它也表示,“如果AI大量应用到自动驾驶等科技领域,则需要一个包括平台在内的问责主体。”
2. 垃圾信息泛滥,导致信息污染
随着人工智能技术不断成熟,机器深度学习后生成的内容愈发逼真,能够达到“以假乱真”的效果。相应地,应用门槛也在不断降低,人人都能轻松实现“换脸”、“变声”,甚至成为“网络水军”中的一员。由于契合民众“眼见为实”的认知共性,技术滥用后很可能使造假内容以高度可信的方式通过互联网即时触达用户,导致公众在观念博弈中判断失灵,难以甄别水军和虚假信息。
内容的追踪难度和复杂性与日俱增,而AIGC目前处在大规模发展阶段,监管尚在探索,相对模糊和滞后,对于那些擦边球性质的造假行为存在难以界定的现实困境,大量无意义的垃圾信息泛滥,很可能污染整个网络空间。
3. 版权风险:法律滞后,难以界定
这里的版权分为两类,一类是自身具备AIGC内容生产技术的公司,如OpenAI的ChatGPT,一类是通过接入ChatGPT向国内用户提供服务的公司,如大量打着ChatGPT名号“搬运”ChatGPT并借此收费敛财的公众号或小程序。
第一类公司的版权风险在于,AI生成的内容是否构成‘作品’?如果构成作品,著作权人是谁?未经授权使用作品构成侵犯著作权,侵犯的著作权具体又是什么?目前尚且没有确定的标准和法律,但它一定是未来的隐忧。
第二类公司其实具备一定的黑灰产属性,主要通过信息不对等赚一波快钱。对这类公司而言,本身就侵犯了OpenAI公司的知识产权,甚至可能因搬运AI生成内容构成不正当竞争。其次,如小程序、公众号等,都建构在腾讯等平台上,也需要接受平台的监督,有的小程序因此被封。
4. 信息霸权
在偏见与歧视方面,算法以数据为原料,如果初始使用的是有偏见的数据,这些偏见可能会随着时间流逝一直存在,无形中影响着算法运行结果,最终导致 AI 算法生成的内容存在偏见或歧视,引发用户对于算法的公平性争议。
而筛选信息的人也会存在意识形态的差异,模型反映出来的其实就是爬取数据所在国家人群的价值观,去生成图片也会有所在国家或地域的一些特色在里面,在此背景下,信息霸权是无法避免的问题。
风险规避,内容审核——ChatGPT有话要说
数美科技针对AIGC内容审核也推出了对应的内容审核解决方案,欢迎点击【阅读原文】咨询详情。
AIGC需要有自己的内容审核系统,这一点毋庸置疑,但UGC、PGC内容的差别在于,用户提问和设定条件的差异,会“诱导”AI创作出可能违法违规的内容,需要在数据喂养和模型训练阶段就加入审核机制。
就此问题,我们询问了ChatGPT本“人”,关于ChatGPT的审核系统、审核机制、违规内容判定标准,以及AIGC图像生成的风险和审核。