复旦再推AI文本检测工具“谛听” 识别ChatGPT成功率达80%

2023-03-19

　　GPT-4让AI更加具有像人一样的能力，AI生成的文本的流畅度也令人惊叹，越来越难以辨识。在这一背景下，AI检测文本工具可以通过对生成文本进行追踪和检测，来识别文本是否由AI生成，这也成为防止大型AI语言模型用于作弊等行为的利器。

　　日前，复旦大学自然语言处理实验室推出了一款用于AI生成文本检测的测试软件“谛听”（英文：Sniffer），基于黑盒假设，无需大规模监督训练，就能检测AI生成的文本。据该软件的英文版本介绍，对于ChatGPT生成文本的检测率达到80%左右。

　　实验室负责人邱锡鹏教授3月16日晚间在微信朋友圈上表示：“后续将会在MOSS语言模型开源后，将Sniffer与MOSS进行联动，构成一对矛与盾，相互提升，继续探索大模型的新技术。”

　　上个月，邱锡鹏告诉第一财经记者，如果优化顺利，MOSS将于3月底开源。团队表示，未来“谛听”软件工具还将支持GPT-4等更多大模型等检测，并在检测性能提升后整理公开模型。

　　不过团队坦言，由于“谛听”的模型是建立在“黑盒假设”下，因此对于输入文本的来源模型并不知晓，而且与监督训练的分类器相比，将仅使用少部分数据进行训练。

　　值得注意的是，测试集的检测结果显示，该模型中文检测的准确率低于英文，因此中文检测结果还需要进一步提升。

　　根据“谛听”的英文版介绍，在保留的测试集上检测结果显示，识别ChatGPT生成文本的成功率在80%左右，识别人类书写文本或GPT-2生成文本的成功率高于90%；非常短的文本（50个单词或更少）很难被检测到。此外，英文人工编写的示例文本来自维基百科。

　　“谛听”英文检测结果分为四类：来自人类；来自人类、但可能有大模型如GPT-3辅助；来自GPT-3模型；来自GPT-2模型。

　　“谛听”中文版的检测结果分为三类：一是“文本是人写的”、二是“文本是人写的，但是也很可能包含AI参与”、三是“文本是出自于AI模型的”。

　　3月17日，邱锡鹏对第一财经记者表示：“对ChatGPT级别的中文检测准确率目前只有约40%，不过对于小模型（3B左右的开源GPT-2模型）生成的准确率可以达到90%左右。”

　　他解释称，中文检测的准确率低于英文有几个原因。“首先是英文采用的wikipedia数据集进行特征提取，因此覆盖面更广，中文选择的数据质量差一些，这也是我们发布beta测试并且正在改进的地方；第二个是中文大模型的tokenizer（分词器）差异会大一些。”邱锡鹏说道。

　　他还表示，关于生成文本检测，国外有一些已经发布的产品，对比下来，针对GPT-2级别的模型，准确率比较高，针对GPT-3级别的模型，检测结果还比较差。

　　“一方面是这些模型是黑盒，我们的掌握信息有限，另一方面是这些模型生成质量很高，多样性也很好，尤其是GPT-4出现以后，相比于GPT-3.5，检测难度进一步增加了。”邱锡鹏对第一财经记者表示，“总而言之，在大模型时代，文本检测的机器评测准确率仍然较低，还需要进一步的研究。”

　　目前的AI文本检测方式大致可分为两类：黑盒假设和白盒假设。所谓的“黑盒假设”对大型语言模型通常只有API级别的访问权限。因此，这类方法依靠于收集人类和机器的文本数据样本来训练分类模型；“白盒假设”拥有对大型语言模型的所有访问权限，并且可以通过控制模型的生成行为或者在生成文本中加入水印（watermark）来对生成文本进行追踪和检测。

　　在实践中，黑盒检测器通常由第三方构建，例如较为著名的GPTZero，而白盒检测器通常由大型语言模型开发人员构建。不过由于“黑盒假设”在数据收集的过程中很容易引入偏见（biases），这些偏见常常会被黑盒分类器作为分类的主要特征。而随着大型语言模型能力的提升，大型语言模型生成的文本和人类的差距越来越小，这会导致黑盒模型的检测准确性越来越低

　　此外，对于黑盒检测，用户可以微调他们的模型，改变模型输出的风格或者格式，从而导致黑盒检测无法找到通用的检测特征。

　　复旦大学的语言模型MOSS自上个月推出以来备受各界关注。邱锡鹏认为，国外开发者不太可能以中文为主去发展他们的模型，中国要想开发一个大型语言模型的基座，用于国内的信息处理，就必须建设一个中文能力非常强的大型语言模型。

　　除了复旦大学之外，包括百度、阿里巴巴在内的中国互联网巨头以及初创公司也都在开发基于AI的大模型技术。

<<百度文心一言体验：不够完美，但在ChatGPT面前已展现威力

为何不公布ChatGPT训练细节？OpenAI联合创始人：容易造成巨大伤害>>

复旦再推AI文本检测工具“谛听” 识别ChatGPT成功率达80%

您可能还会对下面的文章感兴趣：

随便看看