数据安全观察｜ChatGPT潜在数据保护风险分析及建议【走出去智库】

2023-02-15

　　走出去智库观察

　　ChatGPT在开放测试后风靡全球，仅仅两个月用户便达到1亿，成为互联网发展二十年来增长速度最快的消费者应用程序。但ChatGPT也会具有两面性，在其备受追捧的同时，面临着数据安全方面的争议。

　　走出去智库(CGGT)观察到，ChatGPT能够很好地完成代码、论文、短评、新闻、翻译等内容的创作，已经引起了各行各业对内容抄袭的担忧，而且ChatGPT还可能导致一些敏感数据的泄露风险。微软和亚马逊已宣布禁止公司员工向ChatGPT分享敏感数据，因为OpenAI可能会将其用于未来模型的训练。

　　如何应对ChatGPT带来的数据安全问题？今天，走出去智库（CGGT）刊发相关分析文章，供关注数据安全的读者参阅。

　　要点

　　CGGT，CHINA GOING GLOBAL THINKTANK

　　1、ChatGPT涉及到对个人数据的收集和处理，例如个人在使用ChatGPT过程中被收集的个人数据用于ChatGPT不断的训练和模型优化中，很难保证个人数据的安全合规。

　　2、ChatGPT获取数据的方法需要进行评估，如果ChatGPT通过抓取互联网上的信息获得训练数据，可能存在合规问题。很多网站不允许数据被第三方收集。

　　3、在使用ChatGPT时，充分保护个人用户数据和敏感数据，对预计使用的输入数据进行敏感性识别，限制敏感数据的输入，或利用脱敏数据使用ChatGPT。

　　正文

　　CGGT，CHINA GOING GLOBAL THINKTANK

　　风靡全球ChatGPT实现了科技的革新，同时也带来法律和伦理风险。本文通过分析ChatGPT工作原理、应用场景和合规挑战，重点研究数据保护领域面临的合规风险，提出应对建议。

　　背景

　　ChatGPT是美国人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具。ChatGPT通过大规模的数据训练，拥有强大的自然语言处理能力，可以生成高质量的文本内容。它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。

　　OpenAI于2022年11月30日开放测试ChatGPT，此后ChatGPT风靡全球。两个月后，ChatGPT用户达到1亿，在1月份的访问量约为5.9亿。瑞银银行分析师在报告中写道，这是互联网领域发展20年来，增长速度最快的消费类应用程序。

　　科技革新离不开法律法规的约束，相关监督机制的配套，守住伦理底线和法律底线，才能形成正向互动促进，推动人工智能的发展。

　　工作原理

　　1. 什么是“深度学习”？

　　2006年，多伦多大学教授杰弗里·辛顿（Geoffrey Hinton）提出深度信念网络（Deep Belief Networks，DBNs），“深度学习”由此诞生。“深度学习”在无人驾驶汽车、语音识别、图像识别等方面对工业界产生了巨大影响。“深度学习”是具有很多层级的神经网络模型，现代神经网络模型的网络结构层数很深，动则几百万上千万参数量。这些神经网络模型在做特定任务之前，都需要经过“训练”，即根据标注好的特定训练数据去反复调整模型里的参数，最后所有参数调整到位，模型能匹配训练数据集的输入和输出。

　　2. 什么是“自然语言模型”？

　　在自然语言处理领域，基本概念是“语言模型”，即计算句子（单词序列）的概率或序列中下一个单词的概率的模型。在一句话中的单词总是顺序出现的，每个单词都可以通过前面所有单词计算出概率，把所有这些单词的概率相乘，总概率数值越大，说明越像是人类语言。那么是否可以用神经网络来打造这样一个语言模型呢？通过海量的人类语言语料，来训练出一个神经网络，然后向这个神经网络模型输入一句话的前面几个词，这个模型就能计算出这句话的下一个单词。从“基于语法的语言模型”到“基于统计的语言模型”，进而到“基于神经网络的语言模型”，ChatGPT所在的阶段正是“基于神经网络的语言模型”阶段。

　　ChatGPT使用基于GPT-3.5架构的大型神经网络语言模型，通过强化学习进行训练。OpenAI使用监督学习和强化学习的组合来调优ChatGPT，其中的强化学习组件独一无二，即使用了人类反馈强化学习（RLHF）的训练方法，该方法在训练中使用人类反馈，以最小化无益、失真或偏见的输出。

　　ChatGPT通过连接大量的语料库来训练模型，强大的学习能力来自于大规模的、海量的文本数据训练，通过对其不断地监督学习、人工纠错、强化学习进行对话模拟，最终形成越来越接近于人类语言的语言模型。

　　应用场景

　　1. 人工交互

　　ChatGPT可以帮助人们解决语言交互问题，提高工作效率。例如政企办公、智慧家庭、客服机器人、虚拟人、翻译、营销、游戏、社交、教育、家庭陪护、法律咨询等多个领域被应用。

　　2. 辅助工作

　　依托ChatGPT语言编写能力，可应用于编写和调试计算机程序，进行文学相关领域的创作，法律文书编写等。

　　3. 搜索引擎

　　结合ChatGPT的搜索引擎很可能会呈现出传统搜索引擎为主+基于神经网络的语言模型为辅的途径，搜索结果将会更加“人性化”。百度正式官宣将在3月份完成其ChatGPT产品文心一言的内测，面向公众开放。微软现已推出由ChatGPT支持的最新版本Bing搜索引擎。

　　“AI不会让你失业，会用AI的人会让你失业。”ChatGPT横空出世，可能会创造新的工作机会，在一个更高的水平上熟练使用最先进的生产工具是我们必须掌握的技能，例如与人工智能相关的开发、研究、数据分析等。随着人工智能技术的不断发展，它也可以协助解决多项跨越行业的问题，从而创造新的商机。

　　合规挑战

　　ChatGPT固然实现了科技的革新，但也有可能带来法律和伦理风险，甚至滋生犯罪。

　　1. 个人数据

　　ChatGPT涉及到对个人数据的收集和处理，例如个人在使用ChatGPT过程中被收集的个人数据用于ChatGPT不断的训练和模型优化中，很难保证个人数据的安全合规。

　　2. 商业数据

　　ChatGPT涉及到对商业数据的收集和处理，例如公司员工用ChatGPT辅助其工作，在使用ChatGPT时可能会输入业务信息，引起了公司对于商业秘密泄露的担忧。

　　3. 知识产权

　　ChatGPT涉及到智力创造和知识产权问题，例如ChatGPT将文本数据复制使用，可能触及作品版权、挖掘行为授权、二次创作许可、AI智力成果保护等，都存在争议。

　　4. 虚假信息

　　ChatGPT涉及到模仿冒充和虚假信息问题，例如ChatGPT利用强大人类说话和行为方式模仿、自然语言编写能力，冒充真实的人或者组织骗取他人信息、实施身份盗用等。

　　5. 数字伦理

　　ChatGPT和AI可以模拟人类的思想和行为，甚至拥有自己的情感。当AI进化到和人类似的时候，AI这一本体是否拥有人权？如果有，这些权利与责任由谁来规范？是否具有人类社会的基本道德？人工智能是否尊重人的生命价值和尊严、自由和平等？ChatGPT和AI面临巨大的伦理风险。

　　在学术专业领域，纽约市教育部发言人Jenna Lyle认为，ChatGPT的负面影响超过了积极因素。Lyle表示，“虽然该AI工具可能能够提供快速简便的问题答案，但它并不能培养批判性思维和解决问题的能力，而这些技能对于学术和终身成功至关重要”。一项调查显示，截止2023年1月，美国89%的大学生都是用ChatGPT做作业。甚至国外不少学生已经开始使用ChatGPT代替自己撰写论文。

　　数据保护风险分析及建议

　　在数据保护合规领域，ChatGPT主要面临着用户个人数据处理、算法模型训练、技术不当使用等方面的风险。

　　1. 用户个人数据处理风险

　　1.1 个人数据收集

　　用户在使用ChatGPT时，可能会输入自己的敏感个人数据，甚至是他人的敏感个人数据。在某些法域下，对于敏感个人数据有增强的合规要求，例如中国个人信息保护法下的单独同意要求。如缺乏相关考虑，会存在数据收集合规问题。

　　1.2 个人数据加工使用

　　ChatGPT使用了RLHF的训练方法，用户使用过程中的输入和交互信息可能会用于其持续迭代训练。ChatGPT具备了相当的推理演绎能力，可能从交互信息中获得更敏感的用户数据。此外，用户的输入信息还可能被用于其他用户提供服务当前述交互中包含个人数据时，在这类场景中，处理目的与用户初始使用目的相比已发生变化，根据个人信息保护法和国标35273，需要重新获取同意。在某些场景下，用户输入信息甚至在可能在ChatGPT提供服务的过程中，被其他用户获取进一步使用，从而构成数据共享，带来更多的数据合规问题。

　　1.3 数据处理透明性

　　ChatGPT功能强大，对于个人数据的处理方式可能非常复杂。此外，当涉及前述的二次使用或数据共享时，对ChatGPT处理过程的透明性提出了更高要求。

　　1.4 数据主体行权

　　当用户输入信息涉及个人数据时，需要保障数据主体的基本权利，如更改权、删除权、访问权、可携带权、拒绝自动化决策权等等。OpenAI承诺ChatGPT会从其使用的记录中删除所有个人身份信息，但并未说明如何删除。由于所有输入可能会被用于持续迭代训练，因此数据主体的权利主张可能都将对ChatGPT的合规管控机制提出严格的考验。

　　2. 算法模型训练风险

　　2.1 算法开发

　　ChatGPT是一款智能聊天程序，本质上是人工智能技术驱动的自然语言处理工具，同时还应用了AIGC技术。算法需要满足算法向善、决策透明性、风险评估等要求，AIGC技术需要关注虚假数据生成、不良数据识别等要求。

　　在人工智能规制方面，国家新一代人工智能治理专业委员会亦在2021年发布了《新一代人工智能伦理规范》，提出将伦理道德融入人工智能研发和应用的全生命周期。欧洲、美国较早前也出台了类似的规范甚至法律。2023年1月，美国NIST出台了人工智能风险管理框架，为人工智能合规治理提供了可落地的治理路径。

　　AIGC技术落入到网信办、工信部和公安部2022年发布的互联网信息服务深度合成管理规定，需要健全算法机制机理审查、伦理审查、发布审查、反诈骗等管理要求。

　　2.2 训练数据获取

　　ChatGPT获取数据的方法需要进行评估，如果ChatGPT通过抓取互联网上的信息获得训练数据，可能存在合规问题。很多网站不允许数据被第三方收集。在个人层面，ChatGPT也需要解决未经用户同意大量数据抓取是否涉及数据合规的问题。

　　2.3 数据泄露处置

　　由于ChatGPT强大的功能，出现了使用ChatGPT辅助办公的场景，用户在使用过程中输入各类工作相关信息，可能导致公司敏感信息泄露。目前，微软和亚马逊公司对使用ChatGPT辅助办公持开放态度，但是禁止分享“任何公司机密信息”，因为输入的信息可能会被用作ChatGPT的持续迭代训练。

　　3. 技术不当使用风险

　　用户对ChatGPT的不当使用也会带来很多数据保护和数据安全问题，例如：

　　a.收集非法数据：利用ChatGPT创建虚假社交媒体账号，从受害者那里收集个人数据，实施进一步侵害行为。

　　b.生成字典：创建大量可用于对在线帐户进行自动攻击的潜在用户名和密码组合，进行暴力攻击。

　　c.生成恶意软件：利用自然语言编写的能力，编写恶意软件，从而逃避防病毒软件的检测。

　　d.社会工程：使用ChatGPT的编写功能，利用来自互联网的大量数据，可以生成极具说服力的钓鱼电子邮件或消息，冒充真实的人或者组织骗取他人信息。

　　4. 建议

　　在使用ChatGPT时，关注采取以下方式降低风险：

　　a.充分保护个人用户数据和敏感数据，对预计使用的输入数据进行敏感性识别，限制敏感数据的输入，或利用脱敏数据使用ChatGPT。

　　b.建立企业用户访问控制机制，防止未授权使用ChatGPT，导致数据泄露。

　　c.对企业员工进行如何正确使用ChatGPT培训，定期进行安全监测和合规审计。

　　总结

　　随着人工智能的逐步发展，相应的法律合规挑战只会持续出现。OpenAI首席技术官米拉·穆拉蒂表示，ChatGPT应该受到监管，因为它可能被“危险分子”使用。全球各国设制度规范ChatGPT等AI产品，制定配套的法律法规，同时设立具有前瞻性和约束性的基本伦理标准，将ChatGPT的功能开发、应用场景以及迭代升级等纳入监管范畴。

　　拥抱人工智能新时代，从个人角度，要学会利用ChatGPT并找到更具创造力的竞争优势；从企业角度，要做好商业模式和技术路线的融合规划，提升企业核心竞争力；从政府角度，要前瞻布局，搭建相关的法律法规和伦理框架。

　　来源：合规小叨客（作者：L.GJ，S.WQ，X.YJ）

　　免责声明：本文仅代表原作者观点，不代表走出去智库立场。

　　●●延展阅读

　　让中国企业更好预警跨境风险、掌握前瞻趋势，由走出去智库、道琼斯风险合规、卓纬律师事务所共同合作，并联合30多国家35家领先律所团队共同推出第一期《跨境数据合规和法律研究》报告。（如需报告可点击下文申请）

<<逆水寒推出游戏版ChatGPT：NPC可自由生成对话

嗨ChatGPT，人类对你最好奇的是什么呢？这篇文章一一解答！丨智言智语>>

数据安全观察｜ChatGPT潜在数据保护风险分析及建议【走出去智库】

您可能还会对下面的文章感兴趣：

随便看看