收集用户数据训练AI再触发监管，Meta暂停行动

2024-06-20 肖潇 21世纪经济报道阅读 13925

艾媒咨询｜2023年中国AIGC行业发展研究报告

随着人工智能技术的不断发展，AIGC技术也日益成熟，广泛应用于更多领域，其广阔的应用前景将推动AIGC市场规模快速增长。艾媒咨询预测，预计2023年中国AIGC核心市场规模将达79.3亿元，2028年将达2767.4亿元。

中国ChatGPT及AIGC消费者行为洞察数据科技消费用数据说话

　　21世纪经济报道记者肖潇北京报道

　　本周Meta宣布，暂停使用欧盟和英国用户的数据训练AI，并推迟在欧洲推出自己的大模型。

　　爱尔兰、英国、挪威等多国监管机构认领，公司此举是回应监管机构的要求。挪威数据保护机构称，Meta向它们承诺暂停使用 Facebook 和 Instagram 上的帖子和图片来训练大模型，目前不确定会推迟多长时间，正在与其他欧盟国家的监管机构一同讨论。

　　Meta收集用户数据的计划开始于上个月，平台通知欧洲用户将在6月底正式启动新的隐私政策：公司将使用Facebook 和 Instagram上的公开内容来训练大模型，包括互动内容、状态、照片和标题，不包括私人间聊天记录和未成年人账户信息。更新的隐私政策引发了反对，奥地利非营利机构组织NOYB当即向11个欧盟成员国分别提起投诉，请求启动紧急程序。

　　争议并非孤例，如何向用户要到数据授权来训练AI，是摆在所有互联网公司面前的一道难题，公司不仅仅要拿捏好合规尺度，还需要顾及对隐私问题愈发敏感的用户情绪。受访专家告诉21世纪经济报道，援引欧盟的“正当利益”条款来获取用户数据，之后可能会越来越常见，不过目前我国《个人信息保护法》没有直接设置类似的规定，国内企业尤其需要注意获得用户的明示同意。

　　“正当利益”条款可能成为熟面孔

　　在对Meta的投诉中，NOYB指出了两点不合规之处：

　　理由一是Meta对人工智能的描述过于宽泛，没有说明收集和处理用户信息的目的。Meta的隐私政策只用了“人工智能技术”一词，NOYB的创始人Max Schrems认为这相当于在说“我们会在数据库中使用数据”。

　　“Meta 并没有说明它将使用这些数据做什么，也没有设置任何限制。人工智能技术可能指一个简单的聊天机器人，极具攻击性的个性化广告，甚至是杀伤级的无人机武器。”Max Schrems解释。

　　理由二是用户默认同意收集数据，拒绝过程复杂。以Facebook为例，用户如果要拒绝平台收集自己的数据，需要经过设置和隐私—隐私中心—生成式AI—更多信息—《Meta如何数据训练大模型》五级页面，才能在文件末尾找到一份反对表格。并且只有主动填写表格，经由公司之手，用户方能拒绝数据收集。

　　Meta对此辩称，大模型需要反映“欧洲人民的语言、地理和文化背景多样性”，因此公司用户收集数据应该属于《通用数据保护条例》规定的“正当利益”（legitimate interests），不用特别征得用户同意。

　　通常来说，《通用数据保护条例》默认收集个人信息是非法的，但“正当利益”条款豁免了一些必须收集数据的情况，不需要获得用户同意，这类合法收集行为可以出于个人利益、商业利益或者公共利益。

　　“业界一般会认为欧盟对个人信息处理的限制很严格，其实通过正当利益条款留下了一定空间。” 世辉律师事务所合伙人王新锐从事数据合规业务多年，王新锐告诉21世纪经济报道，正当利益条款设置复杂且灵活，需要通过一系列测试，可以说是一个解释空间较大的合法性基础。

　　此前Meta也援引过正当利益，当时辩护的是收集用户数据来投放个性化广告的行为，但欧盟法院最终反驳了这一说法，Max Schrems因此认为正当利益也难适用于训练AI的数据抓取和使用。王新锐表示，对于一些新兴技术的场景，其他的合法性基础可能都难以成立，但正当利益还有一定的解释空间，所以Meta会尝试援引，估计“以后各类和AI有关的案件中，这个条款会反复出现。”

　　需要注意的是，与欧盟不同，我国个保法并没有直接将“正当利益”写入法定的豁免情况。不过王新锐指出，欧盟《通用数据保护条例》规定的一些典型情形，我国通过其他条款也有所覆盖。

　　浙江垦丁（北京）律师事务所律师程念告诉21世纪经济报道，我国类似规定包括的情形是有限的：一类是突发卫生事件或者保护自然人的紧急情况，另一类是法定保密的行动，比如出于疫情或公安机关的反恐调查，收集数据可以不获取用户同意，而企业的经营行为通常难以落入这一范围。

　　用户数据成为行业敏感点

　　“我们很失望”“这对欧洲创新、人工智能开发竞争来说是一个倒退，也进一步推迟了人工智能为欧洲人民带来的好处。”Meta在博客中抱怨，自己其实是跟随了行业的做法——谷歌和OpenAI都已经在使用欧洲用户的数据来训练AI，而且“与同行相比，我们的数据收集方法更透明。”

　　不过，事实似乎并非如此，谨慎对待用户数据逐渐发展为一种共识性的做法。比如ChatGPT率先允许用户可以通过关闭聊天记录功能，来拒绝自己的个人数据被官方拿去训练，尽管这样不可避免地会影响大模型回答的质量；6月19日，Adobe专门更新了服务条款，明确约定Adobe的软件不会使用用户的本地或云端内容训练生成式AI模型。

　　去年国内办公软件WPS曾尝试在隐私政策中新增：“我们将对您主动上传的文档材料，在采取脱敏处理后作为AI训练的基础材料使用”，被用户发现后引发集体抵制，而后WPS向用户道歉，并承诺用户文档不会被用于AI训练。

　　目前明确会收集用户数据训练AI的科技巨头有谷歌和X：为了推出马斯克的x.AI公司，X在去年9月更新了隐私政策，其中2.1条例中写道：“我们可能会使用收集到的信息和公开可用的信息来帮助训练我们的机器学习或人工智能模型”；去年7月，谷歌的隐私政策同样新增了一条“我们可能会收集公开的在线信息或来自其他公共来源的信息，帮助训练Google的人工智能模型。”

　　不过，当时北京大成律师事务所高级合伙人邓志松对21世纪经济报道表示，谷歌对收集与处理用户个人信息的范围和目的作出了详细说明，即使以欧盟GDPR项下更为严格的“告知—同意”规则为标准，谷歌的做法至少在形式上合规。

　　NOYB还指出，Meta此次希望收集的是2007年以来所有公开和非公开的个人信息，覆盖Facebook和Instagram社交媒体上的互动痕迹，与AI公司想要用互联网公开资料的一般性做法有所不同。

　　如何满足合规要求，在尊重用户权利的同时发展技术？王新锐向21世纪经济报道强调，对于国内公司，如果想要收集用户数据训练AI，需要遵守《生成式人工智能服务管理暂行办法》明确规定：涉及个人信息的，应当取得个人同意或者符合法律。也就是说需要特别关注收集和使用用户个人信息前，是否已向用户进行了明确告知并获得了其同意。如未提前获得用户同意，则应有法定义务、公共利益等其他合法性基础，否则存在相应的合规风险。

　　程念补充，基于用户使用产品而收集获取的个人信息，除了需要明示同意，涉及敏感信息还需要单独同意；此外要确保用户能够方便查询、更正、删除个人信息并撤回同意，尤其是需要向用户提供拒绝收集数据用于AI训练的选项，确保用户的知情权和选择权。

艾媒咨询｜2023年中国AIGC行业发展研究报告

中国ChatGPT及AIGC消费者行为洞察数据科技消费用数据说话