AI“剽窃”问题难解，这家初创公司发明解决算法丨AI版权战事

2024-08-14 肖潇 21世纪经济报道阅读 15872

艾媒咨询｜2023年中国AIGC行业发展研究报告

随着人工智能技术的不断发展，AIGC技术也日益成熟，广泛应用于更多领域，其广阔的应用前景将推动AIGC市场规模快速增长。艾媒咨询预测，预计2023年中国AIGC核心市场规模将达79.3亿元，2028年将达2767.4亿元。

　　8月6日，一家初创公司ProRata.AI在加州成立，创始人是Bill Gross。这个名字不像其他硅谷大牛那样耳熟能详，但他发明的按点击付费广告、竞价排名广告每个人都很熟悉。搜索引擎巨头的繁荣一定程度归功于该商业模式，说是互联网经济的心肺功能也不为过。

　　现在Bill Gross提出了AI时代的商业模式：AI按使用收费（AI pay-per-use）。依靠一项专利算法，AI的输出会被拆解成不同部分，找到相应的版权来源，并根据输出比例分配收入。

　　尽管还没有完全落地的产品，《金融时报》、《财富》、环球音乐集团等大型内容版权方已经和ProRata签署了合作协议。目前该公司获得2500万美元的A轮融资。

　　按使用次数分成

　　ProRata的最大噱头无疑是它的归因算法。

　　Bill Gross这样解释：“我们可以把生成式人工智能的输出——无论是文本、图像、音乐还是电影，分解成各个组成部分，找出它们的来源，然后给每个版权持有者一个百分比的归属，以此给他们相应的报酬。”公司官网提到，这一归因算法已经申请了专利。

　　想法固然美好，但要如何落地推行？考虑到ProRata主要针对的是AI搜索应用，公司计划在10月推出自己的AI搜索产品作为演示。据称该产品只会引用有明确授权的内容，将靠广告和订阅收费，50%的总收入与版权方分享。

　　实际上，《连线》杂志报道称，Bill Gross的终极目标是吸引Open AI、Anthropic这样的AI巨头，把ProRata的技术糅合进大模型，最终成为类似Visa或 Master Card的支付零件。

　　这延续了Bill Gross的创业思路。他在1998年创立了GoTo.com，发明了现在谷歌、雅虎、百度等搜索引擎依赖的“按点击付费”广告。简单来说，就是广告商为搜索关键词竞价，并为用户最终点击的广告次数出钱。不过，GoTo.com公司自身过于依赖和大型搜索公司的合作，逐渐沦落为一个零部件供应商，最终在2003年被雅虎用16.3亿美元收购。

　　从这次ProRata的产品构想来看，风险无疑也是存在的：AI被称为“大力出奇迹”，如果没有海量的互联网数据支持，大模型的性能需要打上问号。Bill Gross也意识到了这一点。

　　Bill Gross解释，“我认为 7000 万份优质文档实际上优于 700 亿份劣质文档，能带来更好的答案。” 他希望ProRata能够证明，数据质量比数量更重要，并认为这样可以抑制AI的幻觉。换句话说，相比其他AI搜索，ProRata将竞争力押注在大模型的准确性和可靠性上。

　　尽管产品还没有被检验，ProRata已经收到了热情的市场反应。据公司官网信息，ProRata已与环球音乐集团、《金融时报》、《财富》、《大西洋月刊》、Axel Springer媒体集团、环球音乐集团合作；此外，该公司还与知名作家达成了合作协议，包括托尼·罗宾斯（Tony Robbins）、尼尔·波兹曼（Neal Postman）和斯科特·加洛韦（Scott Galloway）；Bill Gross还称，首次发布公司声明后，自己收到了大量合作请求，《时代》杂志最新加进了合作名单中。

　　激烈的战火，不明晰的法律

　　“我们迫切需要一个协调AI和版权方的方案……内容有明确归属，创作者能获得公平报酬，可以帮助建立一个更健康的生态。”《金融时报》CEO在ProRata的合作声明中写道。

　　从这份声明里可以感受到，内容行业对AI“剽窃”愈发不满，催生了对ProRata此类公司的需求。

　　近几年AI公司抓取数据当作训练素材的做法，引起大量创作者抗议，由此带来的版权诉讼不断。今年6月，AI搜索也深陷这一漩涡——《福布斯》指控Perplexity几乎能原封不动地输出自己的报道原文；美国付费媒体《连线》也发现了一样的问题。

　　之所以会被称为“剽窃”，有两方面原因：

　　拿Perplexity的争议为例。根据用户的输入词，Perplexity会在互联网中爬取相关结果，总结成答案输出。有付费墙阻拦的网站和在代码文件中禁止了robots.txt（爬虫抓取）的网站，通常是会被绕开的。但如果用户自己输入了一个明确网址，Perplexity很可能会突破规则，强行满足用户的要求。

　　更深一层的原因则是，由于Perplexity可以直接概括内容，用户可能不再需要点进原网站阅读。内容网站流量减少，但又无法从AI搜索这一渠道获利，此般利益冲突难以调解。

　　AI搜索从网上爬取、引用数据，算不算侵犯版权，要不要给创作者补偿？目前法律没有给出明确答案。

　　日本、欧盟在内的部分国家规定了“文本与数据挖掘行为”属于合理使用，也就是不算侵犯版权，这也是许多AI公司的底气来源。但前段时间，法国竞争管理局回复谷歌，抓取数据能不能用来训练AI“还不清楚”。

　　广东财经大学法学院教授姚志伟此前向21记者解释，这是因为当初立法时，文本与数据挖掘针对的是传统的算法推荐，不是生成式AI，这两种技术显然不能简单画上等号。

　　而我国《著作权法》列举的13种合理使用情形中，没有包含数据挖掘行为。姚志伟补充道，我国在司法实践中看重使用目的，会强调这一行为是否为商业使用、有没有营利性质。这样来看，挖掘数据来训练大模型，在我国可能更难落入合理使用的范畴。

　　作为AI搜索的头部应用，Perplexity的合规困境是整个AI行业的缩影。在硬性要求迟迟不来的情况下，依靠ProRata这样更软性的市场方案，也许是摆脱困境的一种方式。

　　值得一提的是，许多AI公司已经启动了收入共享计划，只是尚不清楚细节。8月1日，Perplexity首席商务官就在采访中说，目前Perplexity已经签署了一批授权协议，同样也是按照引用次数计算，没有透露更具体的分成比例和计算方式。

艾媒咨询｜2023年中国AIGC行业发展研究报告

中国ChatGPT及AIGC消费者行为洞察数据科技消费用数据说话