AI“剽窃”问题难解,这家初创公司发明解决算法丨AI版权战事

艾媒咨询|2023年中国AIGC行业发展研究报告

随着人工智能技术的不断发展,AIGC技术也日益成熟,广泛应用于更多领域,其广阔的应用前景将推动AIGC市场规模快速增长。艾媒咨询预测,预计2023年中国AIGC核心市场规模将达79.3亿元,2028年将达2767.4亿元。

艾媒咨询|2023年中国AIGC行业发展研究报告 精品决策
中国ChatGPT及AIGC消费者行为洞察数据 中国ChatGPT及AIGC消费者行为洞察数据 科技消费 用数据说话

  8月6日,一家初创公司ProRata.AI在加州成立,创始人是Bill Gross。这个名字不像其他硅谷大牛那样耳熟能详,但他发明的按点击付费广告、竞价排名广告每个人都很熟悉。搜索引擎巨头的繁荣一定程度归功于该商业模式,说是互联网经济的心肺功能也不为过。

  现在Bill Gross提出了AI时代的商业模式:AI按使用收费(AI pay-per-use)。依靠一项专利算法,AI的输出会被拆解成不同部分,找到相应的版权来源,并根据输出比例分配收入。

  尽管还没有完全落地的产品,《金融时报》、《财富》、环球音乐集团等大型内容版权方已经和ProRata签署了合作协议。目前该公司获得2500万美元的A轮融资。

  按使用次数分成

  ProRata的最大噱头无疑是它的归因算法。

  Bill Gross这样解释:“我们可以把生成式人工智能的输出——无论是文本、图像、音乐还是电影,分解成各个组成部分,找出它们的来源,然后给每个版权持有者一个百分比的归属,以此给他们相应的报酬。”公司官网提到,这一归因算法已经申请了专利。

  想法固然美好,但要如何落地推行?考虑到ProRata主要针对的是AI搜索应用,公司计划在10月推出自己的AI搜索产品作为演示。据称该产品只会引用有明确授权的内容,将靠广告和订阅收费,50%的总收入与版权方分享。

  实际上,《连线》杂志报道称,Bill Gross的终极目标是吸引Open AI、Anthropic这样的AI巨头,把ProRata的技术糅合进大模型,最终成为类似Visa或 Master Card的支付零件

  这延续了Bill Gross的创业思路。他在1998年创立了GoTo.com,发明了现在谷歌、雅虎、百度等搜索引擎依赖的“按点击付费”广告。简单来说,就是广告商为搜索关键词竞价,并为用户最终点击的广告次数出钱。不过,GoTo.com公司自身过于依赖和大型搜索公司的合作,逐渐沦落为一个零部件供应商,最终在2003年被雅虎用16.3亿美元收购。

  从这次ProRata的产品构想来看,风险无疑也是存在的:AI被称为“大力出奇迹”,如果没有海量的互联网数据支持,大模型的性能需要打上问号。Bill Gross也意识到了这一点。

  Bill Gross解释,“我认为 7000 万份优质文档实际上优于 700 亿份劣质文档,能带来更好的答案。” 他希望ProRata能够证明,数据质量比数量更重要,并认为这样可以抑制AI的幻觉。换句话说,相比其他AI搜索,ProRata将竞争力押注在大模型的准确性和可靠性上。

  尽管产品还没有被检验,ProRata已经收到了热情的市场反应。据公司官网信息,ProRata已与环球音乐集团、《金融时报》、《财富》、《大西洋月刊》、Axel Springer媒体集团、环球音乐集团合作;此外,该公司还与知名作家达成了合作协议,包括托尼·罗宾斯(Tony Robbins)、尼尔·波兹曼(Neal Postman)和斯科特·加洛韦(Scott Galloway);Bill Gross还称,首次发布公司声明后,自己收到了大量合作请求,《时代》杂志最新加进了合作名单中。

  激烈的战火,不明晰的法律

  “我们迫切需要一个协调AI和版权方的方案……内容有明确归属,创作者能获得公平报酬,可以帮助建立一个更健康的生态。”《金融时报》CEO在ProRata的合作声明中写道。

  从这份声明里可以感受到,内容行业对AI“剽窃”愈发不满,催生了对ProRata此类公司的需求。

  近几年AI公司抓取数据当作训练素材的做法,引起大量创作者抗议,由此带来的版权诉讼不断。今年6月,AI搜索也深陷这一漩涡——《福布斯》指控Perplexity几乎能原封不动地输出自己的报道原文;美国付费媒体《连线》也发现了一样的问题。

  之所以会被称为“剽窃”,有两方面原因:

  拿Perplexity的争议为例。根据用户的输入词,Perplexity会在互联网中爬取相关结果,总结成答案输出。有付费墙阻拦的网站和在代码文件中禁止了robots.txt(爬虫抓取)的网站,通常是会被绕开的。但如果用户自己输入了一个明确网址,Perplexity很可能会突破规则,强行满足用户的要求。

  更深一层的原因则是,由于Perplexity可以直接概括内容,用户可能不再需要点进原网站阅读。内容网站流量减少,但又无法从AI搜索这一渠道获利,此般利益冲突难以调解。

  AI搜索从网上爬取、引用数据,算不算侵犯版权,要不要给创作者补偿?目前法律没有给出明确答案。

  日本、欧盟在内的部分国家规定了“文本与数据挖掘行为”属于合理使用,也就是不算侵犯版权,这也是许多AI公司的底气来源。但前段时间,法国竞争管理局回复谷歌,抓取数据能不能用来训练AI“还不清楚”。

  广东财经大学法学院教授姚志伟此前向21记者解释,这是因为当初立法时,文本与数据挖掘针对的是传统的算法推荐,不是生成式AI,这两种技术显然不能简单画上等号。

  而我国《著作权法》列举的13种合理使用情形中,没有包含数据挖掘行为。姚志伟补充道,我国在司法实践中看重使用目的,会强调这一行为是否为商业使用、有没有营利性质。这样来看,挖掘数据来训练大模型,在我国可能更难落入合理使用的范畴。

  作为AI搜索的头部应用,Perplexity的合规困境是整个AI行业的缩影。在硬性要求迟迟不来的情况下,依靠ProRata这样更软性的市场方案,也许是摆脱困境的一种方式。

  值得一提的是,许多AI公司已经启动了收入共享计划,只是尚不清楚细节。8月1日,Perplexity首席商务官就在采访中说,目前Perplexity已经签署了一批授权协议,同样也是按照引用次数计算,没有透露更具体的分成比例和计算方式。

艾媒咨询|2023年中国AIGC行业发展研究报告

随着人工智能技术的不断发展,AIGC技术也日益成熟,广泛应用于更多领域,其广阔的应用前景将推动AIGC市场规模快速增长。艾媒咨询预测,预计2023年中国AIGC核心市场规模将达79.3亿元,2028年将达2767.4亿元。

艾媒咨询|2023年中国AIGC行业发展研究报告 精品决策
中国ChatGPT及AIGC消费者行为洞察数据 中国ChatGPT及AIGC消费者行为洞察数据 科技消费 用数据说话