使用知识共享图像来训练人工智能
Posted: Mon Jan 20, 2025 10:15 am
1838过去几年,每当我介绍人工智能时,我经常被问到这样一个问题:用数据训练人工智能是否会侵犯版权。以Bot Dylan为例,这是一个使用 23,000 首民歌进行训练的机器学习项目。它创作的音乐侵犯版权了吗?公认的答案是否定的,通过让人工智能听音乐来训练它与音乐家听各种歌曲并受到影响没有什么不同(除非他们跨越了一些模糊的界限,明白我的意思了吗?)。
但问题往往不在于结果,而在于能否合法获取机器学习算法可以抓取和分析的内容。以这种方式存储和使用大量数据确实可能侵犯版权,这就是为什么越来越多的人呼吁对版权进行某种数据挖掘豁免的原因。英国已经实施了一项豁免,这是即将出台的数字单一市场指令的一部分。
随着科技公司试图加入人工智能竞赛,大数据集成为热门商品,这正变得越来越重要。最近,关于机器学习工具和训练数据集的争论相当激烈,原因是Edmond de Belamy 的AI 绘画。当时,一个名为 Obvious 的法国艺术家团体使用现有的机器学习工具创作了一系列绘画,其中一幅在拍卖会上以超过 40 万美元的价格售出。用于训练 AI 的肖像属于公共领域,因此从未出现过这些肖像可能侵权的问题,但当时有人认为 Obvious 可能侵犯了所用算法的版权。在我看来,情况并非如此,因为所有工具都是以开源许可证发布的。
我们目前正在目睹另一个极其有趣的案例,该案例已被NBC 新闻的一篇非常详尽的文章揭露,该文章报道称,图片共享网站 Flickr 上发布的数百万张照片未经同意被用于训练机器学习算法。记者 Olivia Solon 写道:
“进入该领域的最新公司是 IBM,该公司于 1 月发布了近一百万张照片集,这些照片均来自照片托管网站 Flickr,并经过编码以描述拍摄对象的外貌。IBM 向研究人员宣传了该集,称这是减少面部识别偏见的进步之举。
但当 NBC 新闻告诉一些摄影师,他们的照片已被标注了面部几何形状和肤色等细节,可能会用于开发面部识别算法时,他们感到惊讶和不安。”
抛开道德和隐私方面的考虑,本报告提出的最有趣的问题之一是这些做法对版权的影响。IBM 可以合法地这样做吗?如果可以,该怎么做?
首先,我要说的是,这是一个相当复杂的领域,所以我会过度简化。如果你想了解数据挖掘的法律含义,这可能是一个不错的起点。当我们谈论训练人工智能时,人们认识到,获得适合该任务的大量数据集是有益的,这就是为什么许多公司(如谷歌)继续提供允许他们访问大量信息的服务。数据挖掘是一种寻找数据来训练算法的方法,但为了做到这一点,研究人员需要访问数据,而这些数据可能是专有的。
数据可以是任何研究对象:音乐、图片、绘画、文本、诗歌、科学文献、数字、图画、草图等。数据不是关 意大利手机数据 于单个作品的,而是关于对一系列作品的累积阅读。因此,为了分析这些信息并将其转化为有用的东西,必须有一个“读取”数据的过程。有很多不同的过程和技术,但这些需要矿工至少暂时复制数据。
此类数据访问的法律情况因司法管辖区而异。在美国,有人认为数据挖掘属于合理使用,具有变革性,我倾向于同意这一观点(另见Author's Guild 诉 Google)。在英国,我们对数据挖掘有合理使用用于非商业用途,其他司法管辖区也已采用或正在考虑采取类似措施(DSM 指令包含一项这样的主张,尽管被大大淡化了)。因此,在许多情况下,非商业数据挖掘来训练人工智能将是合法的。但由于这仍然是一个高度不确定的法律领域,而且许多公司希望出于商业目的训练神经网络,因此这些企业和研究人员将希望使用属于公共领域或受许可的数据,例如知识共享许可。
IBM 正是这么做的。Flickr 是一个以早期采用 Creative Commons 而闻名的共享网站,它允许用户在某些保留权利的许可下发布共享图片。在大多数情况下,这对普通用户来说意义不大,我的自己的照片流遵循 CC A 许可,并且基本上没有引起人们的注意(据我所知)。几年前,Flickr发布了 1 亿张图片这些数据已在其网站上根据 CC 许可共享。对于机器学习研究人员来说,这是一个宝库,因为理论上它可以用于商业用途并重复使用,而不必担心侵权。IBM 收集了这些数据,并将其缩小到 100 万张包含人脸和注释的图片,并将其作为“人脸多样性”数据集提供给研究人员。
但问题往往不在于结果,而在于能否合法获取机器学习算法可以抓取和分析的内容。以这种方式存储和使用大量数据确实可能侵犯版权,这就是为什么越来越多的人呼吁对版权进行某种数据挖掘豁免的原因。英国已经实施了一项豁免,这是即将出台的数字单一市场指令的一部分。
随着科技公司试图加入人工智能竞赛,大数据集成为热门商品,这正变得越来越重要。最近,关于机器学习工具和训练数据集的争论相当激烈,原因是Edmond de Belamy 的AI 绘画。当时,一个名为 Obvious 的法国艺术家团体使用现有的机器学习工具创作了一系列绘画,其中一幅在拍卖会上以超过 40 万美元的价格售出。用于训练 AI 的肖像属于公共领域,因此从未出现过这些肖像可能侵权的问题,但当时有人认为 Obvious 可能侵犯了所用算法的版权。在我看来,情况并非如此,因为所有工具都是以开源许可证发布的。
我们目前正在目睹另一个极其有趣的案例,该案例已被NBC 新闻的一篇非常详尽的文章揭露,该文章报道称,图片共享网站 Flickr 上发布的数百万张照片未经同意被用于训练机器学习算法。记者 Olivia Solon 写道:
“进入该领域的最新公司是 IBM,该公司于 1 月发布了近一百万张照片集,这些照片均来自照片托管网站 Flickr,并经过编码以描述拍摄对象的外貌。IBM 向研究人员宣传了该集,称这是减少面部识别偏见的进步之举。
但当 NBC 新闻告诉一些摄影师,他们的照片已被标注了面部几何形状和肤色等细节,可能会用于开发面部识别算法时,他们感到惊讶和不安。”
抛开道德和隐私方面的考虑,本报告提出的最有趣的问题之一是这些做法对版权的影响。IBM 可以合法地这样做吗?如果可以,该怎么做?
首先,我要说的是,这是一个相当复杂的领域,所以我会过度简化。如果你想了解数据挖掘的法律含义,这可能是一个不错的起点。当我们谈论训练人工智能时,人们认识到,获得适合该任务的大量数据集是有益的,这就是为什么许多公司(如谷歌)继续提供允许他们访问大量信息的服务。数据挖掘是一种寻找数据来训练算法的方法,但为了做到这一点,研究人员需要访问数据,而这些数据可能是专有的。
数据可以是任何研究对象:音乐、图片、绘画、文本、诗歌、科学文献、数字、图画、草图等。数据不是关 意大利手机数据 于单个作品的,而是关于对一系列作品的累积阅读。因此,为了分析这些信息并将其转化为有用的东西,必须有一个“读取”数据的过程。有很多不同的过程和技术,但这些需要矿工至少暂时复制数据。
此类数据访问的法律情况因司法管辖区而异。在美国,有人认为数据挖掘属于合理使用,具有变革性,我倾向于同意这一观点(另见Author's Guild 诉 Google)。在英国,我们对数据挖掘有合理使用用于非商业用途,其他司法管辖区也已采用或正在考虑采取类似措施(DSM 指令包含一项这样的主张,尽管被大大淡化了)。因此,在许多情况下,非商业数据挖掘来训练人工智能将是合法的。但由于这仍然是一个高度不确定的法律领域,而且许多公司希望出于商业目的训练神经网络,因此这些企业和研究人员将希望使用属于公共领域或受许可的数据,例如知识共享许可。
IBM 正是这么做的。Flickr 是一个以早期采用 Creative Commons 而闻名的共享网站,它允许用户在某些保留权利的许可下发布共享图片。在大多数情况下,这对普通用户来说意义不大,我的自己的照片流遵循 CC A 许可,并且基本上没有引起人们的注意(据我所知)。几年前,Flickr发布了 1 亿张图片这些数据已在其网站上根据 CC 许可共享。对于机器学习研究人员来说,这是一个宝库,因为理论上它可以用于商业用途并重复使用,而不必担心侵权。IBM 收集了这些数据,并将其缩小到 100 万张包含人脸和注释的图片,并将其作为“人脸多样性”数据集提供给研究人员。