为什么要用它训练人工智能

pappu636 · Post by **pappu636** » Mon Jan 20, 2025 8:27 am

永不言败”是一种明智的做法，也许未来的失误会让我重新回归。不过，就目前而言，我对自己的选择感到满意。

再见了，感谢你们发来的所有表情包。

后记（2024）

如果你在 2024 年读到这篇文章，我很有可能会重新使用 Twitter。我彻底离开 Twitter 三个星期，又有几个月时间很少上 Twitter。但我又复发了。

讨厌 Twitter 的原因仍然存在，但不幸的是，其他选择都行不通。LinkedIn 非常适合发布纯粹的专业公告，所以我几乎不会在 Twitter 上发布任何会议或演讲公告。然而，对于我所有其他社交媒体的需求，只有 Twitter 能满足我的需求。

主要问题是 Bluesky 和 Mastodon 完全不能满足我对社交媒体的需求。它们根本无法满足我的要求。Mastodon 是骂人的天堂，而 Bluesky 虽然有时很有趣，但功能非常有限，即使在向公众开放应用程序之后也是如此。我们甚至不会谈论 Threads。

所以在可预见的未来我可能不得不回到 Twitter，请原谅我，因为我有罪。几周前，《大西洋月刊》发表了一篇题为《这 183,000 本书正在引发出版和科技界最大的争斗》的文章。这篇文章讨论了用于训练一些大型语言模型的数据集，由于其中包含大量疑似盗版书籍副本，该数据集引发了争议。文章附带了一个搜索工具，作者可以通过该工具检查他们的书籍是否在数据集中，这一功能引起了许多作者的愤怒回应，他们的作品未经同意就被收录其中。此后，该数据集引发了几起诉讼，包括喜剧演员 Sarah Silverman 起诉 Meta 和 OpenAI 的备受瞩目的诉讼、美国作家协会起诉 OpenAI 的诉讼，以及最近的Mike Huckabee 起诉 Meta 的诉讼。

我的书没有一本被收录在这个特定的数据集中，我个人并不介意它们被用于训练，但许多其他人对此表示反对，并在社交媒体上强烈抱怨。那么作者应该怎么做呢？这一发展如何与正在进行的版权和生成式人工智能法律纠纷相适应？

书籍3

这个包含盗版书籍的数据集是什么？？这个现在法国手机数据名昭著的数据集叫做 Books3，它是由非营利性开源研究小组EleutherAI创建的，该小组的既定目标是打破大型科技公司在机器学习研究领域的主导地位，通过提供可供所有人下载的工具来实现这一目标。其中一个工具是The Pile ，这是一个大型开放数据集，包含 22 个其他较小的数据集，内容包括网络爬虫（Common Crawl 和 OpenWebText）、PubMed、ArXiv 文章、维基百科、USPTO、古腾堡计划和Books3，它在整个数据集中的权重为 12%。Books3是一个数据集，包含从名为 Bibliotik 的 torrent 跟踪器中收集的小说和非小说类书籍。

所以Books3包含大量作品的侵权副本是无可争议的，但这与Meta和OpenAI这样的公司有什么关系呢？我们可以肯定的是，《The Pile》中包含的两个书籍来源在Meta自己的LLaMa大型语言模型的训练中使用，即Gutenberg数据集（公共领域作品）和Books3。这一点在LLaMa论文中有所说明，这两个来源占整个训练模型的4.5%。我们不确定OpenAI和Google等其他公司使用的任何其他模型中是否使用了Books3，但长期以来人们一直怀疑OpenAI在GPT-3训练中使用的数据集Books2也可能包含侵权书籍。

我需要在这里停下来，就科技公司将这些数据集纳入大型模型训练一事发表声明。我强烈支持训练模型的选择退出，作者、艺术家和其他创作者的意愿应该得到尊重。我也曾公开表示，在许多情况下，我认为训练通常应该属于合理使用/公平交易，但有选择退出的警告和其他可能的例外。