苹果公司和英伟达被指利用数千个被盗的YouTube视频来训练人工智能

探索围绕苹果、英伟达和Anthropic等科技巨头使用数千个未经内容创作者许可的被盗YouTube视频来训练其AI模型的争议。揭示这对行业的影响以及正在进行的关于合理使用和数据权利的法律纠纷。

2025年1月12日

探索苹果、英伟达和Anthropic等主要科技公司如何在未经许可的情况下使用来自Mr. Beast、MKBHD和PewDiePie等知名YouTuber的内容来训练他们的AI模型。这篇博客文章探讨了这种做法的法律和道德影响,并提供了关于AI行业数据所有权和合理使用权之争的见解。

人工智能数据抓取的兴起:大科技公司如何剥削 YouTubers 的内容

该文章揭示了一个令人担忧的趋势,即包括苹果、英伟达和Anthropic在内的主要科技公司一直在未经内容创作者许可的情况下使用数千个YouTube视频来训练他们的AI模型。这种做法引发了Mr. Beast、MKBHD、PewDiePie等知名YouTuber的愤怒。

Proof News的调查发现,被AI公司广泛使用的一个名为"the Pile"的数据集包含来自48,000多个频道的173,000多个YouTube视频的字幕。这其中包括Khan Academy、麻省理工学院和哈佛大学等教育频道,以及The Late Show with Stephen Colbert、Last Week with John Oliver和Jimmy Kimmel Live等流行娱乐频道。

MKBHD是一位著名的科技YouTuber,他对这个问题发表了评论,表示虽然苹果可能不直接负责这种数据刮取行为,但这是一个不断发展的问题,将继续成为一个挑战。他还指出,他支付服务提供更准确的视频字幕,但这些字幕却被盗用了。

该文章还讨论了这种做法的法律影响,并将其与纽约时报和OpenAI之间正在进行的诉讼进行了对比,在这起诉讼中,报纸指控AI公司复制了其大部分文章内容。此外,该文章还提到,其他AI公司如Midjourney也被指使用了受版权保护的材料来训练他们的模型。

该文章探讨了合理使用的论点,即AI公司声称他们的行为类似于人类阅读和学习公开可用的内容。然而,该文章也承认了内容创作者的担忧,他们认为自己的辛勤工作正在被未经同意的情况下被剥削。

该文章还提出了被删除的YouTube视频仍被纳入AI模型的问题,即使创作者可能不再希望他们的作品被访问。这突出了使用用户生成内容进行AI训练所面临的复杂的法律和道德挑战。

总的来说,该文章全面概述了AI数据刮取这一日益严重的问题,以及它在科技巨头和内容创作者之间引发的紧张局势。

常问问题

苹果、英伟达和Anthropic使用YouTube内容有什么问题?

这些公司如何获得训练AI模型的数据?

为什么这对YouTube创作者来说是个大问题?

这个问题有什么法律影响?

被删除的YouTube内容被用于训练AI模型有什么担忧?