纽约时报指责OpenAI、谷歌和Meta绕过法律边界进行AI训练数据

关注+2024-04-08作者：路西蓝

4月8日消息:据纽约时报报道，OpenAI、谷歌和 Meta 被指控在训练人工智能模型时存在不当行为。

纽约时报的报告指出，OpenAI 使用名为 Whisper 的语音识别工具从 YouTube 视频中转录音频，并据称 OpenAI 员工曾讨论这一行为可能违反视频网站的规则。OpenAI 最终转录了超过100万小时的 YouTube 视频，并由 OpenAI 总裁 Greg Brockman 协助，这些转录被用于训练 GPT-4模型。

报道还称，Meta 曾考虑收购出版商 Simon & Schuster 以获取长篇作品用于训练 AI，同时还讨论 “从互联网收集受版权保护的数据，即使可能面临诉讼”，并认为 “与出版商、艺术家、音乐家和新闻行业协商许可将耗费太长时间”。谷歌被指控转录 YouTube 视频以获取文本用于 AI 模型训练，纽约时报称这 “可能” 违反了视频的版权，并称谷歌修改其条款以允许对公开可用的 Google 文档、Google 地图上的餐厅评论和其他在线内容进行数据抓取以用于训练 AI。

纽约时报似乎试图描绘一幅有关大规模侵权的可怕画面，但通常避免直接这样说。这些都是任何开发 AI 的公司应该进行的合理对话，以便善待他人并遵守法律。AI 公司正在做的正是公平使用数据，这也是 OpenAI 对纽约时报诉讼的辩护核心。该报道在17段文字后才披露纽约时报正在起诉 OpenAI，使文章看起来像是针对公司认为是敌人的攻击。

纽约时报的报道引起了关于 AI 公司训练数据的合法性和道德性的讨论，也凸显了 AI 行业在数据获取方面面临的挑战和争议。