当前位置:业界 > 正文
纽约时报、CNN和澳大利亚广播公司阻止OpenAI爬虫访问其内容
2023-08-26 05:57:27 来源: cnBeta

包括《纽约时报》、美国有线电视新闻网(CNN)、路透社和澳大利亚广播公司(ABC)在内的新闻机构已经屏蔽了 OpenAI 的一个工具,限制了该公司继续访问其内容的能力。OpenAI 是最著名的人工智能聊天机器人之一 ChatGPT 的幕后推手。它的网络爬虫(称为 GPTBot)可能会扫描网页,以帮助改进其人工智能模型。


(资料图片仅供参考)

The Verge 最先报道了《纽约时报》在其网站上屏蔽了 GPTBot。《卫报》随后发现,其他主要新闻网站,包括 CNN、路透社、《芝加哥论坛报》、澳大利亚广播公司(ABC)和澳大利亚社区媒体(ACM)品牌,如《堪培拉时报》和《纽卡斯尔先驱报》似乎也倾向于禁止使用网络爬虫。

所谓的大型语言模型(如 ChatGPT)需要大量信息来训练系统,使其能够以类似人类语言模式的方式回答用户的询问。但是,这些模型背后的公司往往对其数据集中是否存在受版权保护的资料讳莫如深。

在出版商的 robots.txt 文件中可以看到对 GPTBot 的封杀,这些文件告诉搜索引擎和其他实体的爬虫可以访问哪些页面。

"允许 GPTBot 访问您的网站可以帮助人工智能模型变得更加准确,并提高它们的总体能力和安全性,"OpenAI 在一篇博文中说,博文中包含了如何禁止爬虫的说明。

所有接受检查的媒体都在八月份添加了该拦截功能。一些媒体还禁止使用 CCBot,它是一个名为"Common Crawl"的开放式网络数据存储库的网络爬虫,也被用于人工智能项目。

美国有线电视新闻网(CNN)证实,该公司最近在旗下所有刊物中屏蔽了 GPTBot,但并未就该品牌是否计划对其内容在人工智能系统中的使用采取进一步行动发表评论。

路透社发言人表示,路透社会定期审查其 robots.txt 和网站条款。她说:"因为知识产权是我们业务的命脉,所以我们必须保护我们内容的版权。"

《纽约时报》的一位发言人表示,该公司最近更新了服务条款,更加明确地禁止"为人工智能培训和开发目的......剪切我们的内容"。

自 8 月 3 日起,其网站规则明确禁止未经同意将出版商的内容用于"开发任何软件程序,包括但不限于训练机器学习或人工智能(AI)系统"。

全球新闻机构都面临着是否将人工智能作为新闻采集的一部分,以及如何处理其内容可能被开发人工智能系统的公司吸入训练池的问题。人工智能是新闻业的威胁,还是技术会自我毁灭?

8月初,法新社和盖蒂图片社等媒体签署了一封公开信,呼吁对人工智能进行监管,包括"用于创建人工智能模型的所有训练集的构成"的透明度,以及使用受版权保护材料的许可。

Google建议,除非出版商明确表示不同意,否则人工智能系统应该可以采集出版商的作品。在向澳大利亚政府提交的一份人工智能监管框架审查报告中,该公司主张"版权制度应允许适当、公平地使用受版权保护的内容,以便在澳大利亚利用广泛多样的数据训练人工智能模型,同时支持可行的退出方式"。

OriginalityAI 是一家检查是否存在人工智能内容的公司,该公司本周分享的研究发现,包括亚马逊和 Shutterstock 在内的主要网站也屏蔽了 GPTBot。

澳大利亚广播公司(ABC)、澳大利亚社区媒体(Australian Community Media)、《芝加哥论坛报》(Chicago Tribune)、OpenAI 和 Common Crawl 在截止日期前没有做出回应。

标签:

责任编辑: jkl2