大模型公司无底线爬取网站资源引众怒

AI资讯 3个月前硕雀

57 0 0

一、大模型公司无底线爬取网站资源的表现

高频率且大量的爬取
- 以Anthropic公司旗下的ClaudeBot为例，在24小时内对iFixit网站进行了近一百万次的抓取，一天内访问了10TB的文件，整个5月份总计访问了73TB。还在短短4小时内对Freelancer.com 进行了350万次访问，这一访问量是第二大AI爬虫访问量的约5倍。
- 有工程师指出，自己所在项目（如diaspora项目）70%的流量来自于大模型训练的爬虫，每秒数十亿次的请求频繁轰炸网页，给网站带来极大的流量压力。
无视网站规则
- 许多网站明确表示禁止用于其他目的（包括训练机器学习或人工智能模型）的复制、分发自己网站上的内容，但大模型公司的爬虫依然进行爬取。例如iFixit有相关声明，但ClaudeBot仍强行进行大量请求访问。
- 虽然网站通过修改robots.txt 文件来限制爬虫访问，但常常被无视。像Anthropic已停用的两个爬虫机器人，仍有数百个复制粘贴旧阻挡列表的网站未能成功阻挡其爬虫。并且当爬虫被屏蔽后，大模型公司可能更换爬虫名称继续爬取，使网站难以应对。

性能方面
- 导致网站的网络基础设施变得异常缓慢，如diaspora项目因大模型爬虫的流量激增而出现网络缓慢的情况，影响了依赖其服务的用户正常使用网站服务。
- 触发网站的流量警报，占用大量服务器资源。例如ClaudeBot对iFixit服务器的高频访问触发了流量警报，同时Read the Docs表示某爬虫在一天内访问了10TB的文件，导致其产生超过5000美元的带宽费用。
用户体验方面
- 由于爬虫大量占用资源，影响了普通用户的访问体验，使网站的正常访问受到干扰，如高峰负载期间用户访问网站可能出现卡顿、加载缓慢等问题。

应对措施
- 一些网站开始修改robots.txt 文件来限制爬虫访问，但效果不佳，如Anthropic公司的爬虫常常无视这些限制。
- 部分网站采取了更积极的反击措施，例如将AI爬虫重定向到生成的随机内容上，或者使用插件来干扰爬虫的行为；还有开发者开发了可以返回巨额无意义数据的程序，试图消耗AI公司资源来报复其无视规则的行为，但这些措施能否根本解决问题仍值得怀疑。
- 有些网站开始全面阻挡爬虫或只允许少数特定爬虫（如Reddit目前只允许Google爬取），但这可能影响搜索引擎、互联网存档工具和学术研究的正常运作。
局限性
- 网站在阻挡爬虫时可能因使用过时的robots.txt 指令而阻挡了错误的机器人，导致难以有效阻止那些无底线爬取的爬虫。而且大模型公司可能不断推出新名称的爬虫机器人，使网站难以及时更新黑名单来应对。

伦理和责任缺失
- 大模型技术发展的同时，伦理和责任并没有相应提升。这些无底线的爬取行为没有考虑对网站的影响，缺乏对网站运营者权益的尊重，引发了众多开发者的愤怒和不满。
法律方面的模糊性
- 虽然抓取互联网公开数据通常是合法的，但这种大规模、无视网站服务条款的爬取行为具有争议性，其违反网站的服务条款，并且给网站主机带来了额外成本，目前在法律上如何规范这种行为还存在一定的模糊性。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！