一、大模型公司无底线爬取网站资源的表现
- 高频率且大量的爬取
- 无视网站规则
二、对网站造成的影响
- 性能方面
- 导致网站的网络基础设施变得异常缓慢,如diaspora项目因大模型爬虫的流量激增而出现网络缓慢的情况,影响了依赖其服务的用户正常使用网站服务。
- 触发网站的流量警报,占用大量服务器资源。例如ClaudeBot对iFixit服务器的高频访问触发了流量警报,同时Read the Docs表示某爬虫在一天内访问了10TB的文件,导致其产生超过5000美元的带宽费用。
- 用户体验方面
- 由于爬虫大量占用资源,影响了普通用户的访问体验,使网站的正常访问受到干扰,如高峰负载期间用户访问网站可能出现卡顿、加载缓慢等问题。
三、网站的应对措施及局限性
- 应对措施
- 一些网站开始修改robots.txt 文件来限制爬虫访问,但效果不佳,如Anthropic公司的爬虫常常无视这些限制。
- 部分网站采取了更积极的反击措施,例如将AI爬虫重定向到生成的随机内容上,或者使用插件来干扰爬虫的行为;还有开发者开发了可以返回巨额无意义数据的程序,试图消耗AI公司资源来报复其无视规则的行为,但这些措施能否根本解决问题仍值得怀疑。
- 有些网站开始全面阻挡爬虫或只允许少数特定爬虫(如Reddit目前只允许Google爬取),但这可能影响搜索引擎、互联网存档工具和学术研究的正常运作。
- 局限性
- 网站在阻挡爬虫时可能因使用过时的robots.txt 指令而阻挡了错误的机器人,导致难以有效阻止那些无底线爬取的爬虫。而且大模型公司可能不断推出新名称的爬虫机器人,使网站难以及时更新黑名单来应对。
四、大模型公司无底线爬取背后的问题
- 伦理和责任缺失
- 大模型技术发展的同时,伦理和责任并没有相应提升。这些无底线的爬取行为没有考虑对网站的影响,缺乏对网站运营者权益的尊重,引发了众多开发者的愤怒和不满。
- 法律方面的模糊性
- 虽然抓取互联网公开数据通常是合法的,但这种大规模、无视网站服务条款的爬取行为具有争议性,其违反网站的服务条款,并且给网站主机带来了额外成本,目前在法律上如何规范这种行为还存在一定的模糊性。
声明:文章来源于网络,如有侵权请联系删除!