大模型公司无底线爬取网站资源引众怒

AI资讯 13小时前 硕雀
4 0

一、大模型公司无底线爬取网站资源的表现

  • 高频率且大量的爬取
    • 以Anthropic公司旗下的ClaudeBot为例,在24小时内对iFixit网站进行了近一百万次的抓取,一天内访问了10TB的文件,整个5月份总计访问了73TB。还在短短4小时内对Freelancer.com 进行了350万次访问,这一访问量是第二大AI爬虫访问量的约5倍。
    • 有工程师指出,自己所在项目(如diaspora项目)70%的流量来自于大模型训练的爬虫,每秒数十亿次的请求频繁轰炸网页,给网站带来极大的流量压力。
  • 无视网站规则
    • 许多网站明确表示禁止用于其他目的(包括训练机器学习人工智能模型)的复制、分发自己网站上的内容,但大模型公司的爬虫依然进行爬取。例如iFixit有相关声明,但ClaudeBot仍强行进行大量请求访问。
    • 虽然网站通过修改robots.txt 文件来限制爬虫访问,但常常被无视。像Anthropic已停用的两个爬虫机器人,仍有数百个复制粘贴旧阻挡列表的网站未能成功阻挡其爬虫。并且当爬虫被屏蔽后,大模型公司可能更换爬虫名称继续爬取,使网站难以应对。

二、对网站造成的影响

  • 性能方面
    • 导致网站的网络基础设施变得异常缓慢,如diaspora项目因大模型爬虫的流量激增而出现网络缓慢的情况,影响了依赖其服务的用户正常使用网站服务。
    • 触发网站的流量警报,占用大量服务器资源。例如ClaudeBot对iFixit服务器的高频访问触发了流量警报,同时Read the Docs表示某爬虫在一天内访问了10TB的文件,导致其产生超过5000美元的带宽费用。
  • 用户体验方面
    • 由于爬虫大量占用资源,影响了普通用户的访问体验,使网站的正常访问受到干扰,如高峰负载期间用户访问网站可能出现卡顿、加载缓慢等问题。

三、网站的应对措施及局限性

  • 应对措施
    • 一些网站开始修改robots.txt 文件来限制爬虫访问,但效果不佳,如Anthropic公司的爬虫常常无视这些限制。
    • 部分网站采取了更积极的反击措施,例如将AI爬虫重定向到生成的随机内容上,或者使用插件来干扰爬虫的行为;还有开发者开发了可以返回巨额无意义数据的程序,试图消耗AI公司资源来报复其无视规则的行为,但这些措施能否根本解决问题仍值得怀疑。
    • 有些网站开始全面阻挡爬虫或只允许少数特定爬虫(如Reddit目前只允许Google爬取),但这可能影响搜索引擎、互联网存档工具和学术研究的正常运作。
  • 局限性
    • 网站在阻挡爬虫时可能因使用过时的robots.txt 指令而阻挡了错误的机器人,导致难以有效阻止那些无底线爬取的爬虫。而且大模型公司可能不断推出新名称的爬虫机器人,使网站难以及时更新黑名单来应对。

四、大模型公司无底线爬取背后的问题

  • 伦理和责任缺失
    • 大模型技术发展的同时,伦理和责任并没有相应提升。这些无底线的爬取行为没有考虑对网站的影响,缺乏对网站运营者权益的尊重,引发了众多开发者的愤怒和不满。
  • 法律方面的模糊性
    • 虽然抓取互联网公开数据通常是合法的,但这种大规模、无视网站服务条款的爬取行为具有争议性,其违反网站的服务条款,并且给网站主机带来了额外成本,目前在法律上如何规范这种行为还存在一定的模糊性。
来源:www.aiug.cn
声明:文章来源于网络,如有侵权请联系删除!