7 月 3 日,Cloudflare 宣布推出一项反 AI 抓取功能,启用后,被该服务识别为 AI 爬虫的网络请求将被封锁。Cloudflare 表示,推出该功能是响应用户对不诚实 AI 爬虫的反感,为内容创作者维护一个安全的互联网。通过机器学习流量特征,该服务可以准确识别各类 AI 爬虫,无论其是否使用伪装手段。
传统上,网络爬虫会遵循目标网站上 robot.txt 文件的指示,得知能否以及如何爬取该网站内容。随着对于 AI 模型厂商未经允许使用网络内容训练的担忧增长,包括 OpenAI 和谷歌在内的模型厂商从去年开始主动披露其爬虫信息,并表示会尊重 robot.txt 的内容,但这种行业实践并无强制效力和违规后果约束。近期,热门 AI 搜索服务 Perplexity 被发现使用伪造身份的机器人爬取内容,从而绕过 robot.txt 的限制,引起较多不满。
© 版权声明
文章版权归作者所有,未经允许请勿转载。