Cloudflare 指責 Perplexity AI 使用隱形爬蟲來逃避網站屏蔽
據互聯網基礎設施提供商 CloudFlare 稱,即使在這些網站明確屏蔽 Perplexity 後,其爬蟲程序仍繼續訪問來自數万個網站的內容。 該公司週一表示,已將 Perplexity 從其已驗證的機器人程序中移除,並對其所謂的欺騙性抓取行為實施了屏蔽。
perplexity 總部位於舊金山,由 Aravind Srinivas(首席執行官,前 OpenAI 研究員)、Denis Yarats(前 Facebook AI)、Johnny Ho 和 Andy Konwinski(Databricks 聯合創始人)於 2022 年創立。 該公司已獲得包括 Elad Gil、Nat Friedman(前 GitHub 首席執行官)和 Nvidia 等投資者的融資,並且估值180億美元上個月籌集了 1 億美元。
最近的衝突源於 Cloudflare 的客戶抱怨稱,儘管 PErplexity 已實施 robots.txt 指令和特定的防火牆規則來阻止這家人工智能公司宣稱的爬蟲程序,但 Perplexity 仍在抓取他們的網站數據。 Cloudflare 工程師 Gabriel Corral、Vaibhav Singhal、Brian Mitchell 和 Reid Tatoris 在測試中證實,“Perplexity 的爬蟲程序確實在特定頁面上被阻止了。”
為了測試 Perplexity 的行為,CloudflARe 創建了多個新購買的域名,並設置了 robots.txt 文件,禁止所有自動訪問。 “我們進行了一項實驗,向 Perplexity AI 詢問了有關這些域名的問題,發現 Perplexity 仍然會提供有關每個受限制域名上託管的具體內容的詳細信息。”
接下來發生的事情讓他們大吃一驚。 Perplexity 似乎並沒有遵守封鎖規定,反而改變了策略。 “我們觀察到,Perplexity 不僅使用了他們聲明的用戶代理,還在 macOS 上使用了一款通用瀏覽器,試圖在他們聲明的爬蟲程序被屏蔽時模擬 Google ChrOMe。”工程師們說道。 寫道.

這些隱形爬蟲採用了複雜的規避技術。 “這個未聲明的爬蟲使用了多個未列入 Perplexity 官方 IP 範圍的 IP,並會根據 robots.txt 的限制性策略和 Cloudflare 的屏蔽規則,輪流使用這些 IP。除了輪流使用 IP 之外,我們還觀察到來自不同 ASN 的請求,試圖進一步規避網站屏蔽。”
據 Cloudflare 稱,Perplexity 的“已聲明”爬蟲(那些易於識別的爬蟲)每天生成 2000 萬到 2500 萬個請求,而那些未聲明的隱形爬蟲(那些依靠不正當手段隱藏其目的的爬蟲)每天又生成 300 萬到 600 萬個請求。 “我們觀察到這種活動涉及數万個域名,每天生成數百萬個請求。”
該公司沒有回應解密的置評請求。 一位發言人駁斥了這些指控TechCrunch這只不過是 Cloudflare 的“推銷”手段而已。
Cloudflare 首席執行官馬修·普林斯 (Matthew Prince) 一直直言不諱,認為人工智能公司對網絡內容的提取是不可持續的。 “隨著人們越來越依賴人工智能摘要,搜索流量的推薦量急劇下降。”今年 7 月,他披露了一些令人震驚的比例:谷歌每抓取 18 個頁面,就會帶來 1 名訪客,而人工智能公司的比例則要高得多。 OpENAI 的比例從六個月前的 250 比 1 下降到今天的 1500 比 1。 Anthropic 的數字更為極端,同期的比例從 6000 比 1 躍升至 60000 比 1。

這促使 Cloudflare 推出了所謂的“內容獨立日”,默認阻止所有新域名的 AI 爬蟲,成為事實上的保護內容創作者免受討厭的 AI 爬蟲威脅的義務警員。
作為 解密此前報導自去年秋季以來,已有超過一百萬個網站選擇屏蔽,其中包括美聯社, 時間, 《大西洋月刊》, BuzzFeed、Reddit、Quora 和環球音樂集團也加入了這一運動。
Cloudflare 表示:“我們明確要求爬蟲程序透明、服務於明確的目的、執行特定的活動,最重要的是,遵循網站指令和偏好。” 該公司將 Perplexity 的行為與 OPenAI 的行為進行了對比,稱 OpenAI 正確遵守 robots.txt 文件,並在被阻止時停止爬取。
Cloudflare 的應對措施包括立即採取技術措施和長期計劃。 該公司已將隱形爬蟲的簽名匹配功能部署到其託管規則中,所有客戶(包括免費用戶)均可使用。 此外,Cloudflare 還在開發“AI 迷宮”等工具,該工具可將不合規的機器人困在虛假內容的迷宮中;此外,Cloudflare 還開發了一個“按次付費”市場,允許出版商向 AI 公司收取訪問其內容的費用。