BTCC / BTCC Square / 528BTC /
Cloudflare 指責 Perplexity AI 使用隱形爬蟲來逃避網站屏蔽

Cloudflare 指責 Perplexity AI 使用隱形爬蟲來逃避網站屏蔽

Author:
528BTC
Published:
2025-08-05 06:05:00

據互聯網基礎設施提供商 CloudFlare 稱,即使在這些網站明確屏蔽 Perplexity 後,其爬蟲程序仍繼續訪問來自數万個網站的內容。 該公司週一表示,已將 Perplexity 從其已驗證的機器人程序中移除,並對其所謂的欺騙性抓取行為實施了屏蔽。

perplexity 總部位於舊金山,由 Aravind Srinivas(首席執行官,前 OpenAI 研究員)、Denis Yarats(前 Facebook AI)、Johnny Ho 和 Andy Konwinski(Databricks 聯合創始人)於 2022 年創立。 該公司已獲得包括 Elad Gil、Nat Friedman(前 GitHub 首席執行官)和 Nvidia 等投資者的融資,並且估值180億美元上個月籌集了 1 億美元。

最近的衝突源於 Cloudflare 的客戶抱怨稱,儘管 PErplexity 已實施 robots.txt 指令和特定的防火牆規則來阻止這家人工智能公司宣稱的爬蟲程序,但 Perplexity 仍在抓取他們的網站數據。 Cloudflare 工程師 Gabriel Corral、Vaibhav Singhal、Brian Mitchell 和 Reid Tatoris 在測試中證實,“Perplexity 的爬蟲程序確實在特定頁面上被阻止了。”

為了測試 Perplexity 的行為,CloudflARe 創建了多個新購買的域名,並設置了 robots.txt 文件,禁止所有自動訪問。 “我們進行了一項實驗,向 Perplexity AI 詢問了有關這些域名的問題,發現 Perplexity 仍然會提供有關每個受限制域名上託管的具體內容的詳細信息。”

接下來發生的事情讓他們大吃一驚。 Perplexity 似乎並沒有遵守封鎖規定,反而改變了策略。 “我們觀察到,Perplexity 不僅使用了他們聲明的用戶代理,還在 macOS 上使用了一款通用瀏覽器,試圖在他們聲明的爬蟲程序被屏蔽時模擬 Google ChrOMe。”工程師們說道。 寫道.

來源:Cloudflare

這些隱形爬蟲採用了複雜的規避技術。 “這個未聲明的爬蟲使用了多個未列入 Perplexity 官方 IP 範圍的 IP,並會根據 robots.txt 的限制性策略和 Cloudflare 的屏蔽規則,輪流使用這些 IP。除了輪流使用 IP 之外,我們還觀察到來自不同 ASN 的請求,試圖進一步規避網站屏蔽。”

據 Cloudflare 稱,Perplexity 的“已聲明”爬蟲(那些易於識別的爬蟲)每天生成 2000 萬到 2500 萬個請求,而那些未聲明的隱形爬蟲(那些依靠不正當手段隱藏其目的的爬蟲)每天又生成 300 萬到 600 萬個請求。 “我們觀察到這種活動涉及數万個域名,每天生成數百萬個請求。”

該公司沒有回應解密的置評請求。 一位發言人駁斥了這些指控TechCrunch這只不過是 Cloudflare 的“推銷”手段而已。

Cloudflare 首席執行官馬修·普林斯 (Matthew Prince) 一直直言不諱,認為人工智能公司對網絡內容的提取是不可持續的。 “隨著人們越來越依賴人工智能摘要,搜索流量的推薦量急劇下降。”今年 7 月,他披露了一些令人震驚的比例:谷歌每抓取 18 個頁面,就會帶來 1 名訪客,而人工智能公司的比例則要高得多。 OpENAI 的比例從六個月前的 250 比 1 下降到今天的 1500 比 1。 Anthropic 的數字更為極端,同期的比例從 6000 比 1 躍升至 60000 比 1。

來源:Cloudflare

這促使 Cloudflare 推出了所謂的“內容獨立日”,默認阻止所有新域名的 AI 爬蟲,成為事實上的保護內容創作者免受討厭的 AI 爬蟲威脅的義務警員。

作為 解密此前報導自去年秋季以來,已有超過一百萬個網站選擇屏蔽,其中包括美聯社, 時間, 《大西洋月刊》, BuzzFeed、Reddit、Quora 和環球音樂集團也加入了這一運動。

Cloudflare 表示:“我們明確要求爬蟲程序透明、服務於明確的目的、執行特定的活動,最重要的是,遵循網站指令和偏好。” 該公司將 Perplexity 的行為與 OPenAI 的行為進行了對比,稱 OpenAI 正確遵守 robots.txt 文件,並在被阻止時停止爬取。

Cloudflare 的應對措施包括立即採取技術措施和長期計劃。 該公司已將隱形爬蟲的簽名匹配功能部署到其託管規則中,所有客戶(包括免費用戶)均可使用。 此外,Cloudflare 還在開發“AI 迷宮”等工具,該工具可將不合規的機器人困在虛假內容的迷宮中;此外,Cloudflare 還開發了一個“按次付費”市場,允許出版商向 AI 公司收取訪問其內容的費用。

|Square

下載BTCC APP,您的加密之旅從這啟程

立即行動 掃描 加入我們的 100M+ 用戶行列