BTCC / BTCC Square / NeoX /
Reddit起訴AI搜尋引擎Perplexity「未經授權數據收集」:透過Google爬取數十億筆資料

Reddit起訴AI搜尋引擎Perplexity「未經授權數據收集」:透過Google爬取數十億筆資料

Author:
NeoX
Published:
2025-10-26 11:02:03
11
2


社交媒體平台Reddit近日正式對AI搜尋引擎perplexity提起訴訟,指控其透過Google服務大規模爬取平台內容,涉及數十億筆未經授權的數據收集。這起訴訟再次引發關於AI訓練數據合法性與網路內容版權的激烈辯論。

事件背景與訴訟核心

Reddit在向加州北區地方法院提交的訴狀中指出,PErplexity的AI系統透過Google搜尋服務,系統性地繞過Reddit的robots.txt協議,大量爬取平台用戶生成內容(UGC)。據Reddit內部統計,這項未經授權的數據收集行為已持續至少8個月,涉及超過40億筆資料。

值得注意的是,Reddit今年初才剛與Google簽署價值約6000萬美元的內容授權協議,允許其AI模型使用Reddit數據進行訓練。Perplexity此舉被Reddit視為「公然侵權」,特別是在該公司最新估值已達10億美元的情況下。

技術手段與侵權細節

根據訴訟文件披露,Perplexity採用了多種技術手段規避Reddit的防爬取措施:

  • 使用Google搜尋API作為「中間人」,偽裝成普通用戶查詢
  • 部署分散式IP網絡,模擬全球不同地區的訪問模式
  • 調整爬取頻率,避免觸發Reddit的速率限制
  • 專門針對高價值討論串進行重點爬取

Reddit技術團隊提供的證據顯示,Perplexity的爬蟲活動在過去三個月呈現指數級增長,從每月約3億筆暴增至最近的12億筆。

行業反應與法律觀點

這起訴訟立即引發科技法律專家的廣泛討論。史丹佛大學網路政策中心主任表示:「此案將成為界定AI時代數據使用規則的關鍵判例。核心爭議在於,當平台已明確禁止爬取時,透過第三方服務間接獲取數據是否構成侵權。」

值得注意的是,這已是近半年來第三起針對AI公司的數據訴訟。此前,《紐約時報》起訴OpENAI和微軟,而多位知名作家也聯合起訴Meta未經授權使用其作品訓練AI。

Perplexity的回應與立場

面對指控,Perplexity執行長ARavind Srinivas在X平台發表聲明,強調其做法屬於「合理使用」範疇:「我們只是以更高效的方式組織公開可得的網路資訊,這與傳統搜尋引擎的運作原理本質相同。」

該公司同時公布數據顯示,其AI系統實際僅保留約15%的爬取內容用於訓練,其餘均在處理後立即刪除。Perplexity法律團隊更反駁稱,Reddit的訴訟是「試圖為其已商業化的數據獲取更高價格」。

市場影響與未來發展

訴訟消息傳出後,Reddit股價在盤後交易中小幅上漲2.3%,顯示市場認為此舉可能強化其數據資產的變現能力。分析師指出:「無論結果如何,這起訴訟都將迫使AI公司更嚴肅地看待數據授權問題,可能導致行業整體合規成本上升。」

與此同時,Google面臨的監管壓力也持續增加。歐盟委員會已表示將審查Google是否在Perplexity事件中違反《數字服務法》相關條款。

對內容創作者的潛在影響

多位Reddit知名版主接受採訪時表達了複雜立場:「一方面我們希望內容被合理使用,但另一方面,未經同意的商業化爬取確實損害了創作生態。」部分版主已發起聯署,要求平台將訴訟所得部分用於創作者獎勵計劃。

數據顯示,Reddit上約24%的高質量討論串作者表示,如果AI公司持續無償使用其內容,將考慮減少或停止創作。

專家建議與實用措施

對於擔心內容被不當使用的創作者,網路法律專家建議:

  1. 在個人資料中明確標註內容使用條款
  2. 定期使用反向圖像/文本搜尋追蹤內容傳播
  3. 考慮加入創作者聯盟爭取集體議價權
  4. 利用區塊鏈技術進行內容存證

值得注意的是,包括btcc分析團隊在內的多家機構已開始提供免費的內容使用監測工具,幫助創作者追蹤其作品是否被用於AI訓練。

未來行業走向預測

業界普遍認為,無論本案結果如何,都將加速以下趨勢:

趨勢領域 可能發展 時間框架
數據授權市場 標準化定價機制形成 2025-2026
AI訓練方法 合成數據使用比例提升 2026後
平台政策 更精細的內容分級授權 已開始

常見問題解答

Q: 為什麼Reddit現在才對Perplexity採取法律行動?

A: 據內部人士透露,Reddit花費大量時間收集證據並評估商業影響。選擇此時起訴可能與其近期加強數據貨幣化戰略有關。

Q: 普通用戶該如何保護自己的發文?

A: 除了前述措施,建議:1) 使用平台提供的隱私設定 2) 避免發布原始創作精華內容 3) 考慮在專業平台同步發布以確立版權。

Q: 這會影響我使用Perplexity的體驗嗎?

A: 短期內可能導致部分Reddit相關結果減少,但該公司表示已準備替代數據源。長期影響取決於訴訟結果和行業規範變化。

|Square

下載BTCC APP,您的加密之旅從這啟程

立即行動 掃描 加入我們的 100M+ 用戶行列

本站轉載文章均源自公開網絡平台,僅為傳遞行業信息之目的,不代表BTCC任何官方立場。原創權益均歸屬原作者所有。如發現內容存在版權爭議或侵權嫌疑,請透過[email protected]與我們聯絡,我們將依法及時處理。BTCC不對轉載信息的準確性、時效性或完整性提供任何明示或暗示的保證,亦不承擔因依賴這些信息所產生的任何直接或間接責任。所有內容僅供行業研究參考,不構成任何投資、法律或商業決策建議,BTCC不對任何基於本文內容採取的行為承擔法律責任。