對於網站而言這些可能因為爆量存取而導致接近於攻擊的行為,促使了許多如媒體等網站對於 AI 服務如 OpenAI 等的存取採取阻擋的策略。繼續閱讀封鎖 AI 爬蟲抓取網站資料!Cloudflare 推免費工具還揭露了 OpenAI 與字節跳動等 AI 的驚人「存取率」報導內文。
▲本篇圖片來源:Cloudflare
封鎖 AI 爬蟲抓取網站資料!Cloudflare 推免費工具還揭露了 OpenAI 與字節跳動等 AI 的驚人「存取率」
AI 好用歸好用,不過不知道大家近期有沒有發現,很多網站似乎都不太給這些生成式 AI 存取。
這方面的「流行」一方面是希望能阻止現階段 AI 服務未經授權就濫用網站資料來進行學習的狀況。另一方面,對於網站而言這些可能因為爆量存取而導致接近於攻擊的行為,也促使了許多如媒體等網站對於 AI 服務如 OpenAI 等的存取採取阻擋的策略。
對於這樣的傾向,時常幫客戶擋在網路攻擊之前的網路服務公司 Cloudflare,最近就宣告針對自己的服務新增了名為「AI Scrapers and Crawlers」的最新工具 – 可以在「Security > Bots > AI Scrapers and Crawlers」找到。
直接利用機器學習來以毒攻毒(欸,可以這樣說吧),以避免現階段像是透過 robots.txt 網站文件或者手動阻擋等也容易漏掉一些未知或刻意無視網站設定偽裝成一般使用者的爬蟲機器人的「存取」。
根據 Cloudflare 所分享的資料。他們的客戶有至少約 85% 以上希望能阻擋確認為 AI Bot 的爬蟲機器人的存取權。
最有意思的是,他們觀察 AI bots 爬蟲機器人的存取趨勢,發現字節跳動的大型語言模型的 Bytespider 爬蟲機器人,在圖表中基本上從頭到尾都非常的「積極」地進行存取 – 為的不意外就是要發展他們的 LLM 大型語言模型。
榮登榜首的字節跳動約佔了 AI Bot 活動量的 4 成;OpenAI GPTBot 則是 35%,再來則是 11% 的 ClaudeBot – 雖然看起來不多,但就他們的描述是 ClaudeBot 近期其實有流量大幅增加的趨勢。
Cloudflare 表示他們會透過類似評分的 Bot Score 機制來評估存取方是否為 AI 爬蟲機器人,並且決定是否要進行封鎖。但說真的,既然這些抓取的功能都稱作「Bot」了,也不難想像各種 AI 學習的加持下,會有能夠突破這樣審核機制的 AI Bot 誕生。
對應這種需要持續上演道高一尺魔高一丈戲碼狀況,Cloudflare 除了自己的機器學習機制外,還提供了兩種手動回報的功能。有使用或想要使用 Cloudflare 服務的朋友,可以考慮看看是否要倚賴他們的技術來解決這種網站管理的最新煩惱了。