各種 AI 機器人蓬勃發展,你可以看到各式各樣的服務為你從網路上整理資訊,而 Wikipedia 更是機器人最常爬文的資源。近日, Wikimedia 基金會宣布與 Google 旗下的數據科學社群平台 Kaggle 合作,製作一個專用來訓練 AI 模型的最佳化版維基百科,從英文和法文開始,基金會將提供精簡版的維基百科,其中不會包含任何引用或 Markdown 程式碼。
Wikipedia 正在製作一個用於訓練 AI 的數據庫,以免自家網站被各種機器人擠爆
維基百科是一個由志願者共同編輯的非營利性平台,主要獲利來自於捐贈,且不擁有內容版權,允許任何時使用和重新利用來自該平台的內容,同時允許其他組織運用它龐大的資料庫。但是,大量機器人不斷在維基百科上訓練搜尋 AI 的需求,導致維基百科的非人類流量遽增,該基金會表示,從 2024 年 1 月以來,頻寬消耗量增加了 50%。眼看成本不斷飆升,現在它們決定解決這個問題,提供標準的 JSON 格式版本的維基百科文章,應可阻止 AI 開發人員繼續成為該網站的壓力。
現在科技業界一種思想流派正在日益增長,他們認為網路上所有內容都應該是免費的,而且由於語言模型的變革性,從網路上的任何地方獲取內容來訓練 AI 模型都該可合理使用。但是,內容在被人利用之前,必須要有人先創建內容,這成本並不低,而且 AI 新創公司逐漸無視以前接受的關於尊重網站不願意被抓取爬文的規範。生成類似人類文字輸出的語言模型需要使用大量材料進行訓練,有些模型使用受版權保護的作品進行訓練,幾家 AI 公司仍在就此問題進行訴訟。從 Chegg 到 Stack Overflow 等公司面臨的威脅在於,AI 公司將提取他們的內容而不會將流量發送給最初製作這些內容的公司。
維基百科網站上的所有內容均根據 Creative Commons Attribution-ShareAlike 許可獲得授權,該許可允許任何人自由分享、改編和構建作品,甚至用於商業用途,只要他們註明原始創作者並在其衍生作品上沿用相同的條款許可。
Wikimedia 基金會告訴國外媒體 Gizmodo,任何開發人員都可以免費使用 Kaggle 提供的數據庫,而 Kaggle 正在透過 Wikipedia Enterprise 套件中的「結構化內容」測試版計劃訪問維基百科的數據庫,這是一項高級產品,允許大量使用者更輕鬆地重複利用其中內容。它表示,內容的再消費者,例如 AI 模型公司,仍應遵守維基百科的署名和許可條款。