Meta 因用 torrents 種子網站的盜版內容訓練 AI 導致官司問題

生成式 AI 發展到現在，真的是各種資源戰（包括官司）

在最近一場由作家們向 Meta 發起的版權訴訟案裡，我們才知道，Meta 被抓到有透過 torrents 種子的方式抓取被認為有嚴重盜版狀況的影子圖書館 LibGen 中未經授權的相關資源。繼續閱讀 Meta 因用 torrents 種子網站的盜版內容訓練 AI 導致官司問題報導內文。

▲圖片來源：Meta

Meta 因用 torrents 種子網站的盜版內容訓練 AI 導致官司問題

即便都已經擁有包括 Facebook、Instagram 以及 Threads 的龐大社群網站使用者每天所產生的「資料」了。不過很顯然 Meta 在發展自家的大型語言模型的時候，也與許多發展類似技術的公司一樣，依然需要各種更具深度的「學習資源」來增進 AI 的表現。

過去，Meta 就曾提過自己有利用 Books3 資料集訓練他們的 Llama 大型語言模型。然而，在最近一場由作家們向 Meta 發起的版權訴訟案裡，我們才知道，Meta 被抓到有透過 torrents 種子的方式抓取被認為有嚴重盜版狀況的影子圖書館 LibGen 中未經授權的相關資源。

甚至外媒還披露官司之中也有提到 CEO Mark Zuckerberg，似乎有授權以這樣途徑使用這些有版權爭議內容的相關備注。

這個在 2023 年由包括小說家 Richard Kadrey、Christopher Golden 與 Sarah Silverman 等作家提告 Meta，被稱為「Kadrey et al. v. Meta Platforms」的官司案件。近日被外媒揭露了許多相關的細節。

其中包括工程師提到自己懷疑「從（Meta 擁有的）公司筆記型電腦上進行種子下載感覺不太對（torrenting from a [Meta-owned] corporate laptop doesn’t feel right）」的說法。還有「MZ」（被認為是 CEO Mark Zuckerberg 的簡稱）有屬意授權這樣的行為的相關資訊。

這次揭露的內容也包括了 Meta 嘗試反駁的理由與行為。包括認為這樣的內容算是公開內容所以符合「公開可用性（public availability）」的說法。並提到他們只有「利用文字來建立語言的統計模型並產生原創表達（using text to statistically model language and generate original expression）」所以算是合理運用這些資源。

不過此一同時，也被外媒甚至是法官認為，有點此地無銀八百兩的要求過度保密官司的相關資料而被警告有「不合理地廣泛的封存請求」的狀況。甚至口氣相當重的稱該公司的掩蓋行為「荒謬至極（preposterous）」並被裁定應該公開原始文件資料。

不得不說，這個官司雖然在初期看起來 Meta 好像因為原告並未提供足夠的證據，而有可以安全過關的感覺。不過從目前揭露的各種狀況來說，Meta 看起來應該是必須皮繃緊一點了吧？

引用來源：Wired｜經由：9to5Mac｜

延伸閱讀：

輕量版 NotebookLM？Gemini Live AI 支援上傳 YouTube 或文件啟動對話功能被挖出

Tags: ai META 官司

Meta 因用 torrents 種子網站的盜版內容訓練 AI 導致官司問題

生成式 AI 發展到現在，真的是各種資源戰（包括官司）

您也許會喜歡：

網站搜尋

廣告