在最近一場由作家們向 Meta 發起的版權訴訟案裡,我們才知道,Meta 被抓到有透過 torrents 種子的方式抓取被認為有嚴重盜版狀況的影子圖書館 LibGen 中未經授權的相關資源。繼續閱讀 Meta 因用 torrents 種子網站的盜版內容訓練 AI 導致官司問題報導內文。
▲圖片來源:Meta
Meta 因用 torrents 種子網站的盜版內容訓練 AI 導致官司問題
即便都已經擁有包括 Facebook、Instagram 以及 Threads 的龐大社群網站使用者每天所產生的「資料」了。不過很顯然 Meta 在發展自家的大型語言模型的時候,也與許多發展類似技術的公司一樣,依然需要各種更具深度的「學習資源」來增進 AI 的表現。
過去,Meta 就曾提過自己有利用 Books3 資料集訓練他們的 Llama 大型語言模型。然而,在最近一場由作家們向 Meta 發起的版權訴訟案裡,我們才知道,Meta 被抓到有透過 torrents 種子的方式抓取被認為有嚴重盜版狀況的影子圖書館 LibGen 中未經授權的相關資源。
甚至外媒還披露官司之中也有提到 CEO Mark Zuckerberg,似乎有授權以這樣途徑使用這些有版權爭議內容的相關備注。
這個在 2023 年由包括小說家 Richard Kadrey、Christopher Golden 與 Sarah Silverman 等作家提告 Meta,被稱為「Kadrey et al. v. Meta Platforms」的官司案件。近日被外媒揭露了許多相關的細節。
其中包括工程師提到自己懷疑「從(Meta 擁有的)公司筆記型電腦上進行種子下載感覺不太對(torrenting from a [Meta-owned] corporate laptop doesn’t feel right)」的說法。還有「MZ」(被認為是 CEO Mark Zuckerberg 的簡稱)有屬意授權這樣的行為的相關資訊。
這次揭露的內容也包括了 Meta 嘗試反駁的理由與行為。包括認為這樣的內容算是公開內容所以符合「公開可用性(public availability)」的說法。並提到他們只有「利用文字來建立語言的統計模型並產生原創表達(using text to statistically model language and generate original expression)」所以算是合理運用這些資源。
不過此一同時,也被外媒甚至是法官認為,有點此地無銀八百兩的要求過度保密官司的相關資料而被警告有「不合理地廣泛的封存請求」的狀況。甚至口氣相當重的稱該公司的掩蓋行為「荒謬至極(preposterous)」並被裁定應該公開原始文件資料。
不得不說,這個官司雖然在初期看起來 Meta 好像因為原告並未提供足夠的證據,而有可以安全過關的感覺。不過從目前揭露的各種狀況來說,Meta 看起來應該是必須皮繃緊一點了吧?