就在 Gemini 2.5 Pro Experimental 提供支援的 Deep Research 推出的幾天後,Google 再次推出新 AI 模型,名為「DolphinGemma」。這款大型語言模型主要用來幫助科學家研究「如何與海豚交流」,並且希望以此來了解海豚們在說些什麼。
Google 推出新的 AI 模型來幫助破譯海豚語
Google 正在與美國喬治亞理工學院的研究人員和野生海豚專案(WDP)合作,該專案的主要任務是透過非侵入性地長期實地研究來觀察、記錄和報告野生海豚的自然行為、社會結構、交流模式和棲息地,特別是大西洋斑點海豚(Stenella frontalis)。多年來,WDP 收集的數據使其能夠將某些海豚的聲音與行為互相關聯,根據 Google 的說法,分析海豚自然而複雜的交流是一項艱鉅的任務,而 WDP 龐大的標記數據庫為 AI 提供了獨特機會,例如:
- 母親和孩子用來會合的標誌性唯一哨音
- 打架時經常看到的突發呱呱聲
- 求偶或追逐鯊魚時經常使用的嗡嗡聲
這就是 DolphinGemma 派上用場的地方了。簡而言之,它是 Google 基於 WDP 數據庫中開發的 AI 模型,它利用 Google 自家的 SoundStream 分詞器將海豚的發聲分解為更易於管理的音訊單元。然後,將音訊單元通過一個專用以理解複雜序列的模型架構運行,整個設定中大約有 4 億個參數,但又相當輕量,甚至可以在 Pixel 手機上本機運行,方便研究人員隨身攜帶。
與傳統的機器學習模型不同,DolphinGemma 不處理文字或圖像,它採用嚴格的音訊輸入、音訊輸出。它接收海豚的自然發聲序列,使用受大型語言模型理解人類語音方式啟發的方式對其進行處理,並預測序列中最可能的下一個聲音,WDP 專案創始人 Denise Herzing 博士將其與自動完成進行了比較。它經過訓練可以識別這些聲音的模式、結構和進展,就像文字型的模型根據上下文預測句子中的下一個單詞一樣。
就像其他 Gemma 模型一樣,Google 表示將在今年夏天將 DolphinGemma 作為一個開放模型導入,希望為全世界研究人員提供工具來挖掘他們自己的聲學數據庫,加速尋找模式,並共同加深人們對這些高智慧海洋哺乳動物的理解。