近日,Meta AI 則是再度搬出了他們開放科學研究的新里程碑。重點在,這個希望能夠讓溝通更為無縫的 SeamlessM4T 多模態模型,現在就能直接在網頁版本中試用。繼續閱讀現在就能玩!Meta AI 搬出號稱輾壓 Whisper 多國語音/文字無縫互轉的多模態模型 SeamlessM4T 報導內文。
現在就能玩!Meta AI 搬出號稱輾壓 Whisper 多國語音/文字無縫互轉的多模態模型 SeamlessM4T
雖然 Meta 始終還是沒有拿出像是 Bing Chat、Google Bard 乃至於 ChatGPT 這樣子的生成式聊天機器人。不過這些日子以來,他們倒是持續以火力展示的概念,透過像是音樂生成的 AI MusicGen、能夠跟塗鴉人物一起跳舞同樂的 Meta Animated Drawings,又或者是目前感覺還無人能出其右,能夠以口語為基礎的翻譯系統 – 當時透過閩南語/台語/福建話翻譯的功能,的確驚艷了各界。
▲圖片來源:Meta AI
近日,Meta AI 則是再度搬出了他們開放科學研究的新里程碑。宣告具備多樣用途包括:自動語音識別、文字轉文字翻譯、文字轉語音翻譯、語音轉文字翻譯以及語音轉語音翻譯(有人挑戰一次唸完嗎?真的很多樣誒)。語言支援的部分則是幾乎都能支援近 100 種語言的輸入,輸出的部分即使有部分轉換目前還有所受限,但其實也能夠支援到多達 35 種語言。
重點在,這個希望能夠讓溝通更為無縫的 SeamlessM4T 多模態模型,現在就能直接在網頁版本中試用。
▲圖片來源:Meta AI
雖說目前來講,網路上對於 SeamlessM4T 翻譯成韓文與英文的對照,好像不少人都覺得有點翻車的狀況 – 似乎感覺不太到有官方圖表 PK 的結果中,包括語音轉語音翻譯以及語音轉文字方面,皆輾壓 Whisper 與 AudioPaLM-2 的表現。不過還是很推薦大家玩玩看 Meta AI SeamlessM4T 語言模型的介面(點我開啟),個人覺得蠻有意思的!
因為 SeamlessM4T 不僅直接會啟動錄音介面來提供語音轉文字的威能,它的介面還直接可以支援一次選取三種語言,來進行後續的文字還有語音翻譯的功能 – 不得不說,真的是很無縫!
筆者也簡單的嘗試了一下它的功能與效果。以自己主要比較看得懂的英文來說,是覺得翻譯的還算 OK。介面也出乎意料的好用 – 尤其是最多可以選三個語言,真的有火力展示的感覺。
是說,既然是個展示技術的功能,所以 Meta AI 的這個多任務型的語言模型能支援的錄音時間還是相當有限。不過看似只能轉三種語言的限制,倒是可以透過點擊「SELECT TRANSLATION LANGUAGE」的按鈕,讓你再度重新選擇翻譯同一段語音內容。
這也代表著,如果你喜歡的話,也可以將 36 種語言全都翻完 – 雖然,感覺要一一確認每種語言是否有翻譯的精確,應該要花相當長的時間就是了(笑)。