隨著 AI 不斷進步,現在語音轉文字真的變得超容易,最近發現到這個超強的 Whisper JAX 工具,支援直接麥克風自錄、上傳錄音檔和 YouTube 網址三種,我測試 8 分鐘影片不到 5 秒就完成,12 多分鐘影片也不用 10 秒,超級快,使用的模型是 Whisper API,準確度超高,中英混合也沒問題,還提供加入時間戳功能,重點是完全免費。
往後有什麼演講、開會錄音,還是影片要製作字幕檔,直接丟到這工具就能快速獲得文字內容。
Whisper JAX 超強語音轉文字免費 AI 工具,8 分鐘影片不到 5 秒就轉完
Whisper JAX 是放在 Hugging Face 的平台裡面,由 sanchit-gandhi 用戶分享,雖然介面只有英文,但操作很簡單,進到首頁後選擇你要使用的模式,「Microphone 麥克風」、「Audio File 聲音檔」、「YouTube」:
聲音檔部分可以點擊上傳,也能直接拖曳到視窗裡:
我先測試 YouTube,把 YouTube 網址放上後,按下面的 Submit 即可,它就會開始處理。另外它雖然有 translate 的選項,但目前看起來無法使用,就只能語音轉文字:
接著就放著給它跑完,會有秒數參考,但我覺得不準,大多時候都比它預估的快超級多,像這部阿達的 YouTube 影片有 8 分多鐘,它顯示要 51 秒,實際不用這麼久:
轉好之後,下方 transcription 就會顯示文字內容,厲害的地方在,不僅中英沒問題,連日文都可以,阿達影片中說到的日文都有辨識出來,但有一個錯誤就是。右上角有一個一鍵複製的小圖示,方便你快速複製所有內容:
這部影片實際只花了 4.8 秒就完成,比它預估的 51 秒快超多,所以那個秒數參考就好,不要看到秒數很長就嚇到:
再來我測試 MKBHD 最新的「Driving The New Fastest Car Ever」影片,一樣很快就轉錄好:
只花 9.7 秒,就轉錄好 12 多分鐘的影片:
中文部分轉錄好的文字,基本上中間都沒有符號,因此你可能會覺得很難分段,這時可以「Return timestamps」功能打開,再按下 Submit 轉錄,獲得的文字內容就會有時間戳:
根據開發者介紹,這款 Whisper JAX 使用的模型是由 OpenAI 推出的 Whisper large-v2,我測試很多部影片,準確度都有達到 99.9%,只有極微少數的語音如果講不太清楚,才有可能辨識錯誤。