過去我們曾教學過如何在 Windows 11 / Windows 10 安裝 Whisper AI 模型,雖然這方法算是最推薦的,轉檔速度不僅最快,有獨顯的人,還能用顯卡來轉,速度比 CPU 快很多,但操作上稍微複雜一點,而且是要用命令提示。如果你想要找更簡單使用 Whisper 桌面版的方法,這篇要介紹的 Buzz 就是一個不錯選項,基於 OpenAI Whisper 模型的免費開源軟體,Windows、Mac 都支援,而且不只是匯入影片或音訊檔,連麥克風實時轉換都可以,這點相當不錯。
Buzz 基於 OpenAI Whisper 的免費開源語音轉文字軟體,匯入檔案、即時轉錄都支援
點擊上方連結後,會進到 Buzz 的軟體下載頁面,Mac 部分有在 App Store 上架(不過需要付費),據說介面更好用,你也可以下載開源軟體版,我以 Windows 為例,目前最新版是 v0.8.4:
安裝過程沒特別需求的話,一直按下一步就好:
安裝好後打開,操作介面設計很簡單,如果你是要麥克風錄音即時錄製的話,就點擊左上角麥克風圖示:
設定你要的模型、麥克風輸入來源,Language 部分基本上用預設的 Detect Language 自動偵測就好,偵測準度還蠻高的。模型部分支援 Whisper、Faster Whisper 和 Hugging Face。Whisper 部分有 Tiny、Base、Small、Medium、Large 五種:
而匯入影片或音訊檔有兩種方式,一個是按 + 符號,另一個則是點擊 File 選單中的 Import Media File:
同樣設定你要的模型、語言等,輸出部分支援 TXT、SRT 或 VTT 三種格式,會自動保存在同檔案的資料夾中,沒問題就按 RUN:
就快開始處理了,等 In Progress 跑到 100% 即完成,根據你的影片或音訊長度,所需的轉錄時間也不太一樣:
像我這部 11 多分鐘的花了 13 分 14 秒,跟安裝在電腦裡 Whisper 相比,速度明顯慢很多,而且都是用 CPU 轉錄。不過它比較不消耗資源,也可能是這原因才導致速度較慢:
點 2 下可以查看轉錄的文字內容,不過不支援修改。另外如果你之前只有設定 SRT,突然又想要 TXT,這邊也能另存成其他文字格式,按右下角的到三角形圖示:
字幕檔可以直接用,不用修改任何東西:
Whisper 模型部分,如果你是要轉錄中文,那建議用 Large,英文的話是可以選小一點。
之前我們還有介紹另一個 Whisper JAX 線上版,單純只是想要將聲音、YouTube 轉成文字檔的話,用這線上工具也可以: