隨著 AI 技術發展快速,很多人一定都想玩玩看聲音克隆,而這篇就要推薦一個很不錯的開源工具「F5-TTS」,不僅有提供線上體驗網站,還能部署在本地完全免費用,更重要是上個月推出的 F5-TTSv1 基礎模型,生成速度不僅更快,效果也更好。
F5-TTS 可讓你免費一鍵克隆任何聲音的免費開源工具
F5-TTS 的線上體驗工具是架設在 Hugging Face 平台上,因此有用量限制,GPU 用量超過的話,就沒辦法繼續免費使用,無登入帳號情況下就有一些額度,建議可以先用,等到用完再登入你的 Hugging Face 帳號,沒有的人就免費註冊一下,登入後 GPU 額度會重算。
如果你想要部署在本地,建議可以搭配 CURSOR 來部署,把 FT-TTS 的專案網址丟給它,並詢問要怎麼部署在電腦裡,AI 就會提供你完整步驟。目前 CURSOR 的 GPT-4.1 和 o4-mini 是完全免費用,可以盡量問:
當部署過程中遇到任何問題,看不懂沒關係,就把問題整個複製丟給 AI,它就會告訴你解法,我就是透過 CURSOR 成功部署在電腦裡。每個人電腦環境都不一樣,因此這邊就不附上我的部署流程:
使用前也幾個注意事項你需要知道,才能獲得最好的克隆效果:
- 建議使用小於 12 秒的參考音檔,並在結尾保留適當靜默(例如 1 秒),要不然單詞可能會被截斷,導致生成效果不佳。
- 大寫字母會逐字朗讀,建議像 K.F.C. 這種格式,小寫字母則用於普通單詞。
- 插入一些空格(“ ”)或標點符號(例如「,」「。」)以明確引入停頓。
- 如果使用英語標點符號做為句子結束,請確保後面有一個空格「 」,否則分段時不會被識別。
- 如果希望數字以中文朗讀,請將數字轉為中文文字,要不然會以英語讀出。
- 目前僅支援中文和英文
下方是線上體驗的操作流程,非常簡單。
進到網站後,就你要克隆的聲音檔上傳,也提供錄音功能:
接著你可以試聽看對不對,或是覺得音檔太長,只想要取某一段,右下角有一個剪輯圖示,按下後就可以剪輯你要保留的時間片段。上方 Choose TTS Model 建議就用預設最好的 F5-TTS-v1。把你要的文字內容輸入在下方 Text to Generate 裡面,一切都沒問題後,按 Synthesize 就會開始生成:
Advanced Settings 還有一些設置可調整:
生成時,右上角會出現當前狀態訊息:
不用幾秒鐘就完成了,Synthesized Audio 就是生成好的聲音,可線上試聽,滿意的話按右上角的下載按鈕,即可下載下來:
目前克隆出的聲音雖然沒辦法 100% 一樣,但至少聲線真的蠻類似的。但也不是沒缺點,生成好的聲音還是冒出一些我沒有輸入的文字。
不過這也有可能是,我擷取阿達某部影片的幾秒鐘聲音,講話時有背景音樂,不是存聲音,導致克隆效果沒有很好。
我擷取的聲音片段:
用這款工具克隆出的聲音。這裡面有更多 F5-TTS 開發者分享的克隆聲音案例:
不只這模式,FT5-TTS 還有提供 Multi-Speech、Voice-Chat 二種模式,前者是生成類似 Podcast 的對話內容,後者則是生成聊天音檔。