先前我們教過大家如何透過剪映直接導出 SRT 字幕檔 ( 文章連結 ),但隨著剪映不斷的更新進步,這些功能也開始走向收費制 ( 用舊版本的剪映也已失效 )。所以如果你也有影片轉錄字幕的需求,又沒有付費成為剪映會員的話,本文將教各位讀者如何透過 Google AI Studio 進行字幕辨識,不僅省時省空間,還能提升辨識準確度。以下將一步步介紹整個操作流程,讓你快速上手。
辨識前先提取音檔
雖然 Google AI Studio 可以上傳影片進行辨識,但因為影片檔案實在太大,不建議這麼做。所以請大家先將要辨識字幕的影片轉成 MP3 音訊檔,這邊我使用的是剪映,當然如果你會使用其他軟體也是可行的 :
將所有影片拉到序列裡 :
接著在導出項目的時候,只要選擇音頻導出,並將格式改成 MP3 檔,也就是音訊檔 :
利用 Google AI Studio 識別音檔字幕
接著進入 Google AI Studio ( 網址在這 ),進德要先登入 Google 帳號才能使用,先前 Rocky 編輯也寫過如何用 Google AI Studio 生成影片,有興趣者可點我 :
開始使用前顯選取模型,模型在右上方的下拉式選單可以選擇,這邊使用的是 Gemini 2.5 Pro Preview 03-25,可免費使用,不過就會有 tokens 上的限制 :
選取完後點選對話框裡的「+」 :
選擇 Upload File 上傳音檔 :
選擇音檔後就會自動上傳至對話框上,因為 MP3 檔案比較小的關係,所以上傳很快,但如果是直接傳影片的話,就會浪費許多時間在上傳的部分 :
方法1 – 適合剪映的用戶
字幕辨識可分成兩種方式,一種是輸出純文字的版本。這邊辨識字幕我輸入的指令是「將此音檔辨識成字幕,繁體中文版本,不要標點符號,糾正語音轉文字的錯誤,每句話不超過 27 個字」,因為我 Premiere 字幕裡一行字最多就 27 個字 ( 看你設定的樣式 ),所以才會限制一行字的限制 :
稍等一段時間後,Google AI Studio 就會將音檔裡所有的問字內容辨識為文字稿 :
再來要複製文字,點選文字框裡的 …,按下 Copy text 即可完成複製 :
如果你是用剪映軟體做剪輯又沒買 vip 功能的話,只要把剛剛的文字複製之後,找到剪映中的文稿匹配功能 :
將剛剛的文字複製到匹配功能的對話框 :
接著讓剪映自動去識別字幕位置,只要你原先輸出 MP3 檔的影片沒有更動時間軸,他就會將字幕照原先的位置 KEY 上 :
匹配的時間不長,不到一分鐘就能搞定,如此一來即便你沒有購買剪映的 VIP 功能,你也可以透過這樣的方式替你的影片快速上字幕,只不過有些贅詞、英文字連在一起的狀況會發生,還是得靠自己校對一次 :
如果你想將字幕移到別的剪輯軟體作業,只要單獨輸出 SRT 字幕文件即可 :
下方的圖,左邊是用剪映自家辨識字幕功能所導出的 SRT ( 已轉成繁體中文 ),右邊則是 Google AI Studio 所辨識出的文字 ( 已從剪映轉存成 SRT )。我自己的觀察,剪映會將影片中的對話都辨識成文字,所以影片中一些自言自語的內容也會被轉成文字;而 Google AI Studio 因為有請它糾正語音轉文字的錯誤,所以一些自言自語的內容並沒有被轉成文字,而且 Google AI Studio 在辨識英文的能力上也比剪映高明許多,剪映遇到聽不懂的英文字還會幫你轉成中文字,這點我覺得也是 Google AI Studio 比較聰明的地方。
另外在字幕的通順度,也是 Google AI Studio 比較厲害,剪映的辨識方式有時候會依照影片中的語氣設下斷點,這就導致原本該一句話呈現的字幕就會被硬生生地拆成兩段,校對上就會多花一點時間。不過兩者還是具有相同的通病,就是像「啊、喔、哎」這種贅詞也都會被轉成文字,但如果有給 Google AI Studio 下避開這些贅詞的指令,應該是可以避免這種情況發生 :
Google AI Studio 與 Whisper 比較
因為剪映我都只拿來便是字幕用而已,自從要收費之後,我就轉成 Whisper 在做使用。Whisper 的好處就是可直接在本地端使用 ( 得先下載模型 ),因為不用上傳影片、音檔的關係,直接用電腦轉錄是滿方便的,不過處理速度就會比上述兩個軟體還要多花一點時間 :
Whisper 的辨識能力也不差,甚至還不會有贅詞的產生,中英夾雜的辨識能力也可以說非常完美,真的好用!
不過使用 Whisper 到目前為止,最大的問題就是它會產生許多不必要的字幕,像是沒有任何講話的片段,它會生成無意義的字幕。甚至最離譜的,我曾遇過五分鐘的影片內容,有兩分鐘的字幕完全無法正常辨識,現在有 Google AI Studio,我應該暫時不會用到 Whisper 了 :
方法2 – 直接導出 SRT 版本
如果不是用剪映進行剪輯工作,就可用另外一個方式導出 SRT 字幕。轉成 SRT 字幕也有兩種方式,一種是用上述已轉錄的文字再去轉存 SRT 字幕;另一種是用音檔直接轉成 SRT 字幕,兩者的效果有些許不同,這邊簡單展示給大家看。首先在 Google AI Studio 原先的內容上,我輸入的指令是「轉成 SRT 版本,每一行不超過 27 個字」 :
接著就會將原先的文字內容配合上傳的音檔進行編輯成有時間軸的字幕 :
等轉錄完畢後,點下文字框中的下載選項 :
將檔案儲存下來,不過下載的檔案僅是 TXT 檔,要自行改成 SRT :
將下載的 TXT 檔,把附檔名改成 SRT,這樣就會是 SRT 字幕版本 :
與先前從剪映轉存的 SRT 檔案稍作比較,左邊是後來 Google AI Studio 所生成的版本,右邊是 Google AI Studio 轉錄的文字丟到剪映所導出的 SRT。兩個版本的文字雖然都一樣,但編排的方式有些許不同,用 Google AI Studio 轉 SRT 的話,句子比較多是連貫的;而純文字進剪映再導的 SRT 就會比較多的斷句,就看你比較能接受哪一種版本 :
另一個方式則是直接轉錄 SRT 檔案,一樣是將音檔上傳,步驟跟前面教的一樣 :
這邊下的指令是「將此音檔辨識成字幕,繁體中文版本,不要標點符號,糾正語音轉文字的錯誤,每句話不超過 27 個字,需要 SRT 文字版本」,Google AI Studio 就會自動生成 SRT 的版本 :
下載跟更改副檔名我就不再贅述,這邊比較用 Google AI Studio 直接生成的 SRT 版本 ( 左邊 )以及轉錄文字再到剪映導出的 SRT 版本 ( 右邊 )。直接生成的 SRT 版本斷句的情況就又少了些,但老實講我比較不喜歡這樣的版本,因為丟到剪輯軟體後還得切割字幕調整位置,如果是將兩段字幕合在一塊,處理的動作會比較快一些。
當然!這還得看每個人的使用習慣,我習慣的你不一定會習慣。以上就是這次利用 Google AI Studio 辨識字幕的教學,希望對各位讀者有幫助 :