一直以來都有一個職業是逐字稿打字,簡單來說就是把聲音或影像檔的內容,一個字一個字打出來變成一份文字檔,看似好像非常簡單,實際打起來卻非常耗時間,因為要不斷重複聽說話者到底講了什麼,不過,未來可能變得更容易了!隨著近年語音辨識技術越來越準確,一個月前百度就推出一個標榜準確度達 97% 的語音辨識智慧 AI:「Swiftscribe」,使用者只需把逐字稿檔上傳,Swiftscribe 就會自動把所有音訊轉換成文字,並且提供修改以及匯出成純文字、Word 檔功能,等於說未來逐字稿的工作流程可能變成,上傳到類似服務,然後把辨識錯誤修改正確,接著匯出,整個流程變更加輕鬆簡單!
Swiftscribe 服務目前雖然已經上線,但還是 Beta 版,須申請才能使用,而筆者等了將近一個月的時間終於獲得回覆,可以好好把玩一般,一同來看看到底是怎麼運作的吧!
Swiftscribe 介紹
Swiftscribe 的使用方式可說非常簡單,申請到帳號與密碼後,即可點選右上角的「LOG IN」來登入。
接著就會進入後台,你可以按右上角的「Upload or Drag」來上傳,或是直接把檔案拖拉進視窗。等到檔案上傳完後,Swiftscribe 會進行分析,等到 Progress 顯示 “Ready” 才能開始編輯,點選右邊的 “鉛筆符號”。
下圖就是編輯畫面,所有音訊內容都已經轉換成文字,目前只支援英文。控制器位於左下角,播放、重複聆聽、調整速度、以及訣竅,也支援快捷鍵,按下 Enter 鍵就會開始播放。
用黃色螢光起來的字,就是目前講話到的位置,因此你可以即時查看 Swiftscribe 辨識的對不對。
錯誤的話只需在該字上方按兩下滑鼠左鍵,即可修改,像下圖的 sum 是錯的。(紅色底線不用理它,這是筆者安裝的另一套檢查文法 Grammarly 擴充外掛提示)
改成 some 才對。
如果覺得講話講太快聽不清楚,可以把速度調慢,或是按 Shift+Space 快捷鍵來重複聆聽這一段。
另外也能直接調整文字稿的排列方式,修改時按下 Enter 鍵,下面的文字就會跳到下一行,跟一般編輯文字、Word 檔一樣。
全部都確認沒問題後,按右上角的 EXPORT 即可輸出,支援純文字以及 Word 檔兩種。
相較於以往一個個聽打出來,Swiftscribe 真的省下非常多時間,而最重要的準確率部分,測試下來是沒有官方說的 97% 這麼誇張,但 80% 跑不掉,所以也相當不錯了!
至於如何申請 Swiftscribe 服務,方法也不難,於官網下方的 Contact Us 告訴他們即可,只不過需要等一段才會收到通知,我是等了一個月左右。
補充資料
Swiftscribe 官網:https://swiftscribe.ai/