先前在 ChatGPT 發表會中推出 GPT-4o 模型,雖然已經可以使用,但並不是所有功能都有開放,像是影片辨識功能目前就還沒有,而且據說可能要再等幾個月。如果你想要搶先試試看,這篇要介紹的「Siri Ultra Vision 捷徑」就能讓你體驗看看。
教你搶先體驗 GPT-4o 的影片錄影辨識,透過 Siri Ultra Vision 捷徑就能做到(iPhone)
- 取得 Siri Ultra Vision 捷徑
要使用這個 Siri Ultra Vision,你必須有捷徑 App,還沒有的人請先到 App Store 下載。
有印象的讀者可能猜到,這款 Siri Ultra Vision 就是我們之前介紹過,把 Siri 改成 ChatGPT、LLM 助手同一個作者製作的捷徑腳本。
相較於更改 Siri,這一個 Siri Ultra Vision 使用上更加簡單,你只需要填入「OpenAI API」和「更改語音語言」就可以,預設使用的模型就是 GPT-4o。
支援四種模式,包括選擇「截圖」、「拍照」、「錄影」、和「從本地相片讀入」,其中錄影部份目前 ChatGPT 還沒有開放,因此你可以透過這一個模式來搶先體驗。
目前 Siri Ultra Vision 最新版是 V0.0.1,點上方連結進到取得捷徑腳本頁面後,按「加入捷徑」,接著就會在捷徑清單中看到它。另外名稱部份看你要不要修改,如果你想用 Siri 喚醒它,可以改成比較好唸的名字,如:錄影辨識小幫手,之後你就能用「嘿 Siri, 錄影辨識小幫手」來喚醒:
使用之前,必須填入你的 OpenAI API Key,進到捷徑內頁後。在 Enter the API key below 下方的文字欄位,把你的 API Key 填入:
預設模型已經是 gpt-4o,如果你想試試看其他模型,可以在這邊更改:
接著往下滑找到「聽寫文字」,語言預設是簡體的中國大陸,記得改成中文(台灣),才會用繁體回答:
另外在 Take Video 欄位下方的「以後置相機錄影」,預設品質是 “低”,如果你覺得錄影品質太差,可以改成高:
設定完後就能開始使用。
按捷徑腳本後,會出現四個選項,Take Video 就是影片辨識功能,首次執行需要允許取用語音辨識:
錄影的時候有二個重點:
- 相機不能移動,移動有高機率會顯示執行錯誤
- 錄影時必須要有聲音,要不然也會出現錯誤
錄影完後,按右下角的使用影片:
然後會出現這個視窗,請說出你想要問的內容,像我問「你看到什麼東西」:
會需要允許傳送,可以按「永遠允許」,這樣下次執行就不用再按允許了:
等待幾秒鐘 GPT-4o 就會回答,我的正確回答是遊戲控制器,比較可惜是沒有辨識出 PS5 手把:
下方是開發者的測試影片:
最近终于有空整理了下 Siri Ultra Vision 的代码,支持跟图片、视频对话,甚至也可以识别视频里的声音了! https://t.co/jXEqfCicfp
— fatwang2 (@fatwang2ai) June 3, 2024