12/12 除了 OpenAI 宣布 ChatGPT 整合蘋果系統的消息以外,今日 Google 也宣佈推出最新一代 AI 模型 Gemini 2.0。Google 表示 Gemini 2.0 透過全新的多模態功能建構新的 AI 代理,實現通用助手的願景。單看 Google 這樣描述 Gemini 2.0 可能會覺得有點抽象,因此今天整理了幾個使用 Gemini 2.0 的實際應用,讓大家看看 Google 提到的 AI 代理究竟是什麼意思。
Google 最新 AI 模型 Gemini 2.0 實際應用案例,化身鋼琴老師、遊戲助手
Google 於今日宣佈推出新一代 AI 模型 Gemini 2.0,Google 表示 Gemini 2.0 能夠透過原生影像、音訊輸出等多模態功能和內建工具的使用能力來構建新的 AI 代理。Gemini 2.0 預計會有多個模型,而現在推出的 Gemini 2.0 Flash Experimental 具有低延遲和效能優化的特性,有關 Gemini 2.0 Flash Experimental 效能測試結果大家可以前往閱讀相關報導。這邊主要是跟大家介紹使用 Gemini 2.0 Flash 模型可以做些什麼。
根據 Google 分享的 Gemini 2.0 Flash 應用,Gemini 2.0 Flash 可以成為你的遊戲助理,你在玩遊戲時,Gemini 2.0 Flash 會及時讀取你的畫面並給予建議。像是你在玩部落衝突時,可以詢問 Gemini 2.0 你應該要從哪個位置進攻,Gemini 2.0 就會根據實際看到的畫面來給予你進攻位置的建議。這樣是不是就代表之後玩遊戲不用開攻略,Gemini 2.0 可以直接當我的攻略助手了呢?
除了官方範例以外,網友 @tsyn18 使用 Gemini 2.0 Flash 的 AI 功能「Stream Realtime」,讓 Gemini 2.0 在進行螢幕識別的同時跟網友一起玩遊戲。讓網友感慨能跟 AI 一起工作和玩遊戲的時代即將來臨。
きたきたきた!!!!!
これだよこれ!これがずっっっとやりたかったんだ!!Googleの最新AI機能「Gemini 2.0 Flash」の「Stream Realtime」を使うことで、AIに『画面認識』させながら一緒にゲームのプレイができました!… https://t.co/7grTyunrv4 pic.twitter.com/QRNEIrSZOY
— 中村俊也|AIキャンプ® (@tsyn18) December 12, 2024
前面有提到 Gemini 2.0 能處理影像、影片和音訊等多模態輸入,以及支援多模態輸出,可同時生成文字與原生影像,並具備多語言文字轉語音( TTS )功能。根據 Google 官方提供的應用,Gemini 2.0 可以幫你閱讀你的郵件並從其中找到和記錄你要求的內容。像是你收到訂房通知,Gemini 2.0 可以幫你從一長串入住通知內容中找到並記憶入住通知中最重要的房間密碼。
相信很多人在洗衣服都看不懂衣服上的標籤是什麼意思,每次要清醒都要上網查又很麻煩。不過有了 Gemini 2.0,你可以直接用手機鏡頭掃描衣服清洗標籤,Gemini 2.0 可以跟你說這件衣服應該怎麼洗。
根據網友測試 Gemini 2.0 可以實時分析你的手機鏡頭看到的內容,通過識別船隻的類型、地形和熱門統計數據,找到使用者在處於泰國的哪個小島上。
It’s incredible how Gemini 2.0, in real-time, analyzed what I was seeing on my phone and figured out which small island in Thailand I’m on, just by recognizing the type of boats, the terrain, and popularity statistics. We’re just months or a few years away from HER—I feel a bit… pic.twitter.com/diTRq7kr9z
— Victoriano Izquierdo (@victorianoi) December 12, 2024
除了通過看到的背景和物品去識別所在地以外,Gemini 2.0 配合鏡頭還可以變成你的實時鋼琴老師。像是告訴你哪個調要按哪個位置,透過你的鏡頭看到你的視角並與你進行即時對話。
Gemini 2.0 acts as my virtual real-time piano teacher.
This new Google AI model can see your screen and have live conversations with you.
Unfortunately, it can’t “hear” songs yet. pic.twitter.com/DGdwKriIKC
— Kevin Kern (@kregenrek) December 12, 2024
大家看完上述 Google Gemini 2.0 應用分享之後有什麼想法呢?現在一般用戶也能在 Gemini 桌面和行動網頁版模型下拉選單中找到 Gemini 2.0 Flash Experimental 的聊天優化版,不過像文字轉語音和原生影像生成功能與 APP 就還需要稍等。
如果大家對 Gemini 2.0 Flash Experimental 模型的優化和未來即將推出的模型差別感興趣的朋友可以前往下方連結閱讀相關報導: