Gemini 下一代模型來了!稍早 Google 宣布推出全新 Gemini 2.5 模型,跟 Gemini 2.0 Flash Thinking 一樣,Gemini 2.5 也是一款思考模型,回答之前會先自己進行推理,進而提升效能和準確性。Google 也分享多項與其他 AI 模型的測試比較數據,Gemini 2.5 可說表現非常亮眼。
Google 新一代 Gemini 2.5 模型正式亮相
根據 Google 介紹,新一代 Gemini 2.5 在各方面任務都有明顯進步,包括寫程式、支援更長的上下文(現在是 100 萬 token,預計還會升級到 200 萬)等,模型部份目前只有 Gemini 2.5 Pro。
在 LMArena 排行榜(人類偏好評估模型能力)上,Gemini 2.5 Pro 一推出就拿下第一名,以 1443 的分數領先 Grok-3-Preview 和 GPT-4.5-Preview,代表說語言風格與表達品質,都是目前最強的模型:
Gemini 2.5 Pro 的寫程式能力有著明顯提升,導入建立視覺化網頁應用、代理行為的程式應用、以及程式碼轉換與編輯任務。
在 SWE-Bench Verified 代理程式碼測試中,以 63.8% 的成績,超越 OpenAI o3-mini-High 的 49.3%,以及 DeepSeek R1 的 49.2%,不過還是小幅落後 Claude 3.7 Sonnet 的 70.3%。
Aider polyglot 跨語言寫程式能力測試也擁有 74.0%,遙遙領先 o3-mini-High、Claude 3.7 Sonnet、DeepSeek R1。
Humanity’s Last Exam 綜合智力測試也不例外,成績比所有競爭對手還高,獲得 18.8% 。
基本上可以說,Gemini 2.5 Pro 在幾乎所有的測試中,都取得了最高分數:
Google 還分享如何使用一行提示詞,讓 Gemini 2.5 Pro 寫出一款遊戲的示範影片:
Gemini 2.5 Pro 同樣支援多模態,可以處理文字、音訊、圖像、影片、整個程式碼庫等。
開發者與企業用戶即日起就能 Google AI Studio 中體驗 Gemini 2.5 Pro,而 Gemini Advanced 付費用戶,也能在桌機與手機上的模型選單中找到這個版本。Vertex AI 則將於數週內上線支援。
免費用戶也能在 Google AI Studio 體驗,進到網站後,於右側的 Model 選單中就能切換 Gemini 2.5 Pro Experimental:
資料來源:Google