與 MBTI 人格測試的概念有點相似。盡可能貼近人類語言並且持續學習的大型語言模型技術,漸漸的也發展出了不同特性。繼續閱讀想得更仔細!Gemini 2.0 Flash Thinking 大型語言模型登場報導內文。
▲本篇圖片來源:Google
想得更仔細!Gemini 2.0 Flash Thinking 大型語言模型登場
相對於心直口快(但也還是比之前的 Gemini 1.5 Pro 更強大)的 Gemini 2.0 Flash。Google 也預告接下來還會推出更多樣的模型類型。
而沒等很久的時間,今天,他們也端出推出了進一步對應對手「AI 組合拳」的 Gemini 2.0 Flash Thinking 模型。更被視為是回應其他對手在推理模型(Reasoning Model)方面的發展挑戰。
相對於透過 Prompt 咒語就能模擬的個性屬性。OpenAI 在約莫 9 月的時候,發表了更專注於推理能力,並且在回答問題之前還擁有「仔細思考」特性的 o1 模型。簡言之,就是相對於可以支援被打斷對話與快速反應的 GPT-4o,要更謹慎思考,更適合科學、程式編寫和數學等專精領域的 LLM 技術。
現在,Google 則是宣告他們的 Gemini 2.0 世代,也將分支出另一種類型的 Experimental Model 實驗模型,名為:Gemini 2.0 Flash Thinking。
顧名思義,Gemini 2.0 Flash Thinking 模型就是會花更多時間思考的實驗模型。官方描述這個模型十分適合多模態理解、推理和程式碼編寫的用途。還在開發者頁面列出以下的應用範例:
・針對最複雜的問題進行推理
・展現模型的思考過程
・解決困難的程式碼與數學問題
而面對已經早一步端出類似解決方案的 OpenAI,Google 則是也超級積極地在 Gemini 2.0 Flash Thinking 發表後,就以「gemini-2.0-flash-thinking-exp-1219」的模型名稱在 Google AI Studio 啟動了面向開發者的相關測試。
Gemini 2.0 Flash Thinking model 據報支援超過 128k 的上下文長度,學習資料的範圍則是截至 2024 年 8 月前。
並可透過 Google AI Studio 與 Vertex AI 的 Gemini API 存取。
Breaking news from Chatbot Arena⚡🤔@GoogleDeepMind‘s Gemini-2.0-Flash-Thinking debuts as #1 across ALL categories!
The leap from Gemini-2.0-Flash:
– Overall: #3 → #1
– Overall (Style Control): #4 → #1
– Math: #2 → #1
– Creative Writing: #2 → #1
– Hard Prompts: #1 → #1… https://t.co/lO1DiTiOOj pic.twitter.com/cq2MRMbWZ1— lmarena.ai (formerly lmsys.org) (@lmarena_ai) December 19, 2024
有意思的是,相對於 Gemini 2.0 發表時至少官方還會公布與自家 LLM 直接對決的成績單。今天的 Gemini 2.0 Flash Thinking 卻沒什麼來自官方的表現數據 – 大概是覺得,既然都有更長的思考時間了,無論如何都必須要橫掃所有自家的模型吧?
只不過即便官方沒有拿出比較數據,Chatbot Arena 倒是第一時間端出了 Google 以及其他品牌如 OpenAI(包括 o1!)、xAI、Anthropic 類似等級的大型語言模型的比較。據報是 Gemini 2.0 Flash Thinking 都取得了首位。
假若 Gemini 2.0 Flash Thinking model 真的具備有這樣碾壓級的表現,顯然就算是早一步開放並且取得不錯評價的 OpenAI o1 reasoning model 應該也會有相當大的壓力吧?
引用來源:Neowin|