不讓 OpenAI 搶盡版面,Google 對標 GPT-4V 的多模態模型 Gemini。不出則以,一出就直接推出 Ultra / Pro / Nano 三種不同的模型尺寸規模。繼續閱讀正面對決 GPT-4 的 Google Gemini AI 模型正式發表,將融入 Bard 與 Pixel 8 Pro 之中報導內文。
▲本篇圖片來源:Google
正面對決 GPT-4 的 Google Gemini AI 模型正式發表,將融入 Bard 與 Pixel 8 Pro 之中
先把 Ultra 與 Pro 放一邊,光是 Google 已經宣告將會把 Gemini Nano 實裝在現在的旗艦機 Pixel 8 Pro 上,就知道關於什麼會延遲發表或者是打高空學術用途之類的情況並不會發生 – 甚至 Android 開發者也能藉由 AICore 來取用相關資源;更進階的 Gemini Pro「今天」也已經開始在 Google Bard AI 的英文版本啟用,並且會在 12/13 開始向 Google AI Studio 與 Google Cloud Vertex AI 開放 API。
簡單的講,這個主打「原生(natively」以及「從頭開始打造(built from the ground up)」的多模態模型,真的是直接對著 OpenAI 與微軟等對手正面對決的最新大型語言模型。甚至首發就直接從各種層級的應用對接各種應用場景。呈現出來的氣勢就相對生成式 AI 大流行有點相對匆忙推出的 Google Bard 有著極大的反差。
強調原生多模態模型的概念,Gemini AI 模型不僅與其他類似模型一樣能分析包括文字/程式語言、圖片/動態影片甚至是聲音等內容。重點是,過程中它可以更無縫高效率地理解感知到的畫面、聲音與文字等資訊。像在 Google 官方部落格所進行的測試裡,相對高階的 Gemini Ultra 模型就能以不倚賴 OCR 先辨識出字元的方式,直接從圖片解讀出文字。
在這樣的高效率下,根據官方的測試在針對圖片、影片與音訊的解讀到推理總數為 32 項的大型語言模型的學術基準測試中,在其中高達 30 項目中超越當今的最新進技術的成果;針對結合數學、物理、歷史、法律、醫學和倫理學等多達 57 科的大規模多任務語言理解((massive multitask language understanding,MMLU)項目。不僅在文字以及多模態的項目分別大幅領先直接對手 GPT-4 與 GPT-4V,更以 90.0% 的高分成為首個在此領域超越人類專家的模型。
除了幾乎全面碾壓對手的「Ultra」級效能的模組,Google 強調這次 1.0 版本的 Gemini AI 模型也具備有以 AI-first 為概念發展 8 年來最具有靈活性延展性的特性 – 最小的實裝場景是連智慧型手機都能達成,基本意味著許多人在意的隱私相關的 AI 處理,也能夠透過 Gemini 模型實現。前面提到的三種模型規模,官方分別給予了不同的定義與應用場景:
· Gemini Ultra — 我們最大且功能最強大的模型,適用於高度複雜的任務。
· Gemini Pro — 我們最佳的模型,可在各種任務上實現規模化。
· Gemini Nano — 我們效能最高的模型,適用於本地設備上的任務。
相對來講大家應該會更有興趣的應用層面的範例方面。
針對學術應用方面,根據官方的說法,像是 Python、Java、C++ 和 Go 的程式語言都已經難不倒 Gemini 1.0 了。甚至還以這樣的模型為基礎,宣告將推出更進階的 AI 程式語言生成應用 AlphaCode 2。號稱將加倍處理相關問題的數量。
多模態能理解文字與圖片等資訊的特性,更使其得以在學術研究時可能需要曠日廢時,需要閱讀分析數十萬份文獻資料的工作,得以透過多模態模型的幫助取得更高的效率。
在簡單的 90 秒發表影片中可以看到,他們直接用語音請 Gemini 解析畫面中出現的兩張圖片,到底哪個簡單繪製在便條紙上的「車」跑得比較快。而它也以語音回答,認為相對來說比較扁平(其實是三角形)的版本會較快,原因是「更符合空氣動力學原理」- 是說,在這樣的應用下,筆者大概會再請他分析一下坡度的斜度可能造成的影響。但個人最驚訝的是,它沒有多詢問或是事先針對像是動力、車重等條件可能造成的變因進行聲明。
不過 Google 在 Gemini 網站示範了依序進行包括:多模對話、多語言、遊戲創作、視覺解謎、建立關聯、圖像與文字生成、邏輯與空間推理、視覺翻譯、文化理解的應用範例影片 – 簡單透過「鴨子」的圖片與模型,就串連延伸出了許多應用的場合,後續更是直接與 AI 互動進行即時的遊戲以及物件判斷互動。超有趣!建議可以看看上面的影片。
示範者直接把鴨子丟到地圖上,Gemini 就自顧自對「眼前」的狀況提出了「在海中央」、「附近沒有休息與尋找食物的陸地」因此判斷這裡不太可能會有鴨子 – 說真的,這個例子雖然感覺 Gemini 有點囉唆,但是其中涉及的判斷機制與思維真的算是讓我嚇了蠻大一跳的。而且整個過程都是用相當自然的語音對話完成 – 要知道「它」可是在沒有指令下憑空啟動了這次的對話誒…
看到這些應用,其實個人會非常期待這樣的 AI 被放在更進階的居家智慧喇叭顯示器產品之上。
Google 則是預告明年初將會推出運用 Gemini Ultra 等級模型的 Bard Advanced 版本;此模型運用在搜尋體驗中的試驗則是也帶來降低 40% 延遲的效果,未來數個月則是會陸續導入包括搜尋、廣告、Chrome 和 Duet AI 的產品應用之中。
自然,針對生成式 AI 流行爆發時,曾不斷警告安全性方面的疑慮的 Google。到了這次基本上算是全面輾壓對手的 Gemini 上,也不會忘記強調安全性以及負責任 AI 方面的考量。
官方強調 Gemini 模型有進行最全面的安全評估,針對包括偏誤與資料毒性方面以及網路攻擊等風險方面都有取得新的研究成果。以及對應的模型壓力測試,也對於具有傷害性的內容提供了強大的過濾機制。並表示針對真實毒性提示(Real Toxicity Prompts,)等指標性測試的部分,接下來也會有相關的資料提供參考。
Google 透露 Gemini 1.0 的大規模訓練運用了自研的 Tensor Processing Units(TPUs)v4 與 v5e,認為是相關應用迄今最可靠與最具擴展性的訓練方式,同時也是 Google 最有高效的服務模型。Google 也秀出了自家資料中心裡,由次世代 Cloud TPU v5p AI 加速器超級電腦的照片。某種程度也算是在 AI 相關應用之外,顯示出對於硬體發展方面的強大野心。