也許是因為在近來生成式 AI 突然爆紅的浪潮裡,Meta 比較算是偏向於落後的梯隊。所以在相關技術方面,他們會比較偏向於希望能出奇制勝的路數。最近他們所發表,讀音與英文變色龍類似,以 CM3 因果遮罩混合模態模型為基礎所打造支援圖文互轉的「CM3Leon」AI 技術,就是一個例子。繼續閱讀 Meta 火力展示 CM3Leon 生成式 AI 技術,不僅圖文間可以互轉還有更高應用彈性與高效率報導內文。
▲本篇圖片來源:Meta
Meta 火力展示 CM3Leon 生成式 AI 技術,不僅圖文間可以互轉還有更高應用彈性與高效率
與現有的 Stable Diffusion、DALL-E、Midjourney 所使用的 diffusion 模型技術不同,Meta 強調他們採用的是以 token 為基礎的自回歸模型技術。強調訓練時的高效率與低成本,運算量僅需現有普遍採納的技術的 1/5,甚至在訓練集僅用了 30 億文本 token 的前提下,在包括在零樣本性能的測試中,不僅可以達到與 OpenFlamingo 同級表現,甚至在特定的測定中還有超越 Flamingo 的表現(做為參考,OpenFlamingo 使用了 400 億個 Token;Flamingo 則是高達 1,000 億個 Token)。
就官方的說明,以文本為基礎的 CM3Leon,與主流技術不同架構選擇採用的是 decoder-only transformer,藉由更高效率達到現階段生成式 AI 十分接近的表現。其特點不僅是可以兼顧圖文雙向轉換 – 還包括幫圖像加上細節,或者是產生出超高細節的圖片。更能提供詳盡的圖說功能,讓使用者可以直接詢問圖片中的各種細節 – 其實這個 OpenAI GPT-4 就有與視障應用提供類似功能,但最近倒是遇到人臉辨識的隱私問題…
CM3Leon 不僅還可支援分析切割出圖片的區塊(類似於去背)的功能。還能進一步提供圖像中的架構分析,甚至還透過描述產生出精確位置或尺寸的空間圖片構成 – 這對於建築設計方面的生成式應用應該很有幫助?
相對於其他競爭對手直接硬拼 diffusion 技術的火力,較偏向於找尋不同圖片生成技術解決方案的 Meta,他們的 CM3Leon 不僅功能彈性極高,又透過相對簡單暴力的方式來處理生成式 AI 的任務。他們認為,人工智慧在這塊領域的理解以及面對的挑戰仍處於相當早期的階段,因此 Meta 希望能以更透明的方式來促成行業中的進一步合作。
是的,Meta AI 也在網站上釋出了詳細的研究論文 – 這也是相當出其不意的路數啊。
就目前看來,Meta 對於生成式 AI 的發展雖然跟科技狂人 Elon Musk 都處於苦苦後追的撞太,不過兩邊展現出來的態度可以說是大大不同 – Meta 最近的 CM3Leon 與 Llama 2 就不特別提了,算是走向開源與透明並提出不同的方向來切入這塊應用,而且還非常有誠意(至少看起來是);至於那個 Elon Musk…(看更多:叫 OpenAI 暫停開發六個月的馬斯克,自己卻創立了新的 AI 公司 X.AI)