DALL-E 3 已經是 2023 年 9 月推出的事,至今過了一年半,以 AI 時代來說,更新速度確實有點慢,這期間也有不少用戶在 OpenAI 官方討論串中敲碗,什麼時候才會有新的圖片生成模型。終於在稍早,OpenAI 推出新一代 4o Image Generation 圖片生成功能,沒錯,現在 GPT-4o 也能生成圖片了,而且不只是付費用戶能用,首波也一併開放給免費用戶。
更重要是,這次 4o 的圖片生成還支援文字,英文、中文都可以,我測試效果非常棒。
OpenAI 全新 4o Image Generation 圖片生成功能登場
相較於先前的純圖片生成 DALL-E 3 模型,這次導入到 GPT-4o 的圖片生成功能用途又更加廣,不僅能生成圖片,還可以針對現有圖片添加內容、轉換成其他風格、將程式碼轉換成圖片、以及參考多張圖片並根據描述要求生成一張新的圖片。
OpenAI 表示透過原生多模態模型,4o Image Generation 可實現精準、準確且具真實感的影像輸出,意味著不再只是生成「大致接近」的圖片,而是能以極高的還原度與細節控制,建立跟現實世界非常接近的圖片內容。
下方是 OpenAI 提供的幾張圖片。
一張偷拍風格的照片,畫面中 Karl Marx 匆忙地穿過美國商城的停車場,他驚慌地回頭張望,試圖避開鏡頭,不讓人拍下來。他緊抓著數個閃亮的購物袋,裡面裝滿奢侈品,大衣在風中飛揚,其中一個袋子因他正邁步走路而晃動著。背景呈現出模糊的汽車與發光的商城入口,強調動態效果。鏡頭的閃光使得部分畫面過曝,整體照片呈現出一種混亂、八卦小報風格的感覺。
生成一張寫實風格的圖像,場景為 2006 年夏季某個週六在多倫多的農夫市集。天氣晴朗、陽光明媚,是六月下旬的一個美好日子,人們正悠閒地逛市集、購物並吃著三明治。畫面焦點應放在一位年輕的亞洲女孩身上,她穿著牛仔吊帶褲,手中拿著一杯草莓香蕉冰沙輕啜著。其餘背景人物與市集細節可以模糊處理,讓主體更突出。整張圖像應模仿2006 年數位相機所拍攝的風格,呈現出那種略帶噪點與曝光特性的畫質,並在照片一角加入類似沖印相片的時間戳記。畫面比例為 3:2。
一張模糊的老式類比底片照片,畫面為夜晚安靜巷弄中停靠著的一輛汽車。整體氣氛靜謐,畫質帶有底片特有的顆粒感與柔焦效果,彷彿是過去某段時光隨手拍下的片刻。照片創作者:Roope Rainisto
過去使用 AI 圖片生成時,很多人應該都有遇過,原本 AI 生成出還蠻滿意的圖片,但希望再做一些變動,隨後 AI 生成結果就慢慢偏離原本的圖片風格。
為此 OpenAI 提到,由於圖片生成功能已經和 GPT‑4o 整合,GPT‑4o 能夠根據對話中的圖片與文字上下文持續建立內容,並確保創作過程中的一致性與延續性。
此外這次的新圖片生成功能還能精準的產生指定文字的圖片:
其他工具通常只能處理約 5 到 8 個物件, OpenAI 宣稱 GPT‑4o 能同時處理達 10 至 20 個不同物件,且在物件特徵與彼此關係上的綁定更加緊密,這也讓用戶能夠對圖片中的每個元素,進行更細膩的控制。
我實測丟阿達的大頭貼,要求融入這張圖並加入指定文字,下方是我的提示詞。
生成一張融入這個大頭貼,背景有未來感,並加入電腦元素,呈現一種專業 AI 科技的氛圍,圖片上要有「電腦王阿達」字
出來結果,真的超強,大頭貼完美復刻,中文字也完美加上:
隨後我再要求改成寬尺寸,在電腦王阿達下方加入 4o Image Generation 字,也完美成功,有夠猛:
生成真實風格人像也沒 AI 感:
值得注意的是,所有由 GPT‑4o 生成的圖片都會內嵌 C2PA 中繼資料,用來標示這張圖片是由 GPT‑4o 所產生。
GPT-4o 圖片生成功能已經正式開放給所有用戶,包括 Plus、Pro、Team 和免費用戶,只需要在 GPT-4o 模型中,輸入你要生成的圖片提示詞即可: