果然就如外媒爆料,OpenAI 真的於本週推出 GPT-4.1 系列模型,包括 GPT‑4.1、GPT‑4.1 mini、和 GPT‑4.1 nano,效能比 GPT-4o 還要強悍,OpenAI 也有提供相關數據佐證,不過這次比較特別地方在,這系列只有 API 能用,也就是說,ChatGPT 預計不會導入。
GPT-4.1 系列模型正式亮相,與 GPT-4o 的效能差距
為了讓用戶能快速了解 GPT-4.1 系列的效能跟 GPT-4o 差距,OpenAI 分享了這樣的一張圖:
從圖中可以觀察到,GPT-4.1 的 MMLU 些微領先 GPT-4o,同時保持一樣的延遲表現,價格則便宜
而 GPT‑4.1 mini 和 GPT-4o mini 相比,提升幅度最大,更重要是,MMLU 表現還跟 GPT-4o 接近,這真的亮眼。
OpenAI 也提到 GPT‑4.1 mini 在小模型的效能上取得明顯飛躍,甚至很多基準測試都超越 GPT‑4o,延遲降低近一半、成本更低了 83%。
GPT-4 nano 雖然 MMLU 表現還比 GPT-4o mini 差,但延遲較低很多,適合用於低延遲的任務,搭配上 100 萬 token 的上下文窗口,可提供非常不錯的效能表現。
補充:GPT‑4.1 系列模型都能穩定參考完整 1 百萬 token 的上下文信息。
細看各項測試,GPT-4.1 都領先 GPT-4o 相當多,像是 SWE-bench Verified 以 55% 的完成度,高於 GPT-4o 的 33%:
GPT-4.1 的 Aider’s polyglot benchmark whole 和 diff 也都高於 GPT-4o,連 GPT-4.1 mini 也小幅領先 GPT-4o:
GPT‑4.1 也具備更可靠的遵循指令表現,幾乎就跟 o1-high、o3-mini-high 一樣:
OpenAI 官方的介紹文中,有分享更多 GPT-4.1 的測試數據,有興趣的人可以過去看看。
GPT-4.1 系列模型的 API 費用多少?
以下是 GPT-4.1 系列模型的 API 費用:
下圖是跟 GPT-4o 比較,GPT-4.1 的 Input 為 2 美金,GPT-4o 要 2.5 美金。Output 則是 8 美金 vs 10 美金。GPT-4.1 mini 就更不用說,便宜超級多:
為何 GPT-4.1 系列僅限 API 使用?
為此 OpenAI 只有說到:「GPT‑4.1 將僅通過 API 提供。在 ChatGPT 中,在指令遵循、程式碼以及智慧方面的改進,都已經逐步被納入最新版本的 GPT-4o ,未來的版本我們也會持續融入更多改進。」
API 雖然加入新的 GPT-4.1 系列模型,但相對也會淘汰 GPT‑4.5 Preview,因為 GPT‑4.1 的許多關鍵能力都提供更好或相近的表現,且成本和延遲大幅降低。預計 2025 年 7 月 14 日停用。
而 ChatGPT 則是會繼續保留 GPT‑4.5 Preview(如果到時沒有推出新版本),因此猜測應該主要是這原因,要用戶這個就好了。
GPT-4.1 直播發表影片: