代號為 Strawberry 的 OpenAI o1 語言模型,雖然前綴看不到「GPT」的名稱,但就目前的示範以及後續的規劃,都是可以在 ChatGPT 裡選擇切換使用。繼續閱讀會思考(Thinking)的 ChatGPT 最新模型 o1 與 o1 mini 來了,志在陪伴研究者脫離難題的「兔子洞」報導內文。
▲本篇圖片來源:OpenAI
會思考(Thinking)的 ChatGPT 最新模型 o1 與 o1 mini 來了,志在陪伴研究者脫離難題的「兔子洞」
在必須對應與人類對話的快速思考的 GPT-4o 後。OpenAI 反其道而行,今天帶來會以「Thinking」思考中來 拖台錢 提供更有脈絡可循的邏輯推理回答的 OpenAI o1,以及更對應開發者使用的 OpenAI o1 mini 大型語言模型。
代號為 Strawberry 的 OpenAI o1 語言模型,雖然前綴看不到「GPT」,但就目前的示範以及後續的規劃,都是可以在 ChatGPT 裡選擇切換使用,並且會提供給 ChatGPT Plus 與團隊版先行使用;企業與教育使用者則是會稍晚一週提供。
雖然感覺這個 OpenAI 認為特別適合科學、數學、程式編寫等專業用途的模型,應該基本上就是他們的次世代 LLM 了。
不過外媒倒是向該公司取得證實,比起目前世代要「大得多(considerably larger)」的語言模型 GPT-5 的開發已是現在進行式。還透漏將會結合 o1 的最新「Chain of Thought」思考模式等技術,將會結合更大規模 LLM 的優勢,帶來新世代的 OpenAI 模型。
透過會在介面中直接告知解題邏輯的「Chain of Thought」處理方式。OpenAI o1 模型不會急於吐出答案趕快證明自己的博學多聞。而是會先整理問題的子項目,降低遇到推理陷阱的機率。
在介面上,雖然 OpenAI 有刻意想要保持競爭優勢的關係而不顯示 Chain of Thought 的原始資料。但使用者還是可以展開 ChatGPT 視窗裡的文字介面,觀看 OpenAI o1 模型的脈絡的「摘要」。
就目前 OpenAI 在官網上所釋出,提供包括研究遺傳學、量子物理、經濟學等專業研究者的心得回應都有相當高的評價。
嗯… 雖然畢竟是官方拍的影片所以通常會比較正向。不過官方也有提供包括在國際數學奧林匹克(IMO)資格考方面,OpenAI o1 可以正確解決 83% 的習題(做為比較,GPT-4o 則是僅有 13%);Codeforces 程式設計挑戰則是取得了勝過 89% 對手的優異表現 – 這部份據說是比專精於此的 Deepmind AlphaCode 2 更強。
是說,初步參與 OpenAI o1 實測的人也還是有提到,即便這個更懂思考的模型對應可以分成多個子任務項目的複雜問題,的確具備了很好的解題能力。但也不難看到這類大型語言模型仍然會有的幻覺問題 – 畢竟改進的是思考方式以及給予更寬裕的分析時間。
不過既然會需要思考更久,似乎也代表著算力的成本會隨著 OpenAI o1 節節上升。也因為這樣,每百萬輸入 token 的價格,據報也來到了 15 美元(輸入)/60 美元(輸出),基本上是 GPT-4o 的 3~4 倍左右了。
不過這對於希望能確保大型語言模型盡可能不出錯,還能更容易確認思考邏輯時否有出狀況的更專業學術使用需求來說,這應該是相當值得的成本吧?