現在 AI 越來越厲害,相信很多人現在工作、讀書多少都有用過 AI。大家有想過如果 AI 去考試的話表現會如何嗎?中國媒體讓 OpenAI、百度、阿里巴巴、騰訊、字節跳動等總共 9 家 AI 人工智慧大模型挑戰 2024 年中國難度最高的高考考卷,想要了解依現在 AI 大模型的水平究竟能不能考上清華北大。測試的結讓人意外,沒想到 AI 居然文科比理科還強。一起來看看 9 家 AI 大模型挑戰中國 2024 年難度最高的考卷表現如何吧!
9 家 AI 大模型挑戰最難中國高考考卷,只有四家能進一流大學
中國媒體極客公園邀請 GPT-4o(OpenAI)、文心 4.0(百度)、通義千問 2.5(阿里巴巴)、元寶(騰訊)、豆包(字節跳動)、百小應(百川智能)、Kimi 智能助手(月之暗面)、智譜清言(智譜 AI)、海螺 AI(MiniMax),共 9 家 AI 大模型來挑戰 2024 年中國高考難度最高的新課標 Ⅰ 卷:河南卷。
先看結果,9 家 AI 大模型在文科表現相當優異有 4 家(GPT-4o、豆包、文心 4.0、百小應)超過河南高考一本線文科的分數。不過理科方面 9 家 AI 大模型的表現都不好,沒一家能上一本大學。
(為防止大家不知道中國一本大學有哪些,北京大學、清華大學、復旦大學、浙江大學等等都是中國一本大學。)
大家可能覺得很奇怪,電腦不是應該要算術邏輯方面表現要比較好嗎?結果 9 家 AI 大模型在理科方面都表現得很不好,特別是在數學方面,9 家的數學平均分只有 47 分。總分 150 分,最高分是 GPT-4o 的 70 分。
極客公園發現大模型不是不會解數學題目,推理步驟相對簡單的問題可以回答正確,不過較複雜的推導和證明問題就會讓大模型手足無措因此失分。而且大模型不會回去檢查是否有計算錯誤的問題,不會反思,如果算出來的答案沒有在選項裡,大模型就會直接回答沒有正確選項。
不過雖然理科方面表現得不好,但是在文科方面 9 家 AI 大模型表現都相當出色,有 4 家可以進入中國一本大學。大模型在語言類的優勢比較明顯,連古詩文都可以達到 90 %的得分率。GPT-4o 甚至在政治獲得了 91.5 分的高分。
負責閱卷中文作文的夏老師評價 AI 寫的文章,夏老師表示他對於 9 家 AI 大模型所寫的作文整體評價是寫作能力已經超過學生的平均水平,可以在文章裡看到清晰的論述框架和邏輯且行文流暢、少有語病。(可能是大家都叫大模型寫文章,讓大模型被訓練到超會寫了)
不知道大家看完本次 9 家 AI 大模型挑戰中國 2024 年難度最高的考卷的表現後有什麼想法呢?極客公園表示這次的挑戰只是想了解人類和大模型的智力水平處在什麼樣的相對位置上。從結果上看現在 9 家 AI 大模型都是有不錯競爭力的高考文科偏科生,這也讓許多中國網友在網路上表示「看來文科生被替代性更大」、「我就說數學根本不是人學的!」
其實 AI 大模型理科較弱這一點在台灣 YouTuber cheap 的「ChatGPT 考指考能不能考上台大醫科」的影片中就已經有先例。當時影片中測試出的結果因為 ChatGPT 的數學太爛導致 ChatGPT 沒辦法考上台大醫科,連清大、交大也都只能上文組的系所,可見 AI 大模型的理科真的是不太 OK。