大型語言模型居然通過了圖靈測試?近日美國加州大學聖地亞哥分校公布了名為「大型語言模型通過圖靈測試」的研究報告,研究團隊對 OpenAI GPT-4.5、Meta LLaMa-3.1-405B 和 OpenAI GPT-4o 進行標準三方圖靈測試,結果發現 GPT-4.5 以 73% 的勝率通過了測試。
AI 與人類真假難辨?GPT-4.5 通過圖靈測試引熱議
在開始之前先來認識標準三方圖靈測試的測試過程,測試過程中總共會有人類測試者 C、人類受試者 B 和機器 A(AI)共三個角色,由 C 負責和 B 與 AI 對話,最後讓 C 判斷誰是機器、誰是人類。美國加州大學聖地亞哥分校研究團隊從該校正就讀心理學的學生中招募了 126 名參加者,同時也從線上研究平台 Prolific 招募了 158 名參加者來進行本次標準三方圖靈測試。
而研究團隊為 OpenAI GPT-4.5、Meta LLaMa-3.1-405B 和 OpenAI GPT-4o 都進行了設定,為這些 AI 模型下達了 NO-PERSONA 和 PERSONA 的提示,設定 PERSONA 提示的 AI 模型會表現出類人行為。NO-PERSONA 和 PERSONA 之間的差異就在於 NO-PERSONA 只知道自己要進行圖靈測試,目標就是讓參加者相信你是人類。而 PERSONA 則會被賦予角色性格或個性,讓它表現的更加像個人類。
研究團隊讓每個參加者與人類和 AI 大型語言模型同時進行五分鐘的對話,五分鐘後通過對話過程來判斷哪個是人類。大家可以看看測試對話內容,如果是你的話光從這些對話內容可以判斷誰是 AI,誰是人類嗎?
根據測試後來自心理學學生們和 Prolific 招募平台的參加者給於的回答,下達了 PERSONA 提示的 GPT-4.5、LLaMa 兩款模型被判斷為人類的比率都相當高。GPT-4.5 PERSONA 被認為是人類的比率為 73%(心理學學生: 69%,Prolific 參與者: 76%),而 LLaMa-PERSONA 的比率為 56%(心理學:45%,Prolific 參與者:65%)。
傳統的圖靈測試是讓人類與機器進行對話,如果人類無法區分哪一方是機器,那麼機器就被認為通過了測試。研究團隊表示實驗結果成為大型語言模型通過標準三方圖靈測試的第一個實證。
雖然說美國加州大學聖地亞哥分校研究團隊認為本次測試代表了大型語言模型通過了圖靈測試,不過隨著測試方法不同,「通過」的定義也不同。畢竟是被認為是人類的比率為 73%,並不是說全部人都選錯,對於測試結果是否就能定義為大型語言模型通過圖靈測試這點還是存在爭議。有興趣想瞭解的朋友也可以前往 arXiv 閱讀加州大學聖地亞哥分校研究團隊所發表的研究論文,自行評估究竟大型語言模型通過圖靈測試的判斷是正確的還是有待商討。