清大彭明輝的部落格: AI 的性能還有在提升嗎？

過去三個月來德國之聲（DW）的節目至少有兩個在暗示 AI 很可能隨時會泡沫化。然而史丹佛大學的「以人為本人工智能研究院」（Institute for Human-Centered Artificial Intelligence, HAI）在今年四月13日發布每年一次的《2026年人工智能指數報告》（The 2026 AI Index Report）時，該報告第一章（總覽，Overview）所凸顯的10個重點中第一個就是「AI 的性能並沒有停滯在高原期，而是在加速發展，並觸及更多的使用者」！

而 MIT 的《麻省理工科技評論》（MIT Technology Review）在報導這一份報告時，劈頭第一句就是：「如果你持續在關注 AI 的新聞，大概已經被搞得暈頭轉向。有人說 AI 是淘金熱，有人說是泡沫；有人說 AI 正在搶走你的工作，也有人說它連看時鐘都不會。」

德國之聲（DW）的深度專訪可信嗎？史丹佛大學的報告可信嗎？還有比它們更值得信賴（或同等值得信賴）的報告嗎？我們到底該信誰？

一、史丹佛大學 HAI 的根據

史丹佛大學的報告裡首先突顯的是「AI 在基準測試裡的表現已經超越人類，並且在接近飽和（性能高到『基準測試』的極限而超越『基準測試』所能精確評估，甚至無法評估）」。下圖即用以突顯這個議題：

取自 2026 AI Index Report（HAI）圖2.1.1

問題是，「基準測試」可靠嗎？

史丹佛大學報告裡「2.1 Overall Performance Trends」的第五小節「Benchmarking AI」裡（第78頁起）提出四大疑慮：（1）有些測試設計不良，甚至包含大量的錯誤，因而結果的可信度有問題（有些基準測試裡的無效問題高達42%，見2026 AI Index Report 第79頁的圖 2.1.5）；（2）有些模型偷偷用基準測試的題目去訓練（等於把基準測試的題目當考古題），因此其基準測試的表現遠優於其真正的能力（學術界把這現象叫做「Benchmark Leakage」，並且有許多論文在討論）；（3）大型語言模型的基準測試表現已經達到飽和（背後原因有可能是許多模型偷偷用基準測試當訓練材料，而不必然是其真實能力已經太高）；（4）領先的大型語言模型所公布的資訊越來越少，越來越不透明，因此也越來越難以衡量其測試結果的可信度。

所以，完整的結論應該是：表面上大型語言模型的表現已經超越一般人類水準，然而不確知此表面結果是否可信！

既然基準測試不可信，是不是要相信網路上雜七雜八的個人使用心得？還是要相信網路上某些「大神」們的「鐵口直斷」？

個人使用心得很容易流於主觀和以偏概全（以個人的有限使用經驗去推斷數不盡的實際使用情況），其實也不可靠。與仰賴這些資訊，還不如參考「LMArena」（又稱 Arena Learboard）這個「參與者眾」的公共比試平台的資訊。

Arena Learboard 怎麼說（之一）

由於各種測試基準平台逐漸變成考古題，使其測試結果難以取信知情的人，仰賴大量使用者自行出題與評鑒的「LMArena」逐漸受到學術界與專業研究者的重視。

儘管這個平台的比賽積分也是可以被有心人操縱（文獻1、文獻2），不過一般的操縱應該是偏向抬高自己模型的積分，或貶抑對手的積分，而較少同時貶抑自己和對手的積分。因此在 Arena Learboard 主掌 AI 性能分析的 Peter Gostev 聚焦在「評測者對兩個競賽的模型都不滿意（以下簡稱「不滿意度」）」的表現，並將分析結果寫成一篇論文去發表，又同時在 YouTube 上面以 "What top models still suck at | Arena Deep Dive（以下簡稱「Gostev，2026」）" 為題發佈他的觀察與分析。

他先從580萬筆「不滿意」的紀錄中篩選出屬於專家的「不滿意」紀錄（共30萬筆），再從中篩選出不滿意度最低（表現最佳）的25個模型的紀錄（共4.1萬筆）來看其總體表現，結果發現：過去半年來AI 模型的各種基準測試成績表面上有在持續提升（見下圖），

各種基準測試下不同 AI 的表現（出自 Gostev，2026）

然而專家的總體不滿意度（共580萬筆紀錄）卻沒有明顯下降，而是在降到10%的水準以後下降速度就變得很緩慢，似乎很難再下降（如下圖所示）。這意味著領先的 AI 模型有可能遭遇到新的瓶頸。

專家不滿意度（出自 Gostev，2026）

如果近一步分析不同領域的不滿意度，就會發現在各個領域裡的不滿意度都停滯在「10%不滿意度」左右（見下圖）

各領域的專家不滿意度（出自 Gostev，2026）

Arena Learboard 怎麼說（之二：bullshit-benchmark）

Peter Gostev 跟他的同僚又設計了一百題毫無意義地鬼扯的問題（bullshit-benchmark）去測問各種 AI 模型，結果很多模型都中計，跟著90%以上的問題瞎扯，而只能清楚拒絕回答不到80%的鬼扯問題；即便是表現最佳的模型，也只能拒絕回答其中 91%的問題（對於3%的問題渾然不絕地認真跟著瞎扯，對於剩下的6%問題持局部的保留態度）（具體結果詳見下圖，一篇中文的報導在此）

原始出處在此

而且，雖然很多人以為 AI 模型現在真的有加入「推理」並強化其「思考能力」，然而實際的測試卻顯示：啟動「思考模式」的結果不但沒有明顯提升 AI 模型對鬼扯問題的辨識能力，有時候還反而降低其辨識能力。此外，增加模型參數也不必然會提升它們的辨識能力。

這個測試告訴我們什麼？AI 沒有在真正地思考，也不懂真正的邏輯。它們只是在模仿人類語言（對話）的習慣，從而表現出貌似在思考的樣子（實則只是無意識、無知覺、更無自覺地在鸚鵡學舌而已）！

圖靈測試（Turing test）怎麼說？

Alan Turing 被譽為被譽為電腦科學與人工智慧之父，他在1950年的《論計算機與智慧》（Computing Machinery and Intelligence）一文中問道：「機器會思考嗎？」，文中首度討論一個具有意識、懂得思考的機器是否可能存在，並提出利用「圖靈測試」（Turing Test）這項思想實驗作為判斷的標準：讓受試者（人類）同時與一個人類及機器交流，如果受試者無法區分何者為機器的話，則判定該機器具有思考能力，反之則無。

《自然》雜誌在2023年7月25日據此刊登一則新聞，認定ChatGPT已經能突破圖靈測試。這是因為這一則新聞用最寬鬆（不嚴謹）的方式理解「圖靈測試」。

如果我們用較嚴謹的方式理解「圖靈測試」，並將措辭清晰地重寫為「讓一群受試者（人類）同時與一個人類及機器交流，如果所有的受試者都無法區分何者為機器的話，則判定該機器具有思考能力，反之則無。」根據這個較清晰、嚴謹的陳述，顯然 Arena Learboard 的鬼扯測試（bullshit-benchmark）清楚顯示：至今所有的 AI 模型都沒有通過圖靈測試！

這不是我們要的人工智慧

牛津大學的電腦科學系講座教授 Michael John Wooldridge 獲頒英國皇家學院2025年的法拉第獎，並且在領獎時給了一個專題演講「This is not the AI we were promised」。在這個演講裡，他指出學術界一項以來對於所謂的「人工智慧」有兩項基本要求（見該演講錄影的第27分34秒）：（1）對於任何問題，如果人工智慧給出了回答，該回答必須是正確的（而不是有時正確，有時錯誤，且難以預測，以至於判斷能力較弱的使用者會一在被誤導、愚弄而不自知）；（2）如果人類提出的問題有正確的答案，人工智慧至少必須給出一個（正確）的答案。

然而至今所有的 AI 模型都無法避免幻覺，時而能解出超級艱難的題目又時而連最簡單的問題都回答不了（譬如，不會看時鐘）。因此 Michael John Wooldridge 說：這樣的人工智慧根本不是我們以前被許諾（也不應該是我們現在真正想要）的人工智慧！

清大彭明輝的部落格

部落格導覽

2026年5月1日星期五

AI 的性能還有在提升嗎？

部落格導覽

2026年5月1日 星期五

AI 的性能還有在提升嗎？

2026年5月1日星期五