過去三個月來德國之聲(DW)的節目至少有兩個在暗示 AI 很可能隨時會泡沫化。然而史丹佛大學的「以人為本人工智能研究院」(Institute for Human-Centered Artificial Intelligence, HAI)在今年四月13日發布每年一次的《2026年人工智能指數報告》(The 2026 AI Index Report)時,該報告第一章(總覽,Overview)所凸顯的10個重點中第一個就是「AI 的性能並沒有停滯在高原期,而是在加速發展,並觸及更多的使用者」!
而 MIT 的《麻省理工科技評論》(MIT Technology Review)在報導這一份報告時,劈頭第一句就是:「如果你持續在關注 AI 的新聞,大概已經被搞得暈頭轉向。有人說 AI 是淘金熱,有人說是泡沫;有人說 AI 正在搶走你的工作,也有人說它連看時鐘都不會。」
一、史丹佛大學 HAI 的根據
史丹佛大學的報告裡首先突顯的是「AI 在基準測試裡的表現已經超越人類,並且在接近飽和(性能高到『基準測試』的極限而超越『基準測試』所能精確評估,甚至無法評估)」。下圖即用以突顯這個議題:
![]() |
| 取自 2026 AI Index Report(HAI)圖2.1.1 |
問題是,「基準測試」可靠嗎?
史丹佛大學報告裡「2.1 Overall Performance Trends」的第五小節「Benchmarking AI」裡(第78頁起)提出四大疑慮:(1)有些測試設計不良,甚至包含大量的錯誤,因而結果的可信度有問題(有些基準測試裡的無效問題高達42%,見2026 AI Index Report 第79頁的圖 2.1.5);(2)有些模型偷偷用基準測試的題目去訓練(等於把基準測試的題目當考古題),因此其基準測試的表現遠優於其真正的能力(學術界把這現象叫做「Benchmark Leakage」,並且有許多論文在討論);(3)大型語言模型的基準測試表現已經達到飽和(背後原因有可能是許多模型偷偷用基準測試當訓練材料,而不必然是其真實能力已經太高);(4)領先的大型語言模型所公布的資訊越來越少,越來越不透明,因此也越來越難以衡量其測試結果的可信度。
所以,完整的結論應該是:表面上大型語言模型的表現已經超越一般人類水準,然而不確知此表面結果是否可信!
既然基準測試不可信,是不是要相信網路上雜七雜八的個人使用心得?還是要相信網路上某些「大神」們的「鐵口直斷」?
個人使用心得很容易流於主觀和以偏概全(以個人的有限使用經驗去推斷數不盡的實際使用情況),其實也不可靠。與仰賴這些資訊,還不如參考「LMArena」(又稱 Arena Learboard)這個「參與者眾」的公共比試平台的資訊。
Arena Learboard 怎麼說(之一)
由於各種測試基準平台逐漸變成考古題,使其測試結果難以取信知情的人,仰賴大量使用者自行出題與評鑒的「LMArena」逐漸受到學術界與專業研究者的重視。
儘管這個平台的比賽積分也是可以被有心人操縱(文獻1、文獻2),不過一般的操縱應該是偏向抬高自己模型的積分,或貶抑對手的積分,而較少同時貶抑自己和對手的積分。因此在 Arena Learboard 主掌 AI 性能分析的 Peter Gostev 聚焦在「評測者對兩個競賽的模型都不滿意(以下簡稱「不滿意度」)」的表現,並將分析結果寫成一篇論文去發表,又同時在 YouTube 上面以 "What top models still suck at | Arena Deep Dive(以下簡稱「Gostev,2026」)" 為題發佈他的觀察與分析。
他先從580萬筆「不滿意」的紀錄中篩選出屬於專家的「不滿意」紀錄(共30萬筆),再從中篩選出不滿意度最低(表現最佳)的25個模型的紀錄(共4.1萬筆)來看其總體表現,結果發現:過去半年來AI 模型的各種基準測試成績表面上有在持續提升(見下圖),
![]() |
| 各種基準測試下不同 AI 的表現(出自 Gostev,2026) |
然而專家的總體不滿意度(共580萬筆紀錄)卻沒有明顯下降,而是在降到10%的水準以後下降速度就變得很緩慢,似乎很難再下降(如下圖所示)。這意味著領先的 AI 模型有可能遭遇到新的瓶頸。
![]() |
| 專家不滿意度(出自 Gostev,2026) |
如果近一步分析不同領域的不滿意度,就會發現在各個領域裡的不滿意度都停滯在「10%不滿意度」左右(見下圖)
![]() |
| 各領域的專家不滿意度(出自 Gostev,2026) |
Arena Learboard 怎麼說(之二:bullshit-benchmark)
Peter Gostev 跟他的同僚又設計了一百題毫無意義地鬼扯的問題(bullshit-benchmark)去測問各種 AI 模型,結果很多模型都中計,跟著90%以上的問題瞎扯,而只能清楚拒絕回答不到80%的鬼扯問題;即便是表現最佳的模型,也只能拒絕回答其中 91%的問題(對於3%的問題渾然不絕地認真跟著瞎扯,對於剩下的6%問題持局部的保留態度)(具體結果詳見下圖,一篇中文的報導在此)
![]() |
| 原始出處在此 |
這個測試告訴我們什麼?AI 沒有在真正地思考,也不懂真正的邏輯。它們只是在模仿人類語言(對話)的習慣,從而表現出貌似在思考的樣子(實則只是無意識、無知覺、更無自覺地在鸚鵡學舌而已)!
圖靈測試(Turing test)怎麼說?
圖靈測試(Turing test)怎麼說?
Alan Turing 被譽為被譽為電腦科學與人工智慧之父,他在1950年的《論計算機與智慧》(Computing Machinery and Intelligence)一文中問道:「機器會思考嗎?」,文中首度討論一個具有意識、懂得思考的機器是否可能存在,並提出利用「圖靈測試」(Turing Test)這項思想實驗作為判斷的標準:讓受試者(人類)同時與一個人類及機器交流,如果受試者無法區分何者為機器的話,則判定該機器具有思考能力,反之則無。
《自然》雜誌在2023年7月25日據此刊登一則新聞,認定ChatGPT已經能突破圖靈測試。這是因為這一則新聞用最寬鬆(不嚴謹)的方式理解「圖靈測試」。
如果我們用較嚴謹的方式理解「圖靈測試」,並將措辭清晰地重寫為「讓一群受試者(人類)同時與一個人類及機器交流,如果所有的受試者都無法區分何者為機器的話,則判定該機器具有思考能力,反之則無。」根據這個較清晰、嚴謹的陳述,顯然 Arena Learboard 的鬼扯測試(bullshit-benchmark)清楚顯示:至今所有的 AI 模型都沒有通過圖靈測試!
這不是我們要的人工智慧
牛津大學的電腦科學系講座教授 Michael John Wooldridge 獲頒英國皇家學院2025年的法拉第獎,並且在領獎時給了一個專題演講「This is not the AI we were promised」。在這個演講裡,他指出學術界一項以來對於所謂的「人工智慧」有兩項基本要求(見該演講錄影的第27分34秒):(1)對於任何問題,如果人工智慧給出了回答,該回答必須是正確的(而不是有時正確,有時錯誤,且難以預測,以至於判斷能力較弱的使用者會一在被誤導、愚弄而不自知);(2)如果人類提出的問題有正確的答案,人工智慧至少必須給出一個(正確)的答案。 然而至今所有的 AI 模型都無法避免幻覺,時而能解出超級艱難的題目又時而連最簡單的問題都回答不了(譬如,不會看時鐘)。因此 Michael John Wooldridge 說:這樣的人工智慧根本不是我們以前被許諾(也不應該是我們現在真正想要)的人工智慧!




