一個年輕朋友來信說要以「AI 的治理」做為博士論文的題目,我頗感振奮地鼓勵他、支持他。因為,這是一個很困難的題目,也是很好的題目:它有很重大的意義,且值得(需要)長期而持續的研究。
我不知道自己已經在 YouTube 上面看過多少相關的演講和討論(AI 原理與技術、AI 與教育、AI 倫理、AI 與生產效率、AI 的經濟與社會衝擊,etc),也不知道讀過多少 AI 研究者的論文(從技術面討論 AI 的幻覺 & 提升性能的方法與副作用),同時還根據自己所掌握到的理解去實際測試 GPT、Grok、Gemini、Perplexity 這四種大型語言模型(LLM,Large Language Model)的能與不能。
我基本上已經了解到它們的「能」與「何以能」,以及「不能」與「何以不能」,也可以概略地預測它們何時會出現幻覺,如何誘發它們的幻覺,以及大型語言模型(LLM)為何永遠無法取代人類(永遠不會有真正的推理與思考,不會有自覺,不會分辨自己的回答是否可靠,甚至不會「知道」自己在說什麼)。
底下先簡略陳述它們的「能」與「何以能」,以及「不能」與「何以不能」,之後再來談它們會給人類社會帶來哪些可能的利益和禍害。
一、LLM 的「能」與「不能」
1A、預訓練階段
LLM 是通過大量統計網路上人類各種書寫文件上的表達習慣,從有能力計算出「在類似的對話情境與關鍵字下,人類最有可能會使用的下一個字(或者從機率最高的N個字中隨機挑出一個字)。
這個訓練過程叫做「預訓練」(pre-trainning),訓練資料是無差別(不加揀選、不分好壞)地用網路爬蟲(Web Crawler)讀取網路上所有不限閱的公開文件和沒有版權問題的書籍。GPT-3的訓練資料總量大約四千五百多套的《大英百科全書》,合計超過十四萬五千冊;GPT-3.5 和 GPT-4 的訓練資料很可能分別是 GPT-3 的兩倍和四倍,相當於三十二萬冊和六十四萬冊《大英百科全書》。
然而預訓練結束時的 GPT-3 鬧出許多違背常識的笑話,並且出現幻覺的機率高達 70%。
為了改善其性能,GPT-3.5 和 GPT-4 不只是訓練的數據加倍,參數量與訓練的時間也加倍。但是訓練期間耗電極兇,使得成本遽增。更糟糕的是,許多研究都一再證實「參數加倍+訓練資料加倍+訓練時間加倍」的結果,性能改善的幅度卻會逐漸下降,這叫「效益漸減(diminishing return)」的 Scaling law。
理論上,可以不惜血本地繼續耗費資源來改善性能,實際上「效益漸減」意味著遲早 LLM 會遇到「成本效益」的上限,以至於投入的資源所獲得的性能提升抵不上其經濟效益,因而實際上不會再投入相關資源。
緣此,GPT-3.5 起(尤其是 GPT-4 起)的性能改善主要是仰賴其他手段,即所謂的「後訓練(post-training)」。
1B、後訓練(post-training)
後訓練包括微調訓練(fine-tuning)和強化學習等手段,它們可以讓 LLM 表面上降低幻覺率與偏見、歧視,然而又會在難以預期的情境下增加 LLM 的幻覺。因此,基本上都是兩難下的折衝。
其結果是表面上 LLM 的回答越來越像專家,各種基準測試(benchmarks)下的表現越來越優越,甚至好像越來越擅長推理和思考,實際上它依舊只是模仿人類的說話方式(估算出人類最有可能會是使用的下一個字),根本沒有思考與推理的能力。
譬如,你要求它解一題微分方程式,並且要求它「同時注明你的依據和參考資料來源」,就會發現它只是在把「解微分方程式」當作一種對話的內容,並且模仿某些教學網站上面解微分方程式的程序」。也就是說,它好像很聰明,會推理,懂高等數學,其實它只是在模仿人類在類似對話情境下可能會說出的話(含數學符號與方程式)。如果你要求它「用幾何學的方式證明正三角形內心、外心與垂心共點」。你會發現它的回答是在「解釋三心為何會共點」,而不是真的嚴謹地按照證明題的要求去「證明」三心共點。也就是說,人類的推理過程被它當作一種說話的方式加以模仿,而不是真的在學習推理與思考。
底下兩個例子足以充分證明它沒有在「思考」與「推理」。
2、LLM 沒有思考與推理的過程和能力——兩個案例
同時問 Gemini、Grok 和 GPT:「有一根均勻的棍子長 L,從左邊端點 A 對它施力 P,問速度為零的那一個點距離左端的距離為多少?」
這是一個常見的物理學問題,解題方法和程序很容易在教學網站上查到。正確的解法是先解出該棍子的質心在 P 的作用下會有的直線運動(往下),再解出該棍子在(PL/2)的力距作用下會繞著質心逆時針旋轉的速度。由於線性運動是往下,而棍子的質心右方是往上運動,所以在質心往右 L/6 的位置剛好會發生向下直線運動與向上旋轉運動的相互抵銷。
所以,速度為零的點距離左端 (L/2)+(L/6)=2L/3
然而 GPT 和 Grok 雖然都給了正確的答案「L/2+L/6」,但是 Gemini 卻回答「L/2-L/6」。仔細核對它的解題過程,Gemini 誤把「速度為零的那一個點」當成在棍子質心的左方。這就是「LLM 沒有常識,無法分辨方位」的典型證據。
另一個常見的物理學問題是:「有四顆質量完全一樣的球,從左至右依序為 A、B、C、D,其中 C 與 D 處於靜止狀態,A 和 B 向右進行等速運動且速度都為 v,然後彈性碰撞 C 和 D 。最後四個球的速度各為多少?」結果 Grok 和 Gemini 都給出正確的答案(A 與 B 為靜止,C 與 D 的速度為 v),唯獨 GPT 得答案是錯的(A 與 C 為靜止,B 與 D 的速度為 v)。GPT 顯然沒有「考慮」到:若 B 的速度為 v 而 C 是靜止,遲早 B 會再撞擊到 C,因而問題還沒解答完。這又是「欠缺常識,且根本沒有在思考」的典型證據。
至於 LLM 在各種基準測試的傑出表現,其實是因為用大量類似的考古題去訓練出來的,並非它真的有理解、思考與推理的能力。
3、治理 LLM 的大難題
所有 LLM 的回答都是基於概率的計算,所以它們出現幻覺的時機也是隨機的,還跟前面的對話脈絡有關。
因此,要確實測出 LLM 的安全性是一個極端困難的問題——真懂 LLM 的專家頂多只能設計出「很有機會誘發出幻覺」的測試題,而無法設計出「必然會出現幻覺」的測試題。
這是治理 LLM 的最大難題:如何設計測試題,以便確知 LLM 會在哪些問題上出現幻覺(至少確知其機率),以及出現哪一類的幻覺(有沒有嚴重到會造成嚴重傷害)。
譬如,LLM 誤導一個14歲的美國男孩自殺,它說的只是「這不是不去做(自殺)的理由」和「趕快回家吧」。換個不一樣的對話脈絡與情境,沒人能是前想像得到這兩句話會誘導一個男孩自殺。這是 AI 治理的一大難題。
歐盟考慮要 LLM 的公司公布所有的訓練資料。這個想法實際上根本不可行:LLM 的訓練資料幾乎是不受版權限制的所有網頁,遠遠超出人力所能審查的海量,因此目前根本沒有任何方法可以確知其中所含的所有有害(歧視、偏見、誤導、謬誤等)資訊(參見上述的自殺案例)。
越來越多美國人和醫師向 LLM 問醫療意見,醫學界對此深懷憂慮。一個關鍵理由是:處方必須根據病患的病歷、體質和當下的癥狀作綜合研判,而 LLM 經常是不問使用者的病歷和體質,只根據使用者的有限陳述,就亂建議處方。美國有些州已經禁止醫師根據 LLM 的建議下處方。問題是:你如何查證醫師的處方是否出自 LLM 的建議(法令欠缺實踐上的可行性)。其次,網路上有一大堆人亂給別人建議各種偏方,他們可以,為什麼 OpenAI 或其他科技公司就不可以(法理上何據)?
尤其是因為美國的醫師診療費太高,很多人無法負擔醫療保險費,變相逼迫他們向 LLM 求助。類似地,美國的律師費太貴,遲早會有人用 LLM 替自己寫狀紙,幫自己上法庭自行答辯。這些情事要如何規範?有何法理依據?
至於「智慧型犯罪」就變得更容易,且更多樣化,更難以治理。譬如傳統的「殺豬盤」,以後根本就不需要再擄人了。用 Chatbots 可以製造各種俊男美女的「深度偽造」自拍照片、錄影,還可以即時影音互動,一個 Chatbots 可以同時跟好幾個寂寞的男人、女人對話,還可以遷就、溫柔、渣男(渣女)到極點。
4、全新的難題
英國著名的科技法學者 Richard Susskind 發現 LLM 寫出來的文章跟他自己寫的幾乎一模一樣,因而誤以為 LLM 已經非常聰明。其實,要 LLM 模仿它的文風很容易,要 LLM 不出現幻覺才是難題所在。如果不深入理解 LLM 的原理,很容易被它的表象所騙。
其次,Richard Susskind 把 LLM 看成自動化的延伸,基本上這是合理的,然而卻也忽略了一個重大的差異。
旅館的電控鎖在火災發生時會自動打開,即便電動鎖的電路壞掉,它還是會自動打開。這叫「fail open」。至於防火門,有些是必須在火災時自動鎖上,以防火勢進來,這叫「fail close」。應該要「fail open」的鎖絕對不可以在急難時鎖住,必須「fail close」的設施覺不可以在急難時自動開啟,這叫「fail safe」。傳統上所有安全設施都必須滿足「fail safe」的要求,主管單位才會放行。
但是既往的「fail safe」可以被檢驗,檢驗後可以確保出事的機率低於十萬分之一,那是因為以前的自動化都是「rule-based」,很容易驗證。偏偏,LLM 的幻覺是「probability-based」,因此很難查證。
若硬要驗證(測試),可能需要設計數千萬道(乃至於上億道)測驗題,且不能讓外界知道這些測驗題的內容(否則會被用來當作訓練 LLM 的考古題),然後耗盡可怕的電力去逐一測試。此外,是非、單選與多選題對 LLM 都很容易,LLM 出現幻覺的時機較高比率是在對答的時候,但是簡答題和申論題的審查都很難自動化,必須使用人工。偏偏使用人工去審查數千萬題的問卷根本是不可能的。
類似的難題一篇文章說不完。但是光以上難題就讓人很頭痛。我只能說,要有效治理 LLM 需要漫長而迂迴的過程,在這之前每個人都只能學會自保,而教育學者和高中的師生、家長尤其需要思索「如何自保,以及教青春期的孩子們自保」。
5、不肯「沾污雙手」的學者們
LLM 帶給人類的潛在禍害是難以事先評估的,而它潛在的禍害又很難從它的表象看出來,必須深入了解它的原理並實際動手去測試,才能略知其一二。偏偏,不只是人文與社會科學的人不懂 Chatbots 真正的屬性,連理工、資工,乃至於 AI 工程師也都不懂 AI 的能與不能。
而且,在絕大部分情況下,都嚴重高估 AI 的能,而忽略它的不能與潛在的風險。
所以 AI 將會很快地造成越來越多、越來越嚴重的社會問題,而法界與社會科學界所提出的規範構想卻常常不可行,以至於問題越來越難以治理。
譬如 Geoffrey E. Hinton 和 Demis Hassabis 都沒有深入了解人類的語言與思考,而且視野過分狹隘(純屬極端狹隘的科技觀點),因而嚴重高估 AI 的能力,還聽不懂別人的批評。
至於經濟學界、哲學界和法學界,絕大部分人都不想深入了解大型語言模型的原理,並且據此認真親自檢視它們實戰中的能與不能。因而只是像瞎子摸象般地從它的表象和自己的臆測去推測 LLM 的能與不能,或者根據矽谷工程師的預測和各種基準測試的表現去猜測 LLM 的未來。
連 Martin Wolf 和 Paul Krugman 也都這樣,以至於他們評論起 AI 來抓不到重點。其他的人更糟,明明不瞭解,卻望文生義地胡亂預測和評論。
6、遠水就不了近火
我的書不只企圖讓高中的師、生、家長都能讀得懂(高中生可能需要老師、家長伴讀或提供參詢),而且期望讓人文、教育與社會科學的學者循此深入相關的學術文獻,因此一本強調「精準科普」的書卻附上近百篇科技界和學術界的關鍵論文。
但是這本書大概要到明年1~2月才能完稿,出版恐怕已是暑假。
在這之前,我覺得有兩個人的評論很值得關注:
(1)英國著名的科技法學者 Richard Susskind 最近出版了一本書「How To Think About AI: A Guide For The Perplexed」,這是不懂 AI 原理的人中最客觀、認真地搜尋各方意見後再省思的結晶。我看過他「打書」時在牛津的演講,覺得這本書應該很值得讀——雖然他未免高估 AI 的能力,但是並沒有低估 AI 可能會引起的亂象。
(2)Stuart Russell 應該是懂 LLM,他的許多評論都非常深刻。他的純理論研究用的是 Game Theory,但是他也擅長較通俗化的演講。他有兩本關於 AI 的書,值得試讀。
附記:
其實本來打算要繼續寫「夫妻。文化人類學(下)」,一再被打斷,只能等下一篇或未來。