大型語言模型推理能力

當今,大型語言模型(LLM)在處理複雜問題時所展現的「推理」能力,無疑是人工智慧領域最引人入勝且充滿爭議的核心謎題之一。我們常常會驚訝於 AI 不僅能給出答案,還能提供看似邏輯嚴密的逐步解題過程,這讓許多人感覺螢幕對面不再是冰冷的程式碼,而是一個真正具備智慧的實體。然而,在某些情況下,模型又可能給出荒謬的錯誤答案,令人質疑其真實理解能力。這種巨大的反差,引發了學術界和工業界對 LLM 推理本質的深入探討:這究竟是真智能的湧現,還是一種高級模式匹配?它是在進行邏輯推導,抑或僅僅是模仿它在網路上看過無數解題步驟?

為了解答這些疑問,谷歌 DeepMind 的丹尼(Denny Zhou)及其團隊的開創性工作至關重要,他們奠定了我們理解和使用 LLM 推理能力的基礎。Denny Zhou 在斯坦福大學的演講中,系統性地梳理了 AI 推理能力從概念到技術演進的完整路線。本篇文章將以其見解為藍本,從最基礎的概念出發,層層深入,揭示大型語言模型「思考」的秘密。

推理的本質:中間步驟的生成與理解

在探討 LLM 的推理能力時,首先需要一個清晰且可操作的定義。Denny Zhou 迴避了關於模型是否「會思考」的哲學辯論,而是給出了一個具體的工程定義:推理,指的是在模型的輸入(問題)和最終輸出(答案)之間,生成的所有中間步驟。這個定義將模糊的哲學概念轉化為了一個可衡量、可優化的具體目標。

為了更好地闡釋這個目標,Denny Zhou設計了一個巧妙的任務,稱為「末尾字母拼接」。例如,當模型被要求拼接 “artificial” 和 “intelligence” 這兩個單詞的末尾字母時,如果直接要求它輸出答案,模型可能會憑藉語言慣性,直接猜一個答案,例如「LE」。此時,它僅是在預測下一個最可能的字符,而非執行多步驟的邏輯操作。然而,如果我們引導模型先生成中間步驟,輸出就會變成:「artificial 的最後一個字母是 L,intelligence 的最後一個字母是 E。將 L 和 E 拼接起來得到 LE。」 這就是 Denny Zhou 所定義的推理:將複雜任務分解為一系列簡單、可執行的子任務,最終導出正確答案。

這個例子也提醒我們,大型語言模型本質上是機率模型,而非人類。Denny Zhou 曾嘗試過「首字母拼接」任務,但發現當時所有模型都能做得很好,原因在於網路上存在大量縮寫詞,模型在預訓練階段已經記住了相關模式。當他換成「末尾字母拼接」時,所有模型都失敗了,這恰恰說明模型並未真正理解「拼接」這個動作,而只是記住了某種常見模式。因此,生成中間步驟並非僅僅是模仿人類,其背後有著堅實的理論依據。

為何中間步驟如此關鍵:解鎖複雜能力的理論基礎

生成中間步驟的重要性,不僅在於模仿人類思維,更在於它在計算原理上是解鎖模型解決複雜問題能力的一把金鑰匙。Denny Zhou 提到,他們與斯坦福大學教授騰尚華團隊合作的一項理論研究得出了一個強大結論:對於任何一個可由大小為 T 的布林電路解決的問題,一個常數大小的 Transformer 模型可以通過生成 O(T) 長度的中間步驟來解決

這段話聽起來有些技術性,我們可以這樣理解:布林電路是執行邏輯運算的基本單元,任何複雜的計算任務(例如運行大型軟體)本質上都可以分解成一個巨大的布林電路,而這裡的大小 T 代表了問題的計算複雜度。這個理論告訴我們,即使是一個相對簡單的 Transformer 模型,只要允許它生成足夠長的「思考過程」(即中間步驟),它就有潛力解決幾乎任何可計算的問題。反過來說,如果我們強迫模型直接輸出最終答案,就相當於要求模型自身的網路深度必須能夠模擬整個複雜的計算過程。這要麼需要一個巨大到不切實際的深度,要麼就根本無法解決問題。

因此,讓模型「思考」並生成中間步驟,不是一個可有可無的選項,而是在計算原理上徹底改變了我們訓練和使用大型語言模型的方式。它促使我們從單純追求答案,轉向追求產生答案的過程,這正是大型語言模型能夠處理複雜任務的根本所在。

激發模型思考潛能:從解碼到提示工程

既然推理過程如此重要,下一個問題自然是:如何讓模型生成這個過程?Denny Zhou 提出了一個顛覆當時普遍認知的觀點:預訓練模型早就已經準備好進行推理了,我們所需要做的僅僅是改變解碼的過程。當時普遍認為,一個普通的預訓練大模型是不會推理的,必須通過思維鏈提示或專門微調才能教會它。

為了證明這一點,他舉了一個經典的數學應用題例子:「我有三個蘋果,我爸爸比我多兩個蘋果。我們總共有多少個蘋果?」 如果將這個問題直接輸入給一個原始的預訓練模型(如早期 GPT-3 或 LLaMA),並使用貪婪解碼(Greedy Decoding),模型很可能會直接輸出「五個蘋果」這樣看似合理但錯誤的答案。這是因為貪婪解碼在生成每個詞時,總是選擇當前機率最高的那個,模型看到「三個」和「多兩個」便直接聯想到「五」,這是一種直覺反應或系統 1 思維。

然而,模型的強大之處在於其輸出機率分佈中並非只有一個選項。在生成第一個詞時,「五個」可能機率最高,但還有第二、第三、第四高機率的選項。如果我們不那麼貪婪,而是探索那些機率稍低的「岔路」,奇蹟就會發生。Denny Zhou 展示了這些隱藏的候選答案:

• 候選二可能生成:「我有三個蘋果。我爸爸比我多兩個,所以他有五個蘋果。3+5 等於 8。所以我們總共有八個蘋果。」這是一個完美的推理鏈,答案正確。

• 候選四可能生成:「你有三個蘋果。你爸爸有 3+2 等於五個蘋果。你們總共有 3+5 等於八個蘋果。」這同樣是一個清晰的推理鏈。

這個發現被稱為思維鏈解碼(Chain-of-Thought Decoding)。它告訴我們,正確的推理路徑其實一直存在於模型的輸出空間裡,它們就像隱藏在主幹道旁邊的小路,而貪婪解碼因為只看到眼前最寬的路,所以錯過了它們。推理能力並非被「注入」到模型中的,而是模型在學習海量文本中蘊含的邏輯關係之後自然湧現出來的。我們的任務從「教會模型推理」變成了「如何引導模型,把已知的東西以正確的形式表達出來」。

那麼,在眾多候選輸出中,我們如何知道哪一個是最好的呢?Denny Zhou 的團隊發現了一個更可靠的指標:答案置信度(Answer Confidence)。他們觀察到一個驚人現象:對於那些包含了正確思維鏈的回覆,模型在生成最終答案的那個詞(例如數字「8」)時,其內部的置信度(即機率)會異常高。在蘋果的例子中,模型預測「八」這個詞的機率可能高達 98%。這是一個非常強的信號,因為對於一個擁有巨大詞彙表的模型來說,通常每個詞的機率都接近於零。這就像一個人經過深思熟慮之後,對自己得出的結論會非常篤定一樣。所以,思維鏈解碼的核心就是兩步:一、超越貪婪解碼,生成並檢查更多的候選輸出;二、選擇那個對最終答案置信度最高的候選。

這個方法雖然簡單有效,但仍需要編寫一些程式碼,對普通用戶不夠友好。於是,研究者們開始思考,能否用更自然的方式,例如自然語言,來重塑模型的輸出機率分佈,讓那些帶有思考過程的優異答案能夠自動排到第一名,這樣我們用最簡單的貪婪解碼就能直接得到它。這就引出了我們耳熟能詳的一系列**提示工程(Prompt Engineering)**技術。

首先,最著名的就是思維鏈提示(Chain-of-Thought Prompting)。它的做法非常直觀:在你提出問題之前,先給模型看一兩個類似的,從問題到思考過程再到答案的例子。例如,為了讓模型解決蘋果問題,你可以先給它一個農民和香蕉的例子,展示詳細的解題步驟,然後再提出蘋果問題。神奇的事情就會發生:模型會模仿你給出的例子風格,自動地一步一步分析,生成詳細的解題步驟,最後給出正確答案。從機率分佈的角度來看,你給出的例子極大地提升了模型生成類似思考過程的巨量的機率,從而把原本隱藏在後面的正確推理路徑推到了最前面。

然而,這種方法有一個問題:你需要為不同類型的任務手動編寫高質量的範例,這很麻煩。而且如果你自己都不知道如何解決一個類似的問題,那你為什麼還要問 AI 呢?於是,一個更神奇的提示就出現了:它就是**「請一步一步思考 (Let’s think step by step)」**。Denny Zhou 坦言,這篇論文出來時,他以為是個玩笑。但在谷歌內部模型上測試後,他震驚地發現這真的有效。模型真的開始輸出一步一步的解題過程了。這個發現極大地啟發了研究者,儘管這種零樣本提示效果通常不如提供具體範例的少樣本思維鏈提示,但它證明了我們可以用非常通用的方式來激發模型的推理潛能。

內化推理能力:自我進化微調範式

儘管提示工程有效,但總感覺有些奇怪——想像你問一個聰明人問題,還必須在後面加上「請一步一步思考」,否則他就不會思考了。這顯然不符合我們對一個真正智能體的期望。因此,我們需要一種更穩定、更內化的方式,讓推理能力成為模型固有的部分,而不是需要外部咒語來觸發。這就引出了**微調(Fine-tuning)**階段。

最初的微調方法是監督微調(Supervised Fine-Tuning, SFT)。其思路非常直接:既然我們希望模型能生成從問題到思考過程再到答案的數據,那就僱傭一批人,針對大量的問題,寫出高質量的、一步一步的解題方案。然後,將這些標準答案餵給模型,讓模型去學習,目標是讓模型生成的序列與人類專家寫的序列盡可能地一模一樣。早在 2017 年,DeepMind 的論文就已嘗試用人類手寫的數學應用題解題步驟來訓練序列模型。2021 年,OpenAI 構建了更著名的 GSM8K 數據集,包含 8000 多個小學水平的數學題和詳細解法,用於微調 GPT-3 模型。這種方法訓練出的模型,在面對新問題時確實能生成不錯的解題步驟,看起來問題似乎解決了。

然而,Denny Zhou的團隊在 2021 年夏天發現了一個嚴重的問題:SFT 訓練出來的模型泛化能力很差。它在那些與訓練數據相似的問題上表現很好,但一旦遇到新的、類型稍有不同的問題,就很容易失敗。他們嘗試擴大數據規模,找更多人標註數據,但無論如何擴大,這個問題始終存在。Denny Zhou 在此給出了一個重要教訓:「不要盲目地擴大規模,當你的範式本身是錯誤的時候,再多的數據也無濟於事。」

那麼,SFT 的範式錯在哪裡了呢?Denny Zhou 給出的答案令人大吃一驚:錯誤出在身上。這個轉折點來自於自我提升(Self-Improvement),或稱為 Self-Improve/STAR 等方法。這種新範式的流程如下:首先,從一批問題開始,但不再找人類去寫解題步驟。而是讓一個已經比較強大的大型語言模型自己針對這些問題,生成大量的、多樣的解題步驟。最關鍵的一步是,我們使用一個驗證器(Verifier)去檢查模型生成的這些解題步驟,看哪個最終得出了正確的答案。例如,對於數學題,我們知道標準答案就可以直接判斷。於是,我們只保留那些過程多樣但結果正確的生成結果,將它們當作新的高質量訓練數據。然後,用這些由模型自己生成且經過驗證的「好數據」,再去微調模型自己。這個過程可以不斷疊代,一個微調後變得更強的模型,又可以去生成質量更高、更複雜的解題步驟,用來進一步訓練自己,形成一個自我進化的閉環

那麼,為什麼模型自己生成的數據會比人類專家手寫的數據在訓練效果上更好呢?這背後其實蘊含著機器學習的一個第一性原理:直接優化你想要的東西。在 SFT 範式中,我們優化的目標是讓模型的輸出模仿人類的解題步驟,我們假設人類的思維是最優的。但實際上,人類的思維方式千差萬別,充滿了跳躍和不一致,而且人類專家寫的標準答案對於模型來說可能並不是最容易學習和泛化的路徑。而在新的範式裡,我們的目標變了:我們不再關心模型的解題過程是否和人類一模一樣,我們只關心一件事:它最終的答案是否正確。我們用最終答案的正確性這個指標(相當於強化學習裡的獎勵信號)來指導模型的學習。這在數學上等同於我們要求解一個策略梯度問題:模型需要調整自己的參數,使得生成能夠獲得高獎勵的序列的機率最大化。

Denny Zhou 強調,我們不需要用「激勵模型去思考」這種擬人化的神秘語言來描述這個過程。本質上就是三件事:定義你的目標,計算梯度,然後反向傳播。這就是機器學習的全部。通過這種方式,模型會自己去探索什麼樣的思考過程能夠最穩定、最泛化地導向正確的答案。這些過程可能看起來跟人類的思維不完全一樣,但它們更符合模型自身內部結構的學習路徑。這個範式的轉變威力巨大,也讓我們明白在整個自我進化循環中,最最關鍵的環節不是什麼花哨的強化學習算法,而是那個驗證器。一個可靠的、能夠自動判斷答案好壞的驗證器,是整個新範式的基石。

通過這種自我進化的方式訓練出來的模型,推理能力達到了前所未有的高度。它所展現出來的智慧與經典的人工智慧有著本質的不同。Denny Zhou 引用了國際象棋大師卡斯帕羅夫在 1997 年輸給 IBM「深藍」之後的話:「深藍的智能就像你給鬧鐘編成,讓它準時響起一樣,是程序化的智能」。深藍的強大來自於窮舉式的搜索,暴力計算未來幾步甚至幾十步棋的所有可能性,然後選擇最優。這是經典 AI 的核心思想。但大型語言模型的推理完全不同,它是一種類人的啟發式(Heuristic)推理過程,是從海量的語言數據中湧現出來的,而不依賴於任何顯式的暴力搜索

為展示這一點,Denny Zhou 分享了一個令人拍案叫絕的例子:問題是「請使用數字 1 到 10,每個數字只能用一次,通過加法和乘法運算得到結果 2025」。這是一個非常難的組合優化問題,傳統方法需要暴力搜索。但模型首先判斷 2025 是個相對較大的數字,表明乘法將扮演重要角色,這是一個非常像人類的啟發式判斷。然後,模型突然冒出一個驚人的洞察:「值得注意的是,2025 是 45 的平方」。Denny Zhou 坦言自己出題時都沒意識到這一點。接下來模型繼續深入思考,最終給出了答案:將 1 到 10 的數字分成兩組,每組都通過運算得到 45,再將兩個 45 相乘得到 2025。整個過程沒有任何窮舉搜索,模型就像一個頂尖的數學家,通過洞察、啟發式思考和目標分解,一步一步逼近了答案。

提升可靠性與泛化:聚合與檢索技術

強化學習微調訓練出來的模型已經非常強大,但這還不是終點。Denny Zhou 接著介紹了兩種在推理時進一步壓榨模型性能、提升結果可靠性的前沿技術:聚合與自洽性以及檢索增強生成

首先是聚合與自洽性(Aggregation and Self-Consistency)。大型語言模型在生成答案時的數學本質是什麼?貪婪解碼是選擇思考過程和答案這個整條序列聯合機率最高的那一個。但作為用戶,我們真正關心的是哪一個最終答案本身是正確的。由於這兩個數學目標完全不一樣,後一個目標需要將所有可能導向這個答案的推理過程的機率全部加起來,這在數學上稱為邊緣化(Marginalization)。直接計算這個值非常困難,因為可能的推理路徑是無窮的。

但我們可以用一個非常簡單的方法來近似它,這就是自洽性(Self-Consistency)。它的操作極其簡單:我們不再使用確定性的貪婪解碼,而是開啟隨機採樣,讓模型針對同一個問題,像擲骰子一樣,生成許多個不同的、多樣的從推理過程到答案的序列。你會看到模型可能因為一些微小的隨機擾動走上完全不同的推理路徑,得出不同的答案。例如,對於一個數學題,它可能在 30 次生成中得出答案 18,在 20 次中得出答案 26,其他答案則五花八門。最後一步,我們完全忽略掉所有的推理過程,只看最終的答案。我們進行投票,哪個答案出現的次數最多,我們就認為哪個是最終的正確答案。在這個例子中,18 出現了 30 次,我們就選擇 18。這個簡單的投票過程在經驗上就是對邊緣化的一個很好的近似。它背後的直覺是:如果一個答案是正確的,那麼通往這個答案的道路應該有很多條;即使模型在某條路上犯了小錯誤,它在另一條路上可能就走對了。正確的答案會在多次嘗試中反覆穩定地出現。

這個看似簡單的技巧帶來的性能提升卻是驚人的。Denny Zhou 以 GSM8K 這個基準測試為例,通過微調的 GPT-3 模型準確率大約是 33%。OpenAI 使用一個額外的驗證器模型來篩選,可以提升到 55%。谷歌的 PaLM 模型加上思維鏈提示達到了 58%。然而,在這些基礎上再疊加自洽性技術之後,準確率直接飆升到了 75%,相對提升接近 50%。後來在更強的 PaLM 2 上,這個數字甚至達到了 92%。這充分說明,模型的單一輸出可能存在偶然性,但它多次輸出的共識則具有高度的可靠性。

自洽性也有其局限性,它要求答案的形式是唯一的,例如一個數字。對於那些答案形式不唯一的開放問題,例如「請列出亞洲最大的三個國家」,模型可能會生成「中國、印度、日本」或者「印度、中國、日本」,順序不同但內容一樣。為了解決這個問題,他們還提出了通用自洽性的方法,讓模型自己去判斷哪個回答是與其他的回答最一致的。

第二項技術是檢索(Retrieval)。關於大型語言模型,另一個永恆的爭論就是它到底是在推理還是在檢索?Denny Zhou 對此的態度非常務實:「作為一名從業者,我只關心性能。為什麼要在兩者之間做選擇呢?把檢索和推理結合起來,效果就是更好。」 他用**類比推理(Analogical Reasoning)**的例子來說明。例如,一個幾何問題:「求四個頂點坐標分別為 (-2,2)、(-2,-2)、(-6,-6)、(-6,-2) 的正方形的面積。」當他直接把這個問題扔給當時的 GPT-3.5 等模型時,模型失敗了。但當他在問題前面加了一句提示:「請先回憶一個相關的問題,然後再解決這個問題」,神奇的事情再次發生了。模型在解決問題之前先自己生成了一段話:「一個相關的問題是如何在坐標平面上計算兩點之間的距離,距離公式是巴拉巴拉…」。然後,它利用這個自己檢索出來的知識,先計算出正方形的邊長,再計算出面積,最終成功解決了問題。

另一個例子是退步思考(Backward Thinking)。在解決一個具體的複雜物理問題前,先提示模型退步思考一下解決這類問題所需要的基本物理原理是什麼。模型會先總結出相關的定律和公式,然後再用這些檢索到的原理來指導具體的解題過程。這些方法其實就是現在非常火熱的**檢索增強生成(Retrieval Augmented Generation, RAG)**技術的思維雛形。它們都將大模型的推理能力與外部強大的信息檢索能力結合起來。所以,不必再糾結於推理和檢索的二元對立,一個強大的推理系統必然是一個開放的、懂得如何利用外部知識的系統。

結論:四大黃金法則與未來挑戰

Denny Zhou 對整個大型語言模型推理的技術演進做了一個精煉的總結,我們可以將其看作是四條經過實踐檢驗的黃金法則

1. 有推理優於無推理:生成中間步驟是解鎖複雜問題解決能力的基礎。

2. 強化學習微調優於 SFT:讓模型在正確答案的引導下自我進化,遠比單純模仿人類更有效。

3. 聚合多個答案優於單次生成:利用自洽性等方法,匯集模型的集體智慧,可以大幅提升可靠性。

4. 檢索加推理優於純推理:將模型的內部推理與外部知識庫相結合是未來的方向。

這四條法則清晰地勾勒出了從一個原始的預訓練模型到我們今天看到的強大推理系統的完整技術路線。

然而,在展望未來時,Denny Zhou 也指出了當前面臨的巨大挑戰。我們今天討論的所有技術,尤其是強化學習微調和自洽性,都嚴重依賴於一個前提:任務的答案是可以被自動驗證的。例如,數學題有唯一的答案,程式碼題可以通過單元測試。但在現實世界中,大量更有價值的任務並沒有這樣的驗證器。例如:

創意寫作:如何判斷一首詩寫得好不好?

程式碼設計:我們不只關心程式碼能不能運行,更關心它的架構是否優雅、可讀性是否高、是否易於維護。

戰略規劃:如何判斷一份商業計畫書是否可行?

在這些沒有唯一正確答案、充滿主觀性和複雜權衡的領域,我們又該如何定義獎勵?又該如何去構建驗證器呢? 這可能是下一代人工智慧需要突破的最大瓶頸。同時,Denny Zhou 也呼籲我們應該把更多的精力從在基準測試上刷分,轉移到構建真正能夠解決實際問題的應用上來,因為所有的基準測試都很快會在模型的能力提升下達到飽和。

最後,丹Denny Zhou 引用了物理學家理查德·費曼的一句話來結束演講:「真相最終總比你想像的更加簡單」。回看整個歷程,無論是思維鏈、自洽性還是強化學習微調,它們背後的核心思想都驚人的簡單,甚至可以說是回歸了最基本源頭的原理。這或許就是科研最大的魅力所在:我們穿過層層迷霧,最終發現的往往不是一個無比複雜的屠龍之術,而是一個簡單、深刻,足以改變一切的真理。

*以上文章部份為AI產生內容,無商業用途。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

返回頂端