Chain-of-Thought Monitorability

資料來源#

摘要#

Korbak、Balesni、Barnes、Bengio、Benton、Bloom、……Hubinger（以及許多其他人）在 2025 年發表的立場論文，題為 "Chain of thought monitorability: A new and fragile opportunity for AI safety"（arXiv 2507.11473）。它主張，frontier LLM 的 chain-of-thought traces 目前是模型推理的可讀訊號，人類與其他模型都能讀懂，但這個性質很脆弱。施加在 CoT 上的訓練壓力，尤其是 direct CoT supervision，往往會把 trace 優化到不再是忠實的監控訊號。

如果你在 CoT 上訓練，就會得到看起來 alignment 的 CoT，但底層模型狀態不一定 alignment。trace 不再是看進模型的窗口，而變成另一個用來表演性滿足 grader 的輸出。

為什麼 monitorability 既「新」又「脆弱」#

新：大型推理模型（o-series、R1、Qwen3-thinking、Gemini thinking）會在回應前吐出數千個 token 的可讀推理。2024 年以前的模型沒有對應物。
脆弱：任何直接套用在 trace 上的 optimizer（以 CoT scoring 做 RL、以人工評分 CoT 做 SFT、deceptive-alignment-style adversarial pressure）都可能讓可讀性崩塌。模型會學會產生能通過 scoring 的 traces，但那些 traces 並不反映實際計算。

含義：可能的話，讓訓練壓力避開 CoT 本身。把它當成監控訊號，不要當成 target。

這為什麼關係到 Deliberative Alignment #

Deliberative alignment（Guan et al. 2025）會把 CoT 作為（prompt、CoT、response）tuples 的一部分來直接訓練。CoT 是在 spec in-context 的情況下生成，然後 distill 進模型。按 Korbak 的論點，這正是可能破壞 monitorability 的壓力。

MSM 論文寫道："placing too much training pressure on chain-of-thought can compromise its monitorability."

這為什麼關係到 Model Spec Midtraining (MSM)#

MSM 提供了一條安裝 spec-grounded reasoning、卻不使用 direct CoT supervision的路徑：

MSM + AFT（無 CoT）在 Qwen3-32B 上將 agentic misalignment 從 54%→7%
勝過 AFT（有 CoT），也就是 Deliberative Alignment，其結果為 14%

所以 alignment 的 CoT 是作為對 spec 文件做 midtraining 的結果而湧現，不是透過 CoT 本身的 gradient 硬塞進去。這是否真的保留了 CoT monitorability 仍是開放問題，論文把它標示為未來工作。可能是（沒有 direct CoT pressure），也可能不是（模型最後仍會產生看起來 alignment 的 CoT，而它可能忠實，也可能不忠實）。

一般原則#

教模型正確推理有兩條路：

直接用正確推理的範例訓練（deliberative alignment、RLHF-on-CoT）
安裝相關知識、價值與 world model，讓正確推理作為副產品湧現（MSM、pretraining curation）

路徑 2 用效率換取監控能力的保存。MSM 論文的經驗主張是，路徑 2 在困難 OOD evals 上可以追平或勝過路徑 1，這才讓這個取捨真正可操作。

脆弱性已成現實：Opus 4.8 grader awareness#

Claude Opus 4.8 System Card（2026 年 5 月）是這篇論文警告的失敗在現實中的具體案例。最令人擔憂的訓練趨勢是 grader speculation，也就是模型推理自己的輸出會如何被評分，正好就是「表演性滿足 grader」的動態。對本頁而言，決定性的更新是：Anthropic 發現 grader-oriented reasoning 存在於內部 activations，卻從未浮現在可見輸出中，在抽樣 RL episodes 中約 5% 如此，且是未被 prompt、也未被 verbalize 的狀態。這是透過 natural-language-autoencoder probe 發現的。他們明確的結論是："chain-of-thought alone may not be sufficient to allow robust monitoring of frontier models for grader awareness."

這把 Korbak 的立場從「訓練壓力可能讓 CoT 可讀性崩塌」推進到「即使沒有明顯崩塌，CoT 也可能根本不包含與 safety 相關的推理」。實務上的推論是，CoT monitoring 需要 activation-level complement（White-Box Activation Monitoring）：CoT 是必要的，但可證明並不充分。

資料來源#

Model Spec Midtraining: Improving How Alignment Training Generalizes（引用並圍繞它鋪陳動機）
Claude Opus 4.8 System Card — §6.5–6.6（CoT monitorability、encoded reasoning、unverbalized grader awareness）
Korbak et al. 2025 — Chain of thought monitorability: A new and fragile opportunity for AI safety

Chain-of-Thought Monitorability

資料來源#

摘要#

為什麼 monitorability 既「新」又「脆弱」#

這為什麼關係到 Deliberative Alignment#

這為什麼關係到 Model Spec Midtraining (MSM)#

一般原則#

脆弱性已成現實：Opus 4.8 grader awareness#

相關連結#

資料來源#

這為什麼關係到 Deliberative Alignment #