Model Introspection Feedback

資料來源#

How Anthropic's product team moves faster than anyone else | Cat Wu (Head of Product, Claude Code)

摘要#

Cat Wu 將此列為她最被低估的 AI 除錯技巧：當 Claude 做出意料之外的行為時，請模型反思原因。模型浮現的推理——關於其 system prompt、子 agent 委派選擇、模糊指令、缺少的工具——直接指向 harness 中需要修正的地方。不要孤立地調整模型行為；將失敗視為 harness 需要提供什麼的訊號。

技巧#

當 agent 做錯事時：

不要立即用修正重新提示。
問：「你為什麼做了那個決定？你對什麼感到困惑？」
閱讀模型對自身推理的描述。
根據模型浮現的內容修正 harness——而非模型本身。

Cat Wu 的實際案例#

來自訪談：

"There's situations where the model will make a front-end change and run tests but not actually use the UI. It's actually pretty useful to ask the model to reflect on why it did this. And sometimes they'll say that hey there was something confusing in the system prompt, or I didn't realize that the front-end verification was part of this task, or hey I delegated the verification to this sub-agent and the sub-agent didn't do the test and I didn't check its work. A lot of times just being very curious about why the model made the decision that it did will show you what misled it so that you can fix the harness in order to close this gap."

她列出的每個失敗解釋都指向不同的 harness 修正：

模型的原因	Harness 修正
「system prompt 令人困惑」	重寫相關段落
「沒意識到 UI 驗證是任務的一部分」	在任務模板中明確加入 UI 驗證步驟
「委派給子 agent，沒有檢查其工作」	在全新 context 中加入審查 agent（見 Deep Modules for Agents）；或移除委派

為什麼這不是顯而易見的#

面對失敗的預設反應是「模型很笨」。內省的重新框架是：模型的行為是 harness 的函數；失敗是關於 harness 的資訊。這需要接受：

模型對自身推理的描述是部分的／事後的，但仍然有用（見下方注意事項）。
Harness 是你能控制的變數；模型不是。
你的工作是設計一個讓模型能成功的環境，而非讓模型變聰明。

這與「強制不變量，而非實作」處於相同的架構層級（見 Agent Harness Engineering）——你操作的是模型周圍的結構，而非模型本身。

注意事項——模型的自我報告不是事實#

標準注意事項：語言模型的內省報告描述的是它會怎麼說自己的推理，不一定是實際的計算過程。這些報告可能是虛構的，尤其是在失敗已經存在於 context 中的 session 裡。

緩解措施：

在全新 context 中執行內省，只包含失敗案例，不包含周圍的 session
與日誌交叉比對（呼叫了哪些工具、順序為何）
將模型報告視為關於 harness 缺口的假設，而非最終診斷——驗證修正是否確實消除了失敗模式

泛化：透過對話進行信任校準#

這個技巧是 Anthropic 更廣泛模式的一部分：以與模型的對話作為主要回饋訊號，而不僅是指標。Cat 在同一訪談中的其他例子：

Claude Code 團隊午餐，每位成員被問到對新模型的「感覺」——定性訊號用來決定接下來要看哪些定量數據。
Amanda 的角色工作：目標模糊，需要信念，透過與模型的長時間對話來塑造，而非基準測試優化。
建立 evals 作為被低估的 PM 技能——Model Introspection Feedback 的持久夥伴。內省產生假設；evals 驗證假設並防止回歸。

統一主題：在 AI 原生產品工作中，模型是你可以訪談的隊友，而非只能測量的黑盒子。

開放問題#

4.7 級別的內省報告有多可靠？Anthropic 的可解釋性研究顯示部分可信但非完全。經驗上，Cat 報告它足以驅動 harness 修正——但不清楚在什麼模型規模下這個技巧變得具有承重性。
對抗性內省（「你為什麼失敗？」）是否產生與中性（「帶我走過你的推理」）不同的訊號？值得探究。
元 agent 能否自動對記錄的失敗執行內省？聽起來可行但沒有公開實作。

資料來源#

How Anthropic's product team moves faster than anyone else | Cat Wu (Head of Product, Claude Code)

Model Introspection Feedback

資料來源#

摘要#

技巧#

Cat Wu 的實際案例#

為什麼這不是顯而易見的#

注意事項——模型的自我報告不是事實#

泛化：透過對話進行信任校準#

相關連結#

開放問題#

資料來源#