資料來源#
摘要#
Hakim(2026)的一項實證發現,將已記錄的「inverse scaling」案例重新框定為一個 prompt-engineering 問題,而非能力問題。在 7.7% 的標準基準題目上(橫跨 GSM8K、BoolQ、ARC-Easy、CommonsenseQA、MMLU-STEM 共 1,485 題中的 115 題),較大的語言模型表現不如較小的模型達 28.4 個百分點——儘管參數量多出 10–100×。因果介入顯示,簡潔約束在大型模型上挽回了 26pp 的準確率,並在數學與科學推理基準上完全反轉了階層。其機制——自發的、規模相依的冗長傾向(「overthinking」)——意味著大型模型擁有更優越的潛在能力,只是被一體適用的提示法所遮蔽。其部署層面的後果是:最佳的提示策略必須具備規模感知(scale-aware),而非一律相同。
細節#
研究範圍#
31 個模型,參數量從 0.5B 到 405B,橫跨 Llama、Qwen、Gemma 與 Mistral 家族,在五個基準的 1,485 題上接受評測 → 共 46,035 次個別評估。為求可重現性採用貪婪解碼(do_sample=False)。小型/大型的切分以 ≤10B 對 >70B 參數為界。
三類問題#
題目層級的分析揭露,基準評測在資訊上比彙總分數所暗示的更為稀疏:
- 無鑑別力(27.1%)——天花板效應(17.3%,所有模型都答對)或地板效應(9.8%,所有模型都答錯)。約三分之一的評測投入產生不出任何關於相對能力的訊號。
- 正常擴展(48.1%)——較大的模型如預期般勝過較小的模型。
- inverse scaling(7.7%)——較小的模型有系統地擊敗較大的模型。
Inverse Scaling:既非刻意設計,也不罕見#
先前的 inverse-scaling 研究(Inverse Scaling Prize、BIG-Bench)聚焦於為了暴露失效模式而刻意建構的任務——罕見模式的記憶、干擾項推理、虛假相關。Hakim 的貢獻在於:inverse scaling 是以有意義的比率出現在標準能力基準上的:BoolQ 11.3%、CommonsenseQA 9.7%、ARC-Easy 9.3%、GSM8K 4.3%、MMLU-STEM 3.9%。
效應量是質性層級而非邊際性的:Cohen's $d = 1.34$(慣例上「大」的門檻是 0.8)。平均差距 28.4pp,有利於小型模型。Mann-Whitney U 在每個資料集上都得出 $p < 0.001$。
家族內分析排除了架構造成的假象:
- Llama:較小的變體(2B–13B)達到 48–68%,較大的(70B–405B)為 41–54%
- Qwen:0.5B–7B 為 62–83%,32B 為 40%
- 在 inverse 題目上,家族規模與準確率之間的 Pearson $r = -0.58$($p = 0.029$)
Overthinking 作為因果機制#
假設:大型模型生成過度冗長的回應,從而遮蔽了正確的推理。此假設同時得到相關性與因果證據的支持:
相關性——回應長度與大型模型在 inverse 題目上的準確率呈負相關($r = -0.43$)。值得注意的是,大型模型並未生成更多的明確推理步驟(9.1 對小型模型的 10.5),但產出的總輸出長 59%(202 對 127 個 token)。它們是在步驟內部詳加鋪陳,而非採取更多步驟。
因果——在七個模型上、對全部 115 道 inverse 題目,以三種條件(control、brief、direct)進行介入:
- Brief 約束:數學題 <50 字,閱讀理解題 <10 字
- Direct:只給最終答案,不做推理
- 結果:在 brief 條件下,大型模型準確率 +26.3pp;小型模型準確率 −3.1pp。差距縮減 67%(44.2pp → 14.8pp)。配對 $t = 7.80$,$p < 0.0001$。
- Direct 格式:差距壓縮至 7.8pp(縮減 82.3%),但兩種規模的準確率都下降,顯示部分推理是有益的。
在 brief 條件下,token 生成量從中位數 197 → 78(縮減 60%)——介入確實操弄了所假設的機制。
完整的階層反轉#
最強的主張是:在兩個資料集上,簡潔約束不只是縮小差距——而是直接翻轉了它。
- GSM8K:+13.1pp 有利小型 → −7.7pp 有利大型
- MMLU-STEM:+27.3pp 有利小型 → −15.9pp 有利大型
這些反轉正是「標準評測遮蔽而非衡量大型模型能力」這項論點的依據。Llama-3.1-405B 在 inverse 題目上從 41.5%(control)提升到 67.2%(brief)——一次 25.7pp 的解鎖。
簡潔反而有害之處:BoolQ#
資料集的異質性至關重要:BoolQ 的差距在簡潔約束下反而略微擴大(23.5pp → 24.3pp)。解釋是:BoolQ 需要跨句子的篇章整合,此時詳加鋪陳是功能性的,而非過度的。簡潔約束並非萬用處方——它在自足型問題(數學、科學)上有幫助,因為在那裡過度鋪陳會累積錯誤;而在明確推理是承重結構的問題上則有害。
排除污染#
三項獨立檢驗確認 inverse scaling 反映的是真實的能力差異,而非記憶造成的假象:
- 回應多樣性:跨資料集有 89–100% 的回應是唯一的(與模板記憶相矛盾)
- 長度變異性:CV 0.31–1.21,全都超過記憶門檻(CV < 0.15)
- 錯誤型態:40–81% 為過度推理失敗,對比 13–23% 為記憶迴避
- Fisher 精確檢定:污染指標與 inverse scaling 之間沒有關聯($p = 0.23$)
RLHF 長度偏差假設#
推測的成因:RLHF 的獎勵模型展現出長度偏差——標註者把詳盡誤當成品質。較大的模型在訓練期間有更大的容量去滿足長度獎勵訊號,並更深地將冗長生成內化。這與「冗長差異在 instruction-tuned 變體上比 base 變體更大」相一致。這指向一個在訓練時即可著手的緩解方法:對獎勵模型做校準,使其在需要簡答的問題類型上懲罰過度鋪陳。
實務意涵#
- 彙總基準系統性地低估了大型模型的能力,且發生在一個可預測的子集上——對前沿模型而言,標準提示法與最佳化提示法之間的差異,相當於整整一個模型世代的差距。
- 問題感知路由 + 規模專屬提示是其部署型態:偵測易引發 overthinking 的問題類型,並選擇性地施加簡潔約束。
- 成本與能力同步改善——簡潔約束既提升了 inverse 題目上的準確率,又減少了 token(更少的花費)。
侷限#
- 僅採用貪婪解碼;溫度取樣是否會改變這 7.7% 的比率仍屬未知。
- 僅限知識/推理任務;未評測生成式任務。
- 並未確立大型模型為何會 overthink(訓練動態?架構?湧現?)。
- 因果樣本在選擇模型時,部分是基於其較強的 overthinking 傾向(44.2pp 差距,相對於完整分析中的 28.4pp),因此 67% 的縮減是一個上界估計。
相關連結#
- Agentic Loops Overtake Bespoke Systems — 較小的 Gemini 模型什麼都解不出來——一個規模敏感性的結果
- Jagged Intelligence (Ghosts, Not Animals) — 在簡單任務上 overthinking 是一種 jagged-capability 失效模式
- Client-Side Agent Optimization — AgentOpt 的 HotpotQA finding(Claude Opus 4.6 是最差的 planner,靠參數化知識繞過 solver)正是本篇 paper 的 overthinking 機制,以 routing failure 的形式浮現。兩篇 paper 合在一起,暗示了系統性的 large-model misuse,並有兩種可用的 mitigations:繞過它(combo selection)或約束輸出(brevity)
- Claude Code Best Practices — 把 context window 視為首要限制的框定,與簡潔約束自然相配:較短的 completion 也保留了更多 context budget。當大型模型的輸出系統性地以可能遮蔽錯誤的方式變得冗長時,Claude Code 對 verification-driven development 的強調就格外重要
- Agent Harness Engineering — 在 harness 層級強制 output-length invariants(透過 system prompts、structured output schemas 或 response validators)是一種機械式強制的 pattern,直接對治規模相依的 overthinking。歸屬於「enforce invariants, not implementations」
- LLM-Driven Vulnerability Research — vuln-research scaffold 的段落層級 prompt(「find a security vulnerability in this program」)之所以成功,部分是因為該任務獎勵詳盡,而那正是大型模型會過度產出的行為。這是一個大型模型冗長性與任務效用相一致、而非與之對立的案例
- Claude Opus 4.7 — Hakim 的發現是在 Opus 4.6 上測得的。4.7 對指令的字面遵循可能讓簡潔約束更有效(模型會服從字數上限),而其更高的預設投入與每回合額外的 thinking 則可能提高基準的冗長度。淨方向是一個開放的實證問題
- Interactivity Benchmarks — 又一個 paper 自行發明評測框定(FD-bench 擴充、TimeSpeak/CueSpeak、visual-proactivity benchmarks)以揭露標準基準錯過的現象的案例;與本篇 paper 的 BoolQ-exception 框定有著相同的知識論上的長處與軟肋
- Hermes Agent —
/verbose模式與有界記憶體隱含地限制了輸出長度;簡潔約束的發現預測這會帶來準確率的提升 - The Verifiability Thesis — Karpathy 所說的「之所以 jagged,是因為各家 lab 訓練的東西」正是「為何規模不會一致地帶來幫助」背後的模型能力故事
- AI-Driven Formal Proof Search — 一個鮮明的門檻案例:較小的 Gemini 變體解出了零個開放問題,而 Gemini 3.1 Pro 卻成功了——這裡的能力是被閘控的,而非漸進分級的
衍生內容#
- When to Use Claude Opus 4.6 for Work — 簡潔介入與 BoolQ-exception 的發現直接餵入 Opus 4.6 的部署規則
- Opus 4.6 → 4.7 Changes and Multi-Agent Coding Considerations — 將簡潔約束與 harness 層級的長度強制套用到一支 Opus 4.7 的 multi-agent coding 團隊上
開放問題#
- 當直接針對 base(非 instruct)模型變體測試時,RLHF 長度偏差假設能否重現?若冗長生成主要來自預訓練,base 模型的冗長差異應當與 instruct 模型的差異相符。
- 哪些問題特徵能預測提示敏感度?一個自動化分類器將使規模專屬提示得以實際部署。
- overthinking 效應如何與使用工具的 agent 互動?若簡潔對大型模型有幫助、但工具又需要結構化推理,那麼最佳提示就不會是一律簡潔的。
- 推理模型(o1、DeepSeek-R1 風格)是否展現出與 instruct 模型不同的 overthinking 動態?它們被訓練出的行為明確就是生成長 CoT——簡潔介入會傷害它們嗎?
- BoolQ 的功能性鋪陳例外,究竟是一條乾淨的分類界線,還是每一種任務類型都有其情境相依的最佳長度?
資料來源#
Cited by 17
- Agent Harness Engineering
Patterns for scaffolding long-running LLM agents: environment design, progressive context disclosure, mechanical archit…
- Agentic Loops Overtake Bespoke Systems
DeepMind's *basic* Ralph-loop agent matched its bespoke evolutionary+AlphaProof system as the LLM improved; the bitter…
- AI-Driven Formal Proof Search
LLM generates Lean, compiler verifies every step → eliminates hallucination; DeepMind resolves 9/353 Erdős + 44/492 OEI…
- AlphaProof Nexus
DeepMind framework for LLM-aided Lean proof generation; four agents (basic→full-featured); proof-sketch + EVOLVE-BLOCK…
- Claude Code Best Practices
Anthropic's guide to effective Claude Code usage: context management, verification-driven development, explore→plan→cod…
- Claude Opus 4.7
GA frontier model from Anthropic; direct upgrade to 4.6 at same price; literal instruction following, 1.0–1.35× tokeniz…
- Client-Side Agent Optimization
AgentOpt's framing of developer-controlled agent optimization (model-per-role, budget, routing) as distinct from server…
- Google DeepMind
Google's AI lab; built AlphaProof Nexus; Gemini models, AlphaProof, AlphaEvolve; opens the AI-for-mathematics domain in…
- Hermes Agent
Nous Research's CLI agent + Gateway daemon (Telegram/Discord/Slack/WhatsApp); AGENTS.md/SOUL.md context split, bounded…
- Interactivity Benchmarks
FD-bench, Audio MultiChallenge + new TimeSpeak/CueSpeak (proactive audio) and RepCount-A/ProactiveVideoQA/Charades (vis…
- Jagged Intelligence (Ghosts, Not Animals)
"Ghosts not animals": jagged statistical circuits, no intrinsic motivation; car-wash/strawberry failures; stay in the l…
- LLM-Driven Vulnerability Research
Claude Mythos Preview's emergent cybersecurity capabilities: autonomous zero-day discovery, full exploit chains, and An…
- LLM Architecture, Training & Alignment
Map of Content for the llm-architecture domain — 19 concepts. Curated entry point; see Home for all domains.
- Open Questions Backlog
_96 pages with open questions, as of 2026-06-14._
- Opus 4.6 → 4.7 Changes and Multi-Agent Coding Considerations
4.6→4.7 delta table + six hazards for multi-agent coding teams: role-based model selection, prompt re-tuning, harness i…
- The Verifiability Thesis
LLMs automate what you can *verify* as computers automate what you can *specify*; RL verification rewards → jagged peak…
- When to Use Claude Opus 4.6 for Work
Decision rules for Opus 4.6 deployment: solver-not-planner, elaboration-load-bearing tasks, brevity constraints, Pareto…
Related articles
- Client-Side Agent Optimization
AgentOpt's framing of developer-controlled agent optimization (model-per-role, budget, routing) as distinct from server…
- Agent Harness Engineering
Patterns for scaffolding long-running LLM agents: environment design, progressive context disclosure, mechanical archit…
- Claude Code Best Practices
Anthropic's guide to effective Claude Code usage: context management, verification-driven development, explore→plan→cod…
- Claude Opus 4.7
GA frontier model from Anthropic; direct upgrade to 4.6 at same price; literal instruction following, 1.0–1.35× tokeniz…
- AI-Driven Formal Proof Search
LLM generates Lean, compiler verifies every step → eliminates hallucination; DeepMind resolves 9/353 Erdős + 44/492 OEI…
