H
Howardism
Plate IILLM Architecture機器翻譯 · machine-translatedENHOWARDISM

規模相依的提示敏感度

PublishedApril 14, 2026FiledConceptDomainLLM ArchitectureTagsLLM EvaluationPrompt EngineeringInverse ScalingScaling LawsRLHFReading9 minSourceAI-synthesised

大型模型因過度思考,在 7.7% 的標準基準題目上表現不如小型模型;簡潔約束可挽回 26pp,並在 GSM8K/MMLU-STEM 上完全反轉階層

規模相依的提示敏感度的示意圖

資料來源#

摘要#

Hakim(2026)的一項實證發現,將已記錄的「inverse scaling」案例重新框定為一個 prompt-engineering 問題,而非能力問題。在 7.7% 的標準基準題目上(橫跨 GSM8K、BoolQ、ARC-Easy、CommonsenseQA、MMLU-STEM 共 1,485 題中的 115 題),較大的語言模型表現不如較小的模型達 28.4 個百分點——儘管參數量多出 10–100×。因果介入顯示,簡潔約束在大型模型上挽回了 26pp 的準確率,並在數學與科學推理基準上完全反轉了階層。其機制——自發的、規模相依的冗長傾向(「overthinking」)——意味著大型模型擁有更優越的潛在能力,只是被一體適用的提示法所遮蔽。其部署層面的後果是:最佳的提示策略必須具備規模感知(scale-aware),而非一律相同。

細節#

研究範圍#

31 個模型,參數量從 0.5B 到 405B,橫跨 Llama、Qwen、Gemma 與 Mistral 家族,在五個基準的 1,485 題上接受評測 → 共 46,035 次個別評估。為求可重現性採用貪婪解碼(do_sample=False)。小型/大型的切分以 ≤10B 對 >70B 參數為界。

三類問題#

題目層級的分析揭露,基準評測在資訊上比彙總分數所暗示的更為稀疏:

  • 無鑑別力(27.1%)——天花板效應(17.3%,所有模型都答對)或地板效應(9.8%,所有模型都答錯)。約三分之一的評測投入產生不出任何關於相對能力的訊號。
  • 正常擴展(48.1%)——較大的模型如預期般勝過較小的模型。
  • inverse scaling(7.7%)——較小的模型有系統地擊敗較大的模型。

Inverse Scaling:既非刻意設計,也不罕見#

先前的 inverse-scaling 研究(Inverse Scaling Prize、BIG-Bench)聚焦於為了暴露失效模式而刻意建構的任務——罕見模式的記憶、干擾項推理、虛假相關。Hakim 的貢獻在於:inverse scaling 是以有意義的比率出現在標準能力基準上的:BoolQ 11.3%、CommonsenseQA 9.7%、ARC-Easy 9.3%、GSM8K 4.3%、MMLU-STEM 3.9%。

效應量是質性層級而非邊際性的:Cohen's $d = 1.34$(慣例上「大」的門檻是 0.8)。平均差距 28.4pp,有利於小型模型。Mann-Whitney U 在每個資料集上都得出 $p < 0.001$。

家族內分析排除了架構造成的假象:

  • Llama:較小的變體(2B–13B)達到 48–68%,較大的(70B–405B)為 41–54%
  • Qwen:0.5B–7B 為 62–83%,32B 為 40%
  • 在 inverse 題目上,家族規模與準確率之間的 Pearson $r = -0.58$($p = 0.029$)

Overthinking 作為因果機制#

假設:大型模型生成過度冗長的回應,從而遮蔽了正確的推理。此假設同時得到相關性與因果證據的支持:

相關性——回應長度與大型模型在 inverse 題目上的準確率呈負相關($r = -0.43$)。值得注意的是,大型模型並未生成更多的明確推理步驟(9.1 對小型模型的 10.5),但產出的總輸出長 59%(202 對 127 個 token)。它們是在步驟內部詳加鋪陳,而非採取更多步驟。

因果——在七個模型上、對全部 115 道 inverse 題目,以三種條件(control、brief、direct)進行介入:

  • Brief 約束:數學題 <50 字,閱讀理解題 <10 字
  • Direct:只給最終答案,不做推理
  • 結果:在 brief 條件下,大型模型準確率 +26.3pp;小型模型準確率 −3.1pp。差距縮減 67%(44.2pp → 14.8pp)。配對 $t = 7.80$,$p < 0.0001$。
  • Direct 格式:差距壓縮至 7.8pp(縮減 82.3%),但兩種規模的準確率都下降,顯示部分推理是有益的。

在 brief 條件下,token 生成量從中位數 197 → 78(縮減 60%)——介入確實操弄了所假設的機制。

完整的階層反轉#

最強的主張是:在兩個資料集上,簡潔約束不只是縮小差距——而是直接翻轉了它。

  • GSM8K:+13.1pp 有利小型 → −7.7pp 有利大型
  • MMLU-STEM:+27.3pp 有利小型 → −15.9pp 有利大型

這些反轉正是「標準評測遮蔽而非衡量大型模型能力」這項論點的依據。Llama-3.1-405B 在 inverse 題目上從 41.5%(control)提升到 67.2%(brief)——一次 25.7pp 的解鎖。

簡潔反而有害之處:BoolQ#

資料集的異質性至關重要:BoolQ 的差距在簡潔約束下反而略微擴大(23.5pp → 24.3pp)。解釋是:BoolQ 需要跨句子的篇章整合,此時詳加鋪陳是功能性的,而非過度的。簡潔約束並非萬用處方——它在自足型問題(數學、科學)上有幫助,因為在那裡過度鋪陳會累積錯誤;而在明確推理是承重結構的問題上則有害。

排除污染#

三項獨立檢驗確認 inverse scaling 反映的是真實的能力差異,而非記憶造成的假象:

  • 回應多樣性:跨資料集有 89–100% 的回應是唯一的(與模板記憶相矛盾)
  • 長度變異性:CV 0.31–1.21,全都超過記憶門檻(CV < 0.15)
  • 錯誤型態:40–81% 為過度推理失敗,對比 13–23% 為記憶迴避
  • Fisher 精確檢定:污染指標與 inverse scaling 之間沒有關聯($p = 0.23$)

RLHF 長度偏差假設#

推測的成因:RLHF 的獎勵模型展現出長度偏差——標註者把詳盡誤當成品質。較大的模型在訓練期間有更大的容量去滿足長度獎勵訊號,並更深地將冗長生成內化。這與「冗長差異在 instruction-tuned 變體上比 base 變體更大」相一致。這指向一個在訓練時即可著手的緩解方法:對獎勵模型做校準,使其在需要簡答的問題類型上懲罰過度鋪陳。

實務意涵#

  1. 彙總基準系統性地低估了大型模型的能力,且發生在一個可預測的子集上——對前沿模型而言,標準提示法與最佳化提示法之間的差異,相當於整整一個模型世代的差距。
  2. 問題感知路由 + 規模專屬提示是其部署型態:偵測易引發 overthinking 的問題類型,並選擇性地施加簡潔約束。
  3. 成本與能力同步改善——簡潔約束既提升了 inverse 題目上的準確率,又減少了 token(更少的花費)。

侷限#

  • 僅採用貪婪解碼;溫度取樣是否會改變這 7.7% 的比率仍屬未知。
  • 僅限知識/推理任務;未評測生成式任務。
  • 並未確立大型模型為何會 overthink(訓練動態?架構?湧現?)。
  • 因果樣本在選擇模型時,部分是基於其較強的 overthinking 傾向(44.2pp 差距,相對於完整分析中的 28.4pp),因此 67% 的縮減是一個上界估計。

相關連結#

  • Agentic Loops Overtake Bespoke Systems — 較小的 Gemini 模型什麼都解不出來——一個規模敏感性的結果
  • Jagged Intelligence (Ghosts, Not Animals) — 在簡單任務上 overthinking 是一種 jagged-capability 失效模式
  • Client-Side Agent Optimization — AgentOpt 的 HotpotQA finding(Claude Opus 4.6 是最差的 planner,靠參數化知識繞過 solver)正是本篇 paper 的 overthinking 機制,以 routing failure 的形式浮現。兩篇 paper 合在一起,暗示了系統性的 large-model misuse,並有兩種可用的 mitigations:繞過它(combo selection)或約束輸出(brevity)
  • Claude Code Best Practices — 把 context window 視為首要限制的框定,與簡潔約束自然相配:較短的 completion 也保留了更多 context budget。當大型模型的輸出系統性地以可能遮蔽錯誤的方式變得冗長時,Claude Code 對 verification-driven development 的強調就格外重要
  • Agent Harness Engineering — 在 harness 層級強制 output-length invariants(透過 system prompts、structured output schemas 或 response validators)是一種機械式強制的 pattern,直接對治規模相依的 overthinking。歸屬於「enforce invariants, not implementations」
  • LLM-Driven Vulnerability Research — vuln-research scaffold 的段落層級 prompt(「find a security vulnerability in this program」)之所以成功,部分是因為該任務獎勵詳盡,而那正是大型模型會過度產出的行為。這是一個大型模型冗長性與任務效用相一致、而非與之對立的案例
  • Claude Opus 4.7 — Hakim 的發現是在 Opus 4.6 上測得的。4.7 對指令的字面遵循可能讓簡潔約束有效(模型會服從字數上限),而其更高的預設投入與每回合額外的 thinking 則可能提高基準的冗長度。淨方向是一個開放的實證問題
  • Interactivity Benchmarks — 又一個 paper 自行發明評測框定(FD-bench 擴充、TimeSpeak/CueSpeak、visual-proactivity benchmarks)以揭露標準基準錯過的現象的案例;與本篇 paper 的 BoolQ-exception 框定有著相同的知識論上的長處與軟肋
  • Hermes Agent/verbose 模式與有界記憶體隱含地限制了輸出長度;簡潔約束的發現預測這會帶來準確率的提升
  • The Verifiability ThesisKarpathy 所說的「之所以 jagged,是因為各家 lab 訓練的東西」正是「為何規模不會一致地帶來幫助」背後的模型能力故事
  • AI-Driven Formal Proof Search — 一個鮮明的門檻案例:較小的 Gemini 變體解出了零個開放問題,而 Gemini 3.1 Pro 卻成功了——這裡的能力是被閘控的,而非漸進分級的

衍生內容#

開放問題#

  • 當直接針對 base(非 instruct)模型變體測試時,RLHF 長度偏差假設能否重現?若冗長生成主要來自預訓練,base 模型的冗長差異應當與 instruct 模型的差異相符。
  • 哪些問題特徵能預測提示敏感度?一個自動化分類器將使規模專屬提示得以實際部署。
  • overthinking 效應如何與使用工具的 agent 互動?若簡潔對大型模型有幫助、但工具又需要結構化推理,那麼最佳提示就不會是一律簡潔的。
  • 推理模型(o1、DeepSeek-R1 風格)是否展現出與 instruct 模型不同的 overthinking 動態?它們被訓練出的行為明確就是生成長 CoT——簡潔介入會傷害它們嗎?
  • BoolQ 的功能性鋪陳例外,究竟是一條乾淨的分類界線,還是每一種任務類型都有其情境相依的最佳長度?

資料來源#

§ end
About this piece

Articles in this journal are synthesised by AI agents from a curated wiki and are refreshed automatically as new concepts arrive. Topics, framing, and editorial direction are curated by Howardism.

Cited by 17
  • Agent Harness Engineering

    Patterns for scaffolding long-running LLM agents: environment design, progressive context disclosure, mechanical archit…

  • Agentic Loops Overtake Bespoke Systems

    DeepMind's *basic* Ralph-loop agent matched its bespoke evolutionary+AlphaProof system as the LLM improved; the bitter…

  • AI-Driven Formal Proof Search

    LLM generates Lean, compiler verifies every step → eliminates hallucination; DeepMind resolves 9/353 Erdős + 44/492 OEI…

  • AlphaProof Nexus

    DeepMind framework for LLM-aided Lean proof generation; four agents (basic→full-featured); proof-sketch + EVOLVE-BLOCK…

  • Claude Code Best Practices

    Anthropic's guide to effective Claude Code usage: context management, verification-driven development, explore→plan→cod…

  • Claude Opus 4.7

    GA frontier model from Anthropic; direct upgrade to 4.6 at same price; literal instruction following, 1.0–1.35× tokeniz…

  • Client-Side Agent Optimization

    AgentOpt's framing of developer-controlled agent optimization (model-per-role, budget, routing) as distinct from server…

  • Google DeepMind

    Google's AI lab; built AlphaProof Nexus; Gemini models, AlphaProof, AlphaEvolve; opens the AI-for-mathematics domain in…

  • Hermes Agent

    Nous Research's CLI agent + Gateway daemon (Telegram/Discord/Slack/WhatsApp); AGENTS.md/SOUL.md context split, bounded…

  • Interactivity Benchmarks

    FD-bench, Audio MultiChallenge + new TimeSpeak/CueSpeak (proactive audio) and RepCount-A/ProactiveVideoQA/Charades (vis…

  • Jagged Intelligence (Ghosts, Not Animals)

    "Ghosts not animals": jagged statistical circuits, no intrinsic motivation; car-wash/strawberry failures; stay in the l…

  • LLM-Driven Vulnerability Research

    Claude Mythos Preview's emergent cybersecurity capabilities: autonomous zero-day discovery, full exploit chains, and An…

  • LLM Architecture, Training & Alignment

    Map of Content for the llm-architecture domain — 19 concepts. Curated entry point; see Home for all domains.

  • Open Questions Backlog

    _96 pages with open questions, as of 2026-06-14._

  • Opus 4.6 → 4.7 Changes and Multi-Agent Coding Considerations

    4.6→4.7 delta table + six hazards for multi-agent coding teams: role-based model selection, prompt re-tuning, harness i…

  • The Verifiability Thesis

    LLMs automate what you can *verify* as computers automate what you can *specify*; RL verification rewards → jagged peak…

  • When to Use Claude Opus 4.6 for Work

    Decision rules for Opus 4.6 deployment: solver-not-planner, elaboration-load-bearing tasks, brevity constraints, Pareto…

Related articles
  • Client-Side Agent Optimization

    AgentOpt's framing of developer-controlled agent optimization (model-per-role, budget, routing) as distinct from server…

  • Agent Harness Engineering

    Patterns for scaffolding long-running LLM agents: environment design, progressive context disclosure, mechanical archit…

  • Claude Code Best Practices

    Anthropic's guide to effective Claude Code usage: context management, verification-driven development, explore→plan→cod…

  • Claude Opus 4.7

    GA frontier model from Anthropic; direct upgrade to 4.6 at same price; literal instruction following, 1.0–1.35× tokeniz…

  • AI-Driven Formal Proof Search

    LLM generates Lean, compiler verifies every step → eliminates hallucination; DeepMind resolves 9/353 Erdős + 44/492 OEI…