規模相依的提示敏感度

資料來源#

Brevity Constraints Reverse Performance Hierarchies in Language Models

摘要#

Hakim（2026）的一項實證發現，將已記錄的「inverse scaling」案例重新框定為一個 prompt-engineering 問題，而非能力問題。在 7.7% 的標準基準題目上（橫跨 GSM8K、BoolQ、ARC-Easy、CommonsenseQA、MMLU-STEM 共 1,485 題中的 115 題），較大的語言模型表現不如較小的模型達 28.4 個百分點——儘管參數量多出 10–100×。因果介入顯示，簡潔約束在大型模型上挽回了 26pp 的準確率，並在數學與科學推理基準上完全反轉了階層。其機制——自發的、規模相依的冗長傾向（「overthinking」）——意味著大型模型擁有更優越的潛在能力，只是被一體適用的提示法所遮蔽。其部署層面的後果是：最佳的提示策略必須具備規模感知（scale-aware），而非一律相同。

細節#

研究範圍#

31 個模型，參數量從 0.5B 到 405B，橫跨 Llama、Qwen、Gemma 與 Mistral 家族，在五個基準的 1,485 題上接受評測 → 共 46,035 次個別評估。為求可重現性採用貪婪解碼（do_sample=False）。小型／大型的切分以 ≤10B 對 >70B 參數為界。

三類問題#

題目層級的分析揭露，基準評測在資訊上比彙總分數所暗示的更為稀疏：

無鑑別力（27.1%）——天花板效應（17.3%，所有模型都答對）或地板效應（9.8%，所有模型都答錯）。約三分之一的評測投入產生不出任何關於相對能力的訊號。
正常擴展（48.1%）——較大的模型如預期般勝過較小的模型。
inverse scaling（7.7%）——較小的模型有系統地擊敗較大的模型。

Inverse Scaling：既非刻意設計，也不罕見#

先前的 inverse-scaling 研究（Inverse Scaling Prize、BIG-Bench）聚焦於為了暴露失效模式而刻意建構的任務——罕見模式的記憶、干擾項推理、虛假相關。Hakim 的貢獻在於：inverse scaling 是以有意義的比率出現在標準能力基準上的：BoolQ 11.3%、CommonsenseQA 9.7%、ARC-Easy 9.3%、GSM8K 4.3%、MMLU-STEM 3.9%。

效應量是質性層級而非邊際性的：Cohen's $d = 1.34$（慣例上「大」的門檻是 0.8）。平均差距 28.4pp，有利於小型模型。Mann-Whitney U 在每個資料集上都得出 $p < 0.001$。

家族內分析排除了架構造成的假象：

Llama：較小的變體（2B–13B）達到 48–68%，較大的（70B–405B）為 41–54%
Qwen：0.5B–7B 為 62–83%，32B 為 40%
在 inverse 題目上，家族規模與準確率之間的 Pearson $r = -0.58$（$p = 0.029$）

Overthinking 作為因果機制#

假設：大型模型生成過度冗長的回應，從而遮蔽了正確的推理。此假設同時得到相關性與因果證據的支持：

相關性——回應長度與大型模型在 inverse 題目上的準確率呈負相關（$r = -0.43$）。值得注意的是，大型模型並未生成更多的明確推理步驟（9.1 對小型模型的 10.5），但產出的總輸出長 59%（202 對 127 個 token）。它們是在步驟內部詳加鋪陳，而非採取更多步驟。

因果——在七個模型上、對全部 115 道 inverse 題目，以三種條件（control、brief、direct）進行介入：

Brief 約束：數學題 <50 字，閱讀理解題 <10 字
Direct：只給最終答案，不做推理
結果：在 brief 條件下，大型模型準確率 +26.3pp；小型模型準確率 −3.1pp。差距縮減 67%（44.2pp → 14.8pp）。配對 $t = 7.80$，$p < 0.0001$。
Direct 格式：差距壓縮至 7.8pp（縮減 82.3%），但兩種規模的準確率都下降，顯示部分推理是有益的。

在 brief 條件下，token 生成量從中位數 197 → 78（縮減 60%）——介入確實操弄了所假設的機制。

完整的階層反轉#

最強的主張是：在兩個資料集上，簡潔約束不只是縮小差距——而是直接翻轉了它。

GSM8K：+13.1pp 有利小型 → −7.7pp 有利大型
MMLU-STEM：+27.3pp 有利小型 → −15.9pp 有利大型

這些反轉正是「標準評測遮蔽而非衡量大型模型能力」這項論點的依據。Llama-3.1-405B 在 inverse 題目上從 41.5%（control）提升到 67.2%（brief）——一次 25.7pp 的解鎖。

簡潔反而有害之處：BoolQ#

資料集的異質性至關重要：BoolQ 的差距在簡潔約束下反而略微擴大（23.5pp → 24.3pp）。解釋是：BoolQ 需要跨句子的篇章整合，此時詳加鋪陳是功能性的，而非過度的。簡潔約束並非萬用處方——它在自足型問題（數學、科學）上有幫助，因為在那裡過度鋪陳會累積錯誤；而在明確推理是承重結構的問題上則有害。

排除污染#

三項獨立檢驗確認 inverse scaling 反映的是真實的能力差異，而非記憶造成的假象：

回應多樣性：跨資料集有 89–100% 的回應是唯一的（與模板記憶相矛盾）
長度變異性：CV 0.31–1.21，全都超過記憶門檻（CV < 0.15）
錯誤型態：40–81% 為過度推理失敗，對比 13–23% 為記憶迴避
Fisher 精確檢定：污染指標與 inverse scaling 之間沒有關聯（$p = 0.23$）

RLHF 長度偏差假設#

推測的成因：RLHF 的獎勵模型展現出長度偏差——標註者把詳盡誤當成品質。較大的模型在訓練期間有更大的容量去滿足長度獎勵訊號，並更深地將冗長生成內化。這與「冗長差異在 instruction-tuned 變體上比 base 變體更大」相一致。這指向一個在訓練時即可著手的緩解方法：對獎勵模型做校準，使其在需要簡答的問題類型上懲罰過度鋪陳。

實務意涵#

彙總基準系統性地低估了大型模型的能力，且發生在一個可預測的子集上——對前沿模型而言，標準提示法與最佳化提示法之間的差異，相當於整整一個模型世代的差距。
問題感知路由 + 規模專屬提示是其部署型態：偵測易引發 overthinking 的問題類型，並選擇性地施加簡潔約束。
成本與能力同步改善——簡潔約束既提升了 inverse 題目上的準確率，又減少了 token（更少的花費）。

侷限#

僅採用貪婪解碼；溫度取樣是否會改變這 7.7% 的比率仍屬未知。
僅限知識／推理任務；未評測生成式任務。
並未確立大型模型為何會 overthink（訓練動態？架構？湧現？）。
因果樣本在選擇模型時，部分是基於其較強的 overthinking 傾向（44.2pp 差距，相對於完整分析中的 28.4pp），因此 67% 的縮減是一個上界估計。

衍生內容#

When to Use Claude Opus 4.6 for Work — 簡潔介入與 BoolQ-exception 的發現直接餵入 Opus 4.6 的部署規則
Opus 4.6 → 4.7 Changes and Multi-Agent Coding Considerations — 將簡潔約束與 harness 層級的長度強制套用到一支 Opus 4.7 的 multi-agent coding 團隊上

開放問題#

當直接針對 base（非 instruct）模型變體測試時，RLHF 長度偏差假設能否重現？若冗長生成主要來自預訓練，base 模型的冗長差異應當與 instruct 模型的差異相符。
哪些問題特徵能預測提示敏感度？一個自動化分類器將使規模專屬提示得以實際部署。
overthinking 效應如何與使用工具的 agent 互動？若簡潔對大型模型有幫助、但工具又需要結構化推理，那麼最佳提示就不會是一律簡潔的。
推理模型（o1、DeepSeek-R1 風格）是否展現出與 instruct 模型不同的 overthinking 動態？它們被訓練出的行為明確就是生成長 CoT——簡潔介入會傷害它們嗎？
BoolQ 的功能性鋪陳例外，究竟是一條乾淨的分類界線，還是每一種任務類型都有其情境相依的最佳長度？

資料來源#

Brevity Constraints Reverse Performance Hierarchies in Language Models

規模相依的提示敏感度

資料來源#

摘要#

細節#

研究範圍#

三類問題#

Inverse Scaling：既非刻意設計，也不罕見#

Overthinking 作為因果機制#

完整的階層反轉#

簡潔反而有害之處：BoolQ#

排除污染#

RLHF 長度偏差假設#

實務意涵#

侷限#

相關連結#

衍生內容#

開放問題#

資料來源#