H
Howardism
Plate II機器翻譯 · machine-translatedENHOWARDISM

AlphaProof Nexus

PublishedMay 23, 2026FiledEntityTagsEntitySystemGoogle DeepmindAI For MathematicsReading5 minSourceAI-synthesised

DeepMind 的 LLM 輔助 Lean 證明生成框架;四種 agent(基礎→全功能);proof-sketch + EVOLVE-BLOCK 介面;SafeVerify

AlphaProof Nexus 的示意圖

資料來源#

摘要#

Google DeepMindLLM 輔助形式化證明生成框架,運行於 Lean(arXiv 2605.22763)。Agent 查詢前沿 LLM(Gemini 3.1 Pro)與 Lean 編譯器,將一份 proof sketch(一個定理,其證明以 sorry 佔位)轉化為經過驗證、不含 sorry 的完整證明。它涵蓋從簡單迴圈到演化系統的四種 agent 設計,也是首次大規模評估形式化證明搜尋在開放研究問題上表現的工具——解決了 9/353 個 Erdős 問題、44/492 個 OEIS 猜想,以及最佳化、代數幾何、加法組合學、圖論和量子光學領域的成果。Lean 證明已開源於 github.com/google-deepmind/alphaproof-nexus-results

四種 agent(A → D)#

Agent設計備註
(A) Basic獨立的 prover 子 agent,無共享狀態;每個都是一個「Ralph loop」的 episode 循環令人意外地在全部 9 個 Erdős 解題上與 (D) 持平——見 Agentic Loops Overtake Bespoke Systems
(B) Basic + AlphaProof(A) 加上 AlphaProof RL 證明器作為可呼叫工具在較難的問題上比 (A) 更高效
(C) Basic + evolution(A) 加上族群/Elo 演化搜尋
(D) Full-featured演化加上 AlphaProof用於開放問題探索;Evolutionary Proof Search 詳述其機制

一個 prover 子 agent 執行多輪 Gemini 3.1 Pro 對話,配備 search_replace 工具;每次編輯後 Lean 編譯器回傳反饋以引導下一輪;episode 結束時,sketch 由 SafeVerify 驗證(編譯通過、無 sorryAx/公理注入),若仍有 sorry 殘留,agent 會寫下經驗教訓註解後繼續。$N$ 個子 agent 並行運行;任一找到證明即全部停止。

輸入/輸出:proof sketches#

輸入是一個 Lean 檔案——目標定理以 sorry 佔位,加上所需的定義與匯入——可選附帶自然語言上下文與以 Lean 編碼的領域知識。可編輯區域由 EVOLVE-BLOCK(輔助引理/定義/證明步驟)和 EVOLVE-VALUE(參數表達式)界定。EVOLVE-VALUE 機制促成了一項真正的發現:將最佳化演算法的學習排程標記為一個 value,讓 agent D 同時搜尋排程與證明,產出了一個具有更強收斂保證的新穎參數選擇。

AlphaProof(作為工具)#

AlphaProof 是 DeepMind 先前的獨立系統——一個以強化學習訓練的奧林匹克級 Lean 定理證明器(DeepMind IMO 成果背後的系統)。在 Nexus 中它被用作聚焦證明工具:給定一個子目標,它回傳證明、反證或失敗。它有 Test-Time RL 模式,但此處以較低成本的樹搜尋運行(約 400 次模擬,約 27.5 TPU 小時 ≈ $60/問題)。值得注意的是,AlphaProof 在獨立樹搜尋模式下未能解決任何被評估的問題——它的價值在於作為 LLM 驅動迴圈內的子目標終結者,而非獨奏者。

模型與成本#

多輪證明器使用 Gemini 3.1 Pro;較便宜的 Gemini 3.0 Flash 用於評分 agent。每個問題的推論成本為「數百美元」,變異度高;基礎 agent 版本在較小模型(Gemini 3.0 Flash、Gemini 3.1 Flash-Lite)上未能解決任何問題——能力受到規模的嚴格門檻限制(Scale-Dependent Prompt Sensitivity)。報告的成本不包含 AlphaProof 的約 $60,以及在全部 353 個問題中尋找可處理問題的可觀成本。

重要性#

該系統將 LLM 的數學推理錨定於編譯器,將容易產生幻覺的自然語言證明轉化為可驗證的產物(AI-Driven Formal Proof Search),並證明隨著 LLM 的進步,簡單的 agentic 迴圈越來越能匹敵客製化的訓練系統Agentic Loops Overtake Bespoke Systems)。已解決的 Erdős 問題被記錄在 Terence Tao 的 AI 貢獻維基上。

相關連結#

開放問題#

  • 該框架的適用範圍受限於 Lean 的 mathlib 成熟度。對於需要新理論而非子目標分解的領域,路徑為何?
  • AlphaProof 作為獨奏者貢獻甚微,但作為工具則有幫助。隨著證明器 LLM 增強,AlphaProof 工具是否會完全變得多餘?

資料來源#

§ end
About this piece

Articles in this journal are synthesised by AI agents from a curated wiki and are refreshed automatically as new concepts arrive. Topics, framing, and editorial direction are curated by Howardism.

Cited by 9
  • Agent Harness Engineering

    Patterns for scaffolding long-running LLM agents: environment design, progressive context disclosure, mechanical archit…

  • Agent Loop Pattern

    `/loop` (cron-scheduled) and Ralph Wiggum (backlog-draining) loops as next-generation agent primitive; AFK execution, p…

  • Agentic Loops Overtake Bespoke Systems

    DeepMind's *basic* Ralph-loop agent matched its bespoke evolutionary+AlphaProof system as the LLM improved; the bitter…

  • AI-Driven Formal Proof Search

    LLM generates Lean, compiler verifies every step → eliminates hallucination; DeepMind resolves 9/353 Erdős + 44/492 OEI…

  • Evolutionary Proof Search

    The full-featured agent's mechanism: population DB of proof sketches, Elo via Plackett–Luce/Gibbs, P-UCB selection, LLM…

  • Google DeepMind

    Google's AI lab; built AlphaProof Nexus; Gemini models, AlphaProof, AlphaEvolve; opens the AI-for-mathematics domain in…

  • Lean

    Proof assistant whose compiler mechanically verifies every step; the `sorry` placeholder enables proof sketches; mathli…

  • Entities — People, Orgs, Tools & Projects

    Map of Content for all 32 entity pages. See Home for concept domains.

  • Open Questions Backlog

    _96 pages with open questions, as of 2026-06-14._

Related articles
  • AI-Driven Formal Proof Search

    LLM generates Lean, compiler verifies every step → eliminates hallucination; DeepMind resolves 9/353 Erdős + 44/492 OEI…

  • Agentic Loops Overtake Bespoke Systems

    DeepMind's *basic* Ralph-loop agent matched its bespoke evolutionary+AlphaProof system as the LLM improved; the bitter…

  • Lean

    Proof assistant whose compiler mechanically verifies every step; the `sorry` placeholder enables proof sketches; mathli…

  • Client-Side Agent Optimization

    AgentOpt's framing of developer-controlled agent optimization (model-per-role, budget, routing) as distinct from server…

  • Evolutionary Proof Search

    The full-featured agent's mechanism: population DB of proof sketches, Elo via Plackett–Luce/Gibbs, P-UCB selection, LLM…