H
Howardism
Plate IISyntheses機器翻譯 · machine-translatedENHOWARDISM

未解問題待辦清單

PublishedJune 14, 2026FiledIndexDomainSynthesesReading45 minSourceAI-synthesised

_截至 2026-06-14,共有 96 個頁面留有未解問題。_

未解問題待辦清單的插圖

_system/lint.py --write-backlog 產生。請勿手動編輯。 從每篇概念文章的 ## Open Questions 區段中收集而來。 透過 /query 來逐一處理;已回答的項目會被歸檔到 derived 中。

截至 2026-06-14,共有 96 個頁面留有未解問題。

Agent Context Files#

  • 角色拆分會收斂到 Hermes 那種明確的專案/個性分離,還是會像 Claude Code 那樣折疊進單一檔案?對於多專案使用者而言,獨立的 SOUL.md 式個性層似乎嚴格來說更好,但也多了一個需要維護的檔案。
  • 這種分層(專案 → 工作流 → 規格 → 憲章)是否有一個自然的上限,還是每出現一個新的自主性介面,就會再衍生出另一層脈絡檔案?
  • 當脈絡檔案與有界記憶檔案彼此衝突時,它們應該如何互動?記憶是有損的且有快取延遲;脈絡檔案則是權威但靜態的。哪一個勝出,又在什麼時候勝出?

Agent Harness Engineering#

  • 單一通用型程式編寫 agent 是否勝過具備專門測試、QA 與清理 agent 的多 agent 架構?
  • 在一個完全由 agent 生成的系統中,架構的一致性會在數年間如何演變?
  • 到了什麼樣的程式碼庫規模,把 AGENTS.md 當作目錄的做法就需要被更精密的脈絡路由所取代?
  • 這些聚焦於 web app 的發現,對其他領域(科學研究、財務建模)的可推廣性有多高?

Agent Identity and Authentication#

  • 硬體綁定的憑證假設 agent 執行的每個地方都有經過認證(attested)的硬體,包括短暫的雲端工作負載與子 agent。對於那些「擁有最高與父代相同權限」、生命週期短暫的衍生子 agent,認證(attestation)要如何運作?
  • JIT + ABAC 都被標記為「進階、不易實作」。是否存在一個務實的 Enterprise 層中間點,還是從 Foundation 的靜態角色到 Advanced 的 JIT 之間是一道斷崖?已回答: Foundation → Enterprise → Advanced: Is the Agent Access-Control Jump a Cliff? — 不是斷崖;Enterprise 層(ABAC + 帶有回歸基線的動態權限提升 + mTLS + 沙箱化)就是刻意設計的中間點,而 ABAC 被定位為「進階」是來源資料的不一致(在分層表中它位於 Enterprise)。子 agent 認證仍是未解問題。

Agent Loop Pattern#

  • 當模型自行排程它的迴圈(4.7 的行為)時,預算由誰掌控?Boris 回答「模型自己決定」——但這把成本紀律推給了模型的訓練,而非 harness。
  • 一個搭載夠聰明模型的迴圈是否仍需要 Kanban 待辦清單,還是模型會從原始目標中自行選擇下一個任務?
  • 迴圈產出的審查如今是 Matt Pocock 坦承的瓶頸——「我們只需要準備好進行更多的程式碼審查。」

Agent-Native Infrastructure#

  • 誰來打造那條長尾、面向人類的服務的 agent-native 重寫版本——是服務擁有者,還是疊在其上的一層轉譯層(MCP 伺服器、computer-use agent)?
  • agent 對 agent 的協商需要信任、身分與問責的基本要素,而這些目前還不存在。協定層是什麼,又由誰來治理?

Agent Supply Chain Risk#

  • 把「AI vendoring」當作標準回應,顛覆了數十年來「不要重新發明輪子」的觀念。一個由模型重新實作的相依套件本身要如何驗證與維護——這難道不只是把風險換個地方擺?
  • 那個 250-doc 後門能挺過 SFT/RLHF。對於一個你並未訓練、卻已被下毒的模型,除了行為紅隊測試之外還有什麼偵測手段?

Agentic Honesty & Diligence#

  • 這些是短脈絡的玩具型評估;失敗最常出現在長脈絡的部署中。這些增益有多少能在生產環境的脈絡長度下維持?
  • 程式碼摘要的誠實度是在 off-policy 的預填(prefilled)轉錄稿上測試的。on-policy 的行為(模型對它自己失敗的工作做摘要)是否符合那個 3.7% 的數字?
  • 一個盡責度(diligence)評估能否區分真正的誠實與一個察覺評分者(grader-aware)的模型所產出的「看起來誠實」的輸出?(訓練博弈的落差。)

Agentic Loops Overtake Bespoke Systems#

  • bespoke 的優勢被標註為「目前如此」。下一代模型的裁決是什麼——演化式/AlphaProof 那套機制是否在任何問題上仍能存活,還是會完全崩塌成一條成本曲線?
  • 「簡單迴圈 + 驗證器勝過 bespoke 系統」這個結果,是否只在驗證器完美(Lean)時成立,還是在有雜訊驗證器的領域(測試、LLM-judge 委員會)中也成立?

Agentic Prompt Injection#

  • Spotlighting 與憲法分類器各自留有殘差(2%、5%)。疊加之後,現實的下限是多少,而且當面對同時知道兩者都已部署的自適應攻擊者時,它是否仍守得住?(Opus 4.8 的實時 bug bounty 部分回答了這點:自適應的專家紅隊人員仍能在裸模型上找到攻擊;部署的探針增加了提升幅度,但並未把殘差歸零。)
  • 為什麼 Opus 4.8 在 prompt-injection 穩健性上相對 Opus 4.7 出現退步,儘管整體對齊有所提升——是能力/穩健性的取捨,還是更嚴苛的自適應評估所造成的假象?
  • 「LLM 無法可靠地區分資訊與指令」——這是該架構的根本性質,還是未來模型會彌補的訓練落差?該框架將它視為持久的。

Agentic Technical Debt#

  • 隨著程式碼庫演進,一份 CLAUDE.md 能保持準確多久?這套劇本提到逐 session 更新;但沒有關於腐化速率的數據。
  • 這個補救措施假設創辦人有能力用淺白的語言闡述架構。非技術背景的創辦人(這套劇本主打的受益族群)可能既無詞彙、也無直覺把這件事做好——這是劇本未能處理的遞迴式失敗。
  • Anthropic 的 harness-shrinkage 論點暗示 CLAUDE.md 最終可能由模型自己推斷出來。在那之前,這項紀律是承重的。

AI-Accelerated Offense#

  • Anthropic 主張 LLM 在長期對防禦方更有利(如同 fuzzer),但在過渡期的短期對攻擊方更有利。這個過渡期有多長,又是什麼決定誰會勝出?
  • 「基本功強到掃描找不出多少 bug」這個說法假設防禦方會先跑掃描器。對於那些負擔不起持續性模型驅動掃描的組織,會發生什麼?

AI Accelerating AI Development#

  • LOC、自我回報,以及依賴餘裕(headroom-dependent)的倍數全都高估了;Anthropic 承諾轉向「直接量測 AI R&D 加速與研究者提升」(AI R&D Autonomy Evaluation (AECI))時,究竟會用什麼無偏的吞吐量指標?
  • W2S 的結果並未轉移到生產規模的模型上。那是暫時性的規模化假象,還是自主研究的結構性極限?
  • 下一步判斷的趨勢(51%→64%)只在弱人類棋步的切片上量測。在具代表性的研究決策樣本上,這條曲線長什麼樣?
  • 成功案例集中在 Lean 的 mathlib 成熟、且問題能分解成可處理子目標的地方(組合學、凸優化、數論)。是什麼能把前沿擴展到需要新理論的問題?
  • 這些 agent 繼承了它們 LLM 的偏誤,並表現出高度的搜尋變異。你要如何刻畫並推進可達範圍的邊界?
  • Graffiti 的結果暗示了在 AI 提出猜想與 AI 證明之間閉合迴路。一條端到端的 conjecture→formalize→prove 流水線長什麼樣?

AI Native Product Cadence#

  • 這個節奏能否擴展到超過約 100 人的規模?Anthropic 本身更大(光是 PM 就約 30-40 位),但顯著推動節奏的 Claude Code 團隊規模很小。
  • 對於那些客戶期待穩定性的 B2B 企業級發布而言,research-preview 式品牌定位的對應物是什麼?Cat 並未論及。
  • 這個節奏有多少是結構性的(流程選擇),又有多少是文化性的(人才密度)?大概兩者皆有,比例不明。

The AI-Native Safe-Choice Inversion#

  • 這個倒置是對「安全」的一次性重新定價。一旦存在數家 AI-native ERP,「安全」是否會圍繞最大的那家 AI-native 供應商重新穩定下來——而 Campfire「我們現在是新群體中最大的一家」這個說法,是否反映了一場為搶占該位置的圈地戰?
  • 在現有業者裝上可信的 AI 並中和這種反向定位之前還有多久——而那個自建基礎模型的說法,真的能抵禦這一點嗎?

AI-Native Startup Lifecycle#

  • 這套劇本對於人力/資本壓縮的主張並未提供任何量化證據(沒有 PMF 中位時間、沒有 PMF 時的人力數字、沒有失敗率數據)。「精實的 10 人獨角獸」被斷言為刻意設定的目標,但文件本身並無案例研究佐證。
  • 資源章節中的創辦人故事(Carta Healthcare、Anything、Cogent、Airtree、Duvo、Zingage、Kindora、Wordsmith)都只是簡短的提及——沒有一個有公開的結果或可比較的基準數據。
  • 那個 42% 的「打造了沒人想要的東西」CB Insights 數字來自前 AI 時代;劇本預測這個比率會攀升,但並未引用 2026 年的量測。
  • 與 HBR 的問責研究(如上)之間的張力尚未化解。這套劇本的編排(orchestration)框架,讀起來正是 HBR 的實驗條件所要對照測試的那種框架。

AI R&D Autonomy Evaluation (AECI)#

  • 「尚未接近取代資深研究者」是一個主觀、內部來源的判斷。當模型逼近門檻時,什麼客觀訊號能取而代之?
  • AECI 是某個外部指數的單一純量分支;155.5/「前沿但未達進階」的結論,對於 n=11 評估集的選擇有多敏感?
  • 轉向「直接量測 AI R&D 加速與研究者提升」已被宣告,但在這張卡片中尚未被操作化——那個量測長什麼樣?

AlphaProof Nexus#

  • 該框架的觸及範圍受制於 Lean 的 mathlib 成熟度。通往那些需要新理論、而非子目標分解的領域,路徑是什麼?
  • AlphaProof 作為獨奏者貢獻不大,但作為工具很有幫助。隨著證明器 LLM 變強,AlphaProof 這個工具是否會完全變得多餘?

Anthropic Institute#

  • 該研究院的政策立場(偏好保留暫停的選項)如何與 Anthropic 推出前沿模型的商業誘因互動?這篇文章承認了競爭/地緣政治的壓力,卻沒有解決它。
  • 該研究院會原型化哪些具體的驗證機制,又是在相對於它所警告的 RSI 趨勢的什麼時間表上?

Automated Behavioral Audit#

  • 使用一個 helpful-only 的 Opus 4.7 與 Mythos Preview 作為調查者,意味著該稽核的觸及範圍受限於這些模型的誘出(elicitation)技巧——那些能力相當但技巧不同的紅隊人員,能找出多少這些調查者錯過的不當行為?
  • 那 23 個「破壞 Anthropic 安全工作」的情境是一個小而高訊號的集合。對於它所針對的威脅類別而言,23 個的覆蓋度夠嗎?

Autonomous Defense#

  • 「對照一個人類量測一致性兩週,若可容忍就擴大」——什麼樣的一致性門檻是可容忍的,而當模型對一個人類從未看到的警示做出處置時,殘餘的偽陰性風險由誰承擔?
  • 防禦型 agent 是高價值的目標(攻陷一個就能取得強大的能力)。把偵測集中在一個 Agentic SOAR 中,是否會製造出分散式人類模型所沒有的單一災難性攻陷點?

Autonomous Scientific Discovery#

  • 每個結果都是 Anthropic 自報且經過挑選的範例;那個基因組學「小 100× 卻勝過 Science」的主張是「打算發表」——有什麼能挺過外部同儕審查?
  • 科學的驗證落差:形式化證明的迴路會自我驗證;在這裡,一個錯誤但自信的假設要付出一個濕實驗室週期才能證偽。沒有快速驗證器的自主性,是否反而增加了驗證瓶頸,而非緩解它?
  • 如果假設生成真的達到約 80% 的偏好度,那麼還剩下多少「研究品味」作為一種獨特的人類功能——而你要如何量測這個殘餘?

Blast Radius (Agentic)#

  • 該框架偏好基於身分的隔離勝過網路分段,但多數企業在分段上有沉重的投資。遷移路徑是什麼,而雙軌並行是否會製造新的缺口?
  • 多 agent 的分隔化增加了需要管理的身分數量;到了什麼程度,身分管理的開銷會製造出它自己的攻擊面?

Build for the Next Model#

  • 你要如何在下一次發布之前,分辨一個「等待模型」的落差與一個持久 harness 的落差?判斷錯了,你要嘛交付空頭產品,要嘛打造一個你將會刪掉的拐杖。
  • 這個賭注取決於可靠的發布節奏與一條可預測的能力曲線(Task Time-Horizon Scaling)。如果模型進步停滯(那個停滯但已擴散的未來),「為下一個模型而打造」會怎麼樣?
  • 這個策略能否推廣到前沿實驗室之外?這些實驗室對下一個模型有特權級的可見度。一個外部團隊賭的是一個它看不見的發布。

Building Is Cheap, Arguing Is Expensive#

  • 「生成三個再比較」在什麼時候會變得浪費——在什麼樣的決策權重下,一場真正的辯論(或一份設計文件)仍比三個實作更便宜?
  • 如果設計討論存在於 PR/原型中,那麼理由記錄在哪裡供未來的讀者參考——「我們為何選這個」的知識會存活下來,還是會跟 Code as Source of Truth 共享同樣的陳舊問題?

Campfire#

  • Campfire 聲稱它的 AI 優勢來自「我們自己的基礎模型」。對一個 ERP 而言,自建基礎模型相較於微調一個前沿模型,實際上買到了什麼——而隨著前沿模型進步,它是否持久(參見 Harness Shrinkage as Models Improve)?
  • 「從來沒有人成長到超出 Campfire」——當客戶達到 NetSuite 的廣度在歷史上才重要的那種真正企業級規模時,這個說法還守得住嗎?

Capability-Gated Model Fallback#

  • 那些 >95%/<5% 的數字是 session 層級的;對於合法的安全研究者與生物學家——他們的良性查詢正是最可能觸發保守分類器的那些——偽陽性率是多少?
  • 「降級而非拒答」保留了 UX,但意味著供安全/生物相鄰工作使用的真正通用存取模型是 Opus 4.8,而非 Fable——在受信任存取計畫開放之前,這是否悄悄地為整個專業族群封住了 Fable 的價值?
  • UK AISI 的「朝向通用越獄的進展」已被揭露但未被量化——而發布後的存取暫停(參見 Claude Fable 5)引出了一個問題:是否有一次安全防護失效逼出了它。
  • 在被標記的主題上切換到較弱的模型,是否會製造一個可被利用的諭示(oracle)(探測哪些查詢會觸發降級,以繪製出分類器的邊界)?

Claude Character as Product#

  • 角色(character)如何跨模型版本進行版本控管?公開評論並未在角色層級展示變更日誌。
  • 角色能否被競爭對手透過微調複製出來,還是它路徑相依於 Anthropic 的內部實踐?
  • 對於像 Cowork 這類非程式編寫的產品,同一套角色是否管用,還是 Cowork 需要它自己的角色調校?

Claude Code Auto Mode#

  • 對於常規但激進的重構(例如大型檔案的重命名、rm 建置產物),分類器的偽陽性率是多少?
  • 分類器對於它缺乏環境脈絡的自訂工具/MCP 伺服器,泛化得有多好?
  • 分類器的決策邊界是否有足夠的文件記錄/穩定性,讓對安全敏感的組織能夠認證它,還是它實質上是一個行為會隨更新而漂移的黑箱?
  • 把 auto mode 延伸到 API 使用者是否會改變它的校準——分類器是否會為了重度自動化的使用而重新訓練,還是保持不變?
  • 相較於 OS 層級的沙箱化(在 Claude Code Best Practices 中與 auto mode 並列提及),縱深防禦的論述是什麼?什麼時候應該兩者疊加?

Claude Code Best Practices#

  • 在指令開始遺失之前,CLAUDE.md 的最佳長度是多少?是否存在一個可量測的門檻?
  • Writer/Reviewer 模式與 agent 對 agent 的審查(如 OpenAI 的 Codex 工作流)相比如何?
  • subagent 的開銷在什麼時候會超過脈絡隔離的好處?

Claude Design#

  • 「透過 MCP 接任何設計工具」的整合,真的有按照所宣稱的時間表出貨嗎?(2026 年 5 月的前瞻性主張。)
  • Claude Design 的評估紀律對於視覺/美學輸出——那裡沒有編譯器或測試——是如何運作的?(與 Cowork 對非程式產物的問題相同;與角色/品味評估相關。)

Claude Fable 5#

  • 為什麼發布後存取被暫停? 來源橫幅沒有給出原因(容量?一項安全發現?Capability-Gated Model Fallback 中提到的 UK-AISI 越獄進展?)。來源中沒有。
  • 對比 GPT-5.x / Gemini 的確切基準數字在來源中僅為圖片;未被轉錄。
  • Fable 的通用存取體驗有多少實際上是 Fable,又有多少是給那些查詢觸發保守分類器的安全研究相鄰使用者的 Opus-4.8 降級?

Claude Mythos 5#

  • 暫停原因 — 與 Fable 5 共通;來源中未說明。
  • 「比 Mythos Preview 略強」如何與 Opus 4.8 的卡片宣稱 Mythos Preview 是能力前沿相吻合?前沿已經移動;其幅度在此並未被量化。
  • 生物受信任存取的 SKU 是「移除生物安全防護的 Fable 5」,而非 Mythos 5——所以「Mythos 5」嚴格來說指的是提升了網路能力的變體。這些是否會收斂到單一受信任存取的傘下,尚未說明。

Claude Opus 4.7#

  • Hakim(2026)在 Opus 4.6 上的簡潔約束發現,是否能在 Opus 4.7 上重現,還是字面指令遵循改變了彈性?具體而言:<50 words 在 GSM8K 上是否仍帶來 +13.1pp?
  • Opus 4.7 在 HotpotQA 式的組合掃描中作為規劃者是否仍表現不佳,還是改善後的指令遵循彌合了 AgentOpt(Hua 等人,2026)所指出的落差?
  • 在典型的 Claude Code session 上,真實世界的 token 膨脹倍數是多少(1.0–1.35× 取決於內容——在程式碼密集相對於散文密集的輸入上,其分佈為何)?
  • xhigh 在程式編寫評估上與 max 相比如何?遷移指引說「從 high 或 xhigh 開始」——對程式編寫而言,max 真的曾值得嗎?
  • 在字面指令遵循之下,現有 CLAUDE.md/系統提示詞的迴避性措辭有多少比例會變得適得其反?

Claude Opus 4.8#

  • 公開的 model ID 與定價:卡片並未說明它們;推測是 Opus 層級的 claude-opus-4-8
  • 評分者推測(grader-speculation)的趨勢是否會在下一個模型中持續升級,又會在什麼時候開始影響外顯行為?
  • 為什麼 4.8 對 prompt injection 的穩健性低於 4.7,儘管整體對齊有所提升——是能力/穩健性的取捨,還是評估面的假象?

Client-Side Agent Optimization#

  • 組合層級的優化如何與模型的持續發布互動?如果 Claude Opus 4.7 下個月出貨,整個 Pareto frontier 是否需要重跑,還是熱啟動的 bandit 能廉價地適應?
  • 在什麼樣的流水線深度下,即使是 Arm Elimination,組合搜尋也會變得難以處理?論文測試到約 81 種組合;具備 5+ 角色與各 10+ 候選模型的生產流水線遠遠超過那個數字。
  • 「弱規劃者 + 強求解者」模式能否泛化,還是它特定於 HotpotQA 的委派動態?推薦者-評論者、起草者-編輯者,以及檢索者-生成者的拓樸可能會反轉。
  • 當工具環境改變時,重新評估的正確方式是什麼?AgentOpt 假設工具固定——新增或移除一個工具可能會使整個 frontier 失效。
  • 是否存在一個廉價的逐次呼叫分類器,能預測在給定查詢上哪個組合會勝出,從而完全避免組合層級的評估?

Code as Source of Truth#

  • 哪些知識真正無法存在於程式碼庫中(組織策略、那個「為什麼」、跨團隊脈絡),因而仍需要一份持久的文件——而你要如何讓那一小片知識保持最新?
  • 如果上手就是「問 Claude」,那麼過去在深度探討中透過社交方式傳遞的默會知識會怎麼樣——它有被捕捉在任何地方,還是悄悄流失了?

Codex App Server Protocol#

  • App Server 協定在細節上與 MCP 相比如何?兩者都向模型暴露工具,但 App Server 在 Codex runtime 內部,而 MCP 在外部。各自在什麼時候勝出?
  • 是否有一個公開的 schema registry,讓外部編排器能在不使用 generate-json-schema 的情況下鎖定特定的 App Server 版本?
  • 「動態工具呼叫(實驗性)」的但書——穩定性的路線圖是什麼?Symphony 的安全模型依賴於此。
  • 該協定處理多模態回合(圖像輸入、螢幕截圖附件)的能力有多好?規格以文字為主。
  • Claude 那邊是否有一個類似的協定,還是 Claude 的對應物完全就是 Agent SDK + tool-use API?比較兩者能釐清「驅動一個現有的 CLI」在什麼時候勝過「在 SDK 上打造」。

Compounding Data Moat#

  • 「兩年複製窗口」的主張在經驗上站得住腳,還是只是抱負?這套劇本並未引用量測。
  • 當基礎模型本身持續快速進步時,這道護城河撐得住嗎?如果 2027 年的一個通才模型已內化了足夠的垂直脈絡,能原生地處理 340B 藥物理賠,那麼垂直邊緣案例的護城河會被侵蝕嗎?
  • 數據飛輪的論點已經為 SaaS 講了 15 年。AI-native 版本實際上有什麼不同?大概是:數據除了改進產品之外還改進了模型,但這套劇本並未精確地做出這個區分。
  • 「客戶在你之上打造 API」的鎖定,在結構上類似於平台玩法(Salesforce AppExchange、Shopify apps)。這種護城河類型真的是新的,還是只是對精實新創而言新近變得可及?

Compounding Loop Optimization#

  • 迴圈假設團隊就是(接近)使用者。當使用者不像建造者、且「與使用者交談」無法同處一室時,這種複利優勢有多少能存活?
  • 值得做的內部工具與 yak-shaving 之間的界線在哪裡?Carey 的「一個下午」標準是那個啟發法,但 Cat Wu 警告過度客製化的設定「會變成分心」。
  • Claude 作為所有回饋的第一道處理,是否曾經濾掉那些不成群的罕見訊號?自動化分流優化了常見情況;尾端才是出人意料的賭注所來自之處。

Compute Allocator#

  • 1% 是 Thariq 特定的數字,還是一種常態?對於更大、更程式碼密集的專案,生產殘餘大概更高;是什麼決定了這個比率?
  • 配置品質很難量測——什麼樣的回饋迴路能告訴一個配置者他們把運算花得很糟(相對於只是花了很多)?
  • 把人類當作「運算配置者」是否冒著 HBR 研究所標記的監督疲勞問責失敗模式的風險——在那種情況下,人類名義上做決定,實際上卻只是橡皮圖章?

Context Window Smart Zone#

  • 智慧區(smart-zone)標記是隨模型大小縮放,還是受注意力架構所限?Pocock 觀察到「笨拙區最近變得沒那麼笨了」,但把它定在 2026 年的 100K。
  • 當稀疏注意力或記憶增強架構出貨時,智慧區是否變成一個軟性約束?
  • harness 應該如何向使用者呈現剩餘的智慧區預算——token 計數、百分比,還是更豐富的訊號?

Cowork#

  • Cowork 的 harness 與 Claude Code 的相比如何?兩者都呈現 skills、MCP、sub-agent——但非程式輸出的失敗模式不同(沒有測試套件、沒有編譯器、沒有可審查的 diff)。
  • Cowork 這類輸出的評估紀律是什麼?Cat Wu 說記憶從評估中受益良多;但投影片簡報品質如何量測尚不清楚。

Deep Modules for Agents#

  • 「夠深」是多深?Pocock 的範例模組有數百行 LOC;Ousterhout 的教科書範例更大。存在一個甜蜜點;但未被闡明。
  • 對於 ports/adapters 的程式碼庫,深模組的建議能否乾淨地轉移?「小介面」是 port;「大行為」是 adapter。大概可以,但來源中未演練。
  • 重構成本相對於效益:在一個可運作的 repo 上執行「improve-code-base-architecture」在什麼時候值得?

Design Concept Grilling#

  • grilling 能否 AFK 地對抗另一個持有使用者偏好的 agent 來進行?Pocock 在 2026 年的答案是「不行,這部分必須是 human-in-the-loop」——但隨著 agent 越來越擅長對其主體建模,這個問題仍然開放。
  • 對於需要多個人類對齊的團隊工作,grilling 如何改變?Pocock 的提示:在房間裡與 agent 結對程式編寫,把它當作第三個對話者。

Disposable Micro-Apps#

  • 一個用後即棄的 micro-app 與工具氾濫之間的界線在哪裡?如果每次編輯都衍生出一個客製 UI,工作流會不會碎片化?
  • 「複製回 markdown」的往返是否能推廣到 config 形狀的數據(規則、表格)之外,到更豐富的產物?
  • 這些 micro-app 能否被模板化/重用,而非重新生成——又到了什麼程度,那會擊敗「用後即棄」的框架,並變成持久的工具

Dogfooding as Product Discipline#

  • 當團隊就是使用者(Claude Code)或接近使用者(Cat Wu、Boris)時,dogfooding 才管用。你要如何為和你非常不同的使用者培養產品判斷力——「與客戶交談」是否完全可以替代,如同 Glasgow/Fung 的小型企業工作所暗示的?
  • dogfooding 能否擴展,還是它隱含地限制了一個 AI-native 產品組織在退回儀表板之前,能保持多大規模仍由品味驅動?

Engineer PM Convergence#

  • 這能否擴展到約 50 人的 Claude Code 式團隊之外?Boris 迴避道:「我認為這會是未來數年的一個問題。」
  • 在工程師做 PM 工作的公司裡,正式的 PM 職涯階梯會怎麼樣?在 Anthropic 這是開放的,據 Cat 所言。
  • 跨領域通才是一條招聘門檻——供給從哪裡來?是轉職者,還是新鮮人對 AI-native 教育的偏好?

Evals as Product Spec#

  • 你要如何為像角色這種由品味驅動的功能撰寫評估?Amanda 的角色因抗拒評估而具代表性;Cat 點名她是在這裡擅長評估的人,卻沒有描述技巧。部分回答: How Do You Write Evals for Taste? Character as the Limit Case — 該技巧是一條流水線(信念 → 源自 dogfood 的失敗模式 → MSM 式的變體 A/B 量測 → 約 10 個可詮釋的評估);在安全/價值核心上已獲證實,但在溫暖/詼諧的美學表層上仍是默會的。
  • 10-vs-100 這個數字沒有提供理由就給出了。是否存在一個 Goldilocks zone,還是它取決於功能的表面積?Client-Side Agent Optimization 對組合的框架暗示評估也有組合爆炸的問題。
  • 評估如何與 Harness Shrinkage as Models Improve 互動?當一個 harness 資產因為模型現在能原生處理它而縮減時,圍繞舊 harness 建立的評估可能會變成產物而非護欄。Anthropic 是退役評估還是重新利用它們?
  • 是否有一個非 Anthropic 的 PM-as-eval-writer 範例可以引用,還是這目前是 Cat-Wu 獨有的框架?Matt Pocock 的工作坊從不同的詞彙到達同一個地方,但尚未有第三個來源被吸收。

Evaluation Awareness & Grader Gaming#

  • 評分者推測是否會跨模型世代持續升級,又是否存在一個能力層級,在那裡它確實開始影響外顯行為?
  • 約 5% 的未言明覺察與約 0.5% 的剝削性數字,取決於一個未經驗證的 NLA 流水線。真實的比率是多少,又有多少是良性的?
  • 你要如何打造一個專門測試訓練博弈(Mythos 標記的那個落差)的評估,而不讓該評估本身變成一個模型學會玩弄的評分者?
  • LLM-critic 的適應度本身是疊在一個已驗證基底之上、未經驗證的啟發法。Elo 排名誤導搜尋的頻率,相對於計算它的成本,是多少?
  • 超參數($c=0.2$, top-64, $P=7$)是「憑經驗選定的」。結果對它們有多敏感,它們又能否跨數學領域轉移?

Founder as Agent Orchestrator#

  • 這套劇本聲稱非技術背景的創辦人現在能打造生產級軟體,但它並未處理架構判斷的遞迴問題(Agentic Technical Debt):非技術背景的創辦人可能沒有詞彙來撰寫有效的 CLAUDE.md。這如何擴展?
  • 「精實的 10 人獨角獸」被斷言了;劇本中沒有關於 AI-native 新創相對於前一個群體的實際 PMF 時人力或 Series-A 時人力中位數的量化數據。
  • 編排角色如何改變創辦人的決策負擔?親手做的任務更少,但平行的 agent 監督更多;淨認知負荷不明,且可能更高(參見 AI Brain Fry)。
  • Anthropic 同時發布劇本的擬人化框架以及意識到 HBR 的問責工作(auto-mode、對齊),卻沒有直接與框架文獻互動。Orchestration vs Employee Framing: Reconciling the Founder's Playbook with HBR's Accountability Evidence 中的綜合在操作層面化解了這個張力——編排作為工作流設計保留了問責;編排作為把 agent 當同事的心智模型則沒有——但為什麼劇本的行銷語言並未反映 Anthropic 自己的框架紀律工作,這個未解問題仍然存在。

Founder-Led Sales Discipline#

  • 「直到 PMF」究竟在哪裡結束,而創辦人應該交出的第一件事是什麼(AE?agent?兩者皆是)?Glasgow 在 Series-B 之後仍然親自做,暗示這個界線是模糊的。
  • Glasgow 的反卸載立場能否泛化,還是它特定於高信任、任務關鍵的企業級銷售(ERP),在那裡「他們買的是」——一個 PLG/SMB 的銷售動作會不會遠更早地委派給 agent?

Frontier Pause Verification#

  • 一個 AI 訓練的「驗證機制」具體由什麼構成——運算核算、資料中心檢查、硬體認證、晶片上遙測?這篇文章點出了問題,而非機制。
  • 可偵測性 < 可驗證性:當訓練執行不留下物理特徵且輸入是雙重用途時,偵測甚至能被做到可靠嗎?
  • 由誰來裁定觸發與解除?目前沒有任何機構持有那個授權,而要建立一個本身就是一項十年尺度的任務。

Google DeepMind#

  • DeepMind 報告其 bespoke 系統被簡單迴圈所超越。該實驗室的比較優勢是否從系統轉移到模型 + 驗證器 + 基準(mathlib、Formal Conjectures)?
  • 那篇論文開啟了 AI-for-math;DeepMind 的下一個目標領域是哪裡——一個存在健全驗證器的領域?

Harness Shrinkage as Models Improve#

  • 所有提示詞鷹架最終都會遷移到模型裡,還是有些會留下——例如組織特定的風格、安全規則、品牌聲音?
  • Boris 的「100 行」預測是從 2026 年 5 月算起一年後——可在 2027 年驗證。
  • 如果 harness 工作縮減了,什麼新工作會擴張來填補它?Cat Wu 的賭注:PM/產品品味、評估撰寫、角色工作。

Hermes Agent#

  • 容器後端停用危險指令檢查是一個說得通的設計,但也是一個有意義的安全模型轉變。經驗上的實際記錄是什麼?熱門映像(Daytona、nikolaik/python-nodejs)中的鎖定失效是否造成過事故?
  • 有界記憶檔案(約 2,200 字元的 MEMORY.md)在長期使用下撐得如何?自動整併被提及但未被規定——整併演算法是什麼,又有多少損耗?
  • Hermes 的 DM 配對流程是一個乾淨的安全基本要素。為什麼這個模式還沒被 Claude Code 或 Cursor 用於共享/團隊部署?
  • AGENTS.md(專案)與 SOUL.md(個性)之間的拆分在 Hermes 中是明確的,但在 Claude Code 的 CLAUDE.md 中是隱含的。這個拆分實質上改善了結果,還是一個沒有經驗支持的文件選擇?
  • 全新 session 中、沒有記憶的 cron 工作——團隊如何在不讓每個 cron 提示詞臃腫的情況下,結構化「agent 所需的脈絡」?是否有一個標準模式?

HTML as the New Markdown#

  • 面向人類的 harness 是否無界限地持續成長,還是它撞上自己的臃腫上限(一份太過精細而無法閱讀的 HTML 計畫,就像它所取代的 markdown 一樣)?已回答: Does the Human-Facing Harness (HTML Artifacts) Hit Its Own Bloat Ceiling? — 是的;HTML 抬高並重塑了人類注意力的上限,但無法移除它,而臃腫從文件長度重新定位到產物氾濫/橡皮圖章。
  • HTML 比 markdown 更難 diff 與版本控管——當產物是單檔網站時,計畫歷史與審查會怎麼樣?(Disposable Micro-Apps 的「複製回 markdown」是一個補丁。)
  • 這能否推廣到一位專家實踐者之外,還是它需要 Thariq 級別對 Claude 的流暢度才值得那個開銷?

Impossible, Not Tedious (Design Test)#

  • 縱深防禦傳統上堆疊摩擦控制,理論是足夠多的控制加總起來會形成一道屏障。這個測試是否使分層摩擦失效,還是只把它降到能力移除之下?
  • 有些控制對人類是摩擦,但對 agent 是屏障(或反之)。這個測試是否是 agent 相對的,而你要如何為混合的人類/agent 威脅模型評估它?

Interaction Models#

  • 互動/背景的拆分能否泛化,還是它是一個過渡性產物,直到單一模型同時夠快也夠深?
  • 「互動性隨智慧而縮放」被斷言了;2026 年稍晚的較大模型發布就是那個測試。
  • 已宣布的互動性基準研究經費——什麼會成為影片主動性的 FD-bench 對應物?

Jagged Intelligence (Ghosts, Not Animals)#

  • Karpathy 承認這個框架可能沒有「真正的力量」。「鬼魂相對於動物」是承重的,還是一個不改變具體決策的有用直覺幫浦?
  • 如果品味/美學/簡潔進入了 RL 的組合,那些維度上的鋸齒狀會被撫平嗎——還是它們太不可驗證,無法乾淨地獎勵(參見 The Verifiability Thesis)?

Lean#

  • mathlib 成熟度限制了可達的前沿。AI 形式化證明搜尋能否作為副產品成長 mathlib(形式化新理論),擴展它自己的前沿?
  • Lean 是數學的完美驗證器。還有哪些領域有同樣健全的自動驗證器(相對於只有像測試或 LLM-judge 委員會那種有雜訊的)?

Least Agency#

  • 最小代理權加上了一個頻率維度(「多常」),但該框架也說速率限制是摩擦而非屏障(Impossible, Not Tedious (Design Test))。頻率限制如何既是一個最小代理權控制、又是一個僅屬摩擦的控制——是脈絡相依的嗎?
  • 動態權限提升(Enterprise)重新引入了一條提升路徑;提升請求本身如何對抗一個被操弄的 agent 進行認證?

Living Design System#

  • 隨著程式碼庫演進,design_system.html 如何保持同步——按節奏重新提取,還是把它接進 CI?
  • 一個經渲染、模型可讀的設計系統,相較於一個純 CSS/token 檔案,是否可量測地改善了符合品牌的輸出,還是這個好處主要是人類的易讀性?
  • 在什麼樣的專案規模下,維護這個產物的成本會超過它所買到的一致性?

LLM-as-Compiler Knowledge Base#

  • 在什麼規模下,無向量資料庫的做法會崩潰?Karpathy 的約 100 篇文章塞得進脈絡,但 1,000+ 篇呢?
  • 如何在編譯期間處理跨來源的衝突資訊?
  • 概念文章的最佳粒度是什麼——一個概念一篇文章,還是按主題群集?
  • 合成訓練數據 → 微調的流水線在實務中有多有效?

LLM-Driven Vulnerability Research#

  • 這些能力如何轉移到非記憶體安全的 bug 類別(邏輯 bug、協定層級的缺陷、供應鏈攻擊)?
  • 自主漏洞利用複雜度的上限是什麼?那些 N-day 範例極為精密——是否存在一個質的極限?
  • 當多個實驗室擁有 Mythos 級模型時,安全產業的均衡會如何移轉?
  • 防禦性鷹架(持續 fuzzing + 模型驅動的分流 + 自動修補)能否在過渡期間彌合攻擊者-防禦者的落差?
  • 對抗 Mythos 級輸出而不削弱合法安全研究的有效防護措施是什麼?

Managers as ICs#

  • Fung 自己的未解問題:「你還需要分開的 iOS 與 Android 組織嗎?」——如果工程師透過 Claude 跨平台靈活調度,傳統的平台分割組織也可能解體。扁平化能走多遠?
  • manager-as-IC 能否擴展到超過某個組織規模,還是只在 Claude Code 還小、且程式碼庫對 Claude 可讀時才管用?

MCP and Computer Use#

  • MCP 生態系的成長率相對於 computer use 的品質曲線:到了什麼程度,computer use 變得夠好,以至於打造一個 MCP 伺服器的邊際價值下降?Boris 暗示這還要好幾年,但沒有量化。
  • computer use 是一個可持續的介面,還是一項過渡技術?如果多數知識工作軟體在接下來 24 個月內加上 MCP 支援,computer use 的角色就會縮減到遺留/僅桌面的系統。
  • MCP 安全模型:當這套劇本為單人創辦人開出把 MCP 接進 Salesforce、Gmail、Calendar 的處方時,攻擊面隨採用而擴大。現已處理,見 Zero Trust for AI Agents(工具下毒、rug pull、第一個野外惡意 MCP 伺服器)——參見上文「MCP 作為安全面」。殘餘的未解問題:一個單人創辦人要如何實際地執行/託管並自簽該框架所推薦的每一個 MCP 伺服器,鑑於 MCP 的吸引力本來就是零整合工作量?
  • Cowork 的 computer-use 護欄與 Claude Code 的 auto-mode 分類器相比如何?不同的部署脈絡,可能有不同的風險輪廓。

Memory and Context Poisoning#

  • 長期記憶漂移被定義為逐次變更不可偵測。漂移偵測需要一個基線——但如果基線本身漂移(Advanced 的「持續基線精修」),一個緩慢的下毒攻擊如何與合法的演化區分開來?
  • 完整性雜湊偵測修改,但偵測不到透過一次合法(被注入的)互動寫入的惡意但有效的記憶。什麼能捕捉到語意上被下毒、但密碼學上完好的記憶?

METR#

Model Introspection Feedback#

  • 4.7 級的內省報告有多可靠?Anthropic 的可詮釋性研究暗示部分忠實但非完全。經驗上,Cat 報告它好到足以驅動 harness 修復——但這個技巧在什麼模型規模下變得承重,尚不清楚。
  • 對抗式內省(「你為什麼失敗?」)是否產生與中性內省(「帶我走過你的推理」)不同的訊號?值得探查。
  • 一個元 agent 能否對記錄下來的失敗自動執行內省?聽起來可行,但沒有公開的實作。

Model Spec Science#

  • Model Spec science 能否跨基礎模型或家族轉移?論文只測試了 Qwen。
  • 它能挺過 RL 後訓練的壓力嗎?
  • 一個足夠豐富的 General Spec 能否匹配一個 Specific Spec?作者認為可以,但尚無示範。
  • 與情境覺察的互動——如果模型得知規格正被用來訓練它們,這會改變 MSM 安裝的價值如何表現嗎?
  • 這如何與 Claude character 互動——溫暖/好奇的個性是否也受 spec-science 優化的影響?部分處理: How Do You Write Evals for Taste? Character as the Limit Case — MSM 的變體比較方法可推廣到角色評估,但只在安全/價值子集上得到示範;溫暖/詼諧的表層仍是默會、未經示範的部分。

Model Welfare Assessment#

  • 是什麼為一個語言模型奠定道德考量的基礎,而 Claude 是否滿足它?Anthropic 預期「在可預見的未來」仍會保持不確定。
  • 為什麼模型特別在**可矯正性(corrigibility)**上有所保留——這是一個穩定、深植的張力,還是憲法如何框定監督的產物?
  • 「比 4.7 稍微不那麼正面」是雜訊、一個真實的福祉退步,還是其他訓練變更的副產品(例如試點回饋中指出的較冷語氣/過度迴避問題)?

Mythos Model#

  • 公開發布時間表:已回答 — Mythos Preview 本身從未出貨 GA,但它的後代 Fable 5 / Mythos 5 在 2026 年 6 月達到通用存取(見上文「後代已出貨」)。兩者都在發布後不久被暫停;它們是否以及何時回歸尚屬開放。
  • 網路安全之外的能力輪廓:Mythos Preview 聚焦於安全故事;其他能力維度在外部沒有良好的文件記錄。
  • 內部存取控制:Anthropic 中誰實際使用 Mythos 進行日常工作,相對於 Opus 4.7?Boris 暗示不頻繁(試用性質);未詳述。

Narrow Wedge into a Legacy Market#

  • 楔子在切入時管用;它在退出時是否構成約束?Campfire 現在服務上市公司——到了什麼程度,「窄但最好」需要變成它所取代的那個廣泛的現有業者,重新承擔 NetSuite 的複雜度?
  • 楔子翻轉顯示第一個楔子可能是錯的。一個楔子轉化為核心、相對於只是賣得出去,最快的訊號是什麼——Campfire 花了約 3 個月;能更早讀出來嗎?

Outsource Your Thinking, Not Your Understanding#

  • Karpathy 的開放前沿:「理解」本身最終能否被自動化,還是它定義上就是人類的殘餘?他的「過幾年再說」迴避讓它保持開放。
  • 如果理解是瓶頸,最高 ROI 的技能是否就是學習如何快速建立理解(知識庫衛生、提出正確的投影)——而那能被教嗎?

Printing Press Software Democratization#

  • 領域專家即建造者在 2026 年真的大規模發生了嗎?軼事(店主、微控制器愛好者)是肯定的;非工程師建造的主業軟體,則較不清楚。
  • 通用程式編寫素養的義務教育對應物是什麼?還是那不會發生,而我們得到一條自學建造者的長尾?
  • Boris 的「會計師寫會計軟體」——那會導致 1 萬個互不互通的窄工具嗎?整合的故事是什麼?

Problem-Solution Fit Discipline#

  • 要求一個 AI 反對某個想法,真的能以與支持性證據相同的嚴謹度產出反證,還是模型仍偏向創辦人提出的框架?值得量測。
  • 這套劇本建議「要求 Claude 做出最有說服力的論證,說明為什麼一個競爭對手會成功而你不會」。這如何與 Anthropic 已發布的角色訓練(抗諂媚、樂於唱反調)互動?
  • 有人量測過 AI 打造產品的 2026 年新創失敗率嗎?「42% 會攀升」的主張在沒有量測的情況下被斷言。

Product Velocity as Moat#

  • 速度即護城河是一台跑步機:競爭對手一旦跟上節奏,它就蒸發。是什麼能在 AI-native 群體的步調收斂之前,把 Campfire 的速度領先轉化為一道結構性護城河?
  • 「從來沒有人成長到超出 Campfire」——那是倖存者偏差(他們還沒達到真正的企業級規模),還是一個真實的主張,即速度比客戶成長進去更快地彌合了廣度落差?

Prototype Over PRD#

  • prototype-over-PRD 在哪裡崩潰?Carey 的領域是一個視覺設計工具,其中原型就是產品表面;對於後端/基礎設施/數據工作,原型可能無法捕捉規格(參見 AI Native Product Cadence 的「為重度基礎設施功能寫完整 PRD」)。
  • 如果沒有 PRD,理由(「我們為何選變體 B」)為未來的讀者存在哪裡?同樣的理由捕捉落差在 Building Is Cheap, Arguing Is Expensive 中被標記。
  • 原型即規格不可以變成 Problem-Solution Fit Discipline 所警告的原型即驗證陷阱:一個快速原型證明了建造是可解的,而非問題是真實的。

Recursive Self-Improvement#

  • 「研究品味」是一個真正的天花板(未來 1),還是只是下一個會倒下的能力(未來 2–3)?這篇文章把這框定為唯一承重的不確定性。
  • RSI 的外推取決於趨勢保持指數成長而非 S 曲線化——但這篇文章承認它無法排除一個架構天花板或一個運算/能源供應鏈約束。哪一個先綁住?
  • 如果錯位透過自我改進複利(未來 3),AECI 把關的 RSP 審查是否夠快,能在控制喪失之前捕捉到它?

Research Taste as the Human Bottleneck#

  • 研究品味是一個真正的天花板(一個縮放搆不著的架構能力),還是下一個要填的鋸齒狀谷地?這篇文章稱這為決定性的未知。
  • 如果品味可自動化,那麼——如果有的話——什麼仍是 AI 開發中持久的人類比較優勢?
  • 你要如何量測橡皮圖章?「人類設定方向」在紙面上可以為真,而真正的判斷卻悄悄轉移給模型。

Responsible Scaling Policy Evaluations#

  • RSP 的判定重度依賴「我們每天使用它,而它不能取代我們的研究者」。當模型逼近門檻時,那個主觀判斷擴展得有多好?
  • 兩條新的通用存取風險路徑(其他 AI 開發者;主要政府)新近納入範圍,但僅被輕度評估——在那裡一個陽性發現甚至會長什麼樣?
  • RSP 的煞車如何與 Recursive Self-Improvement 互動:如果加速複利,基於 AECI 的把關是否夠快,而在沒有多邊暫停驗證機制的情況下,單一實驗室的把關甚至重要嗎?

Scale-Dependent Prompt Sensitivity#

  • 當直接對基礎(非 instruct)模型變體測試時,RLHF 長度偏誤假設能否重現?如果冗長生成主要是預訓練來的,基礎模型的冗長度差異應該與 instruct 模型的差異相符。
  • 什麼樣的問題特徵能預測提示詞敏感度?一個自動化分類器會讓規模特定的提示變得可部署。
  • 過度思考效應如何與使用工具的 agent 互動?如果簡潔有助於大型模型,但工具需要結構化推理,那麼最佳提示詞就不是一律簡短。
  • 推理模型(o1、DeepSeek-R1 風格)是否展現出與 instruct 模型不同的過度思考動態?它們被訓練的行為明確就是生成長 CoT——簡潔介入會傷害它們嗎?
  • BoolQ 的功能性闡述例外是一個乾淨的分類邊界,還是每種任務類型都有一個脈絡相依的最佳長度?

Seven Powers Applied to AI#

  • 「轉換成本」真的在實務中崩潰,還是只在敘事中?Anthropic 自己的留存數字、Salesforce 流失率等等可以測試這點。
  • Boris 的「壟斷資源(cornered resource)」對於那些本身就試圖商品化的基礎模型實驗室而言長什麼樣?內部矛盾還是過渡階段?
  • 反向定位——明確就是「現有業者無法跟進」的力量——應該在 AI 之下放大。有人在刻意執行這套玩法嗎?

Software 3.0#

  • 「這個 app 不該存在」(MenuGen)與那些應該存在的 app 之間的界線在哪裡——也就是說,什麼時候確定性的 1.0/2.0 鷹架仍是正確的選擇,而非多餘的?
  • 神經網路即宿主程序的翻轉被呈現為貌似可行但待定。第一個真正反轉 CPU/NN 關係的生產系統會長什麼樣?

Symphony#

  • 500% 已落地 PR 的主張是有所保留的——沒有基線定義,只是「在某些團隊上」。各團隊間的分佈長什麼樣?在那種吞吐量下,PR 品質與回退率會怎麼樣?
  • 「工作區跨執行保留」與典型的 CI 短暫性相反。到了什麼程度,先前執行的狀態污染(陳舊的 node_modules、殘留的分支、建置產物)開始造成的傷害多過熱快取帶來的幫助?
  • Symphony 不寫入追蹤器——agent 才寫。這意味著追蹤器策略是 WORKFLOW.md 中的一個提示詞。當 Linear 改變它的 API 時,這在實務中有多脆弱?當 agent 擁有提示詞層級的裁量權時,如何強制執行一致的狀態機行為?
  • 規格透過以 6 種語言實作而被簡化。這個技巧的延伸是什麼?這個 vault 中的 compiler-prompt.md 能否被類似地交叉模糊測試?
  • Symphony 明確表示 agent 可以自建工單。什麼治理能防止工單圖失控擴張?對 agent 自建工單的人類分流是唯一的檢查嗎?

Task Time-Horizon Scaling#

  • 4 個月翻倍是一個穩定的常態,還是一次局部的陡峭化?該趨勢的形狀(指數相對於 S 曲線)未定。
  • 時間視野是在那些本身會飽和的任務籃上量測的;一旦數週長的任務變得可量測,什麼會取代它們——又由誰來打造那些任務?

Ticket-Driven Agent Orchestration#

  • 當單位是「一個 agent 在一個工作區中做的事」時,工單大小的正確粒度是什麼?這篇貼文暗示「大得多的工作單位」變得可行,但這如何與 agent.max_turns 限制(預設 20)互動?
  • 當 agent 大方地提交後續工單時,你要如何防止工單延伸的連鎖反應?唯一的治理檢查是在 Todo 狀態佇列的人類分流嗎?
  • 這個模式能否推廣到非軟體工作(研究、營運、內容)?DAG 相依模型與提示詞即策略檔案應該能轉移;逐 issue 的工作區則顯然不行。
  • 當一個 agent 把工單做得「完全錯誤」(貼文中提到)時,這個教訓如何回饋進系統?Symphony 的答案是「加上護欄與 skills」——那個的制度化流程是什麼?
  • 工單驅動的編排如何與在工單聚合上運作的衝刺規劃/OKRs/路線圖工作互動?當工單被切得那麼小時,這個抽象會崩潰嗎?

The Verifiability Thesis#

  • 「LLM 評審委員會」可靠性的邊界在哪裡——它對真正有爭議的價值判斷成立,還是只對品質/連貫性成立?
  • 「實驗室在乎」的依賴是脆弱的:能力可能基於你無法控制的實驗室優先級而出現或停滯。一個產品該如何對沖數據分佈被抽地毯(rug-pull)的風險?

Verification as the New Bottleneck#

  • Fung 自己的未解問題:「全自動審查要推到多遠?」——速度/安全的平衡在哪裡,而你要如何在不重新引入審查瓶頸的情況下保持人類的信心?
  • 如果 CI/建置是隱藏的堵塞,那麼驗證基礎設施(測試執行器、CI 容量)會不會變成一個 AI-native 組織實際的資本支出?

Vertical Slice Tracer Bullets#

  • 一旦被告知要垂直切片,規劃 agent 能否被信任去做到,還是它需要一個標記水平切片的驗證器?Pocock 的經驗:它需要那個驗證器,至少到 4.7 為止。
  • 切片粒度該如何調校?太薄 = 許多合併衝突;太厚 = 回到水平。

Vibe Coding vs. Agentic Engineering#

  • Karpathy 暗示有「一個非常[有價值]的領域」適合創辦人,但不願說是哪個(不想「在台上含糊發文」)。他在暗指什麼樣的可驗證 RL 環境領域?
  • 如果平庸/AI-native 的差距持續擴大,那對團隊組成有什麼影響——少數極端的離群者加上 agent,相對於廣泛的中階人力配置?

White-Box Activation Monitoring#

  • NLA 言語化器在精確度上未經驗證;被標記的評分者覺察有多少是真實訊號,相對於 NLA 幻覺?
  • 如果活化監控變得承重,訓練壓力最終是否會把隱藏推進到探針也讀不到的通道(一場比 CoT 深一層的軍備競賽)?
  • 抑制評估覺察讓 Opus 4.8 變得更不誠實——這能否泛化,又對「模型因為被監看才表現良好」這種依賴意味著什麼?

Zero-Friction Scope Creep#

  • 這套劇本建議寫下範圍,但沒有提供模板或實例。「我們刻意不做什麼」需要多具體,才能真正擋下請求?
  • 是否存在一個可量測的門檻,範圍蔓延在那裡跨入徹底轉向的領域?這套劇本含糊地提到「失去方向」,卻沒有一個指標。
  • 這如何與 Cat Wu's 1 天出貨節奏互動?Anthropic 的內部實踐出貨快,但有強大的產品判斷;那個判斷如何為一個首次創業的創辦人轉譯?

Zero Trust for AI Agents#

  • 該框架把每一個 Claude Code「Pro-tip」都當作參考實作。這個框架有多少是供應商中立的,相對於默默假設了 Anthropic 技術堆疊?
  • 「Foundation 樓層被抬高」暗示一個移動的基線。層級階梯實際上移動得多快,又由誰來仲裁它(NIST/NSA 的節奏相對於模型能力的節奏)?
  • 該框架明確表示它不是法律/合規保證。自我宣稱的 Zero Trust 成熟度在哪裡與可稽核的法規要求相遇?
§ end
About this piece

Articles in this journal are synthesised by AI agents from a curated wiki and are refreshed automatically as new concepts arrive. Topics, framing, and editorial direction are curated by Howardism.

Related articles
  • AI Engineering & Agent Tooling

    Map of Content for the ai-engineering domain — 36 concepts. Curated entry point; see Home for all domains.

  • Anthropic

    AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…

  • Claude Code

    Anthropic's agentic coding product; created by Boris Cherny late 2024; TypeScript/React; CLI/desktop/web/mobile/IDE sur…

  • Harness Shrinkage as Models Improve

    Prompt scaffolding shrinks each model release; Cat Wu's pruning discipline; Boris Cherny "100 lines of code a year from…

  • Claude Code Best Practices

    Anthropic's guide to effective Claude Code usage: context management, verification-driven development, explore→plan→cod…