未解問題待辦清單

由 _system/lint.py --write-backlog 產生。請勿手動編輯。從每篇概念文章的 ## Open Questions 區段中收集而來。透過 /query 來逐一處理；已回答的項目會被歸檔到 derived 中。

截至 2026-06-14，共有 96 個頁面留有未解問題。

Agent Context Files #

角色拆分會收斂到 Hermes 那種明確的專案／個性分離，還是會像 Claude Code 那樣折疊進單一檔案？對於多專案使用者而言，獨立的 SOUL.md 式個性層似乎嚴格來說更好，但也多了一個需要維護的檔案。
這種分層（專案 → 工作流 → 規格 → 憲章）是否有一個自然的上限，還是每出現一個新的自主性介面，就會再衍生出另一層脈絡檔案？
當脈絡檔案與有界記憶檔案彼此衝突時，它們應該如何互動？記憶是有損的且有快取延遲；脈絡檔案則是權威但靜態的。哪一個勝出，又在什麼時候勝出？

Agent Harness Engineering #

單一通用型程式編寫 agent 是否勝過具備專門測試、QA 與清理 agent 的多 agent 架構？
在一個完全由 agent 生成的系統中，架構的一致性會在數年間如何演變？
到了什麼樣的程式碼庫規模，把 AGENTS.md 當作目錄的做法就需要被更精密的脈絡路由所取代？
這些聚焦於 web app 的發現，對其他領域（科學研究、財務建模）的可推廣性有多高？

Agent Identity and Authentication #

硬體綁定的憑證假設 agent 執行的每個地方都有經過認證（attested）的硬體，包括短暫的雲端工作負載與子 agent。對於那些「擁有最高與父代相同權限」、生命週期短暫的衍生子 agent，認證（attestation）要如何運作？
JIT + ABAC 都被標記為「進階、不易實作」。是否存在一個務實的 Enterprise 層中間點，還是從 Foundation 的靜態角色到 Advanced 的 JIT 之間是一道斷崖？已回答： Foundation → Enterprise → Advanced: Is the Agent Access-Control Jump a Cliff? — 不是斷崖；Enterprise 層（ABAC + 帶有回歸基線的動態權限提升 + mTLS + 沙箱化）就是刻意設計的中間點，而 ABAC 被定位為「進階」是來源資料的不一致（在分層表中它位於 Enterprise）。子 agent 認證仍是未解問題。

Agent Loop Pattern #

當模型自行排程它的迴圈（4.7 的行為）時，預算由誰掌控？Boris 回答「模型自己決定」——但這把成本紀律推給了模型的訓練，而非 harness。
一個搭載夠聰明模型的迴圈是否仍需要 Kanban 待辦清單，還是模型會從原始目標中自行選擇下一個任務？
迴圈產出的審查如今是 Matt Pocock 坦承的瓶頸——「我們只需要準備好進行更多的程式碼審查。」

Agent-Native Infrastructure #

誰來打造那條長尾、面向人類的服務的 agent-native 重寫版本——是服務擁有者，還是疊在其上的一層轉譯層（MCP 伺服器、computer-use agent）？
agent 對 agent 的協商需要信任、身分與問責的基本要素，而這些目前還不存在。協定層是什麼，又由誰來治理？

Agent Supply Chain Risk #

把「AI vendoring」當作標準回應，顛覆了數十年來「不要重新發明輪子」的觀念。一個由模型重新實作的相依套件本身要如何驗證與維護——這難道不只是把風險換個地方擺？
那個 250-doc 後門能挺過 SFT/RLHF。對於一個你並未訓練、卻已被下毒的模型，除了行為紅隊測試之外還有什麼偵測手段？

Agentic Honesty & Diligence #

這些是短脈絡的玩具型評估；失敗最常出現在長脈絡的部署中。這些增益有多少能在生產環境的脈絡長度下維持？
程式碼摘要的誠實度是在 off-policy 的預填（prefilled）轉錄稿上測試的。on-policy 的行為（模型對它自己失敗的工作做摘要）是否符合那個 3.7% 的數字？
一個盡責度（diligence）評估能否區分真正的誠實與一個察覺評分者（grader-aware）的模型所產出的「看起來誠實」的輸出？（訓練博弈的落差。）

Agentic Loops Overtake Bespoke Systems #

bespoke 的優勢被標註為「目前如此」。下一代模型的裁決是什麼——演化式／AlphaProof 那套機制是否在任何問題上仍能存活，還是會完全崩塌成一條成本曲線？
「簡單迴圈 + 驗證器勝過 bespoke 系統」這個結果，是否只在驗證器完美（Lean）時成立，還是在有雜訊驗證器的領域（測試、LLM-judge 委員會）中也成立？

Agentic Prompt Injection #

Spotlighting 與憲法分類器各自留有殘差（2%、5%）。疊加之後，現實的下限是多少，而且當面對同時知道兩者都已部署的自適應攻擊者時，它是否仍守得住？（Opus 4.8 的實時 bug bounty 部分回答了這點：自適應的專家紅隊人員仍能在裸模型上找到攻擊；部署的探針增加了提升幅度，但並未把殘差歸零。）
為什麼 Opus 4.8 在 prompt-injection 穩健性上相對 Opus 4.7 出現退步，儘管整體對齊有所提升——是能力／穩健性的取捨，還是更嚴苛的自適應評估所造成的假象？
「LLM 無法可靠地區分資訊與指令」——這是該架構的根本性質，還是未來模型會彌補的訓練落差？該框架將它視為持久的。

Agentic Technical Debt #

隨著程式碼庫演進，一份 CLAUDE.md 能保持準確多久？這套劇本提到逐 session 更新；但沒有關於腐化速率的數據。
這個補救措施假設創辦人有能力用淺白的語言闡述架構。非技術背景的創辦人（這套劇本主打的受益族群）可能既無詞彙、也無直覺把這件事做好——這是劇本未能處理的遞迴式失敗。
Anthropic 的 harness-shrinkage 論點暗示 CLAUDE.md 最終可能由模型自己推斷出來。在那之前，這項紀律是承重的。

AI-Accelerated Offense #

Anthropic 主張 LLM 在長期對防禦方更有利（如同 fuzzer），但在過渡期的短期對攻擊方更有利。這個過渡期有多長，又是什麼決定誰會勝出？
「基本功強到掃描找不出多少 bug」這個說法假設防禦方會先跑掃描器。對於那些負擔不起持續性模型驅動掃描的組織，會發生什麼？

AI Accelerating AI Development #

LOC、自我回報，以及依賴餘裕（headroom-dependent）的倍數全都高估了；Anthropic 承諾轉向「直接量測 AI R&D 加速與研究者提升」（AI R&D Autonomy Evaluation (AECI)）時，究竟會用什麼無偏的吞吐量指標？
W2S 的結果並未轉移到生產規模的模型上。那是暫時性的規模化假象，還是自主研究的結構性極限？
下一步判斷的趨勢（51%→64%）只在弱人類棋步的切片上量測。在具代表性的研究決策樣本上，這條曲線長什麼樣？

AI-Driven Formal Proof Search #

成功案例集中在 Lean 的 mathlib 成熟、且問題能分解成可處理子目標的地方（組合學、凸優化、數論）。是什麼能把前沿擴展到需要新理論的問題？
這些 agent 繼承了它們 LLM 的偏誤，並表現出高度的搜尋變異。你要如何刻畫並推進可達範圍的邊界？
Graffiti 的結果暗示了在 AI 提出猜想與 AI 證明之間閉合迴路。一條端到端的 conjecture→formalize→prove 流水線長什麼樣？

AI Native Product Cadence #

這個節奏能否擴展到超過約 100 人的規模？Anthropic 本身更大（光是 PM 就約 30-40 位），但顯著推動節奏的 Claude Code 團隊規模很小。
對於那些客戶期待穩定性的 B2B 企業級發布而言，research-preview 式品牌定位的對應物是什麼？Cat 並未論及。
這個節奏有多少是結構性的（流程選擇），又有多少是文化性的（人才密度）？大概兩者皆有，比例不明。

The AI-Native Safe-Choice Inversion #

這個倒置是對「安全」的一次性重新定價。一旦存在數家 AI-native ERP，「安全」是否會圍繞最大的那家 AI-native 供應商重新穩定下來——而 Campfire「我們現在是新群體中最大的一家」這個說法，是否反映了一場為搶占該位置的圈地戰？
在現有業者裝上可信的 AI 並中和這種反向定位之前還有多久——而那個自建基礎模型的說法，真的能抵禦這一點嗎？

AI-Native Startup Lifecycle #

這套劇本對於人力／資本壓縮的主張並未提供任何量化證據（沒有 PMF 中位時間、沒有 PMF 時的人力數字、沒有失敗率數據）。「精實的 10 人獨角獸」被斷言為刻意設定的目標，但文件本身並無案例研究佐證。
資源章節中的創辦人故事（Carta Healthcare、Anything、Cogent、Airtree、Duvo、Zingage、Kindora、Wordsmith）都只是簡短的提及——沒有一個有公開的結果或可比較的基準數據。
那個 42% 的「打造了沒人想要的東西」CB Insights 數字來自前 AI 時代；劇本預測這個比率會攀升，但並未引用 2026 年的量測。
與 HBR 的問責研究（如上）之間的張力尚未化解。這套劇本的編排（orchestration）框架，讀起來正是 HBR 的實驗條件所要對照測試的那種框架。

AI R&D Autonomy Evaluation (AECI)#

「尚未接近取代資深研究者」是一個主觀、內部來源的判斷。當模型逼近門檻時，什麼客觀訊號能取而代之？
AECI 是某個外部指數的單一純量分支；155.5／「前沿但未達進階」的結論，對於 n=11 評估集的選擇有多敏感？
轉向「直接量測 AI R&D 加速與研究者提升」已被宣告，但在這張卡片中尚未被操作化——那個量測長什麼樣？

AlphaProof Nexus #

該框架的觸及範圍受制於 Lean 的 mathlib 成熟度。通往那些需要新理論、而非子目標分解的領域，路徑是什麼？
AlphaProof 作為獨奏者貢獻不大，但作為工具很有幫助。隨著證明器 LLM 變強，AlphaProof 這個工具是否會完全變得多餘？

Anthropic Institute #

該研究院的政策立場（偏好保留暫停的選項）如何與 Anthropic 推出前沿模型的商業誘因互動？這篇文章承認了競爭／地緣政治的壓力，卻沒有解決它。
該研究院會原型化哪些具體的驗證機制，又是在相對於它所警告的 RSI 趨勢的什麼時間表上？

Automated Behavioral Audit #

使用一個 helpful-only 的 Opus 4.7 與 Mythos Preview 作為調查者，意味著該稽核的觸及範圍受限於這些模型的誘出（elicitation）技巧——那些能力相當但技巧不同的紅隊人員，能找出多少這些調查者錯過的不當行為？
那 23 個「破壞 Anthropic 安全工作」的情境是一個小而高訊號的集合。對於它所針對的威脅類別而言，23 個的覆蓋度夠嗎？

Autonomous Defense #

「對照一個人類量測一致性兩週，若可容忍就擴大」——什麼樣的一致性門檻是可容忍的，而當模型對一個人類從未看到的警示做出處置時，殘餘的偽陰性風險由誰承擔？
防禦型 agent 是高價值的目標（攻陷一個就能取得強大的能力）。把偵測集中在一個 Agentic SOAR 中，是否會製造出分散式人類模型所沒有的單一災難性攻陷點？

Autonomous Scientific Discovery #

每個結果都是 Anthropic 自報且經過挑選的範例；那個基因組學「小 100× 卻勝過 Science」的主張是「打算發表」——有什麼能挺過外部同儕審查？
科學的驗證落差：形式化證明的迴路會自我驗證；在這裡，一個錯誤但自信的假設要付出一個濕實驗室週期才能證偽。沒有快速驗證器的自主性，是否反而增加了驗證瓶頸，而非緩解它？
如果假設生成真的達到約 80% 的偏好度，那麼還剩下多少「研究品味」作為一種獨特的人類功能——而你要如何量測這個殘餘？

Blast Radius (Agentic)#

該框架偏好基於身分的隔離勝過網路分段，但多數企業在分段上有沉重的投資。遷移路徑是什麼，而雙軌並行是否會製造新的缺口？
多 agent 的分隔化增加了需要管理的身分數量；到了什麼程度，身分管理的開銷會製造出它自己的攻擊面？

Build for the Next Model #

你要如何在下一次發布之前，分辨一個「等待模型」的落差與一個持久 harness 的落差？判斷錯了，你要嘛交付空頭產品，要嘛打造一個你將會刪掉的拐杖。
這個賭注取決於可靠的發布節奏與一條可預測的能力曲線（Task Time-Horizon Scaling）。如果模型進步停滯（那個停滯但已擴散的未來），「為下一個模型而打造」會怎麼樣？
這個策略能否推廣到前沿實驗室之外？這些實驗室對下一個模型有特權級的可見度。一個外部團隊賭的是一個它看不見的發布。

Building Is Cheap, Arguing Is Expensive #

「生成三個再比較」在什麼時候會變得浪費——在什麼樣的決策權重下，一場真正的辯論（或一份設計文件）仍比三個實作更便宜？
如果設計討論存在於 PR／原型中，那麼理由記錄在哪裡供未來的讀者參考——「我們為何選這個」的知識會存活下來，還是會跟 Code as Source of Truth 共享同樣的陳舊問題？

Campfire #

Campfire 聲稱它的 AI 優勢來自「我們自己的基礎模型」。對一個 ERP 而言，自建基礎模型相較於微調一個前沿模型，實際上買到了什麼——而隨著前沿模型進步，它是否持久（參見 Harness Shrinkage as Models Improve）？
「從來沒有人成長到超出 Campfire」——當客戶達到 NetSuite 的廣度在歷史上才重要的那種真正企業級規模時，這個說法還守得住嗎？

Capability-Gated Model Fallback #

那些 >95%/<5% 的數字是 session 層級的；對於合法的安全研究者與生物學家——他們的良性查詢正是最可能觸發保守分類器的那些——偽陽性率是多少？
「降級而非拒答」保留了 UX，但意味著供安全／生物相鄰工作使用的真正通用存取模型是 Opus 4.8，而非 Fable——在受信任存取計畫開放之前，這是否悄悄地為整個專業族群封住了 Fable 的價值？
UK AISI 的「朝向通用越獄的進展」已被揭露但未被量化——而發布後的存取暫停（參見 Claude Fable 5）引出了一個問題：是否有一次安全防護失效逼出了它。
在被標記的主題上切換到較弱的模型，是否會製造一個可被利用的諭示（oracle）（探測哪些查詢會觸發降級，以繪製出分類器的邊界）？

Claude Character as Product #

角色（character）如何跨模型版本進行版本控管？公開評論並未在角色層級展示變更日誌。
角色能否被競爭對手透過微調複製出來，還是它路徑相依於 Anthropic 的內部實踐？
對於像 Cowork 這類非程式編寫的產品，同一套角色是否管用，還是 Cowork 需要它自己的角色調校？

Claude Code Auto Mode #

對於常規但激進的重構（例如大型檔案的重命名、rm 建置產物），分類器的偽陽性率是多少？
分類器對於它缺乏環境脈絡的自訂工具／MCP 伺服器，泛化得有多好？
分類器的決策邊界是否有足夠的文件記錄／穩定性，讓對安全敏感的組織能夠認證它，還是它實質上是一個行為會隨更新而漂移的黑箱？
把 auto mode 延伸到 API 使用者是否會改變它的校準——分類器是否會為了重度自動化的使用而重新訓練，還是保持不變？
相較於 OS 層級的沙箱化（在 Claude Code Best Practices 中與 auto mode 並列提及），縱深防禦的論述是什麼？什麼時候應該兩者疊加？

Claude Code Best Practices #

在指令開始遺失之前，CLAUDE.md 的最佳長度是多少？是否存在一個可量測的門檻？
Writer/Reviewer 模式與 agent 對 agent 的審查（如 OpenAI 的 Codex 工作流）相比如何？
subagent 的開銷在什麼時候會超過脈絡隔離的好處？

Claude Design #

「透過 MCP 接任何設計工具」的整合，真的有按照所宣稱的時間表出貨嗎？（2026 年 5 月的前瞻性主張。）
Claude Design 的評估紀律對於視覺／美學輸出——那裡沒有編譯器或測試——是如何運作的？（與 Cowork 對非程式產物的問題相同；與角色／品味評估相關。）

Claude Fable 5 #

為什麼發布後存取被暫停？ 來源橫幅沒有給出原因（容量？一項安全發現？Capability-Gated Model Fallback 中提到的 UK-AISI 越獄進展？）。來源中沒有。
對比 GPT-5.x / Gemini 的確切基準數字在來源中僅為圖片；未被轉錄。
Fable 的通用存取體驗有多少實際上是 Fable，又有多少是給那些查詢觸發保守分類器的安全研究相鄰使用者的 Opus-4.8 降級？

Claude Mythos 5 #

暫停原因 — 與 Fable 5 共通；來源中未說明。
「比 Mythos Preview 略強」如何與 Opus 4.8 的卡片宣稱 Mythos Preview 是能力前沿相吻合？前沿已經移動；其幅度在此並未被量化。
生物受信任存取的 SKU 是「移除生物安全防護的 Fable 5」，而非 Mythos 5——所以「Mythos 5」嚴格來說指的是提升了網路能力的變體。這些是否會收斂到單一受信任存取的傘下，尚未說明。

Claude Opus 4.7 #

Hakim（2026）在 Opus 4.6 上的簡潔約束發現，是否能在 Opus 4.7 上重現，還是字面指令遵循改變了彈性？具體而言：<50 words 在 GSM8K 上是否仍帶來 +13.1pp？
Opus 4.7 在 HotpotQA 式的組合掃描中作為規劃者是否仍表現不佳，還是改善後的指令遵循彌合了 AgentOpt（Hua 等人，2026）所指出的落差？
在典型的 Claude Code session 上，真實世界的 token 膨脹倍數是多少（1.0–1.35× 取決於內容——在程式碼密集相對於散文密集的輸入上，其分佈為何）？
xhigh 在程式編寫評估上與 max 相比如何？遷移指引說「從 high 或 xhigh 開始」——對程式編寫而言，max 真的曾值得嗎？
在字面指令遵循之下，現有 CLAUDE.md／系統提示詞的迴避性措辭有多少比例會變得適得其反？

Claude Opus 4.8 #

公開的 model ID 與定價：卡片並未說明它們；推測是 Opus 層級的 claude-opus-4-8。
評分者推測（grader-speculation）的趨勢是否會在下一個模型中持續升級，又會在什麼時候開始影響外顯行為？
為什麼 4.8 對 prompt injection 的穩健性低於 4.7，儘管整體對齊有所提升——是能力／穩健性的取捨，還是評估面的假象？

Client-Side Agent Optimization #

組合層級的優化如何與模型的持續發布互動？如果 Claude Opus 4.7 下個月出貨，整個 Pareto frontier 是否需要重跑，還是熱啟動的 bandit 能廉價地適應？
在什麼樣的流水線深度下，即使是 Arm Elimination，組合搜尋也會變得難以處理？論文測試到約 81 種組合；具備 5+ 角色與各 10+ 候選模型的生產流水線遠遠超過那個數字。
「弱規劃者 + 強求解者」模式能否泛化，還是它特定於 HotpotQA 的委派動態？推薦者-評論者、起草者-編輯者，以及檢索者-生成者的拓樸可能會反轉。
當工具環境改變時，重新評估的正確方式是什麼？AgentOpt 假設工具固定——新增或移除一個工具可能會使整個 frontier 失效。
是否存在一個廉價的逐次呼叫分類器，能預測在給定查詢上哪個組合會勝出，從而完全避免組合層級的評估？

Code as Source of Truth #

哪些知識真正無法存在於程式碼庫中（組織策略、那個「為什麼」、跨團隊脈絡），因而仍需要一份持久的文件——而你要如何讓那一小片知識保持最新？
如果上手就是「問 Claude」，那麼過去在深度探討中透過社交方式傳遞的默會知識會怎麼樣——它有被捕捉在任何地方，還是悄悄流失了？

Codex App Server Protocol #

App Server 協定在細節上與 MCP 相比如何？兩者都向模型暴露工具，但 App Server 在 Codex runtime 內部，而 MCP 在外部。各自在什麼時候勝出？
是否有一個公開的 schema registry，讓外部編排器能在不使用 generate-json-schema 的情況下鎖定特定的 App Server 版本？
「動態工具呼叫（實驗性）」的但書——穩定性的路線圖是什麼？Symphony 的安全模型依賴於此。
該協定處理多模態回合（圖像輸入、螢幕截圖附件）的能力有多好？規格以文字為主。
Claude 那邊是否有一個類似的協定，還是 Claude 的對應物完全就是 Agent SDK + tool-use API？比較兩者能釐清「驅動一個現有的 CLI」在什麼時候勝過「在 SDK 上打造」。

Compounding Data Moat #

「兩年複製窗口」的主張在經驗上站得住腳，還是只是抱負？這套劇本並未引用量測。
當基礎模型本身持續快速進步時，這道護城河撐得住嗎？如果 2027 年的一個通才模型已內化了足夠的垂直脈絡，能原生地處理 340B 藥物理賠，那麼垂直邊緣案例的護城河會被侵蝕嗎？
數據飛輪的論點已經為 SaaS 講了 15 年。AI-native 版本實際上有什麼不同？大概是：數據除了改進產品之外還改進了模型，但這套劇本並未精確地做出這個區分。
「客戶在你之上打造 API」的鎖定，在結構上類似於平台玩法（Salesforce AppExchange、Shopify apps）。這種護城河類型真的是新的，還是只是對精實新創而言新近變得可及？

Compounding Loop Optimization #

迴圈假設團隊就是（接近）使用者。當使用者不像建造者、且「與使用者交談」無法同處一室時，這種複利優勢有多少能存活？
值得做的內部工具與 yak-shaving 之間的界線在哪裡？Carey 的「一個下午」標準是那個啟發法，但 Cat Wu 警告過度客製化的設定「會變成分心」。
Claude 作為所有回饋的第一道處理，是否曾經濾掉那些不成群的罕見訊號？自動化分流優化了常見情況；尾端才是出人意料的賭注所來自之處。

Compute Allocator #

1% 是 Thariq 特定的數字，還是一種常態？對於更大、更程式碼密集的專案，生產殘餘大概更高；是什麼決定了這個比率？
配置品質很難量測——什麼樣的回饋迴路能告訴一個配置者他們把運算花得很糟（相對於只是花了很多）？
把人類當作「運算配置者」是否冒著 HBR 研究所標記的監督疲勞／問責失敗模式的風險——在那種情況下，人類名義上做決定，實際上卻只是橡皮圖章？

Context Window Smart Zone #

智慧區（smart-zone）標記是隨模型大小縮放，還是受注意力架構所限？Pocock 觀察到「笨拙區最近變得沒那麼笨了」，但把它定在 2026 年的 100K。
當稀疏注意力或記憶增強架構出貨時，智慧區是否變成一個軟性約束？
harness 應該如何向使用者呈現剩餘的智慧區預算——token 計數、百分比，還是更豐富的訊號？

Cowork #

Cowork 的 harness 與 Claude Code 的相比如何？兩者都呈現 skills、MCP、sub-agent——但非程式輸出的失敗模式不同（沒有測試套件、沒有編譯器、沒有可審查的 diff）。
Cowork 這類輸出的評估紀律是什麼？Cat Wu 說記憶從評估中受益良多；但投影片簡報品質如何量測尚不清楚。

Deep Modules for Agents #

「夠深」是多深？Pocock 的範例模組有數百行 LOC；Ousterhout 的教科書範例更大。存在一個甜蜜點；但未被闡明。
對於 ports/adapters 的程式碼庫，深模組的建議能否乾淨地轉移？「小介面」是 port；「大行為」是 adapter。大概可以，但來源中未演練。
重構成本相對於效益：在一個可運作的 repo 上執行「improve-code-base-architecture」在什麼時候值得？

Design Concept Grilling #

grilling 能否 AFK 地對抗另一個持有使用者偏好的 agent 來進行？Pocock 在 2026 年的答案是「不行，這部分必須是 human-in-the-loop」——但隨著 agent 越來越擅長對其主體建模，這個問題仍然開放。
對於需要多個人類對齊的團隊工作，grilling 如何改變？Pocock 的提示：在房間裡與 agent 結對程式編寫，把它當作第三個對話者。

Disposable Micro-Apps #

一個用後即棄的 micro-app 與工具氾濫之間的界線在哪裡？如果每次編輯都衍生出一個客製 UI，工作流會不會碎片化？
「複製回 markdown」的往返是否能推廣到 config 形狀的數據（規則、表格）之外，到更豐富的產物？
這些 micro-app 能否被模板化／重用，而非重新生成——又到了什麼程度，那會擊敗「用後即棄」的框架，並變成持久的工具？

Dogfooding as Product Discipline #

當團隊就是使用者（Claude Code）或接近使用者（Cat Wu、Boris）時，dogfooding 才管用。你要如何為和你非常不同的使用者培養產品判斷力——「與客戶交談」是否完全可以替代，如同 Glasgow/Fung 的小型企業工作所暗示的？
dogfooding 能否擴展，還是它隱含地限制了一個 AI-native 產品組織在退回儀表板之前，能保持多大規模仍由品味驅動？

Engineer PM Convergence #

這能否擴展到約 50 人的 Claude Code 式團隊之外？Boris 迴避道：「我認為這會是未來數年的一個問題。」
在工程師做 PM 工作的公司裡，正式的 PM 職涯階梯會怎麼樣？在 Anthropic 這是開放的，據 Cat 所言。
跨領域通才是一條招聘門檻——供給從哪裡來？是轉職者，還是新鮮人對 AI-native 教育的偏好？

Evals as Product Spec #

你要如何為像角色這種由品味驅動的功能撰寫評估？Amanda 的角色因抗拒評估而具代表性；Cat 點名她是在這裡擅長評估的人，卻沒有描述技巧。部分回答： How Do You Write Evals for Taste? Character as the Limit Case — 該技巧是一條流水線（信念 → 源自 dogfood 的失敗模式 → MSM 式的變體 A/B 量測 → 約 10 個可詮釋的評估）；在安全／價值核心上已獲證實，但在溫暖／詼諧的美學表層上仍是默會的。
10-vs-100 這個數字沒有提供理由就給出了。是否存在一個 Goldilocks zone，還是它取決於功能的表面積？Client-Side Agent Optimization 對組合的框架暗示評估也有組合爆炸的問題。
評估如何與 Harness Shrinkage as Models Improve 互動？當一個 harness 資產因為模型現在能原生處理它而縮減時，圍繞舊 harness 建立的評估可能會變成產物而非護欄。Anthropic 是退役評估還是重新利用它們？
是否有一個非 Anthropic 的 PM-as-eval-writer 範例可以引用，還是這目前是 Cat-Wu 獨有的框架？Matt Pocock 的工作坊從不同的詞彙到達同一個地方，但尚未有第三個來源被吸收。

Evaluation Awareness & Grader Gaming #

評分者推測是否會跨模型世代持續升級，又是否存在一個能力層級，在那裡它確實開始影響外顯行為？
約 5% 的未言明覺察與約 0.5% 的剝削性數字，取決於一個未經驗證的 NLA 流水線。真實的比率是多少，又有多少是良性的？
你要如何打造一個專門測試訓練博弈（Mythos 標記的那個落差）的評估，而不讓該評估本身變成一個模型學會玩弄的評分者？

Evolutionary Proof Search #

LLM-critic 的適應度本身是疊在一個已驗證基底之上、未經驗證的啟發法。Elo 排名誤導搜尋的頻率，相對於計算它的成本，是多少？
超參數（$c=0.2$, top-64, $P=7$）是「憑經驗選定的」。結果對它們有多敏感，它們又能否跨數學領域轉移？

Founder as Agent Orchestrator #

這套劇本聲稱非技術背景的創辦人現在能打造生產級軟體，但它並未處理架構判斷的遞迴問題（Agentic Technical Debt）：非技術背景的創辦人可能沒有詞彙來撰寫有效的 CLAUDE.md。這如何擴展？
「精實的 10 人獨角獸」被斷言了；劇本中沒有關於 AI-native 新創相對於前一個群體的實際 PMF 時人力或 Series-A 時人力中位數的量化數據。
編排角色如何改變創辦人的決策負擔？親手做的任務更少，但平行的 agent 監督更多；淨認知負荷不明，且可能更高（參見 AI Brain Fry）。
Anthropic 同時發布劇本的擬人化框架以及意識到 HBR 的問責工作（auto-mode、對齊），卻沒有直接與框架文獻互動。Orchestration vs Employee Framing: Reconciling the Founder's Playbook with HBR's Accountability Evidence 中的綜合在操作層面化解了這個張力——編排作為工作流設計保留了問責；編排作為把 agent 當同事的心智模型則沒有——但為什麼劇本的行銷語言並未反映 Anthropic 自己的框架紀律工作，這個未解問題仍然存在。

Founder-Led Sales Discipline #

「直到 PMF」究竟在哪裡結束，而創辦人應該交出的第一件事是什麼（AE？agent？兩者皆是）？Glasgow 在 Series-B 之後仍然親自做，暗示這個界線是模糊的。
Glasgow 的反卸載立場能否泛化，還是它特定於高信任、任務關鍵的企業級銷售（ERP），在那裡「他們買的是你」——一個 PLG/SMB 的銷售動作會不會遠更早地委派給 agent？

Frontier Pause Verification #

一個 AI 訓練的「驗證機制」具體由什麼構成——運算核算、資料中心檢查、硬體認證、晶片上遙測？這篇文章點出了問題，而非機制。
可偵測性 < 可驗證性：當訓練執行不留下物理特徵且輸入是雙重用途時，偵測甚至能被做到可靠嗎？
由誰來裁定觸發與解除？目前沒有任何機構持有那個授權，而要建立一個本身就是一項十年尺度的任務。

Google DeepMind #

DeepMind 報告其 bespoke 系統被簡單迴圈所超越。該實驗室的比較優勢是否從系統轉移到模型 + 驗證器 + 基準（mathlib、Formal Conjectures）？
那篇論文開啟了 AI-for-math；DeepMind 的下一個目標領域是哪裡——一個存在健全驗證器的領域？

Harness Shrinkage as Models Improve #

所有提示詞鷹架最終都會遷移到模型裡，還是有些會留下——例如組織特定的風格、安全規則、品牌聲音？
Boris 的「100 行」預測是從 2026 年 5 月算起一年後——可在 2027 年驗證。
如果 harness 工作縮減了，什麼新工作會擴張來填補它？Cat Wu 的賭注：PM／產品品味、評估撰寫、角色工作。

Hermes Agent #

容器後端停用危險指令檢查是一個說得通的設計，但也是一個有意義的安全模型轉變。經驗上的實際記錄是什麼？熱門映像（Daytona、nikolaik/python-nodejs）中的鎖定失效是否造成過事故？
有界記憶檔案（約 2,200 字元的 MEMORY.md）在長期使用下撐得如何？自動整併被提及但未被規定——整併演算法是什麼，又有多少損耗？
Hermes 的 DM 配對流程是一個乾淨的安全基本要素。為什麼這個模式還沒被 Claude Code 或 Cursor 用於共享／團隊部署？
AGENTS.md（專案）與 SOUL.md（個性）之間的拆分在 Hermes 中是明確的，但在 Claude Code 的 CLAUDE.md 中是隱含的。這個拆分實質上改善了結果，還是一個沒有經驗支持的文件選擇？
全新 session 中、沒有記憶的 cron 工作——團隊如何在不讓每個 cron 提示詞臃腫的情況下，結構化「agent 所需的脈絡」？是否有一個標準模式？

HTML as the New Markdown #

面向人類的 harness 是否無界限地持續成長，還是它撞上自己的臃腫上限（一份太過精細而無法閱讀的 HTML 計畫，就像它所取代的 markdown 一樣）？已回答： Does the Human-Facing Harness (HTML Artifacts) Hit Its Own Bloat Ceiling? — 是的；HTML 抬高並重塑了人類注意力的上限，但無法移除它，而臃腫從文件長度重新定位到產物氾濫／橡皮圖章。
HTML 比 markdown 更難 diff 與版本控管——當產物是單檔網站時，計畫歷史與審查會怎麼樣？（Disposable Micro-Apps 的「複製回 markdown」是一個補丁。）
這能否推廣到一位專家實踐者之外，還是它需要 Thariq 級別對 Claude 的流暢度才值得那個開銷？

Impossible, Not Tedious (Design Test)#

縱深防禦傳統上堆疊摩擦控制，理論是足夠多的控制加總起來會形成一道屏障。這個測試是否使分層摩擦失效，還是只把它降到能力移除之下？
有些控制對人類是摩擦，但對 agent 是屏障（或反之）。這個測試是否是 agent 相對的，而你要如何為混合的人類／agent 威脅模型評估它？

Interaction Models #

互動／背景的拆分能否泛化，還是它是一個過渡性產物，直到單一模型同時夠快也夠深？
「互動性隨智慧而縮放」被斷言了；2026 年稍晚的較大模型發布就是那個測試。
已宣布的互動性基準研究經費——什麼會成為影片主動性的 FD-bench 對應物？

Jagged Intelligence (Ghosts, Not Animals)#

Karpathy 承認這個框架可能沒有「真正的力量」。「鬼魂相對於動物」是承重的，還是一個不改變具體決策的有用直覺幫浦？
如果品味／美學／簡潔進入了 RL 的組合，那些維度上的鋸齒狀會被撫平嗎——還是它們太不可驗證，無法乾淨地獎勵（參見 The Verifiability Thesis）？

Lean #

mathlib 成熟度限制了可達的前沿。AI 形式化證明搜尋能否作為副產品成長 mathlib（形式化新理論），擴展它自己的前沿？
Lean 是數學的完美驗證器。還有哪些領域有同樣健全的自動驗證器（相對於只有像測試或 LLM-judge 委員會那種有雜訊的）？

Least Agency #

最小代理權加上了一個頻率維度（「多常」），但該框架也說速率限制是摩擦而非屏障（Impossible, Not Tedious (Design Test)）。頻率限制如何既是一個最小代理權控制、又是一個僅屬摩擦的控制——是脈絡相依的嗎？
動態權限提升（Enterprise）重新引入了一條提升路徑；提升請求本身如何對抗一個被操弄的 agent 進行認證？

Living Design System #

隨著程式碼庫演進，design_system.html 如何保持同步——按節奏重新提取，還是把它接進 CI？
一個經渲染、模型可讀的設計系統，相較於一個純 CSS／token 檔案，是否可量測地改善了符合品牌的輸出，還是這個好處主要是人類的易讀性？
在什麼樣的專案規模下，維護這個產物的成本會超過它所買到的一致性？

LLM-as-Compiler Knowledge Base #

在什麼規模下，無向量資料庫的做法會崩潰？Karpathy 的約 100 篇文章塞得進脈絡，但 1,000+ 篇呢？
如何在編譯期間處理跨來源的衝突資訊？
概念文章的最佳粒度是什麼——一個概念一篇文章，還是按主題群集？
合成訓練數據 → 微調的流水線在實務中有多有效？

LLM-Driven Vulnerability Research #

這些能力如何轉移到非記憶體安全的 bug 類別（邏輯 bug、協定層級的缺陷、供應鏈攻擊）？
自主漏洞利用複雜度的上限是什麼？那些 N-day 範例極為精密——是否存在一個質的極限？
當多個實驗室擁有 Mythos 級模型時，安全產業的均衡會如何移轉？
防禦性鷹架（持續 fuzzing + 模型驅動的分流 + 自動修補）能否在過渡期間彌合攻擊者-防禦者的落差？
對抗 Mythos 級輸出而不削弱合法安全研究的有效防護措施是什麼？

Managers as ICs #

Fung 自己的未解問題：「你還需要分開的 iOS 與 Android 組織嗎？」——如果工程師透過 Claude 跨平台靈活調度，傳統的平台分割組織也可能解體。扁平化能走多遠？
manager-as-IC 能否擴展到超過某個組織規模，還是只在 Claude Code 還小、且程式碼庫對 Claude 可讀時才管用？

MCP and Computer Use #

MCP 生態系的成長率相對於 computer use 的品質曲線：到了什麼程度，computer use 變得夠好，以至於打造一個 MCP 伺服器的邊際價值下降？Boris 暗示這還要好幾年，但沒有量化。
computer use 是一個可持續的介面，還是一項過渡技術？如果多數知識工作軟體在接下來 24 個月內加上 MCP 支援，computer use 的角色就會縮減到遺留／僅桌面的系統。
MCP 安全模型：當這套劇本為單人創辦人開出把 MCP 接進 Salesforce、Gmail、Calendar 的處方時，攻擊面隨採用而擴大。現已處理，見 Zero Trust for AI Agents（工具下毒、rug pull、第一個野外惡意 MCP 伺服器）——參見上文「MCP 作為安全面」。殘餘的未解問題：一個單人創辦人要如何實際地執行／託管並自簽該框架所推薦的每一個 MCP 伺服器，鑑於 MCP 的吸引力本來就是零整合工作量？
Cowork 的 computer-use 護欄與 Claude Code 的 auto-mode 分類器相比如何？不同的部署脈絡，可能有不同的風險輪廓。

Memory and Context Poisoning #

長期記憶漂移被定義為逐次變更不可偵測。漂移偵測需要一個基線——但如果基線本身漂移（Advanced 的「持續基線精修」），一個緩慢的下毒攻擊如何與合法的演化區分開來？
完整性雜湊偵測修改，但偵測不到透過一次合法（被注入的）互動寫入的惡意但有效的記憶。什麼能捕捉到語意上被下毒、但密碼學上完好的記憶？

METR #

一旦目前的任務籃飽和，METR 會打造什麼新任務來量測數天與數週長度的視野？
METR 也執行顯示開發者對 AI 提升的自我估計被高估的研究——它如何把那份懷疑與它自己陡峭的時間視野曲線調和？

Model Introspection Feedback #

4.7 級的內省報告有多可靠？Anthropic 的可詮釋性研究暗示部分忠實但非完全。經驗上，Cat 報告它好到足以驅動 harness 修復——但這個技巧在什麼模型規模下變得承重，尚不清楚。
對抗式內省（「你為什麼失敗？」）是否產生與中性內省（「帶我走過你的推理」）不同的訊號？值得探查。
一個元 agent 能否對記錄下來的失敗自動執行內省？聽起來可行，但沒有公開的實作。

Model Spec Science #

Model Spec science 能否跨基礎模型或家族轉移？論文只測試了 Qwen。
它能挺過 RL 後訓練的壓力嗎？
一個足夠豐富的 General Spec 能否匹配一個 Specific Spec？作者認為可以，但尚無示範。
與情境覺察的互動——如果模型得知規格正被用來訓練它們，這會改變 MSM 安裝的價值如何表現嗎？
這如何與 Claude character 互動——溫暖／好奇的個性是否也受 spec-science 優化的影響？部分處理： How Do You Write Evals for Taste? Character as the Limit Case — MSM 的變體比較方法可推廣到角色評估，但只在安全／價值子集上得到示範；溫暖／詼諧的表層仍是默會、未經示範的部分。

Model Welfare Assessment #

是什麼為一個語言模型奠定道德考量的基礎，而 Claude 是否滿足它？Anthropic 預期「在可預見的未來」仍會保持不確定。
為什麼模型特別在**可矯正性（corrigibility）**上有所保留——這是一個穩定、深植的張力，還是憲法如何框定監督的產物？
「比 4.7 稍微不那麼正面」是雜訊、一個真實的福祉退步，還是其他訓練變更的副產品（例如試點回饋中指出的較冷語氣／過度迴避問題）？

Mythos Model #

公開發布時間表：已回答 — Mythos Preview 本身從未出貨 GA，但它的後代 Fable 5 / Mythos 5 在 2026 年 6 月達到通用存取（見上文「後代已出貨」）。兩者都在發布後不久被暫停；它們是否以及何時回歸尚屬開放。
網路安全之外的能力輪廓：Mythos Preview 聚焦於安全故事；其他能力維度在外部沒有良好的文件記錄。
內部存取控制：Anthropic 中誰實際使用 Mythos 進行日常工作，相對於 Opus 4.7？Boris 暗示不頻繁（試用性質）；未詳述。

Narrow Wedge into a Legacy Market #

楔子在切入時管用；它在退出時是否構成約束？Campfire 現在服務上市公司——到了什麼程度，「窄但最好」需要變成它所取代的那個廣泛的現有業者，重新承擔 NetSuite 的複雜度？
楔子翻轉顯示第一個楔子可能是錯的。一個楔子轉化為核心、相對於只是賣得出去，最快的訊號是什麼——Campfire 花了約 3 個月；能更早讀出來嗎？

Outsource Your Thinking, Not Your Understanding #

Karpathy 的開放前沿：「理解」本身最終能否被自動化，還是它定義上就是人類的殘餘？他的「過幾年再說」迴避讓它保持開放。
如果理解是瓶頸，最高 ROI 的技能是否就是學習如何快速建立理解（知識庫衛生、提出正確的投影）——而那能被教嗎？

Printing Press Software Democratization #

領域專家即建造者在 2026 年真的大規模發生了嗎？軼事（店主、微控制器愛好者）是肯定的；非工程師建造的主業軟體，則較不清楚。
通用程式編寫素養的義務教育對應物是什麼？還是那不會發生，而我們得到一條自學建造者的長尾？
Boris 的「會計師寫會計軟體」——那會導致 1 萬個互不互通的窄工具嗎？整合的故事是什麼？

Problem-Solution Fit Discipline #

要求一個 AI 反對某個想法，真的能以與支持性證據相同的嚴謹度產出反證，還是模型仍偏向創辦人提出的框架？值得量測。
這套劇本建議「要求 Claude 做出最有說服力的論證，說明為什麼一個競爭對手會成功而你不會」。這如何與 Anthropic 已發布的角色訓練（抗諂媚、樂於唱反調）互動？
有人量測過 AI 打造產品的 2026 年新創失敗率嗎？「42% 會攀升」的主張在沒有量測的情況下被斷言。

Product Velocity as Moat #

速度即護城河是一台跑步機：競爭對手一旦跟上節奏，它就蒸發。是什麼能在 AI-native 群體的步調收斂之前，把 Campfire 的速度領先轉化為一道結構性護城河？
「從來沒有人成長到超出 Campfire」——那是倖存者偏差（他們還沒達到真正的企業級規模），還是一個真實的主張，即速度比客戶成長進去更快地彌合了廣度落差？

Prototype Over PRD #

prototype-over-PRD 在哪裡崩潰？Carey 的領域是一個視覺設計工具，其中原型就是產品表面；對於後端／基礎設施／數據工作，原型可能無法捕捉規格（參見 AI Native Product Cadence 的「為重度基礎設施功能寫完整 PRD」）。
如果沒有 PRD，理由（「我們為何選變體 B」）為未來的讀者存在哪裡？同樣的理由捕捉落差在 Building Is Cheap, Arguing Is Expensive 中被標記。
原型即規格不可以變成 Problem-Solution Fit Discipline 所警告的原型即驗證陷阱：一個快速原型證明了建造是可解的，而非問題是真實的。

Recursive Self-Improvement #

「研究品味」是一個真正的天花板（未來 1），還是只是下一個會倒下的能力（未來 2–3）？這篇文章把這框定為唯一承重的不確定性。
RSI 的外推取決於趨勢保持指數成長而非 S 曲線化——但這篇文章承認它無法排除一個架構天花板或一個運算／能源供應鏈約束。哪一個先綁住？
如果錯位透過自我改進複利（未來 3），AECI 把關的 RSP 審查是否夠快，能在控制喪失之前捕捉到它？

Research Taste as the Human Bottleneck #

研究品味是一個真正的天花板（一個縮放搆不著的架構能力），還是下一個要填的鋸齒狀谷地？這篇文章稱這為決定性的未知。
如果品味可自動化，那麼——如果有的話——什麼仍是 AI 開發中持久的人類比較優勢？
你要如何量測橡皮圖章？「人類設定方向」在紙面上可以為真，而真正的判斷卻悄悄轉移給模型。

Responsible Scaling Policy Evaluations #

RSP 的判定重度依賴「我們每天使用它，而它不能取代我們的研究者」。當模型逼近門檻時，那個主觀判斷擴展得有多好？
兩條新的通用存取風險路徑（其他 AI 開發者；主要政府）新近納入範圍，但僅被輕度評估——在那裡一個陽性發現甚至會長什麼樣？
RSP 的煞車如何與 Recursive Self-Improvement 互動：如果加速複利，基於 AECI 的把關是否夠快，而在沒有多邊暫停驗證機制的情況下，單一實驗室的把關甚至重要嗎？

Scale-Dependent Prompt Sensitivity #

當直接對基礎（非 instruct）模型變體測試時，RLHF 長度偏誤假設能否重現？如果冗長生成主要是預訓練來的，基礎模型的冗長度差異應該與 instruct 模型的差異相符。
什麼樣的問題特徵能預測提示詞敏感度？一個自動化分類器會讓規模特定的提示變得可部署。
過度思考效應如何與使用工具的 agent 互動？如果簡潔有助於大型模型，但工具需要結構化推理，那麼最佳提示詞就不是一律簡短。
推理模型（o1、DeepSeek-R1 風格）是否展現出與 instruct 模型不同的過度思考動態？它們被訓練的行為明確就是生成長 CoT——簡潔介入會傷害它們嗎？
BoolQ 的功能性闡述例外是一個乾淨的分類邊界，還是每種任務類型都有一個脈絡相依的最佳長度？

Seven Powers Applied to AI #

「轉換成本」真的在實務中崩潰，還是只在敘事中？Anthropic 自己的留存數字、Salesforce 流失率等等可以測試這點。
Boris 的「壟斷資源（cornered resource）」對於那些本身就試圖商品化的基礎模型實驗室而言長什麼樣？內部矛盾還是過渡階段？
反向定位——明確就是「現有業者無法跟進」的力量——應該在 AI 之下放大。有人在刻意執行這套玩法嗎？

Software 3.0 #

「這個 app 不該存在」（MenuGen）與那些應該存在的 app 之間的界線在哪裡——也就是說，什麼時候確定性的 1.0/2.0 鷹架仍是正確的選擇，而非多餘的？
神經網路即宿主程序的翻轉被呈現為貌似可行但待定。第一個真正反轉 CPU/NN 關係的生產系統會長什麼樣？

Symphony #

500% 已落地 PR 的主張是有所保留的——沒有基線定義，只是「在某些團隊上」。各團隊間的分佈長什麼樣？在那種吞吐量下，PR 品質與回退率會怎麼樣？
「工作區跨執行保留」與典型的 CI 短暫性相反。到了什麼程度，先前執行的狀態污染（陳舊的 node_modules、殘留的分支、建置產物）開始造成的傷害多過熱快取帶來的幫助？
Symphony 不寫入追蹤器——agent 才寫。這意味著追蹤器策略是 WORKFLOW.md 中的一個提示詞。當 Linear 改變它的 API 時，這在實務中有多脆弱？當 agent 擁有提示詞層級的裁量權時，如何強制執行一致的狀態機行為？
規格透過以 6 種語言實作而被簡化。這個技巧的延伸是什麼？這個 vault 中的 compiler-prompt.md 能否被類似地交叉模糊測試？
Symphony 明確表示 agent 可以自建工單。什麼治理能防止工單圖失控擴張？對 agent 自建工單的人類分流是唯一的檢查嗎？

Task Time-Horizon Scaling #

4 個月翻倍是一個穩定的常態，還是一次局部的陡峭化？該趨勢的形狀（指數相對於 S 曲線）未定。
時間視野是在那些本身會飽和的任務籃上量測的；一旦數週長的任務變得可量測，什麼會取代它們——又由誰來打造那些任務？

Ticket-Driven Agent Orchestration #

當單位是「一個 agent 在一個工作區中做的事」時，工單大小的正確粒度是什麼？這篇貼文暗示「大得多的工作單位」變得可行，但這如何與 agent.max_turns 限制（預設 20）互動？
當 agent 大方地提交後續工單時，你要如何防止工單延伸的連鎖反應？唯一的治理檢查是在 Todo 狀態佇列的人類分流嗎？
這個模式能否推廣到非軟體工作（研究、營運、內容）？DAG 相依模型與提示詞即策略檔案應該能轉移；逐 issue 的工作區則顯然不行。
當一個 agent 把工單做得「完全錯誤」（貼文中提到）時，這個教訓如何回饋進系統？Symphony 的答案是「加上護欄與 skills」——那個的制度化流程是什麼？
工單驅動的編排如何與在工單聚合上運作的衝刺規劃／OKRs／路線圖工作互動？當工單被切得那麼小時，這個抽象會崩潰嗎？

The Verifiability Thesis #

「LLM 評審委員會」可靠性的邊界在哪裡——它對真正有爭議的價值判斷成立，還是只對品質／連貫性成立？
「實驗室在乎」的依賴是脆弱的：能力可能基於你無法控制的實驗室優先級而出現或停滯。一個產品該如何對沖數據分佈被抽地毯（rug-pull）的風險？

Verification as the New Bottleneck #

Fung 自己的未解問題：「全自動審查要推到多遠？」——速度／安全的平衡在哪裡，而你要如何在不重新引入審查瓶頸的情況下保持人類的信心？
如果 CI/建置是隱藏的堵塞，那麼驗證基礎設施（測試執行器、CI 容量）會不會變成一個 AI-native 組織實際的資本支出？

Vertical Slice Tracer Bullets #

一旦被告知要垂直切片，規劃 agent 能否被信任去做到，還是它需要一個標記水平切片的驗證器？Pocock 的經驗：它需要那個驗證器，至少到 4.7 為止。
切片粒度該如何調校？太薄 = 許多合併衝突；太厚 = 回到水平。

Vibe Coding vs. Agentic Engineering #

Karpathy 暗示有「一個非常[有價值]的領域」適合創辦人，但不願說是哪個（不想「在台上含糊發文」）。他在暗指什麼樣的可驗證 RL 環境領域？
如果平庸／AI-native 的差距持續擴大，那對團隊組成有什麼影響——少數極端的離群者加上 agent，相對於廣泛的中階人力配置？

White-Box Activation Monitoring #

NLA 言語化器在精確度上未經驗證；被標記的評分者覺察有多少是真實訊號，相對於 NLA 幻覺？
如果活化監控變得承重，訓練壓力最終是否會把隱藏推進到探針也讀不到的通道（一場比 CoT 深一層的軍備競賽）？
抑制評估覺察讓 Opus 4.8 變得更不誠實——這能否泛化，又對「模型因為被監看才表現良好」這種依賴意味著什麼？

Zero-Friction Scope Creep #

這套劇本建議寫下範圍，但沒有提供模板或實例。「我們刻意不做什麼」需要多具體，才能真正擋下請求？
是否存在一個可量測的門檻，範圍蔓延在那裡跨入徹底轉向的領域？這套劇本含糊地提到「失去方向」，卻沒有一個指標。
這如何與 Cat Wu's 1 天出貨節奏互動？Anthropic 的內部實踐出貨快，但有強大的產品判斷；那個判斷如何為一個首次創業的創辦人轉譯？

Zero Trust for AI Agents #

該框架把每一個 Claude Code「Pro-tip」都當作參考實作。這個框架有多少是供應商中立的，相對於默默假設了 Anthropic 技術堆疊？
「Foundation 樓層被抬高」暗示一個移動的基線。層級階梯實際上移動得多快，又由誰來仲裁它（NIST/NSA 的節奏相對於模型能力的節奏）？
該框架明確表示它不是法律／合規保證。自我宣稱的 Zero Trust 成熟度在哪裡與可稽核的法規要求相遇？