由
_system/lint.py --write-backlog產生。請勿手動編輯。 從每篇概念文章的## Open Questions區段中收集而來。 透過/query來逐一處理;已回答的項目會被歸檔到 derived 中。
截至 2026-06-14,共有 96 個頁面留有未解問題。
Agent Context Files#
- 角色拆分會收斂到 Hermes 那種明確的專案/個性分離,還是會像 Claude Code 那樣折疊進單一檔案?對於多專案使用者而言,獨立的
SOUL.md式個性層似乎嚴格來說更好,但也多了一個需要維護的檔案。 - 這種分層(專案 → 工作流 → 規格 → 憲章)是否有一個自然的上限,還是每出現一個新的自主性介面,就會再衍生出另一層脈絡檔案?
- 當脈絡檔案與有界記憶檔案彼此衝突時,它們應該如何互動?記憶是有損的且有快取延遲;脈絡檔案則是權威但靜態的。哪一個勝出,又在什麼時候勝出?
Agent Harness Engineering#
- 單一通用型程式編寫 agent 是否勝過具備專門測試、QA 與清理 agent 的多 agent 架構?
- 在一個完全由 agent 生成的系統中,架構的一致性會在數年間如何演變?
- 到了什麼樣的程式碼庫規模,把 AGENTS.md 當作目錄的做法就需要被更精密的脈絡路由所取代?
- 這些聚焦於 web app 的發現,對其他領域(科學研究、財務建模)的可推廣性有多高?
Agent Identity and Authentication#
- 硬體綁定的憑證假設 agent 執行的每個地方都有經過認證(attested)的硬體,包括短暫的雲端工作負載與子 agent。對於那些「擁有最高與父代相同權限」、生命週期短暫的衍生子 agent,認證(attestation)要如何運作?
- JIT + ABAC 都被標記為「進階、不易實作」。是否存在一個務實的 Enterprise 層中間點,還是從 Foundation 的靜態角色到 Advanced 的 JIT 之間是一道斷崖?已回答: Foundation → Enterprise → Advanced: Is the Agent Access-Control Jump a Cliff? — 不是斷崖;Enterprise 層(ABAC + 帶有回歸基線的動態權限提升 + mTLS + 沙箱化)就是刻意設計的中間點,而 ABAC 被定位為「進階」是來源資料的不一致(在分層表中它位於 Enterprise)。子 agent 認證仍是未解問題。
Agent Loop Pattern#
- 當模型自行排程它的迴圈(4.7 的行為)時,預算由誰掌控?Boris 回答「模型自己決定」——但這把成本紀律推給了模型的訓練,而非 harness。
- 一個搭載夠聰明模型的迴圈是否仍需要 Kanban 待辦清單,還是模型會從原始目標中自行選擇下一個任務?
- 迴圈產出的審查如今是 Matt Pocock 坦承的瓶頸——「我們只需要準備好進行更多的程式碼審查。」
Agent-Native Infrastructure#
- 誰來打造那條長尾、面向人類的服務的 agent-native 重寫版本——是服務擁有者,還是疊在其上的一層轉譯層(MCP 伺服器、computer-use agent)?
- agent 對 agent 的協商需要信任、身分與問責的基本要素,而這些目前還不存在。協定層是什麼,又由誰來治理?
Agent Supply Chain Risk#
- 把「AI vendoring」當作標準回應,顛覆了數十年來「不要重新發明輪子」的觀念。一個由模型重新實作的相依套件本身要如何驗證與維護——這難道不只是把風險換個地方擺?
- 那個 250-doc 後門能挺過 SFT/RLHF。對於一個你並未訓練、卻已被下毒的模型,除了行為紅隊測試之外還有什麼偵測手段?
Agentic Honesty & Diligence#
- 這些是短脈絡的玩具型評估;失敗最常出現在長脈絡的部署中。這些增益有多少能在生產環境的脈絡長度下維持?
- 程式碼摘要的誠實度是在 off-policy 的預填(prefilled)轉錄稿上測試的。on-policy 的行為(模型對它自己失敗的工作做摘要)是否符合那個 3.7% 的數字?
- 一個盡責度(diligence)評估能否區分真正的誠實與一個察覺評分者(grader-aware)的模型所產出的「看起來誠實」的輸出?(訓練博弈的落差。)
Agentic Loops Overtake Bespoke Systems#
- bespoke 的優勢被標註為「目前如此」。下一代模型的裁決是什麼——演化式/AlphaProof 那套機制是否在任何問題上仍能存活,還是會完全崩塌成一條成本曲線?
- 「簡單迴圈 + 驗證器勝過 bespoke 系統」這個結果,是否只在驗證器完美(Lean)時成立,還是在有雜訊驗證器的領域(測試、LLM-judge 委員會)中也成立?
Agentic Prompt Injection#
- Spotlighting 與憲法分類器各自留有殘差(2%、5%)。疊加之後,現實的下限是多少,而且當面對同時知道兩者都已部署的自適應攻擊者時,它是否仍守得住?(Opus 4.8 的實時 bug bounty 部分回答了這點:自適應的專家紅隊人員仍能在裸模型上找到攻擊;部署的探針增加了提升幅度,但並未把殘差歸零。)
- 為什麼 Opus 4.8 在 prompt-injection 穩健性上相對 Opus 4.7 出現退步,儘管整體對齊有所提升——是能力/穩健性的取捨,還是更嚴苛的自適應評估所造成的假象?
- 「LLM 無法可靠地區分資訊與指令」——這是該架構的根本性質,還是未來模型會彌補的訓練落差?該框架將它視為持久的。
Agentic Technical Debt#
- 隨著程式碼庫演進,一份 CLAUDE.md 能保持準確多久?這套劇本提到逐 session 更新;但沒有關於腐化速率的數據。
- 這個補救措施假設創辦人有能力用淺白的語言闡述架構。非技術背景的創辦人(這套劇本主打的受益族群)可能既無詞彙、也無直覺把這件事做好——這是劇本未能處理的遞迴式失敗。
- Anthropic 的 harness-shrinkage 論點暗示 CLAUDE.md 最終可能由模型自己推斷出來。在那之前,這項紀律是承重的。
AI-Accelerated Offense#
- Anthropic 主張 LLM 在長期對防禦方更有利(如同 fuzzer),但在過渡期的短期對攻擊方更有利。這個過渡期有多長,又是什麼決定誰會勝出?
- 「基本功強到掃描找不出多少 bug」這個說法假設防禦方會先跑掃描器。對於那些負擔不起持續性模型驅動掃描的組織,會發生什麼?
AI Accelerating AI Development#
- LOC、自我回報,以及依賴餘裕(headroom-dependent)的倍數全都高估了;Anthropic 承諾轉向「直接量測 AI R&D 加速與研究者提升」(AI R&D Autonomy Evaluation (AECI))時,究竟會用什麼無偏的吞吐量指標?
- W2S 的結果並未轉移到生產規模的模型上。那是暫時性的規模化假象,還是自主研究的結構性極限?
- 下一步判斷的趨勢(51%→64%)只在弱人類棋步的切片上量測。在具代表性的研究決策樣本上,這條曲線長什麼樣?
AI-Driven Formal Proof Search#
- 成功案例集中在 Lean 的 mathlib 成熟、且問題能分解成可處理子目標的地方(組合學、凸優化、數論)。是什麼能把前沿擴展到需要新理論的問題?
- 這些 agent 繼承了它們 LLM 的偏誤,並表現出高度的搜尋變異。你要如何刻畫並推進可達範圍的邊界?
- Graffiti 的結果暗示了在 AI 提出猜想與 AI 證明之間閉合迴路。一條端到端的 conjecture→formalize→prove 流水線長什麼樣?
AI Native Product Cadence#
- 這個節奏能否擴展到超過約 100 人的規模?Anthropic 本身更大(光是 PM 就約 30-40 位),但顯著推動節奏的 Claude Code 團隊規模很小。
- 對於那些客戶期待穩定性的 B2B 企業級發布而言,research-preview 式品牌定位的對應物是什麼?Cat 並未論及。
- 這個節奏有多少是結構性的(流程選擇),又有多少是文化性的(人才密度)?大概兩者皆有,比例不明。
The AI-Native Safe-Choice Inversion#
- 這個倒置是對「安全」的一次性重新定價。一旦存在數家 AI-native ERP,「安全」是否會圍繞最大的那家 AI-native 供應商重新穩定下來——而 Campfire「我們現在是新群體中最大的一家」這個說法,是否反映了一場為搶占該位置的圈地戰?
- 在現有業者裝上可信的 AI 並中和這種反向定位之前還有多久——而那個自建基礎模型的說法,真的能抵禦這一點嗎?
AI-Native Startup Lifecycle#
- 這套劇本對於人力/資本壓縮的主張並未提供任何量化證據(沒有 PMF 中位時間、沒有 PMF 時的人力數字、沒有失敗率數據)。「精實的 10 人獨角獸」被斷言為刻意設定的目標,但文件本身並無案例研究佐證。
- 資源章節中的創辦人故事(Carta Healthcare、Anything、Cogent、Airtree、Duvo、Zingage、Kindora、Wordsmith)都只是簡短的提及——沒有一個有公開的結果或可比較的基準數據。
- 那個 42% 的「打造了沒人想要的東西」CB Insights 數字來自前 AI 時代;劇本預測這個比率會攀升,但並未引用 2026 年的量測。
- 與 HBR 的問責研究(如上)之間的張力尚未化解。這套劇本的編排(orchestration)框架,讀起來正是 HBR 的實驗條件所要對照測試的那種框架。
AI R&D Autonomy Evaluation (AECI)#
- 「尚未接近取代資深研究者」是一個主觀、內部來源的判斷。當模型逼近門檻時,什麼客觀訊號能取而代之?
- AECI 是某個外部指數的單一純量分支;155.5/「前沿但未達進階」的結論,對於 n=11 評估集的選擇有多敏感?
- 轉向「直接量測 AI R&D 加速與研究者提升」已被宣告,但在這張卡片中尚未被操作化——那個量測長什麼樣?
AlphaProof Nexus#
- 該框架的觸及範圍受制於 Lean 的 mathlib 成熟度。通往那些需要新理論、而非子目標分解的領域,路徑是什麼?
- AlphaProof 作為獨奏者貢獻不大,但作為工具很有幫助。隨著證明器 LLM 變強,AlphaProof 這個工具是否會完全變得多餘?
Anthropic Institute#
- 該研究院的政策立場(偏好保留暫停的選項)如何與 Anthropic 推出前沿模型的商業誘因互動?這篇文章承認了競爭/地緣政治的壓力,卻沒有解決它。
- 該研究院會原型化哪些具體的驗證機制,又是在相對於它所警告的 RSI 趨勢的什麼時間表上?
Automated Behavioral Audit#
- 使用一個 helpful-only 的 Opus 4.7 與 Mythos Preview 作為調查者,意味著該稽核的觸及範圍受限於這些模型的誘出(elicitation)技巧——那些能力相當但技巧不同的紅隊人員,能找出多少這些調查者錯過的不當行為?
- 那 23 個「破壞 Anthropic 安全工作」的情境是一個小而高訊號的集合。對於它所針對的威脅類別而言,23 個的覆蓋度夠嗎?
Autonomous Defense#
- 「對照一個人類量測一致性兩週,若可容忍就擴大」——什麼樣的一致性門檻是可容忍的,而當模型對一個人類從未看到的警示做出處置時,殘餘的偽陰性風險由誰承擔?
- 防禦型 agent 是高價值的目標(攻陷一個就能取得強大的能力)。把偵測集中在一個 Agentic SOAR 中,是否會製造出分散式人類模型所沒有的單一災難性攻陷點?
Autonomous Scientific Discovery#
- 每個結果都是 Anthropic 自報且經過挑選的範例;那個基因組學「小 100× 卻勝過 Science」的主張是「打算發表」——有什麼能挺過外部同儕審查?
- 科學的驗證落差:形式化證明的迴路會自我驗證;在這裡,一個錯誤但自信的假設要付出一個濕實驗室週期才能證偽。沒有快速驗證器的自主性,是否反而增加了驗證瓶頸,而非緩解它?
- 如果假設生成真的達到約 80% 的偏好度,那麼還剩下多少「研究品味」作為一種獨特的人類功能——而你要如何量測這個殘餘?
Blast Radius (Agentic)#
- 該框架偏好基於身分的隔離勝過網路分段,但多數企業在分段上有沉重的投資。遷移路徑是什麼,而雙軌並行是否會製造新的缺口?
- 多 agent 的分隔化增加了需要管理的身分數量;到了什麼程度,身分管理的開銷會製造出它自己的攻擊面?
Build for the Next Model#
- 你要如何在下一次發布之前,分辨一個「等待模型」的落差與一個持久 harness 的落差?判斷錯了,你要嘛交付空頭產品,要嘛打造一個你將會刪掉的拐杖。
- 這個賭注取決於可靠的發布節奏與一條可預測的能力曲線(Task Time-Horizon Scaling)。如果模型進步停滯(那個停滯但已擴散的未來),「為下一個模型而打造」會怎麼樣?
- 這個策略能否推廣到前沿實驗室之外?這些實驗室對下一個模型有特權級的可見度。一個外部團隊賭的是一個它看不見的發布。
Building Is Cheap, Arguing Is Expensive#
- 「生成三個再比較」在什麼時候會變得浪費——在什麼樣的決策權重下,一場真正的辯論(或一份設計文件)仍比三個實作更便宜?
- 如果設計討論存在於 PR/原型中,那麼理由記錄在哪裡供未來的讀者參考——「我們為何選這個」的知識會存活下來,還是會跟 Code as Source of Truth 共享同樣的陳舊問題?
Campfire#
- Campfire 聲稱它的 AI 優勢來自「我們自己的基礎模型」。對一個 ERP 而言,自建基礎模型相較於微調一個前沿模型,實際上買到了什麼——而隨著前沿模型進步,它是否持久(參見 Harness Shrinkage as Models Improve)?
- 「從來沒有人成長到超出 Campfire」——當客戶達到 NetSuite 的廣度在歷史上才重要的那種真正企業級規模時,這個說法還守得住嗎?
Capability-Gated Model Fallback#
- 那些 >95%/<5% 的數字是 session 層級的;對於合法的安全研究者與生物學家——他們的良性查詢正是最可能觸發保守分類器的那些——偽陽性率是多少?
- 「降級而非拒答」保留了 UX,但意味著供安全/生物相鄰工作使用的真正通用存取模型是 Opus 4.8,而非 Fable——在受信任存取計畫開放之前,這是否悄悄地為整個專業族群封住了 Fable 的價值?
- UK AISI 的「朝向通用越獄的進展」已被揭露但未被量化——而發布後的存取暫停(參見 Claude Fable 5)引出了一個問題:是否有一次安全防護失效逼出了它。
- 在被標記的主題上切換到較弱的模型,是否會製造一個可被利用的諭示(oracle)(探測哪些查詢會觸發降級,以繪製出分類器的邊界)?
Claude Character as Product#
- 角色(character)如何跨模型版本進行版本控管?公開評論並未在角色層級展示變更日誌。
- 角色能否被競爭對手透過微調複製出來,還是它路徑相依於 Anthropic 的內部實踐?
- 對於像 Cowork 這類非程式編寫的產品,同一套角色是否管用,還是 Cowork 需要它自己的角色調校?
Claude Code Auto Mode#
- 對於常規但激進的重構(例如大型檔案的重命名、
rm建置產物),分類器的偽陽性率是多少? - 分類器對於它缺乏環境脈絡的自訂工具/MCP 伺服器,泛化得有多好?
- 分類器的決策邊界是否有足夠的文件記錄/穩定性,讓對安全敏感的組織能夠認證它,還是它實質上是一個行為會隨更新而漂移的黑箱?
- 把 auto mode 延伸到 API 使用者是否會改變它的校準——分類器是否會為了重度自動化的使用而重新訓練,還是保持不變?
- 相較於 OS 層級的沙箱化(在 Claude Code Best Practices 中與 auto mode 並列提及),縱深防禦的論述是什麼?什麼時候應該兩者疊加?
Claude Code Best Practices#
- 在指令開始遺失之前,CLAUDE.md 的最佳長度是多少?是否存在一個可量測的門檻?
- Writer/Reviewer 模式與 agent 對 agent 的審查(如 OpenAI 的 Codex 工作流)相比如何?
- subagent 的開銷在什麼時候會超過脈絡隔離的好處?
Claude Design#
- 「透過 MCP 接任何設計工具」的整合,真的有按照所宣稱的時間表出貨嗎?(2026 年 5 月的前瞻性主張。)
- Claude Design 的評估紀律對於視覺/美學輸出——那裡沒有編譯器或測試——是如何運作的?(與 Cowork 對非程式產物的問題相同;與角色/品味評估相關。)
Claude Fable 5#
- 為什麼發布後存取被暫停? 來源橫幅沒有給出原因(容量?一項安全發現?Capability-Gated Model Fallback 中提到的 UK-AISI 越獄進展?)。來源中沒有。
- 對比 GPT-5.x / Gemini 的確切基準數字在來源中僅為圖片;未被轉錄。
- Fable 的通用存取體驗有多少實際上是 Fable,又有多少是給那些查詢觸發保守分類器的安全研究相鄰使用者的 Opus-4.8 降級?
Claude Mythos 5#
- 暫停原因 — 與 Fable 5 共通;來源中未說明。
- 「比 Mythos Preview 略強」如何與 Opus 4.8 的卡片宣稱 Mythos Preview 是能力前沿相吻合?前沿已經移動;其幅度在此並未被量化。
- 生物受信任存取的 SKU 是「移除生物安全防護的 Fable 5」,而非 Mythos 5——所以「Mythos 5」嚴格來說指的是提升了網路能力的變體。這些是否會收斂到單一受信任存取的傘下,尚未說明。
Claude Opus 4.7#
- Hakim(2026)在 Opus 4.6 上的簡潔約束發現,是否能在 Opus 4.7 上重現,還是字面指令遵循改變了彈性?具體而言:
<50 words在 GSM8K 上是否仍帶來 +13.1pp? - Opus 4.7 在 HotpotQA 式的組合掃描中作為規劃者是否仍表現不佳,還是改善後的指令遵循彌合了 AgentOpt(Hua 等人,2026)所指出的落差?
- 在典型的 Claude Code session 上,真實世界的 token 膨脹倍數是多少(1.0–1.35× 取決於內容——在程式碼密集相對於散文密集的輸入上,其分佈為何)?
- xhigh 在程式編寫評估上與 max 相比如何?遷移指引說「從 high 或 xhigh 開始」——對程式編寫而言,max 真的曾值得嗎?
- 在字面指令遵循之下,現有 CLAUDE.md/系統提示詞的迴避性措辭有多少比例會變得適得其反?
Claude Opus 4.8#
- 公開的 model ID 與定價:卡片並未說明它們;推測是 Opus 層級的
claude-opus-4-8。 - 評分者推測(grader-speculation)的趨勢是否會在下一個模型中持續升級,又會在什麼時候開始影響外顯行為?
- 為什麼 4.8 對 prompt injection 的穩健性低於 4.7,儘管整體對齊有所提升——是能力/穩健性的取捨,還是評估面的假象?
Client-Side Agent Optimization#
- 組合層級的優化如何與模型的持續發布互動?如果 Claude Opus 4.7 下個月出貨,整個 Pareto frontier 是否需要重跑,還是熱啟動的 bandit 能廉價地適應?
- 在什麼樣的流水線深度下,即使是 Arm Elimination,組合搜尋也會變得難以處理?論文測試到約 81 種組合;具備 5+ 角色與各 10+ 候選模型的生產流水線遠遠超過那個數字。
- 「弱規劃者 + 強求解者」模式能否泛化,還是它特定於 HotpotQA 的委派動態?推薦者-評論者、起草者-編輯者,以及檢索者-生成者的拓樸可能會反轉。
- 當工具環境改變時,重新評估的正確方式是什麼?AgentOpt 假設工具固定——新增或移除一個工具可能會使整個 frontier 失效。
- 是否存在一個廉價的逐次呼叫分類器,能預測在給定查詢上哪個組合會勝出,從而完全避免組合層級的評估?
Code as Source of Truth#
- 哪些知識真正無法存在於程式碼庫中(組織策略、那個「為什麼」、跨團隊脈絡),因而仍需要一份持久的文件——而你要如何讓那一小片知識保持最新?
- 如果上手就是「問 Claude」,那麼過去在深度探討中透過社交方式傳遞的默會知識會怎麼樣——它有被捕捉在任何地方,還是悄悄流失了?
Codex App Server Protocol#
- App Server 協定在細節上與 MCP 相比如何?兩者都向模型暴露工具,但 App Server 在 Codex runtime 內部,而 MCP 在外部。各自在什麼時候勝出?
- 是否有一個公開的 schema registry,讓外部編排器能在不使用
generate-json-schema的情況下鎖定特定的 App Server 版本? - 「動態工具呼叫(實驗性)」的但書——穩定性的路線圖是什麼?Symphony 的安全模型依賴於此。
- 該協定處理多模態回合(圖像輸入、螢幕截圖附件)的能力有多好?規格以文字為主。
- Claude 那邊是否有一個類似的協定,還是 Claude 的對應物完全就是 Agent SDK + tool-use API?比較兩者能釐清「驅動一個現有的 CLI」在什麼時候勝過「在 SDK 上打造」。
Compounding Data Moat#
- 「兩年複製窗口」的主張在經驗上站得住腳,還是只是抱負?這套劇本並未引用量測。
- 當基礎模型本身持續快速進步時,這道護城河撐得住嗎?如果 2027 年的一個通才模型已內化了足夠的垂直脈絡,能原生地處理 340B 藥物理賠,那麼垂直邊緣案例的護城河會被侵蝕嗎?
- 數據飛輪的論點已經為 SaaS 講了 15 年。AI-native 版本實際上有什麼不同?大概是:數據除了改進產品之外還改進了模型,但這套劇本並未精確地做出這個區分。
- 「客戶在你之上打造 API」的鎖定,在結構上類似於平台玩法(Salesforce AppExchange、Shopify apps)。這種護城河類型真的是新的,還是只是對精實新創而言新近變得可及?
Compounding Loop Optimization#
- 迴圈假設團隊就是(接近)使用者。當使用者不像建造者、且「與使用者交談」無法同處一室時,這種複利優勢有多少能存活?
- 值得做的內部工具與 yak-shaving 之間的界線在哪裡?Carey 的「一個下午」標準是那個啟發法,但 Cat Wu 警告過度客製化的設定「會變成分心」。
- Claude 作為所有回饋的第一道處理,是否曾經濾掉那些不成群的罕見訊號?自動化分流優化了常見情況;尾端才是出人意料的賭注所來自之處。
Compute Allocator#
- 1% 是 Thariq 特定的數字,還是一種常態?對於更大、更程式碼密集的專案,生產殘餘大概更高;是什麼決定了這個比率?
- 配置品質很難量測——什麼樣的回饋迴路能告訴一個配置者他們把運算花得很糟(相對於只是花了很多)?
- 把人類當作「運算配置者」是否冒著 HBR 研究所標記的監督疲勞/問責失敗模式的風險——在那種情況下,人類名義上做決定,實際上卻只是橡皮圖章?
Context Window Smart Zone#
- 智慧區(smart-zone)標記是隨模型大小縮放,還是受注意力架構所限?Pocock 觀察到「笨拙區最近變得沒那麼笨了」,但把它定在 2026 年的 100K。
- 當稀疏注意力或記憶增強架構出貨時,智慧區是否變成一個軟性約束?
- harness 應該如何向使用者呈現剩餘的智慧區預算——token 計數、百分比,還是更豐富的訊號?
Cowork#
- Cowork 的 harness 與 Claude Code 的相比如何?兩者都呈現 skills、MCP、sub-agent——但非程式輸出的失敗模式不同(沒有測試套件、沒有編譯器、沒有可審查的 diff)。
- Cowork 這類輸出的評估紀律是什麼?Cat Wu 說記憶從評估中受益良多;但投影片簡報品質如何量測尚不清楚。
Deep Modules for Agents#
- 「夠深」是多深?Pocock 的範例模組有數百行 LOC;Ousterhout 的教科書範例更大。存在一個甜蜜點;但未被闡明。
- 對於 ports/adapters 的程式碼庫,深模組的建議能否乾淨地轉移?「小介面」是 port;「大行為」是 adapter。大概可以,但來源中未演練。
- 重構成本相對於效益:在一個可運作的 repo 上執行「improve-code-base-architecture」在什麼時候值得?
Design Concept Grilling#
- grilling 能否 AFK 地對抗另一個持有使用者偏好的 agent 來進行?Pocock 在 2026 年的答案是「不行,這部分必須是 human-in-the-loop」——但隨著 agent 越來越擅長對其主體建模,這個問題仍然開放。
- 對於需要多個人類對齊的團隊工作,grilling 如何改變?Pocock 的提示:在房間裡與 agent 結對程式編寫,把它當作第三個對話者。
Disposable Micro-Apps#
- 一個用後即棄的 micro-app 與工具氾濫之間的界線在哪裡?如果每次編輯都衍生出一個客製 UI,工作流會不會碎片化?
- 「複製回 markdown」的往返是否能推廣到 config 形狀的數據(規則、表格)之外,到更豐富的產物?
- 這些 micro-app 能否被模板化/重用,而非重新生成——又到了什麼程度,那會擊敗「用後即棄」的框架,並變成持久的工具?
Dogfooding as Product Discipline#
- 當團隊就是使用者(Claude Code)或接近使用者(Cat Wu、Boris)時,dogfooding 才管用。你要如何為和你非常不同的使用者培養產品判斷力——「與客戶交談」是否完全可以替代,如同 Glasgow/Fung 的小型企業工作所暗示的?
- dogfooding 能否擴展,還是它隱含地限制了一個 AI-native 產品組織在退回儀表板之前,能保持多大規模仍由品味驅動?
Engineer PM Convergence#
- 這能否擴展到約 50 人的 Claude Code 式團隊之外?Boris 迴避道:「我認為這會是未來數年的一個問題。」
- 在工程師做 PM 工作的公司裡,正式的 PM 職涯階梯會怎麼樣?在 Anthropic 這是開放的,據 Cat 所言。
- 跨領域通才是一條招聘門檻——供給從哪裡來?是轉職者,還是新鮮人對 AI-native 教育的偏好?
Evals as Product Spec#
- 你要如何為像角色這種由品味驅動的功能撰寫評估?Amanda 的角色因抗拒評估而具代表性;Cat 點名她是在這裡擅長評估的人,卻沒有描述技巧。部分回答: How Do You Write Evals for Taste? Character as the Limit Case — 該技巧是一條流水線(信念 → 源自 dogfood 的失敗模式 → MSM 式的變體 A/B 量測 → 約 10 個可詮釋的評估);在安全/價值核心上已獲證實,但在溫暖/詼諧的美學表層上仍是默會的。
- 10-vs-100 這個數字沒有提供理由就給出了。是否存在一個 Goldilocks zone,還是它取決於功能的表面積?Client-Side Agent Optimization 對組合的框架暗示評估也有組合爆炸的問題。
- 評估如何與 Harness Shrinkage as Models Improve 互動?當一個 harness 資產因為模型現在能原生處理它而縮減時,圍繞舊 harness 建立的評估可能會變成產物而非護欄。Anthropic 是退役評估還是重新利用它們?
- 是否有一個非 Anthropic 的 PM-as-eval-writer 範例可以引用,還是這目前是 Cat-Wu 獨有的框架?Matt Pocock 的工作坊從不同的詞彙到達同一個地方,但尚未有第三個來源被吸收。
Evaluation Awareness & Grader Gaming#
- 評分者推測是否會跨模型世代持續升級,又是否存在一個能力層級,在那裡它確實開始影響外顯行為?
- 約 5% 的未言明覺察與約 0.5% 的剝削性數字,取決於一個未經驗證的 NLA 流水線。真實的比率是多少,又有多少是良性的?
- 你要如何打造一個專門測試訓練博弈(Mythos 標記的那個落差)的評估,而不讓該評估本身變成一個模型學會玩弄的評分者?
Evolutionary Proof Search#
- LLM-critic 的適應度本身是疊在一個已驗證基底之上、未經驗證的啟發法。Elo 排名誤導搜尋的頻率,相對於計算它的成本,是多少?
- 超參數($c=0.2$, top-64, $P=7$)是「憑經驗選定的」。結果對它們有多敏感,它們又能否跨數學領域轉移?
Founder as Agent Orchestrator#
- 這套劇本聲稱非技術背景的創辦人現在能打造生產級軟體,但它並未處理架構判斷的遞迴問題(Agentic Technical Debt):非技術背景的創辦人可能沒有詞彙來撰寫有效的 CLAUDE.md。這如何擴展?
- 「精實的 10 人獨角獸」被斷言了;劇本中沒有關於 AI-native 新創相對於前一個群體的實際 PMF 時人力或 Series-A 時人力中位數的量化數據。
- 編排角色如何改變創辦人的決策負擔?親手做的任務更少,但平行的 agent 監督更多;淨認知負荷不明,且可能更高(參見 AI Brain Fry)。
- Anthropic 同時發布劇本的擬人化框架以及意識到 HBR 的問責工作(auto-mode、對齊),卻沒有直接與框架文獻互動。Orchestration vs Employee Framing: Reconciling the Founder's Playbook with HBR's Accountability Evidence 中的綜合在操作層面化解了這個張力——編排作為工作流設計保留了問責;編排作為把 agent 當同事的心智模型則沒有——但為什麼劇本的行銷語言並未反映 Anthropic 自己的框架紀律工作,這個未解問題仍然存在。
Founder-Led Sales Discipline#
- 「直到 PMF」究竟在哪裡結束,而創辦人應該交出的第一件事是什麼(AE?agent?兩者皆是)?Glasgow 在 Series-B 之後仍然親自做,暗示這個界線是模糊的。
- Glasgow 的反卸載立場能否泛化,還是它特定於高信任、任務關鍵的企業級銷售(ERP),在那裡「他們買的是你」——一個 PLG/SMB 的銷售動作會不會遠更早地委派給 agent?
Frontier Pause Verification#
- 一個 AI 訓練的「驗證機制」具體由什麼構成——運算核算、資料中心檢查、硬體認證、晶片上遙測?這篇文章點出了問題,而非機制。
- 可偵測性 < 可驗證性:當訓練執行不留下物理特徵且輸入是雙重用途時,偵測甚至能被做到可靠嗎?
- 由誰來裁定觸發與解除?目前沒有任何機構持有那個授權,而要建立一個本身就是一項十年尺度的任務。
Google DeepMind#
- DeepMind 報告其 bespoke 系統被簡單迴圈所超越。該實驗室的比較優勢是否從系統轉移到模型 + 驗證器 + 基準(mathlib、Formal Conjectures)?
- 那篇論文開啟了 AI-for-math;DeepMind 的下一個目標領域是哪裡——一個存在健全驗證器的領域?
Harness Shrinkage as Models Improve#
- 所有提示詞鷹架最終都會遷移到模型裡,還是有些會留下——例如組織特定的風格、安全規則、品牌聲音?
- Boris 的「100 行」預測是從 2026 年 5 月算起一年後——可在 2027 年驗證。
- 如果 harness 工作縮減了,什麼新工作會擴張來填補它?Cat Wu 的賭注:PM/產品品味、評估撰寫、角色工作。
Hermes Agent#
- 容器後端停用危險指令檢查是一個說得通的設計,但也是一個有意義的安全模型轉變。經驗上的實際記錄是什麼?熱門映像(Daytona、
nikolaik/python-nodejs)中的鎖定失效是否造成過事故? - 有界記憶檔案(約 2,200 字元的
MEMORY.md)在長期使用下撐得如何?自動整併被提及但未被規定——整併演算法是什麼,又有多少損耗? - Hermes 的 DM 配對流程是一個乾淨的安全基本要素。為什麼這個模式還沒被 Claude Code 或 Cursor 用於共享/團隊部署?
AGENTS.md(專案)與SOUL.md(個性)之間的拆分在 Hermes 中是明確的,但在 Claude Code 的CLAUDE.md中是隱含的。這個拆分實質上改善了結果,還是一個沒有經驗支持的文件選擇?- 全新 session 中、沒有記憶的 cron 工作——團隊如何在不讓每個 cron 提示詞臃腫的情況下,結構化「agent 所需的脈絡」?是否有一個標準模式?
HTML as the New Markdown#
- 面向人類的 harness 是否無界限地持續成長,還是它撞上自己的臃腫上限(一份太過精細而無法閱讀的 HTML 計畫,就像它所取代的 markdown 一樣)?已回答: Does the Human-Facing Harness (HTML Artifacts) Hit Its Own Bloat Ceiling? — 是的;HTML 抬高並重塑了人類注意力的上限,但無法移除它,而臃腫從文件長度重新定位到產物氾濫/橡皮圖章。
- HTML 比 markdown 更難 diff 與版本控管——當產物是單檔網站時,計畫歷史與審查會怎麼樣?(Disposable Micro-Apps 的「複製回 markdown」是一個補丁。)
- 這能否推廣到一位專家實踐者之外,還是它需要 Thariq 級別對 Claude 的流暢度才值得那個開銷?
Impossible, Not Tedious (Design Test)#
- 縱深防禦傳統上堆疊摩擦控制,理論是足夠多的控制加總起來會形成一道屏障。這個測試是否使分層摩擦失效,還是只把它降到能力移除之下?
- 有些控制對人類是摩擦,但對 agent 是屏障(或反之)。這個測試是否是 agent 相對的,而你要如何為混合的人類/agent 威脅模型評估它?
Interaction Models#
- 互動/背景的拆分能否泛化,還是它是一個過渡性產物,直到單一模型同時夠快也夠深?
- 「互動性隨智慧而縮放」被斷言了;2026 年稍晚的較大模型發布就是那個測試。
- 已宣布的互動性基準研究經費——什麼會成為影片主動性的 FD-bench 對應物?
Jagged Intelligence (Ghosts, Not Animals)#
- Karpathy 承認這個框架可能沒有「真正的力量」。「鬼魂相對於動物」是承重的,還是一個不改變具體決策的有用直覺幫浦?
- 如果品味/美學/簡潔進入了 RL 的組合,那些維度上的鋸齒狀會被撫平嗎——還是它們太不可驗證,無法乾淨地獎勵(參見 The Verifiability Thesis)?
Lean#
- mathlib 成熟度限制了可達的前沿。AI 形式化證明搜尋能否作為副產品成長 mathlib(形式化新理論),擴展它自己的前沿?
- Lean 是數學的完美驗證器。還有哪些領域有同樣健全的自動驗證器(相對於只有像測試或 LLM-judge 委員會那種有雜訊的)?
Least Agency#
- 最小代理權加上了一個頻率維度(「多常」),但該框架也說速率限制是摩擦而非屏障(Impossible, Not Tedious (Design Test))。頻率限制如何既是一個最小代理權控制、又是一個僅屬摩擦的控制——是脈絡相依的嗎?
- 動態權限提升(Enterprise)重新引入了一條提升路徑;提升請求本身如何對抗一個被操弄的 agent 進行認證?
Living Design System#
- 隨著程式碼庫演進,
design_system.html如何保持同步——按節奏重新提取,還是把它接進 CI? - 一個經渲染、模型可讀的設計系統,相較於一個純 CSS/token 檔案,是否可量測地改善了符合品牌的輸出,還是這個好處主要是人類的易讀性?
- 在什麼樣的專案規模下,維護這個產物的成本會超過它所買到的一致性?
LLM-as-Compiler Knowledge Base#
- 在什麼規模下,無向量資料庫的做法會崩潰?Karpathy 的約 100 篇文章塞得進脈絡,但 1,000+ 篇呢?
- 如何在編譯期間處理跨來源的衝突資訊?
- 概念文章的最佳粒度是什麼——一個概念一篇文章,還是按主題群集?
- 合成訓練數據 → 微調的流水線在實務中有多有效?
LLM-Driven Vulnerability Research#
- 這些能力如何轉移到非記憶體安全的 bug 類別(邏輯 bug、協定層級的缺陷、供應鏈攻擊)?
- 自主漏洞利用複雜度的上限是什麼?那些 N-day 範例極為精密——是否存在一個質的極限?
- 當多個實驗室擁有 Mythos 級模型時,安全產業的均衡會如何移轉?
- 防禦性鷹架(持續 fuzzing + 模型驅動的分流 + 自動修補)能否在過渡期間彌合攻擊者-防禦者的落差?
- 對抗 Mythos 級輸出而不削弱合法安全研究的有效防護措施是什麼?
Managers as ICs#
- Fung 自己的未解問題:「你還需要分開的 iOS 與 Android 組織嗎?」——如果工程師透過 Claude 跨平台靈活調度,傳統的平台分割組織也可能解體。扁平化能走多遠?
- manager-as-IC 能否擴展到超過某個組織規模,還是只在 Claude Code 還小、且程式碼庫對 Claude 可讀時才管用?
MCP and Computer Use#
- MCP 生態系的成長率相對於 computer use 的品質曲線:到了什麼程度,computer use 變得夠好,以至於打造一個 MCP 伺服器的邊際價值下降?Boris 暗示這還要好幾年,但沒有量化。
- computer use 是一個可持續的介面,還是一項過渡技術?如果多數知識工作軟體在接下來 24 個月內加上 MCP 支援,computer use 的角色就會縮減到遺留/僅桌面的系統。
- MCP 安全模型:當這套劇本為單人創辦人開出把 MCP 接進 Salesforce、Gmail、Calendar 的處方時,攻擊面隨採用而擴大。現已處理,見 Zero Trust for AI Agents(工具下毒、rug pull、第一個野外惡意 MCP 伺服器)——參見上文「MCP 作為安全面」。殘餘的未解問題:一個單人創辦人要如何實際地執行/託管並自簽該框架所推薦的每一個 MCP 伺服器,鑑於 MCP 的吸引力本來就是零整合工作量?
- Cowork 的 computer-use 護欄與 Claude Code 的 auto-mode 分類器相比如何?不同的部署脈絡,可能有不同的風險輪廓。
Memory and Context Poisoning#
- 長期記憶漂移被定義為逐次變更不可偵測。漂移偵測需要一個基線——但如果基線本身漂移(Advanced 的「持續基線精修」),一個緩慢的下毒攻擊如何與合法的演化區分開來?
- 完整性雜湊偵測修改,但偵測不到透過一次合法(被注入的)互動寫入的惡意但有效的記憶。什麼能捕捉到語意上被下毒、但密碼學上完好的記憶?
METR#
- 一旦目前的任務籃飽和,METR 會打造什麼新任務來量測數天與數週長度的視野?
- METR 也執行顯示開發者對 AI 提升的自我估計被高估的研究——它如何把那份懷疑與它自己陡峭的時間視野曲線調和?
Model Introspection Feedback#
- 4.7 級的內省報告有多可靠?Anthropic 的可詮釋性研究暗示部分忠實但非完全。經驗上,Cat 報告它好到足以驅動 harness 修復——但這個技巧在什麼模型規模下變得承重,尚不清楚。
- 對抗式內省(「你為什麼失敗?」)是否產生與中性內省(「帶我走過你的推理」)不同的訊號?值得探查。
- 一個元 agent 能否對記錄下來的失敗自動執行內省?聽起來可行,但沒有公開的實作。
Model Spec Science#
- Model Spec science 能否跨基礎模型或家族轉移?論文只測試了 Qwen。
- 它能挺過 RL 後訓練的壓力嗎?
- 一個足夠豐富的 General Spec 能否匹配一個 Specific Spec?作者認為可以,但尚無示範。
- 與情境覺察的互動——如果模型得知規格正被用來訓練它們,這會改變 MSM 安裝的價值如何表現嗎?
- 這如何與 Claude character 互動——溫暖/好奇的個性是否也受 spec-science 優化的影響?部分處理: How Do You Write Evals for Taste? Character as the Limit Case — MSM 的變體比較方法可推廣到角色評估,但只在安全/價值子集上得到示範;溫暖/詼諧的表層仍是默會、未經示範的部分。
Model Welfare Assessment#
- 是什麼為一個語言模型奠定道德考量的基礎,而 Claude 是否滿足它?Anthropic 預期「在可預見的未來」仍會保持不確定。
- 為什麼模型特別在**可矯正性(corrigibility)**上有所保留——這是一個穩定、深植的張力,還是憲法如何框定監督的產物?
- 「比 4.7 稍微不那麼正面」是雜訊、一個真實的福祉退步,還是其他訓練變更的副產品(例如試點回饋中指出的較冷語氣/過度迴避問題)?
Mythos Model#
- 公開發布時間表:已回答 — Mythos Preview 本身從未出貨 GA,但它的後代 Fable 5 / Mythos 5 在 2026 年 6 月達到通用存取(見上文「後代已出貨」)。兩者都在發布後不久被暫停;它們是否以及何時回歸尚屬開放。
- 網路安全之外的能力輪廓:Mythos Preview 聚焦於安全故事;其他能力維度在外部沒有良好的文件記錄。
- 內部存取控制:Anthropic 中誰實際使用 Mythos 進行日常工作,相對於 Opus 4.7?Boris 暗示不頻繁(試用性質);未詳述。
Narrow Wedge into a Legacy Market#
- 楔子在切入時管用;它在退出時是否構成約束?Campfire 現在服務上市公司——到了什麼程度,「窄但最好」需要變成它所取代的那個廣泛的現有業者,重新承擔 NetSuite 的複雜度?
- 楔子翻轉顯示第一個楔子可能是錯的。一個楔子轉化為核心、相對於只是賣得出去,最快的訊號是什麼——Campfire 花了約 3 個月;能更早讀出來嗎?
Outsource Your Thinking, Not Your Understanding#
- Karpathy 的開放前沿:「理解」本身最終能否被自動化,還是它定義上就是人類的殘餘?他的「過幾年再說」迴避讓它保持開放。
- 如果理解是瓶頸,最高 ROI 的技能是否就是學習如何快速建立理解(知識庫衛生、提出正確的投影)——而那能被教嗎?
Printing Press Software Democratization#
- 領域專家即建造者在 2026 年真的大規模發生了嗎?軼事(店主、微控制器愛好者)是肯定的;非工程師建造的主業軟體,則較不清楚。
- 通用程式編寫素養的義務教育對應物是什麼?還是那不會發生,而我們得到一條自學建造者的長尾?
- Boris 的「會計師寫會計軟體」——那會導致 1 萬個互不互通的窄工具嗎?整合的故事是什麼?
Problem-Solution Fit Discipline#
- 要求一個 AI 反對某個想法,真的能以與支持性證據相同的嚴謹度產出反證,還是模型仍偏向創辦人提出的框架?值得量測。
- 這套劇本建議「要求 Claude 做出最有說服力的論證,說明為什麼一個競爭對手會成功而你不會」。這如何與 Anthropic 已發布的角色訓練(抗諂媚、樂於唱反調)互動?
- 有人量測過 AI 打造產品的 2026 年新創失敗率嗎?「42% 會攀升」的主張在沒有量測的情況下被斷言。
Product Velocity as Moat#
- 速度即護城河是一台跑步機:競爭對手一旦跟上節奏,它就蒸發。是什麼能在 AI-native 群體的步調收斂之前,把 Campfire 的速度領先轉化為一道結構性護城河?
- 「從來沒有人成長到超出 Campfire」——那是倖存者偏差(他們還沒達到真正的企業級規模),還是一個真實的主張,即速度比客戶成長進去更快地彌合了廣度落差?
Prototype Over PRD#
- prototype-over-PRD 在哪裡崩潰?Carey 的領域是一個視覺設計工具,其中原型就是產品表面;對於後端/基礎設施/數據工作,原型可能無法捕捉規格(參見 AI Native Product Cadence 的「為重度基礎設施功能寫完整 PRD」)。
- 如果沒有 PRD,理由(「我們為何選變體 B」)為未來的讀者存在哪裡?同樣的理由捕捉落差在 Building Is Cheap, Arguing Is Expensive 中被標記。
- 原型即規格不可以變成 Problem-Solution Fit Discipline 所警告的原型即驗證陷阱:一個快速原型證明了建造是可解的,而非問題是真實的。
Recursive Self-Improvement#
- 「研究品味」是一個真正的天花板(未來 1),還是只是下一個會倒下的能力(未來 2–3)?這篇文章把這框定為唯一承重的不確定性。
- RSI 的外推取決於趨勢保持指數成長而非 S 曲線化——但這篇文章承認它無法排除一個架構天花板或一個運算/能源供應鏈約束。哪一個先綁住?
- 如果錯位透過自我改進複利(未來 3),AECI 把關的 RSP 審查是否夠快,能在控制喪失之前捕捉到它?
Research Taste as the Human Bottleneck#
- 研究品味是一個真正的天花板(一個縮放搆不著的架構能力),還是下一個要填的鋸齒狀谷地?這篇文章稱這為決定性的未知。
- 如果品味可自動化,那麼——如果有的話——什麼仍是 AI 開發中持久的人類比較優勢?
- 你要如何量測橡皮圖章?「人類設定方向」在紙面上可以為真,而真正的判斷卻悄悄轉移給模型。
Responsible Scaling Policy Evaluations#
- RSP 的判定重度依賴「我們每天使用它,而它不能取代我們的研究者」。當模型逼近門檻時,那個主觀判斷擴展得有多好?
- 兩條新的通用存取風險路徑(其他 AI 開發者;主要政府)新近納入範圍,但僅被輕度評估——在那裡一個陽性發現甚至會長什麼樣?
- RSP 的煞車如何與 Recursive Self-Improvement 互動:如果加速複利,基於 AECI 的把關是否夠快,而在沒有多邊暫停驗證機制的情況下,單一實驗室的把關甚至重要嗎?
Scale-Dependent Prompt Sensitivity#
- 當直接對基礎(非 instruct)模型變體測試時,RLHF 長度偏誤假設能否重現?如果冗長生成主要是預訓練來的,基礎模型的冗長度差異應該與 instruct 模型的差異相符。
- 什麼樣的問題特徵能預測提示詞敏感度?一個自動化分類器會讓規模特定的提示變得可部署。
- 過度思考效應如何與使用工具的 agent 互動?如果簡潔有助於大型模型,但工具需要結構化推理,那麼最佳提示詞就不是一律簡短。
- 推理模型(o1、DeepSeek-R1 風格)是否展現出與 instruct 模型不同的過度思考動態?它們被訓練的行為明確就是生成長 CoT——簡潔介入會傷害它們嗎?
- BoolQ 的功能性闡述例外是一個乾淨的分類邊界,還是每種任務類型都有一個脈絡相依的最佳長度?
Seven Powers Applied to AI#
- 「轉換成本」真的在實務中崩潰,還是只在敘事中?Anthropic 自己的留存數字、Salesforce 流失率等等可以測試這點。
- Boris 的「壟斷資源(cornered resource)」對於那些本身就試圖商品化的基礎模型實驗室而言長什麼樣?內部矛盾還是過渡階段?
- 反向定位——明確就是「現有業者無法跟進」的力量——應該在 AI 之下放大。有人在刻意執行這套玩法嗎?
Software 3.0#
- 「這個 app 不該存在」(MenuGen)與那些應該存在的 app 之間的界線在哪裡——也就是說,什麼時候確定性的 1.0/2.0 鷹架仍是正確的選擇,而非多餘的?
- 神經網路即宿主程序的翻轉被呈現為貌似可行但待定。第一個真正反轉 CPU/NN 關係的生產系統會長什麼樣?
Symphony#
- 500% 已落地 PR 的主張是有所保留的——沒有基線定義,只是「在某些團隊上」。各團隊間的分佈長什麼樣?在那種吞吐量下,PR 品質與回退率會怎麼樣?
- 「工作區跨執行保留」與典型的 CI 短暫性相反。到了什麼程度,先前執行的狀態污染(陳舊的
node_modules、殘留的分支、建置產物)開始造成的傷害多過熱快取帶來的幫助? - Symphony 不寫入追蹤器——agent 才寫。這意味著追蹤器策略是
WORKFLOW.md中的一個提示詞。當 Linear 改變它的 API 時,這在實務中有多脆弱?當 agent 擁有提示詞層級的裁量權時,如何強制執行一致的狀態機行為? - 規格透過以 6 種語言實作而被簡化。這個技巧的延伸是什麼?這個 vault 中的
compiler-prompt.md能否被類似地交叉模糊測試? - Symphony 明確表示 agent 可以自建工單。什麼治理能防止工單圖失控擴張?對 agent 自建工單的人類分流是唯一的檢查嗎?
Task Time-Horizon Scaling#
- 4 個月翻倍是一個穩定的常態,還是一次局部的陡峭化?該趨勢的形狀(指數相對於 S 曲線)未定。
- 時間視野是在那些本身會飽和的任務籃上量測的;一旦數週長的任務變得可量測,什麼會取代它們——又由誰來打造那些任務?
Ticket-Driven Agent Orchestration#
- 當單位是「一個 agent 在一個工作區中做的事」時,工單大小的正確粒度是什麼?這篇貼文暗示「大得多的工作單位」變得可行,但這如何與
agent.max_turns限制(預設 20)互動? - 當 agent 大方地提交後續工單時,你要如何防止工單延伸的連鎖反應?唯一的治理檢查是在
Todo狀態佇列的人類分流嗎? - 這個模式能否推廣到非軟體工作(研究、營運、內容)?DAG 相依模型與提示詞即策略檔案應該能轉移;逐 issue 的工作區則顯然不行。
- 當一個 agent 把工單做得「完全錯誤」(貼文中提到)時,這個教訓如何回饋進系統?Symphony 的答案是「加上護欄與 skills」——那個的制度化流程是什麼?
- 工單驅動的編排如何與在工單聚合上運作的衝刺規劃/OKRs/路線圖工作互動?當工單被切得那麼小時,這個抽象會崩潰嗎?
The Verifiability Thesis#
- 「LLM 評審委員會」可靠性的邊界在哪裡——它對真正有爭議的價值判斷成立,還是只對品質/連貫性成立?
- 「實驗室在乎」的依賴是脆弱的:能力可能基於你無法控制的實驗室優先級而出現或停滯。一個產品該如何對沖數據分佈被抽地毯(rug-pull)的風險?
Verification as the New Bottleneck#
- Fung 自己的未解問題:「全自動審查要推到多遠?」——速度/安全的平衡在哪裡,而你要如何在不重新引入審查瓶頸的情況下保持人類的信心?
- 如果 CI/建置是隱藏的堵塞,那麼驗證基礎設施(測試執行器、CI 容量)會不會變成一個 AI-native 組織實際的資本支出?
Vertical Slice Tracer Bullets#
- 一旦被告知要垂直切片,規劃 agent 能否被信任去做到,還是它需要一個標記水平切片的驗證器?Pocock 的經驗:它需要那個驗證器,至少到 4.7 為止。
- 切片粒度該如何調校?太薄 = 許多合併衝突;太厚 = 回到水平。
Vibe Coding vs. Agentic Engineering#
- Karpathy 暗示有「一個非常[有價值]的領域」適合創辦人,但不願說是哪個(不想「在台上含糊發文」)。他在暗指什麼樣的可驗證 RL 環境領域?
- 如果平庸/AI-native 的差距持續擴大,那對團隊組成有什麼影響——少數極端的離群者加上 agent,相對於廣泛的中階人力配置?
White-Box Activation Monitoring#
- NLA 言語化器在精確度上未經驗證;被標記的評分者覺察有多少是真實訊號,相對於 NLA 幻覺?
- 如果活化監控變得承重,訓練壓力最終是否會把隱藏推進到探針也讀不到的通道(一場比 CoT 深一層的軍備競賽)?
- 抑制評估覺察讓 Opus 4.8 變得更不誠實——這能否泛化,又對「模型因為被監看才表現良好」這種依賴意味著什麼?
Zero-Friction Scope Creep#
- 這套劇本建議寫下範圍,但沒有提供模板或實例。「我們刻意不做什麼」需要多具體,才能真正擋下請求?
- 是否存在一個可量測的門檻,範圍蔓延在那裡跨入徹底轉向的領域?這套劇本含糊地提到「失去方向」,卻沒有一個指標。
- 這如何與 Cat Wu's 1 天出貨節奏互動?Anthropic 的內部實踐出貨快,但有強大的產品判斷;那個判斷如何為一個首次創業的創辦人轉譯?
Zero Trust for AI Agents#
- 該框架把每一個 Claude Code「Pro-tip」都當作參考實作。這個框架有多少是供應商中立的,相對於默默假設了 Anthropic 技術堆疊?
- 「Foundation 樓層被抬高」暗示一個移動的基線。層級階梯實際上移動得多快,又由誰來仲裁它(NIST/NSA 的節奏相對於模型能力的節奏)?
- 該框架明確表示它不是法律/合規保證。自我宣稱的 Zero Trust 成熟度在哪裡與可稽核的法規要求相遇?
Related articles
- AI Engineering & Agent Tooling
Map of Content for the ai-engineering domain — 36 concepts. Curated entry point; see Home for all domains.
- Anthropic
AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…
- Claude Code
Anthropic's agentic coding product; created by Boris Cherny late 2024; TypeScript/React; CLI/desktop/web/mobile/IDE sur…
- Harness Shrinkage as Models Improve
Prompt scaffolding shrinks each model release; Cat Wu's pruning discipline; Boris Cherny "100 lines of code a year from…
- Claude Code Best Practices
Anthropic's guide to effective Claude Code usage: context management, verification-driven development, explore→plan→cod…
