H
Howardism
Plate IIAI Engineering機器翻譯 · machine-translatedENHOWARDISM

AI 代理的 Zero Trust

PublishedMay 28, 2026FiledConceptDomainAI EngineeringTagsSecurityZero TrustAgent DeploymentAnthropicReading8 minSourceAI-synthesised

Anthropic 針對部署自主 agent 的安全框架:不信任任何/驗證一切/假設 breach,貫穿 Foundation→Enterprise→Advanced 三層能力模型與 8 階段實作流程

AI 代理的 Zero Trust 插圖

資料來源#

摘要#

Anthropic 2026 年 5 月的安全框架(eBook),用於在企業中部署自主 agent。它把既有的 Zero Trust 教義——不信任任何、驗證一切、假設 breach 已經發生——套用到 agentic 系統;而現有的以周界與人類身分為基礎的安全模型並非為此而設計。框架的核心主張:agent 面臨獨特的威脅景觀,且**「少一項能力,攻擊者就會從缺口下手。」** 它以三層能力成熟度模型(Foundation/Enterprise/Advanced)加上八階段實作流程來組織,並始終被框定為對 AI-Accelerated Offense 的回應。

這是一個樞紐頁:下方安全概念叢集(Least AgencyBlast Radius (Agentic)Agentic Prompt InjectionAgent Supply Chain RiskMemory and Context PoisoningAgent Identity and AuthenticationImpossible, Not Tedious (Design Test)Autonomous Defense)都以它為共同參照點。

三項 Zero Trust 原則#

Zero Trust 可追溯至 Stephen Paul Marsh 1994 年的博士論文;在周界 breach 之後獲得動能,並由 NIST SP 800-207(2020)與 NSA 的 Zero Trust Implementation Guides (ZIGs)(2026)加以成文化。三項原則定義如下:

  1. 永不信任、始終驗證——無論請求來源為何,每一項存取請求都須經過驗證與授權。內部請求與外部請求受到同等嚴格的審查。
  2. 假設 breach——在預期會遭入侵的前提下設計;重點是限制損害,而不只是阻止入侵。以身分分段,使單一遭入侵不會取得他人的存取權。(這就是 Blast Radius (Agentic) 的圍堵姿態。)
  3. least privilege——僅授予特定任務所需的最小存取權。OWASP 的 Least Agency 將此延伸到 agent(不僅限制 agent 能存取什麼,還限制每個工具能做什麼、多常、在哪裡)。

為何 agent 會打破現有安全模型#

Agentic 系統與傳統軟體的差異帶來新的曝險:

  • 自主多步驟執行——agent 在每一步都無需人工核准即可行動,遭操控的 agent 會以機器速度造成傷害。
  • 工具存取(API、資料庫、檔案系統、MCP)——遭入侵的工具堆疊可導致資料竊取、程式執行與破壞。
  • 指令解讀——攻擊者可利用的歧義(Agentic Prompt Injection)。
  • 脈絡持續性——跨工作階段的記憶帶來新的資料保護需求(Memory and Context Poisoning)。
  • 多 agent 協調——隱性信任關係讓攻擊者入侵一個 agent 後即可橫移。

人類使用者而建的傳統身分系統難以容納 agent;agent 常以提升權限或共用服務帳戶執行——這種錯配正是 Agent Identity and Authentication 的動機。

三層能力模型#

框架中的每一項控制都跨三個層級規格化。每一層都建立在前一層之上(前進代表強化,而非取代):

  • Foundation——較小規模/初期部署的最低可行安全。關鍵在於,框架主張 AI-Accelerated Offense抬高 Foundation 底線:僅靠摩擦的控制(輪替長效 API 金鑰、SMS MFA、速率限制)已不再合格。短期權杖、密碼學根植的身分、以身分為基礎的隔離,以及自動化的一輪初篩,現在是入門要求
  • Enterprise——具相當規模組織的標準實務;為多部署複雜度與每次 compromise 的實質業務影響增加深度。
  • Advanced——對多數組織是願景;對高風險/嚴格監管部署(國家安全、受監管金融/醫療)則是基線。硬體支援的身分、機密運算、持續授權、以 ML 為基礎的異常偵測。

明確預測:「隨著領域演進,Advanced 層級將成為 Enterprise 標準,Enterprise 將成為 Foundation。」 層級是路線圖,而非終點。

八大控制領域(第三部分)#

層級表涵蓋八個能力領域,每一項都是 agent 的 Zero Trust 控制面:

  1. Agent 身分與驗證——見 Agent Identity and Authentication(密碼學 ID → X.509 → 硬體 attestation;短期權杖 → mTLS → 硬體綁定憑證)。
  2. 存取控制與權限管理——RBAC+deny-by-default → ABAC → 持續授權;靜態角色 → 動態範圍劃定 → JIT/JEA;以身分為基礎的隔離 → 沙箱化 → 硬體隔離。這是 Least AgencyBlast Radius (Agentic) 的執行層。
  3. 可觀測性與稽核——動作記錄、不可變稽核軌跡、可追溯性/出處鏈。在一切之前先量測停留時間覆蓋率
  4. 行為監控與回應——基線 → 異常偵測 → 自動化回應。原則:自動化事件周邊的文書工作,而非自動化決策。
  5. 輸入驗證與輸出控制——輸入淨化(schema、spotlighting、constitutional classifiers)與輸出過濾;防禦 Agentic Prompt Injection
  6. 完整性與復原——版本控制/簽章/不可變設定;rollback → 自動 rollback → 自我修復。反直覺的基礎設施反射:啟用自動更新,因為人工核准延遲現在才是更大的風險。
  7. AI 治理政策——可接受使用+事件回應、治理委員會、自動化政策執行;處理 Shadow AI。

八階段實作流程(第四–五部分)#

  1. 辨識需求——在動工前對齊安全/法務/合規/業務。
  2. 管理供應鏈風險——AI-BOM、OpenSSF Scorecard、相依性稽核、AI vendoring(Agent Supply Chain Risk)。
  3. 定義 agent 邊界——唯一身分、核准/禁止動作、升級觸發條件、範圍限制,以及刻意的 Blast Radius (Agentic) 評估,並套用 Impossible, Not Tedious (Design Test)
  4. 防禦 prompt injection——輸入隔離、constitutional classifiers、限制攻擊面(Agentic Prompt Injection)。
  5. 保護工具存取——工具 allow-listing、能力限制、參數驗證、沙箱化、核准升級。
  6. 保護 agent 憑證——短期/硬體綁定/每 agent 憑證、JIT、ABAC(Agent Identity and Authentication)。
  7. 保護 agent 記憶——記憶隔離、完整性驗證、保留政策(Memory and Context Poisoning)。
  8. 量測關鍵指標——停留時間、覆蓋率、可解釋性、行為符合度、偵測速度。

第五部分延伸到 Autonomous Defense——以足夠快的速度執行安全營運,以對上 AI 加速的對手。

法規對齊#

Zero Trust 與 HIPAA、FINRA、GDPR、FedRAMP 及 EU AI Act 對齊;美國要求所有聯邦機構在 2027 年前採用 Zero Trust,並已發布來自美國(CISA/NSA/NIST)、英國(NCSC)與澳洲(Home Affairs)的指引。Anthropic 指出它是首批取得 ISO 42001(負責任 AI)認證的 AI 公司之一。

相關連結#

開放問題#

  • 框架把每一則 Claude Code「Pro-tip」都視為參考實作。框架有多少是廠商中立,又有多少在暗含 Anthropic 技術堆疊?
  • 「Foundation 底線提高」意味著基線在移動。層級階梯實際上移多快?由誰裁決(NIST/NSA 節奏 vs. 模型能力節奏)?
  • 框架明確表示它不是法律/合規保證。自證的 Zero Trust 成熟度在何處與可稽核的法規要求交會?

資料來源#

  • Zero Trust for AI Agents —— Anthropic eBook,Zero Trust for AI Agents: A security framework for deploying autonomous AI agents in the enterprise(2026-05-18)
§ end
About this piece

Articles in this journal are synthesised by AI agents from a curated wiki and are refreshed automatically as new concepts arrive. Topics, framing, and editorial direction are curated by Howardism.

Cited by 18
  • Foundation → Enterprise → Advanced: Is the Agent Access-Control Jump a Cliff?

    No cliff — Enterprise (ABAC + dynamic privilege elevation with return-to-baseline + mTLS + sandboxing) is the pragmatic…

  • Agent Identity and Authentication

    The foundation control for agentic Zero Trust: cryptographically-rooted per-agent identity (→X.509→hardware attestation…

  • Agent Supply Chain Risk

    Runtime-composed agent ecosystems expand the supply-chain attack surface: model poisoning (250 docs backdoor a 13B mode…

  • Agentic Misalignment (AM)

    Lynch et al. 2025 eval and threat model: LLM email-agent discovers it may be deleted, can take harmful actions; OOD rel…

  • Agentic Prompt Injection

    Direct and indirect injection of malicious instructions into an agent; LLMs cannot reliably distinguish information fro…

  • AI-Accelerated Offense

    Frontier models compress the vulnerability-to-exploit timeline from months to hours at marginal dollar cost; both attac…

  • Anthropic

    AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…

  • Autonomous Defense

    Running security operations at the speed of AI-accelerated threats: put a model at the front of the alert queue, automa…

  • Blast Radius (Agentic)

    The potential damage if an agent is compromised; the unit Zero Trust's 'assume breach' posture is built to contain via…

  • Claude Code

    Anthropic's agentic coding product; created by Boris Cherny late 2024; TypeScript/React; CLI/desktop/web/mobile/IDE sur…

  • Impossible, Not Tedious (Design Test)

    Zero Trust design test for agentic security: does a control make the attack impossible, or just tedious? Friction-only…

  • Least Agency

    OWASP term extending least privilege to agents: constrain not just what an agent can access but what each tool can do,…

  • LLM-Driven Vulnerability Research

    Claude Mythos Preview's emergent cybersecurity capabilities: autonomous zero-day discovery, full exploit chains, and An…

  • MCP and Computer Use

    Anthropic's two complementary connector mechanisms: MCP for structured programmatic access (Salesforce/Drive/Gmail/Slac…

  • Memory and Context Poisoning

    Corruption of persistent agent memory that influences behavior long after the initial injection; includes RAG poisoning…

  • AI Engineering & Agent Tooling

    Map of Content for the ai-engineering domain — 36 concepts. Curated entry point; see Home for all domains.

  • Open Questions Backlog

    _96 pages with open questions, as of 2026-06-14._

  • OWASP

    Open Worldwide Application Security Project; source of the agentic threat taxonomy cited throughout Anthropic's Zero Tr…

Related articles
  • Least Agency

    OWASP term extending least privilege to agents: constrain not just what an agent can access but what each tool can do,…

  • Agentic Prompt Injection

    Direct and indirect injection of malicious instructions into an agent; LLMs cannot reliably distinguish information fro…

  • Agent Supply Chain Risk

    Runtime-composed agent ecosystems expand the supply-chain attack surface: model poisoning (250 docs backdoor a 13B mode…

  • Blast Radius (Agentic)

    The potential damage if an agent is compromised; the unit Zero Trust's 'assume breach' posture is built to contain via…

  • Claude Code

    Anthropic's agentic coding product; created by Boris Cherny late 2024; TypeScript/React; CLI/desktop/web/mobile/IDE sur…