AI 代理的 Zero Trust

資料來源#

Zero Trust for AI Agents

摘要#

Anthropic 2026 年 5 月的安全框架（eBook），用於在企業中部署自主 agent。它把既有的 Zero Trust 教義——不信任任何、驗證一切、假設 breach 已經發生——套用到 agentic 系統；而現有的以周界與人類身分為基礎的安全模型並非為此而設計。框架的核心主張：agent 面臨獨特的威脅景觀，且**「少一項能力，攻擊者就會從缺口下手。」** 它以三層能力成熟度模型（Foundation／Enterprise／Advanced）加上八階段實作流程來組織，並始終被框定為對 AI-Accelerated Offense 的回應。

這是一個樞紐頁：下方安全概念叢集（Least Agency、Blast Radius (Agentic)、Agentic Prompt Injection、Agent Supply Chain Risk、Memory and Context Poisoning、Agent Identity and Authentication、Impossible, Not Tedious (Design Test)、Autonomous Defense）都以它為共同參照點。

三項 Zero Trust 原則#

Zero Trust 可追溯至 Stephen Paul Marsh 1994 年的博士論文；在周界 breach 之後獲得動能，並由 NIST SP 800-207（2020）與 NSA 的 Zero Trust Implementation Guides (ZIGs)（2026）加以成文化。三項原則定義如下：

永不信任、始終驗證——無論請求來源為何，每一項存取請求都須經過驗證與授權。內部請求與外部請求受到同等嚴格的審查。
假設 breach——在預期會遭入侵的前提下設計；重點是限制損害，而不只是阻止入侵。以身分分段，使單一遭入侵不會取得他人的存取權。（這就是 Blast Radius (Agentic) 的圍堵姿態。）
least privilege——僅授予特定任務所需的最小存取權。OWASP 的 Least Agency 將此延伸到 agent（不僅限制 agent 能存取什麼，還限制每個工具能做什麼、多常、在哪裡）。

為何 agent 會打破現有安全模型#

Agentic 系統與傳統軟體的差異帶來新的曝險：

自主多步驟執行——agent 在每一步都無需人工核准即可行動，遭操控的 agent 會以機器速度造成傷害。
工具存取（API、資料庫、檔案系統、MCP）——遭入侵的工具堆疊可導致資料竊取、程式執行與破壞。
指令解讀——攻擊者可利用的歧義（Agentic Prompt Injection）。
脈絡持續性——跨工作階段的記憶帶來新的資料保護需求（Memory and Context Poisoning）。
多 agent 協調——隱性信任關係讓攻擊者入侵一個 agent 後即可橫移。

為人類使用者而建的傳統身分系統難以容納 agent；agent 常以提升權限或共用服務帳戶執行——這種錯配正是 Agent Identity and Authentication 的動機。

三層能力模型#

框架中的每一項控制都跨三個層級規格化。每一層都建立在前一層之上（前進代表強化，而非取代）：

Foundation——較小規模／初期部署的最低可行安全。關鍵在於，框架主張 AI-Accelerated Offense 已抬高 Foundation 底線：僅靠摩擦的控制（輪替長效 API 金鑰、SMS MFA、速率限制）已不再合格。短期權杖、密碼學根植的身分、以身分為基礎的隔離，以及自動化的一輪初篩，現在是入門要求。
Enterprise——具相當規模組織的標準實務；為多部署複雜度與每次 compromise 的實質業務影響增加深度。
Advanced——對多數組織是願景；對高風險／嚴格監管部署（國家安全、受監管金融／醫療）則是基線。硬體支援的身分、機密運算、持續授權、以 ML 為基礎的異常偵測。

明確預測：「隨著領域演進，Advanced 層級將成為 Enterprise 標準，Enterprise 將成為 Foundation。」 層級是路線圖，而非終點。

八大控制領域（第三部分）#

層級表涵蓋八個能力領域，每一項都是 agent 的 Zero Trust 控制面：

Agent 身分與驗證——見 Agent Identity and Authentication（密碼學 ID → X.509 → 硬體 attestation；短期權杖 → mTLS → 硬體綁定憑證）。
存取控制與權限管理——RBAC＋deny-by-default → ABAC → 持續授權；靜態角色 → 動態範圍劃定 → JIT／JEA；以身分為基礎的隔離 → 沙箱化 → 硬體隔離。這是 Least Agency 與 Blast Radius (Agentic) 的執行層。
可觀測性與稽核——動作記錄、不可變稽核軌跡、可追溯性／出處鏈。在一切之前先量測停留時間與覆蓋率。
行為監控與回應——基線 → 異常偵測 → 自動化回應。原則：自動化事件周邊的文書工作，而非自動化決策。
輸入驗證與輸出控制——輸入淨化（schema、spotlighting、constitutional classifiers）與輸出過濾；防禦 Agentic Prompt Injection。
完整性與復原——版本控制／簽章／不可變設定；rollback → 自動 rollback → 自我修復。反直覺的基礎設施反射：啟用自動更新，因為人工核准延遲現在才是更大的風險。
AI 治理政策——可接受使用＋事件回應、治理委員會、自動化政策執行；處理 Shadow AI。

八階段實作流程（第四–五部分）#

辨識需求——在動工前對齊安全／法務／合規／業務。
管理供應鏈風險——AI-BOM、OpenSSF Scorecard、相依性稽核、AI vendoring（Agent Supply Chain Risk）。
定義 agent 邊界——唯一身分、核准／禁止動作、升級觸發條件、範圍限制，以及刻意的 Blast Radius (Agentic) 評估，並套用 Impossible, Not Tedious (Design Test)。
防禦 prompt injection——輸入隔離、constitutional classifiers、限制攻擊面（Agentic Prompt Injection）。
保護工具存取——工具 allow-listing、能力限制、參數驗證、沙箱化、核准升級。
保護 agent 憑證——短期／硬體綁定／每 agent 憑證、JIT、ABAC（Agent Identity and Authentication）。
保護 agent 記憶——記憶隔離、完整性驗證、保留政策（Memory and Context Poisoning）。
量測關鍵指標——停留時間、覆蓋率、可解釋性、行為符合度、偵測速度。

第五部分延伸到 Autonomous Defense——以足夠快的速度執行安全營運，以對上 AI 加速的對手。

法規對齊#

Zero Trust 與 HIPAA、FINRA、GDPR、FedRAMP 及 EU AI Act 對齊；美國要求所有聯邦機構在 2027 年前採用 Zero Trust，並已發布來自美國（CISA／NSA／NIST）、英國（NCSC）與澳洲（Home Affairs）的指引。Anthropic 指出它是首批取得 ISO 42001（負責任 AI）認證的 AI 公司之一。

開放問題#

框架把每一則 Claude Code「Pro-tip」都視為參考實作。框架有多少是廠商中立，又有多少在暗含 Anthropic 技術堆疊？
「Foundation 底線提高」意味著基線在移動。層級階梯實際上移多快？由誰裁決（NIST／NSA 節奏 vs. 模型能力節奏）？
框架明確表示它不是法律／合規保證。自證的 Zero Trust 成熟度在何處與可稽核的法規要求交會？

資料來源#

Zero Trust for AI Agents —— Anthropic eBook，Zero Trust for AI Agents: A security framework for deploying autonomous AI agents in the enterprise（2026-05-18）

AI 代理的 Zero Trust

資料來源#

摘要#

三項 Zero Trust 原則#

為何 agent 會打破現有安全模型#

三層能力模型#

八大控制領域（第三部分）#

八階段實作流程（第四–五部分）#

法規對齊#

相關連結#

開放問題#

資料來源#