平台架构 — AIDC · 分布式 Agent + 统一语义层

01核心立场

企业 Agent 的稳健形态是分布式 Agent + 统一语义层：执行下沉到部门节点，语义、身份、策略和审计收敛到中央。

— DISTRIBUTED AGENT ONTOLOGY FRAMEWORK

// AGAINST

我们不做的事

不把 Agent 只部署在一个中央服务器上，不依赖聊天窗口里的临时上下文，不让一个"超级 Agent"看到全公司、改全公司。中央集权意味着单点故障、权限失控和审计黑箱。

// FOR

我们构建的形态

每个部门一个自治的 Agent Cell，在隔离环境中负责自己的文件、任务和执行；Ontology 把企业对象、关系、动作、权限和历史决策组织成可推理、可执行、可审计的结构，成为所有 Agent 共享的上下文操作层。

去中心化 Agent 组织

02架构

六个层，各管各的事。

语义在最底层，执行在中间，观测与演化在最上层。每一层只解决一类问题：L1 定义"世界是什么"，L2 定义"谁可以做什么"，L3 把语义和权限装配成上下文，L4 执行，L5 承载，L6 观察并驱动演化。

FIG. 01 — PLATFORM STACK

L6Observability & Evolution审计 · 指标 · 失败恢复 · 能力演化

L5Runtime & StorageAWS 隔离运行时 · 文件系统 · 向量索引 · 队列

L4Department Agent Cells部门级自治 Agent 单元

L3Context Gateway按身份与权限生成最小可用上下文

L2Policy & Identity Plane部门 · 人员 · Agent · 资源权限

L1Enterprise Ontology Layer对象 · 关系 · 动作 · 接口 · 语义版本

AIDC 平台六层架构。图中自上而下为 L6 → L1；阅读时建议自下而上：语义先于权限，权限先于上下文，上下文先于执行。

自下而上读这套栈

所有 Agent 动作都沿同一条路径流动：先经 Ontology 确定语义，再经策略平面确定边界，经 Context Gateway 拿到刚好够用的上下文，在自己的 Cell 内执行，落在隔离的运行时与存储上，最终进入可观测与演化层被审计和改进。没有一层可以被绕过。

架构总览文档 →

L1 — Enterprise Ontology Layer
统一定义企业对象、关系、动作、接口和语义版本。客户、合同、项目、工单、员工、Agent、部门等实体被定义为 Object Type，通过 Link Type 互相连接，通过 Action Type 受控变更。它不只是数据模型，而是 Agent 的上下文路由器和操作合约；语义版本化保证 schema 演化可灰度、可回滚。
L2 — Policy & Identity Plane
管理部门、人员、Agent、服务账号和资源权限。每一次上下文请求和动作提交都要经过这一层过滤：不可访问的对象、字段、文件和工具，在进入 Agent 视野之前就被裁剪。中央策略只定义能力边界，不直接操控每个部门的执行细节。
L3 — Context Gateway
Agent 获取上下文的唯一受控入口。根据任务意图、身份、权限和 Ontology 查询，生成最小可用上下文包：对象摘要、关系路径、相关文件、历史 Action Log 和可执行动作。它同时避免上下文过宽（看到不必要的敏感资料）和过窄（只看到孤立文件）。
L4 — Department Agent Cells
部门级自治 Agent 单元，也是平台的最小自治部署单元。每个 Cell 负责本部门的文件、任务和执行，拥有独立的 Runtime、本地文件系统、上下文索引、权限适配器、事件接口和审计缓冲，可水平复制多个 worker。
L5 — Runtime & Storage Layer
AWS 隔离运行时、部门文件系统、对象存储、向量索引和队列。每个部门对应独立的 EFS 或 S3 prefix，VPC、子网和安全组提供网络隔离；文件系统与对象存储启用版本化和备份，本地工作记忆与归档存储分层。
L6 — Observability & Evolution Layer
审计、指标、失败恢复、策略更新和 Agent 能力演化。所有 Action 提交进入 Action Log；任务成功率、失败原因和上下文缺口被持续观察，经诊断、提案、审批、灰度发布后回写到 Ontology 与策略——演化不是 Agent 无限改自己，而是受治理的闭环。

03AGENT CELL

Agent Cell：最小自治部署单元。

每个部门拥有一个或多个 Agent Cell。一个 Cell 由六个部分组成：执行、记忆、检索、权限、协作、审计——缺一个，自治就退化成失控或失能。

CELL / 01

Agent Runtime

任务执行核心：执行任务、调用工具、维护本地状态。长任务由常驻 worker 承载，短任务走轻量函数；同一个 Cell 可以并行运行多个 runtime worker，按需扩缩容。

CELL / 02

Local File System

部门私有文件系统，是该 Cell 的主要工作记忆。战略、知识、SOP 与交付物以文件形式沉淀，目录即权限边界，默认与其他部门完全隔离。

CELL / 03

Department Context Index

只索引本部门允许访问的文档、对象和历史。检索范围在索引层就被限定，而不是检索之后再过滤——越权内容从一开始就不在 Agent 的视野里。

CELL / 04

Permission Adapter

把中央策略转换成本地可执行的文件、API 和工具权限。中央只声明能力边界，Adapter 负责把边界落地成 Cell 内具体的访问控制。

CELL / 05

Event Consumer / Producer

订阅企业事件总线，发布执行结果。跨部门协作通过事件和显式共享对象完成，而不是直接读写对方的文件系统——协作有协议，不靠默契。

CELL / 06

Local Audit Buffer

本地审计缓冲：即使中央日志短暂不可用，本地审计链也不中断，恢复后自动补发。审计无缺口，是 Cell 自治的前提而不是负担。

Agent Cell 详细文档 →

04CONTEXT GATEWAY

上下文不是搜出来的，
是装配出来的。

Agent 做任务时不做全库搜索。它先向 Context Gateway 请求上下文，Gateway 按任务、身份和权限装配一个最小可用上下文包——每一步都被记录，每一个包都有版本。

一次上下文请求的生命周期

从请求到提交，六步走完一个闭环。Gateway 是 Ontology 与 Agent 之间唯一的通道：语义决定"有什么相关"，权限决定"能看什么"，任务决定"需要多少"。

Context Gateway 文档 →

提交请求
Agent 提交任务意图、身份、部门、目标对象和预期 Action Type——说明"我是谁、我要对什么、做什么"。
查询 Ontology
Gateway 查询 Ontology，找到与任务相关的 Object、Link、Action 和 Interface，确定语义上的相关范围。
权限过滤
Policy & Identity Plane 过滤不可访问的对象、字段、文件和工具，越权内容在装配前就被裁掉。
生成上下文包
Gateway 生成最小上下文包：对象摘要、关系路径、相关文件、历史 Action Log、可执行动作——刚好够用，不过宽，不过窄。
本地执行
Agent 在本部门 Cell 内执行任务，并把结果写回本部门文件系统与事件总线。
受控提交
需要改变企业状态时，必须通过受控 Action Type 提交，写入 Action Log——执行可以自治，改变世界必须留痕。

// NOT TOO WIDE

避免上下文过宽

Agent 不应获得不必要的敏感资料。全库检索等于把整个公司暴露给每一个任务；Gateway 按权限裁剪后，敏感内容从源头上不进入上下文。

// NOT TOO NARROW

避免上下文过窄

Agent 只看到孤立文件时，无法理解企业对象之间的关系。Gateway 沿 Ontology 的关系路径装配上下文，让 Agent 看到"这份合同属于哪个客户、关联哪个项目、上次的决策是什么"。

05权限模型

三层权限，一条审计链。

权限不是一个开关，而是三层互相独立的控制面：基础设施隔离保证"进不来"，数据权限保证"看不到"，工具权限保证"做不了"。任何一层被突破，另外两层仍然成立。

FIG. 02 — PERMISSION LEVELS

Level	层级	控制内容
Infrastructure	基础设施层	AWS account、VPC、subnet、IAM role、KMS key 级别的隔离——Cell 之间在云资源层面物理分界
Data	数据层	Ontology 对象、属性、关系、动作与文件权限——决定 Agent 在语义层面能读什么、能改什么
Tool	工具层	Agent 可以调用哪些 API、脚本、模型和部署动作——能力本身就是被授权的对象

三层权限模型：基础设施、数据、工具各自独立控制，共同收敛到同一条 Action Log 审计链。

关键规则

部门文件系统默认隔离
跨部门读取必须通过 Ontology link 或显式共享对象——不存在"顺手看一眼别的部门文件"的路径。
关键状态写入必须走 Action Type
Agent 写入企业关键状态必须通过受控 Action Type 提交，不允许绕过审计直接修改底层数据。
所有 Action 提交写入 Action Log
每条记录绑定发起者、Agent 版本、上下文包版本和工具调用摘要——四个维度齐全，才能回答"谁、用什么版本、看到什么、做了什么"。
中央策略只定义能力边界
中央不直接操控每个部门的执行细节；边界内的执行方式，由部门 Cell 自治决定。
高敏感变更保留人工审批
高权限 IAM 策略、KMS 与 secrets 管理、跨部门敏感数据共享规则、生产环境破坏性动作——这些不允许自动演化，必须经人工批准或强策略审批。

权限模型文档 → Action Log 参考

06可靠性

局部故障，不拖垮全局。

分布式形态的直接收益是故障域被切小：稳定性不依赖任何单点，而是来自多层冗余。每一种故障都有事先定义的降级行为，而不是临场补救。

Cell 水平复制
Agent Cell 可水平复制，同一个部门可以运行多个 runtime worker，单个 worker 崩溃不影响队列任务继续被消费。
事件总线韧性
事件总线支持重试、死信队列和幂等消费——消息可以延迟，但不会丢失，也不会被重复执行出副作用。
本地审计缓冲
中央日志短暂故障时，本地审计缓冲保留完整审计链，恢复后补发，不产生审计缺口。
存储版本化与备份
部门文件系统和对象存储启用版本化与备份，文件被误改、误删都可以回溯到任一历史版本。
中央保持轻量
中央 Ontology 服务只做语义、策略和路由，不承载全部任务执行——中央越轻，故障半径越小。

FIG. 03 — FAILURE DEGRADATION

Failure	降级行为
单个 Agent worker 崩溃	同一 Cell 内其他 worker 接管队列任务，任务不丢失
单个部门 Cell 不可用	只影响该部门，不拖垮全局系统；其余 Cell 正常运行
中央 Context Gateway 短暂不可用	Cell 可继续处理低风险本地任务，高风险动作自动暂停
Event Bus 延迟	本地 action buffer 保留状态，总线恢复后补发
Ontology schema 更新失败	回滚到上一稳定版本，语义层不会停留在损坏状态

故障降级策略：每一类故障都有事先定义的边界——影响范围、降级行为和恢复路径。

可靠性设计文档 →

07职责划分

中央定义边界，
节点负责执行。

去中心化不等于无政府。中央与部门各有清晰的职责清单：中央不需要理解每个部门的全部细节，只需要定义可执行的语义接口、权限边界和审计协议——这显著降低了中央团队的运维复杂度。

// CENTRAL PLANE

中央管理平面负责

Ontology schema 与版本治理 —— 语义层的唯一权威，变更经提案与审批流程。
身份、策略、密钥、审计标准 —— 全公司统一的信任根与合规基线。
跨部门事件协议 —— 定义 Cell 之间如何通过事件与共享对象协作。
Agent 模板、基线能力和安全基线 —— 新 Cell 从模板初始化，带着安全默认值出生。

// DEPARTMENT CELLS

部门 Agent Cell 负责

本部门文件结构和上下文质量 —— 目录是部门的工作记忆，质量由部门自己负责。
本部门任务执行 —— 边界内的执行方式完全自治，不需要逐项上报。
本部门自动化和工具集成 —— 在工具权限范围内自由组合 API、脚本与模型。
本部门局部优化与反馈 —— 失败与缺口作为演化层的输入，反哺全局改进。

去中心化 Agent 组织 → 演化闭环文档

08AWS 映射

落在 AWS 上，
每一层能力都有对应物。

平台不依赖自研基础设施。Agent Cell 的每一项能力都映射到成熟的 AWS 原语：EFS 承载工作文件系统，S3 承载归档与版本化对象存储，VPC 提供网络隔离，IAM 提供身份与会话策略——让每个节点既拥有本地自治的工作记忆，又被权限、审计、备份和事件系统约束。

FIG. 04 — AWS CAPABILITY MAPPING

Capability	AWS Candidate	部署要点
Agent Runtime	ECS / Fargate · EKS · Lambda	长任务用常驻 worker，短任务走 Lambda 短生命周期，按需扩缩容控制成本
Department File System	EFS per department · S3 prefix per department	EFS 承载工作文件系统，S3 承载归档与对象存储，启用版本化
Secrets	AWS Secrets Manager · KMS	密钥与凭证集中托管，不进入 Agent 上下文；变更保留人工审批
Network Isolation	VPC · subnet · security group · private endpoint	每个 Cell 网络默认隔离，跨界访问走受控私有端点
Eventing	EventBridge · SQS · SNS	支持重试、死信队列与幂等消费，承载跨部门事件协议
Logs & Metrics	CloudWatch · OpenTelemetry collector	审计与指标统一汇聚，供 Observability & Evolution 层分析
Identity	IAM Identity Center · IAM roles · session policies	身份与会话策略对应 Policy & Identity Plane 的基础设施实现

Agent Cell 能力到 AWS 服务的推荐映射：全部使用托管服务，隔离、版本化与审计由云原语保证。

AWS 部署文档 →

不是一个超级 Agent，而是有边界的自治协作。

我们不做的事

我们构建的形态

六个层，各管各的事。

自下而上读这套栈

L1 — Enterprise Ontology Layer

L2 — Policy & Identity Plane

L3 — Context Gateway

L4 — Department Agent Cells

L5 — Runtime & Storage Layer

L6 — Observability & Evolution Layer

Agent Cell：最小自治部署单元。

Agent Runtime

Local File System

Department Context Index

Permission Adapter

Event Consumer / Producer

Local Audit Buffer

上下文不是搜出来的，是装配出来的。

一次上下文请求的生命周期

提交请求

查询 Ontology

权限过滤

生成上下文包

本地执行

受控提交

避免上下文过宽

避免上下文过窄

三层权限，一条审计链。

关键规则

部门文件系统默认隔离

关键状态写入必须走 Action Type

所有 Action 提交写入 Action Log

中央策略只定义能力边界

高敏感变更保留人工审批

局部故障，不拖垮全局。

Cell 水平复制

事件总线韧性

本地审计缓冲

存储版本化与备份

中央保持轻量

中央定义边界，节点负责执行。

中央管理平面负责

部门 Agent Cell 负责

落在 AWS 上，每一层能力都有对应物。

架构回答"怎么跑"，Ontology 回答"凭什么"。

不是一个超级 Agent，
而是有边界的自治协作。

上下文不是搜出来的，
是装配出来的。

中央定义边界，
节点负责执行。

落在 AWS 上，
每一层能力都有对应物。

架构回答"怎么跑"，
Ontology 回答"凭什么"。