产品发布2026年4月22日·8 分钟

Yanuoer Nexus 2.0 发布：千 Agent 级协同首次走向生产

从实验室到现场，分布式 AI Agents 协调系统完成关键一跳

陈

陈知远

亚诺尔科技 · 首席架构师

一年前，我们发布 Yanuoer Nexus 1.0 时，常常被问到一个问题：你们演示里 80 个 Agent 协同得很漂亮，但真到生产环境，规模能撑到哪？

今天我们可以给一个明确的回答。Nexus 2.0 在过去六个月的试点客户现场，稳定支撑了 1000+ Agent 的并行协同——跨云端编排器、边缘集群与终端设备，端到端决策延迟保持在 20ms 以内，全网络分区故障下可用性 99.97%。

为什么 1000 是个分水岭

在 100 Agent 量级，朴素的 gossip 协商协议已经够用——每个 Agent 与若干邻居互通即可。但当我们把规模拉到千级，几个问题立刻浮现：协商轮次的复杂度从 O(n) 变成了 O(n²) 的尾部、状态同步的合并冲突指数级增长、可观测系统的事件流量直接打爆了原有的写入路径。

换句话说，原有架构里那些"不太重要"的常数项，到了千 Agent 级别全部变成了 dominator。我们不得不重写 Nexus 的三层核心。

我们把扁平的 gossip 改造成了三层结构：终端 Agent 之间维持局部协商，每 50–80 个 Agent 形成一个"邻域"，邻域之间通过代表节点参与全局协商。复杂度从 O(n²) 收敛到 O(n log n)，在 1024 节点的压力测试下，全局共识达成时间从 4.2s 降到 280ms。

原本基于 Yjs 风格的 CRDT 在跨千节点的场景下出现了大量不必要的合并计算。我们重写了状态层，引入因果 epoch 标签和增量快照，让每个节点只需要处理自己因果链上游的变更。同步带宽下降了 71%。

可观测性是分布式系统里最容易被低估的部分。Nexus 2.0 内置了基于 OpenTelemetry 的全链路决策回放——任何一个 Agent 的任何一次决策，都可以追溯到它当时看到的拓扑、邻居状态、和它收到的协商消息。这不是日志，是可以"回到那一刻"的时间机器。

▸设计原则：可观测性必须是 first-class concern，不是事后补丁。一个分布式系统如果不能让你回到决策当下的全部上下文，调试就只能靠猜。

过去六个月，Nexus 2.0 在四家试点客户现场承担了真实的生产负载。下面是关键指标：

2.0 之后，我们的下一个挑战是把规模再推一个数量级——同时把延迟保持在当前水平。这意味着要重写协议层的传输 codec，并且在边缘运行时引入更激进的 zero-copy 路径。我们会在下一篇技术博客里详细聊这件事。

感谢一路上的客户与合作伙伴。如果你想体验 Nexus 2.0，我们的商务团队随时欢迎你的来信。

TagsNexus产品发布分布式系统