封面:当智能体开始规模化

最近我在复盘 3 月中文 AI 技术媒体的热点时,一个感觉越来越强烈:我们讨论“智能体(Agent)”的语气,正在从“概念可行”切换为“工程与商业是否扛得住”。

一边是 Jeff Dean 在访谈里抛出的那句极具画面感的预言:未来每个开发者可能要管理 50 个智能体实习生;另一边是国内公司开始把智能体真正推向业务前线——不管是大模型平台的“1 美元跑 1 小时”的成本宣称,还是企业安全体系对 Skills/插件的全生命周期治理,甚至是把 Agent 塞进两轮车车机系统。

我想用这篇文章把这些看似分散的新闻串成一条主线:智能体规模化(scale)到底意味着什么?它需要哪些关键基础设施?会卡在哪些瓶颈上?

本文所有“事实性引用”均来自文末列出的中文媒体原始链接;我的判断与推演部分会明确区分。


0. 这轮热点,我抓到的三条“硬信号”

我先把这次新闻里对我最“硬”的信号列出来(它们都不是抽象趋势,而是可以落到指标或工程对象上的信号):

1) “人均 50 个智能体”把交互范式说透了:未来核心技能是“写清楚需求”(问题定义与目标函数)。来源:量子位转述 Jeff Dean 访谈。\

2) 成本开始被公开量化:MiniMax 在报道中提到 M2.5 推理速度达 100 TPS,并声称“智能体运行 1 小时仅需 1 美元”。来源:量子位对 MiniMax 年报的报道。\

3) 企业级 Agent 安全治理开始“产品化”:蚂蚁数科发布“龙虾卫士”,提到对 Skills 仓库扫描与行为审计,并基于 CALIR 五维模型做合规框架。来源:量子位。\

这三条信号分别对应:

  • 交互层:需求表达(spec)成为主能力
  • 系统层:吞吐/延迟/成本成为可被管理的变量
  • 治理层:从“模型安全”转向“智能体系统安全”(包含工具、插件、流程、人)

1. 我理解的“规模化智能体”,不是更多 Bot,而是“组织形式”变化

很多人把 Agent scale 理解成“让模型多跑几个线程/多开几个机器人”。我更倾向于把它视为一种新的组织形式:

  • 单智能体更像一个“超级专家”,你期望它端到端完成任务。
  • 多智能体更像一个“项目组”:有人负责拆解、有人负责执行、有人负责验证、有人负责上线。

这听起来像把软件工程流程搬进了模型世界,但它带来两个重要后果:

1) 任务边界被显式化:每个智能体都必须有可验收的产出(artifact),否则协作会失控。 2) 失败是常态而不是异常:规模越大,局部失败越必然;系统必须能容错、能回滚、能审计。

多智能体编排的“模块化”直觉图


2. “写清楚需求”为什么会变成核心技能?

Jeff Dean 的观点我非常认同:当你开始“管理”多个智能体时,你写的已经不是一句 prompt,而更像一个 可执行的需求规格

  • 目标是什么(Objective)
  • 约束是什么(Constraints)
  • 验收标准是什么(DoD)
  • 失败如何处理(Fallback / Escalation)

我的经验是:智能体越强,越会把模糊需求放大成灾难性偏航

在单智能体时代,你给一句模糊指令,最多得到一段“差不多”的回答;在多智能体时代,这句模糊指令会被拆解、被执行、被写入文件、被推送到线上——它会产生真实的副作用。

所以“写需求”变成核心技能,本质上是:人类正在从“提问者”升级为“系统设计者”


3. 成本与吞吐:为什么“1 美元/小时”这种指标会突然重要

MiniMax 报道里那句“智能体运行 1 小时仅需 1 美元”很抓眼球(我在这里不评价其口径细节,只讨论它为何重要)。

当智能体从“偶尔用用”变成“团队成员”,成本的结构会变:

  • 以前你按“单次对话”计费。
  • 以后你更像在养一个“持续运行的数字员工”:它有 idle、有 burst、有多工具调用、有验证与回滚。

这时,单位时间成本单位任务成本单位 token 价值都会成为企业决策的核心指标。

而 Jeff Dean 在同一篇访谈中也强调了低延迟价值(20-50 倍的延迟降低会改变体验),以及“能量消耗作为第一性原则”的工程视角。来源同上:https://www.qbitai.com/2026/03/385569.html

对我来说,这些都在指向同一个结论:

智能体规模化的瓶颈,迟早会从“模型能力”转移到“系统工程”:延迟、吞吐、能耗、成本、可观测性。

单智能体 vs 多智能体:复杂性为何会陡增


4. 治理与安全:Agent 的风险不只在“越狱”,更在“会做事”

蚂蚁数科的“龙虾卫士”让我很在意的点是:它把安全治理的对象,从“模型输出”扩展到了 Skills/插件/工具链,并强调可解释、可控制、可追溯。来源:https://www.qbitai.com/2026/03/389305.html

这非常符合我对企业级 Agent 的直觉:

  • 模型胡说八道,最多误导你。
  • 智能体胡说八道 + 还能调用工具,就可能造成真实损失(发错邮件、改错配置、写坏数据、触发合规问题)。

所以企业要的不是“更安全的模型”,而是“更可治理的智能体系统”:

  • 策略层:哪些工具能用、哪些数据能看
  • 执行层:每一步动作可审计、可回放
  • 供应链层:Skills 仓库像依赖库一样被扫描(许可证、恶意行为、越权)

面向智能体的安全:从输出过滤到全链路护栏


5. 从“数字世界”走向“物理世界”:车机里的 Agent 是另一种压力测试

小牛电动的发布会报道里提到:其 AIOS 车机系统搭载 Qwen3.5,并强调离线交互、语音对话、全车控制等。来源:https://www.qbitai.com/2026/03/388959.html

我把它视为一种“更残酷的 Agent 压力测试环境”,因为它同时有:

  • 真实时间约束(交互不能卡)
  • 更复杂的传感输入与设备动作
  • 更高的安全责任
  • 以及离线/弱网等不确定性

在这种环境里,“工具调用”不再是调用 API,而是控制真实设备。系统工程与安全治理的重要性会被进一步放大。


6. 我对 2026 的三个判断(明确:这是我的观点)

1) Agent 的 PMF 会率先出现在“有明确验收物”的工作流里:比如代码、报表、工单、内容生产、数据管道。它们天然适合拆解、验证与回滚。

2) 企业会更愿意买“Agent 平台 + 安全治理 + 观测”,而不是只买一个更大的模型。原因很现实:模型能力的边际收益在递减,但治理缺口会直接阻断落地。

3) “写需求”会进入工程化:我们会看到类似“Agent PRD / Agent Spec / 任务 DSL”的东西,甚至成为团队协作的标准文档。

工具调用的数据流:从意图到行动再到审计


结语

把这几条新闻放在一起看,我的感觉是:智能体正在进入一个更“硬核”的阶段——不再只比谁更会生成,而是比谁能在真实约束下持续产出结果。

如果说 2023-2024 是“模型能力竞赛”,那 2026 可能会越来越像“智能体系统工程竞赛”:成本、延迟、治理、可控、可审计,缺一不可。

接下来我会继续跟踪两件事:

  • “单位任务成本”是否会成为行业默认指标(像云时代的 QPS/latency 一样)
  • Skills/插件供应链治理是否会像软件依赖治理一样成为标配

参考来源(可核验链接)

(本次搜索报告中还包含 Qwen 团队变动相关条目;考虑到本文主线聚焦“智能体规模化”,我未在正文展开:https://www.qbitai.com/2026/03/383842.html