问题:5 个术语,没人说得清怎么选
Prompt。Workflow。Agent。Multi-Agent。OpenClaw。2026 年 3 月,做产品的人一周能听到这五个词至少三次,大概率在同一个会上。
没人能说清它们到底有什么区别,而你的团队很可能正在用错误的复杂度做事。这代价不只是工程时间,是更差的结果。这篇文章拆解每个层级到底是什么、花多少钱、怎么选,让你的团队别再过度工程化,该出活的时候出活。
选错层级,你的产品全方位受损
响应更慢。单次 Prompt:800ms。Multi-Agent:15 秒,慢 7 倍。其中 70% 时间花在 Agent 之间的协调,不是推理。
产出更差。精准 Prompt:95% 准确率。上下文膨胀后:70%。更复杂不等于更好,过了阈值反而更差。
运行更贵。Prompt:~$0.01/任务。无约束 Agent:$5–8/任务。每个请求多出 3–10 倍 LLM 调用。
建设更久。Prompt:几天。Workflow:几周。Multi-Agent:几个月 + $80K–$120K 工程投入才能上线。
Anthropic 在 Agent 构建指南里直说了:"从简单的 Prompt 开始。只有简单方案解决不了的时候,才加多步 Agent 系统。" Microsoft 的 Cloud Adoption Framework 也一样。做模型的公司在劝你少用他们的产品。
解决方案:5 个层级,对应你的问题
层级之间的核心区别是谁在决定下一步做什么。你(Prompt)、你的代码(Workflow)、LLM 自己(Agent)、多个 LLM(Multi-Agent)、还是 LLM 7×24 无人值守(Autonomous)。
| 你的问题 | 层级 | 适用场景 | 成本 / 速度 |
|---|---|---|---|
| 产出不稳定、太泛、或者干脆是错的 | L1: Prompt。你写更好的指令。一次 LLM 调用。 | 分类、带评分标准的问答、摘要、单一来源的内容生成。需要检索时加 RAG。 | ~$0.01/任务 · ~1s。几天上线。 |
| 任务需要多步骤、多数据源、或分支逻辑 | L2: Workflow。你的代码编排预定义步骤。 | 多 API 的内容管线、文档接收 → 分类 → 路由、翻译 → 审核链。 | ~$0.03/任务 · 2–5s。几周上线。 |
| LLM 需要自己决定下一步、调用工具、中途调整 | L3: Agent。LLM 规划 + 使用工具 + 记忆,循环执行。 | 系统排障、复杂调研、带测试迭代的代码生成。步骤无法预定义。 | ~$0.14/任务 · 5–15s。数周至数月上线。 |
| 不同部分需要隔离的上下文、冲突的权限、或不同的专业能力 | L4: Multi-Agent。多个专项 Agent,由编排器协调。 | 跨环境诊断、并行调研 + QA、单 Agent 的上下文会干扰另一个的推理。 | ~$0.24/任务 · 15–60s。数月上线。$80K–120K 开发成本。 |
| 你想要 7×24 全自动 AI,横跨所有应用和操作系统 | L5: Autonomous。常驻运行、持久记忆、跨应用。OpenClaw、Manus 等。 | 管理邮件、日历、跨会话部署代码。135K+ 实例暴露在公网,63% 可被攻击。 | ~$0.29–0.41/任务。$15–120/月。目前很危险。 |
Model Context Protocol 是 AI 领域的 USB-C,统一了 LLM 连接任何工具和数据源的方式。已被 OpenAI、Google 和 50+ 企业合作伙伴采用,归入 Linux Foundation。它不是一个"层级",是让 L2–L5 成为可能的底层管道。你的工程师需要了解它,你不需要。
实战经验
四个项目,四个层级。规律每次都一样:从能解决问题的最低层级开始。
一开始用了 RAG,过度复杂化了。退回到一个 Prompt + 评分标准。批改时间减少 70%,准确率 82%。更简单的方案赢了。
多数据源(空气质量 API + 网页数据)需要串联成管线。预定义的 Workflow,我的代码编排每一步。内容产出快 80%,市场覆盖 6 倍增长。
单 Agent 做根因分析,需要规划、调用诊断工具、实时推理日志。SRE 诊断时间减少 90%。
扩展到多个云环境后,每个 Agent 需要独立的上下文、工具和权限。但我们砍掉了 75% 的需求,把 6 个月的项目压到 3 个月交付。最难的决策不是做什么,是什么不需要用 Multi-Agent。
只有你能说出具体撞的是哪面墙的时候,才升级。
什么时候该升级(什么时候别动)
1→2 Prompt → Workflow:任务需要多个串行步骤、中途调用 API、或基于输入类型的分支逻辑。一个 Prompt 装不下所有步骤。
2→3 Workflow → Agent:你没法预定义步骤。LLM 需要自己规划、自己适应、自己决定用哪个工具。
3→4 Agent → Multi-Agent:不同部分需要冲突的权限、隔离的安全边界、或混在一起会劣化的上下文。Microsoft 的首要判断标准:是否跨越合规边界。
4→5 Multi-Agent → Autonomous:你需要 7×24 无人触发运行和跨会话持久记忆。且你的安全团队已经签字同意。
如果你说不出你正在撞哪面墙,你不需要升级。
周一该做什么
产品经理:下次排期前问一句:"有人试过用一个更好的 Prompt 解决吗?" 如果答案是没有,你还没资格讨论 Agent。
技术负责人:先跑个基准,当前层级的单任务延迟、成本、准确率。只有你能拿数字证明当前层级撑不住了,才提升级方案。
VP / 总监:让每个 AI 项目标注它对应的层级(1–5),并说明为什么不能低一级。最省钱的团队是那个说"这个不需要 Agent"的团队。
所有单任务成本基于同一个示例:"分类一张工单、查知识库、写回复",按 Claude Sonnet 4.5 价格计算($3/MTok 输入,$15/MTok 输出)。L3–L5 每次调用含 system prompt + 工具/技能定义。
L1: 1 次调用 = ~$0.01。L2: 3 次调用 = ~$0.03。L3: 5 次循环调用 = ~$0.14。L4: 4 个 Agent + 编排器 = ~$0.24。L5: L3 + 跨会话历史 = ~$0.29–0.41。
Haiku 4.5 降低约 60%。Opus 4.5 增加约 60%。实际成本因模型、服务商、缓存策略和任务复杂度而异。
[1] Anthropic, Building Effective Agents, 2025
[2] Anthropic, Effective Context Engineering for AI Agents, 2025
[3] Microsoft, Choosing Between Single-Agent and Multi-Agent Systems, 2026
[4] Stevens Institute, The Hidden Economics of AI Agents, 2026
[5] TheAIJournal, Best AI Agent Frameworks 2026
[6] ZTABS, Multi-Agent AI Systems Architecture Guide, 2026
[7] Techkraft, Scaling Enterprise AI with Anthropic Agent Skills, 2026
[8] SecurityScorecard, OpenClaw Exposure Report, Feb 2026
[9] Conscia, The OpenClaw Security Crisis, Feb 2026
[10] Gartner via Pento, 40% of Enterprise Apps to Include AI Agents by End 2026
[11] MCP, Roadmap 2026