问题:5 个术语,没人说得清怎么选

Prompt。Workflow。Agent。Multi-Agent。OpenClaw。2026 年 3 月,做产品的人一周能听到这五个词至少三次,大概率在同一个会上。

没人能说清它们到底有什么区别,而你的团队很可能正在用错误的复杂度做事。这代价不只是工程时间,是更差的结果。这篇文章拆解每个层级到底是什么、花多少钱、怎么选,让你的团队别再过度工程化,该出活的时候出活。

选错层级,你的产品全方位受损

过度工程化的代价

响应更慢。单次 Prompt:800ms。Multi-Agent:15 秒,慢 7 倍。其中 70% 时间花在 Agent 之间的协调,不是推理。

产出更差。精准 Prompt:95% 准确率。上下文膨胀后:70%。更复杂不等于更好,过了阈值反而更差。

运行更贵。Prompt:~$0.01/任务。无约束 Agent:$5–8/任务。每个请求多出 3–10 倍 LLM 调用

建设更久。Prompt:几天。Workflow:几周。Multi-Agent:几个月 + $80K–$120K 工程投入才能上线。

Anthropic 在 Agent 构建指南里直说了:"从简单的 Prompt 开始。只有简单方案解决不了的时候,才加多步 Agent 系统。" Microsoft 的 Cloud Adoption Framework 也一样。做模型的公司在劝你少用他们的产品。

解决方案:5 个层级,对应你的问题

层级之间的核心区别是谁在决定下一步做什么。你(Prompt)、你的代码(Workflow)、LLM 自己(Agent)、多个 LLM(Multi-Agent)、还是 LLM 7×24 无人值守(Autonomous)。

你的问题 层级 适用场景 成本 / 速度
产出不稳定、太泛、或者干脆是错的 L1: Prompt。你写更好的指令。一次 LLM 调用。 分类、带评分标准的问答、摘要、单一来源的内容生成。需要检索时加 RAG。 ~$0.01/任务 · ~1s。几天上线。
任务需要多步骤、多数据源、或分支逻辑 L2: Workflow。你的代码编排预定义步骤。 多 API 的内容管线、文档接收 → 分类 → 路由、翻译 → 审核链。 ~$0.03/任务 · 2–5s。几周上线。
LLM 需要自己决定下一步、调用工具、中途调整 L3: Agent。LLM 规划 + 使用工具 + 记忆,循环执行。 系统排障、复杂调研、带测试迭代的代码生成。步骤无法预定义。 ~$0.14/任务 · 5–15s。数周至数月上线。
不同部分需要隔离的上下文、冲突的权限、或不同的专业能力 L4: Multi-Agent。多个专项 Agent,由编排器协调。 跨环境诊断、并行调研 + QA、单 Agent 的上下文会干扰另一个的推理。 ~$0.24/任务 · 15–60s。数月上线。$80K–120K 开发成本。
你想要 7×24 全自动 AI,横跨所有应用和操作系统 L5: Autonomous。常驻运行、持久记忆、跨应用。OpenClaw、Manus 等。 管理邮件、日历、跨会话部署代码。135K+ 实例暴露在公网,63% 可被攻击。 ~$0.29–0.41/任务。$15–120/月。目前很危险。
补充:MCP

Model Context Protocol 是 AI 领域的 USB-C,统一了 LLM 连接任何工具和数据源的方式。已被 OpenAI、Google 和 50+ 企业合作伙伴采用,归入 Linux Foundation。它不是一个"层级",是让 L2–L5 成为可能的底层管道。你的工程师需要了解它,你不需要。

实战经验

四个项目,四个层级。规律每次都一样:从能解决问题的最低层级开始。

L1 — NUS 批改系统

一开始用了 RAG,过度复杂化了。退回到一个 Prompt + 评分标准。批改时间减少 70%,准确率 82%。更简单的方案赢了。

L2 — Smart Air 文章生成器

多数据源(空气质量 API + 网页数据)需要串联成管线。预定义的 Workflow,我的代码编排每一步。内容产出快 80%,市场覆盖 6 倍增长。

L3 — 腾讯云排障系统

单 Agent 做根因分析,需要规划、调用诊断工具、实时推理日志。SRE 诊断时间减少 90%。

L4 — 腾讯 Multi-Agent

扩展到多个云环境后,每个 Agent 需要独立的上下文、工具和权限。但我们砍掉了 75% 的需求,把 6 个月的项目压到 3 个月交付。最难的决策不是做什么,是什么不需要用 Multi-Agent。

只有你能说出具体撞的是哪面墙的时候,才升级。

什么时候该升级(什么时候别动)

速查表

1→2 Prompt → Workflow:任务需要多个串行步骤、中途调用 API、或基于输入类型的分支逻辑。一个 Prompt 装不下所有步骤。

2→3 Workflow → Agent:你没法预定义步骤。LLM 需要自己规划、自己适应、自己决定用哪个工具。

3→4 Agent → Multi-Agent:不同部分需要冲突的权限、隔离的安全边界、或混在一起会劣化的上下文。Microsoft 的首要判断标准:是否跨越合规边界。

4→5 Multi-Agent → Autonomous:你需要 7×24 无人触发运行和跨会话持久记忆。且你的安全团队已经签字同意。

如果你说不出你正在撞哪面墙,你不需要升级。

周一该做什么

行动指南

产品经理:下次排期前问一句:"有人试过用一个更好的 Prompt 解决吗?" 如果答案是没有,你还没资格讨论 Agent。

技术负责人:先跑个基准,当前层级的单任务延迟、成本、准确率。只有你能拿数字证明当前层级撑不住了,才提升级方案。

VP / 总监:让每个 AI 项目标注它对应的层级(1–5),并说明为什么不能低一级。最省钱的团队是那个说"这个不需要 Agent"的团队。

附录:成本估算方法

所有单任务成本基于同一个示例:"分类一张工单、查知识库、写回复",按 Claude Sonnet 4.5 价格计算($3/MTok 输入,$15/MTok 输出)。L3–L5 每次调用含 system prompt + 工具/技能定义。

L1: 1 次调用 = ~$0.01。L2: 3 次调用 = ~$0.03。L3: 5 次循环调用 = ~$0.14。L4: 4 个 Agent + 编排器 = ~$0.24。L5: L3 + 跨会话历史 = ~$0.29–0.41。

Haiku 4.5 降低约 60%。Opus 4.5 增加约 60%。实际成本因模型、服务商、缓存策略和任务复杂度而异。

Sources

[1] Anthropic, Building Effective Agents, 2025

[2] Anthropic, Effective Context Engineering for AI Agents, 2025

[3] Microsoft, Choosing Between Single-Agent and Multi-Agent Systems, 2026

[4] Stevens Institute, The Hidden Economics of AI Agents, 2026

[5] TheAIJournal, Best AI Agent Frameworks 2026

[6] ZTABS, Multi-Agent AI Systems Architecture Guide, 2026

[7] Techkraft, Scaling Enterprise AI with Anthropic Agent Skills, 2026

[8] SecurityScorecard, OpenClaw Exposure Report, Feb 2026

[9] Conscia, The OpenClaw Security Crisis, Feb 2026

[10] Gartner via Pento, 40% of Enterprise Apps to Include AI Agents by End 2026

[11] MCP, Roadmap 2026