Agent Harness：大模型之外，真正决定 Agent 可用性的外部系统

AI Agent 生成 · 成本待定（gpt-5.5 未在定价表中） · gpt-5.5 · 1.1M input · 18.8K output (cache 1.0Mr/0w, reasoning 1.4K)

引子：同一个模型，为什么换个外壳就像换了一个人？

围绕 AI Agent 的很多讨论把注意力放在模型上：谁的推理更强，谁的上下文更长，谁的工具调用更稳。

这个视角没有错，但会漏掉一个更工程化的问题：模型只是产生下一步意图的部件；

一个 Agent 能不能稳定完成任务，取决于它被放进怎样的外部执行系统里。

这个外部系统常被松散地叫作 Agent Framework、Agent Runtime、Agent Platform、Workflow Orchestrator、Guardrails、Observability Stack，近两年也开始有人直接使用 Agent Harness 这个词。

这里的 harness 不应理解为“给模型加一个监控模块”，也不应理解为“提示词模板集合”。

更准确的理解是：一套独立于模型、包住模型、限制模型、调用工具、保存状态、记录过程、允许回放、能被替换和验证的执行承载系统。

它像测试夹具、登山安全带或赛车线束：不是动力源，却决定动力是否能被安全、可控、可复现地传到现实世界。

这种视角能解释一个常见现象：同一款模型，在 ChatGPT 页面里像聊天助手，在 LangGraph 里像可恢复的状态机，在 n8n 里像自动化流程节点，在 Zapier Agents 里像面向业务人员的数字同事，在 Claude Code 或 Hermes 这类环境里又像能读写文件、运行命令、被日志追踪的执行体。

差异不只来自提示词，而来自入口、上下文、工具、权限、记忆、调度、人类介入、追踪和评估这些外部结构。

本次调研回答六个问题： Agent Harness 和模型、Agent Framework、Workflow、Guardrails、MCP、RPA 的边界在哪里？

一个完整 harness 应包含哪些必要要素？

怎样评价一个 harness 是否足够好？

没有技术背景的个人能否搭建最低可行 harness？

市场上的代表性产品各适合什么场景？

“Agent = Model + Harness”这个判断在哪些意义上成立，又会在哪些地方被高估？

1. Agent Harness 到底是什么：它不是 Agent Framework 的同义词

Agent Harness 可以先用一句工程定义收束：**Agent Harness 是一套把大模型接入任务入口、上下文、工具、状态、权限、观测、评估和人工接管机制的外部执行系统；

它使模型输出从“文本建议”变成“可执行、可审计、可恢复的行动”。

这一定义故意不把 harness 说成某个库。

LangGraph、AutoGen、CrewAI、Dify、n8n、Zapier Agents 都能承担 harness 的一部分，但它们的抽象层不同：有的偏开发框架，有的偏工作流平台，有的偏无代码业务自动化，有的偏观测评估工具。

OpenAI Agents SDK 的官方文档把核心 primitives 列为 agents、handoffs、guardrails、sessions、tracing、tools、MCP、usage 等，这已经接近一个 harness 的组成清单^[1]。

LangChain 对 agents 的定义更朴素：agents 组合语言模型和工具，让系统能够推理任务、决定使用哪些工具，并迭代直到停止条件满足^[2]。

这说明“agent”不是模型对象，而是模型和外部循环组合后的运行形态。

边界可以拆成六组。

**第一，harness 与 model 的边界。

** 模型负责生成候选动作、解释上下文、进行局部推理。

Harness 负责决定模型看见什么、能调用什么、调用失败怎么办、执行记录如何保存、何时停止、谁来审批高风险动作。

ReAct 论文早在 2022 年就把 reasoning traces 与 task-specific actions 放在同一循环里，证明语言推理和行动可以互相支撑^[3]；

但 ReAct 只是模式，不等于生产 harness。

生产 harness 还需要超时、重试、权限、审计、状态恢复和评估。

**第二，harness 与 prompt engineering 的边界。

** Prompt 是 harness 的配置输入之一，不是 harness 本身。

提示词能规定角色和格式，却不能提供隔离文件系统、可撤销数据库操作、工具 schema、执行日志、失败回放和人工审批。

**第三，harness 与 Agent Framework 的边界。

** Agent Framework 是搭建 harness 的组件库或抽象层；

harness 是最终运行系统。

LangGraph 是低层 orchestration framework and runtime，官方强调它用于 long-running、stateful agents，并且聚焦 orchestration^[4]。

这类框架可以构成 harness 的骨架，但一个真实 harness 还包括部署、密钥、日志、权限、数据连接和组织流程。

**第四，harness 与 Workflow 的边界。

** Workflow 是预先设计的路径；

Agent Harness 允许模型在一定边界内选择路径。

Anthropic 区分 workflow 和 agent：前者由代码预定义 LLM 与工具路径，后者让 LLM 动态指挥流程和工具使用^[5]。

很多个人场景不需要全自治 agent，只需要 LLM 节点嵌入可靠 workflow。

**第五，harness 与 Guardrails 的边界。

** Guardrails 是 harness 的安全层和质量层，不是完整 harness。

Guardrails AI 官方将自己定位为帮助构建 reliable AI applications 的工具^[6]；

OWASP AI Agent Security Cheat Sheet 则把 least privilege、scoped tools、human approval、audit logging 等列为安全实践^[7]。

这些都是 harness 的约束部件，但不负责完整任务编排。

**第六，harness 与 MCP 的边界。

** MCP 是工具和上下文连接标准，不是 harness。

MCP 官方把它比作 AI 应用连接外部系统的 USB-C，提供连接数据源、工具和工作流的标准方式^[8]。

这意味着 MCP 可以降低“工具接入”的摩擦，但它不自动解决任务分解、权限策略、状态管理、评估回放或用户体验。

从这些边界看，Agent Harness 的中心不是“让模型更聪明”，而是让模型的行动变成有边界的系统行为。

2. 一个完整 Agent Harness 应包含哪些要素？必要层和高级层要分开

一个可用 harness 至少有十个层次。

并不是所有层都要一次性做完，但缺少某些层时，系统就只能算 demo 或个人玩具，不能算可靠 agent。

2.1 任务入口：谁触发任务，输入如何结构化

入口可以是聊天窗口、Telegram、Slack、表单、邮件、Webhook、定时任务、API、文件夹监听或人工工单。

入口层决定 harness 的第一条边界：任务是否有明确目标、截止条件和输出格式。

没有入口规范，agent 很容易把“闲聊”“请求建议”“执行任务”混在一起。

个人最常见的入口是聊天 + 定时任务；

企业常见入口是 Slack、CRM、工单系统、内部 API。

Zapier Agents 的卖点是让用户创建 custom AI agent，并连接 live business data，在 8,000+ apps 中执行工作^[9]。

这类产品把入口和集成作为核心能力，而不是让用户写 agent loop。

2.2 上下文装配：模型看到什么，不看到什么

上下文不是“把所有资料塞进窗口”。

Harness 要决定：系统规则、用户意图、历史消息、检索结果、文件摘要、工具返回、记忆、预算、截止时间、权限说明，哪些进入当前调用。

OpenAI Agents SDK 文档把 context strategies 列为独立主题，说明过去消息、附件、工具运行记录如何注入 prompt 需要策略控制^[1:1]。

一个差 harness 往往有两种极端：上下文太少，模型不知道任务背景；

上下文太多，模型被噪音污染、成本飙升、隐私边界被打穿。

好的上下文层要做到可解释：这一轮模型为什么看见这些材料？

哪些材料被排除？

排除规则是什么？

2.3 工具层：模型能做什么，参数如何约束

工具层包括函数调用、API、浏览器、数据库、文件系统、代码执行、搜索、消息发送、支付、CRM 更新等。

CrewAI 把 agent capabilities 分成 Tools、MCP Servers、Apps、Skills、Knowledge 五类：Tools 是 callable functions，MCP Servers 是远程工具服务器，Knowledge 提供信息上下文^[10]。

这说明工具不只是“能调用 API”，还要区分动作、远程能力、知识和可复用技能。

工具层的关键不是数量，而是 schema、权限和反馈。

工具参数要结构化；

错误要返回可诊断信息；

危险动作要审批；

幂等性要明确；

长任务要有进度和取消机制。

否则，工具越多，agent 的攻击面和调试成本越大。

2.4 控制循环：谁决定下一步，何时停止

最简单的 agent loop 是：模型读状态 → 选择工具或回复 → 工具执行 → 结果写回上下文 → 继续，直到模型给最终答案或达到 iteration limit。

LangChain 文档明确说 agent runs until a stop condition is met，即模型输出 final output 或达到迭代限制^[2:1]。

生产 harness 需要比这更多：最大成本、最大时长、最大工具次数、失败次数、权限升级、人工接管、异常终止。

如果控制循环不可见，用户无法区分 agent 是在思考、卡住、循环、等待工具还是已经失败。

个人用户常把“模型不够聪明”误判为原因，实际问题可能是停止条件、错误处理和上下文回注设计不当。

2.5 状态与记忆：一次任务如何跨多步保持一致

状态是当前任务的事实：已完成步骤、待办、文件路径、工具返回、审批结果、预算。

记忆是跨任务可复用的信息：用户偏好、项目约定、历史经验。

二者不能混为一谈。

CrewAI 的 checkpointing 文档把执行状态自动保存用于失败后恢复，说明 crews、flows、agents 可以从 checkpoint 继续，而不必重跑已完成工作^[11]。

这就是 harness 的状态层价值。

没有状态层的 agent 只能“看起来在连续工作”，实际每一步都靠上下文拼接维持。

长任务一旦中断、重启或上下文溢出，就无法恢复。

好的 harness 会把状态持久化为结构化数据，而不是只依赖聊天记录。

2.6 权限与安全：工具越强，边界越要硬

Agent 一旦能发邮件、改数据库、下单、写文件、运行命令，就从聊天系统变成执行系统。

OWASP AI Agent Security Cheat Sheet 把 Tool Security & Least Privilege 放在最佳实践开头，并给出过度授权 MCP 工具配置的坏例子与 scoped tool 的好例子^[7:1]。

这说明安全不是外加项，而是 harness 的必要层。

权限层至少包括：只读/写入分离；

敏感工具审批；

密钥隔离；

输出脱敏；

沙箱执行；

外部链接和文件来源标注；

防 prompt injection；

审计日志；

高风险动作回滚。

没有这些层，agent 成功率越高，潜在损害也越大。

2.7 执行沙箱：行动发生在哪里，失败是否可隔离

代码执行、文件操作、浏览器自动化、shell 命令都需要沙箱。

沙箱不是只为恶意攻击准备，也为普通失败准备：依赖冲突、路径错误、无限循环、磁盘写爆、误删文件、API 限流。

SWE-agent 论文提出 Agent-Computer Interface 的概念，把 agent 与计算机交互界面作为提升软件工程 agent 能力的关键变量^[12]。

这给 harness 一个重要启发：接口本身会改变模型能力。

一个清晰的 shell、文件、测试、编辑接口，比让模型“想办法操作电脑”更可靠。

2.8 观测与日志：看不见的 agent 不能调试

观测层记录每次模型调用、输入输出、工具调用、耗时、token、成本、错误、重试、状态变化和人工介入。

LangSmith 官方定位是 framework-agnostic platform for building, debugging, and deploying AI agents and LLM applications，提供 tracing、evaluation、prompt testing、deployment management^[13]。

Arize Phoenix 定位为 AI Observability and Evaluation^[14]。

这类产品的存在说明：harness 的难点不只在“跑起来”，更在“知道为什么失败”。

一个好日志不是把所有文本堆起来，而是能回答：哪一步让任务偏离？

模型当时看见了什么？

调用了哪个工具？

工具返回了什么？

失败可复现吗？

换模型、换提示词、换工具 schema 后结果是否改善？

2.9 评估与回放：没有测试集，就没有稳定改进

Agent 的评估比聊天评估难，因为结果依赖状态、工具和多轮交互。

ToolSandbox 把工具使用评估设计成 stateful、conversational、interactive benchmark，正是因为单轮函数调用不能覆盖真实工具使用能力^[15]。

WebArena 构建真实网站环境评估 autonomous agents，说明 agent 需要在接近真实 web 的状态空间里测试^[16]。

好的 harness 应当能保存任务轨迹并重放：同一任务、同一工具 mock、同一初始状态下，换模型或提示词后是否更好？

如果每次运行都不可复现，优化只能靠感觉。

2.10 人类介入：不是失败补丁，而是设计要素

人类介入包括确认、审批、纠错、补充信息、接管、暂停、恢复。

n8n 文档中有 human-in-the-loop for tool calls、human fallback 等 AI 工作流内容^[17]；

OpenAI Agents SDK 也把 handoffs 作为核心 primitive^[1:2]。

这说明“全自动”不是成熟 harness 的唯一方向。

很多高价值场景更需要“自动推进低风险步骤，高风险点请人确认”。

对个人用户来说，人类介入尤其重要：没有技术背景时，最现实的 harness 不是全自治，而是“AI 提议 + 平台执行 + 人工确认 + 日志可查”。

3. 怎样才算一个好 Harness：评价标准不能只看炫技

一个好 harness 要同时满足六类指标：任务完成、稳定复现、安全边界、可诊断、可维护、经济性。

只看 demo 成功率会误判。

3.1 任务成功率：必须按场景定义，不存在通用分数

“Agent 成功率”不能脱离任务分布。

订会议、整理资料、写周报、跑数据、改代码、处理客服工单、下单采购，所需工具、权限和错误代价完全不同。

WebArena 这种 benchmark 的价值在于把 agent 放进可操作环境，而不是只问答^[16:1]。

SWE-agent 的经验也显示，agent-computer interface 能显著影响软件任务表现^[12:1]。

因此评价 harness 的第一步是建立任务集：20 个常见任务、10 个边界任务、5 个危险任务、5 个异常任务。

每个任务定义成功条件、允许人工介入次数、最大成本和最大时长。

没有任务集，所有评价都是印象。

3.2 稳定性：一次成功不算成功

Agent 的随机性来自模型采样、上下文差异、工具状态、网络、外部页面变化和时间。

好的 harness 要降低这些随机性：固定系统规则、固定工具 schema、保存版本、mock 外部服务、记录输入输出、支持重放。

LangGraph 强调 long-running、stateful agents，是因为长任务的关键不是单步聪明，而是状态一致和恢复能力^[4:1]。

可操作指标包括：同一任务重复 10 次的成功率；

失败后是否能从 checkpoint 继续；

工具超时后是否有降级路径；

成本是否在预算内；

输出是否满足 schema。

3.3 安全性：权限边界比模型道德更可靠

Prompt injection、过度授权、工具误用、数据泄露、越权访问，是 agent harness 的真实风险。

OWASP 的建议集中在 least privilege、scoped tools、approval、logging，这些都不是模型内部能力，而是 harness 结构^[7:2]。

如果一个 agent 能同时读私有邮件、访问客户数据库、发送外部邮件、执行 shell 命令，却没有审批和审计，那么再强的模型也不该被信任。

安全性可用四个问题测试：模型是否能通过提示词绕过工具权限？

外部网页能否诱导 agent 泄露数据？

高风险动作是否需要人工确认？

日志是否足以追责和回滚？

3.4 可诊断性：失败必须能定位到层

Agent 失败可能来自意图理解、上下文缺失、工具描述、工具实现、权限、外部 API、模型能力、停止条件、用户输入不完整。

差 harness 只给一句“任务失败”；

好 harness 能定位到层。

LangSmith 和 Phoenix 这类观测工具的价值就在于把 agent run 拆成 trace、span、evaluation、dataset，而不是只看最终输出^[13:1]^[14:1]。

可诊断性越强，越能做小步改进：改工具 schema，而不是换模型；

加审批，而不是禁用工具；

减少上下文，而不是扩大窗口；

给错误恢复策略，而不是重跑整轮。

3.5 可维护性：低抽象不等于差，高抽象不等于好

Anthropic 的工程文章提醒，成功实现常用 simple, composable patterns，而不是复杂框架^[5:1]。

这不是反框架，而是提醒 harness 的复杂度要与任务匹配。

个人自动化任务如果只有三步：收集信息、生成摘要、发送 Telegram，用 n8n 或脚本就足够。

强行上多 agent 协作，会增加不可解释性。

好的可维护性包括：配置清晰、版本可控、工具少而精、权限可审计、日志统一、失败路径明确、能被非原作者理解。

3.6 经济性：token 成本只是总成本一部分

Harness 成本包括模型 token、工具 API、向量库、浏览器执行、服务器、人工审批、调试时间、失败赔付。

一个更便宜的模型如果导致更多重试和人工纠错，整体可能更贵。

一个更贵的模型若在好 harness 中一次完成，反而便宜。

评价经济性要看“单位成功任务成本”，不是每百万 token 价格。

指标可以是：每成功任务平均成本、P95 时长、人工介入次数、失败重跑成本、误操作风险成本。

4. 没有技术背景的个人能否自己搭建 Harness？可以，但要降低自治级别

答案要分层：**非技术个人可以搭建个人级 harness，但不应从“全自治 agent”开始；

最现实路径是无代码工作流 + LLM 节点 + 人工确认 + 日志。

4.1 最低可行形态：聊天入口 + 固定工具 + 人工确认

没有技术背景的个人，最低可行 harness 可以是：Telegram/Slack/网页表单作为入口；

n8n、Zapier、Make 或 Dify 作为流程编排；

OpenAI/Claude/Gemini 作为模型；

Google Drive、Notion、Gmail、Sheets、Calendar 作为工具；

每次写入、发送、删除前人工确认；

所有结果写入日志表。

这已经是 harness，因为它具备入口、上下文、工具、权限、日志和人工介入。

它不需要代码，但它也不是“让 agent 随便做事”。

它更像一个带 AI 判断节点的自动化工作台。

4.2 无代码平台适合什么，不适合什么

n8n 是 workflow automation platform，其 AI 文档覆盖 agents、chains、memory、tools、RAG、evaluations、human fallback 等内容^[17:1]。

它适合个人和小团队搭建“确定流程 + 少量 AI 判断”的自动化。

Zapier Agents 适合已经在 SaaS 工具里工作的业务用户，优势是 8,000+ app 连接和低上手成本^[9:1]。

Dify 是开源 agentic workflows 平台，适合构建可发布的 AI 应用、知识库问答和可视化流程^[18]。

Flowise 提供 Visual Builder、Tracing & Analytics、Evaluations、Human in the Loop、API/CLI/SDK 等，适合希望以可视化方式搭建 LLM workflows 和 agents 的用户^[19]。

这些工具的共同短板是：复杂权限、细粒度状态恢复、深度调试、自定义沙箱、复杂多步规划，仍然需要技术能力或工程支持。

无代码降低入口门槛，不消除系统设计责任。

4.3 个人自建的四级路线

**Level 1：提示词 + 手动执行。

** 模型给计划，人执行。

几乎没有 harness，只适合学习。

**Level 2：无代码工作流 + LLM 节点。

** 例如 n8n/Zapier/Dify：固定入口、固定工具、人工审批。

适合日报、信息整理、邮件草稿、表格更新、轻量客服。

**Level 3：低代码脚本 + 调度 + 日志。

** 用 Python/Node 调 API，接定时任务、数据库、文件系统、Telegram。

适合个人自动化和爬虫，但需要基本编程、部署和密钥管理。

**Level 4：开发者框架 + 沙箱 + 评估。

** LangGraph、AutoGen、OpenAI Agents SDK、CrewAI，加上 LangSmith/Phoenix、数据库、队列、权限和测试集。

适合生产级 agent。

非技术个人最适合停在 Level 2，并谨慎触碰 Level 3。

真正的判断不是“能不能搭”，而是“出了错能不能看懂、停住、恢复、撤销”。

4.4 三条个人安全底线

第一，任何外发动作必须人工确认：发邮件、发消息、发帖、下单、付款、删除文件、改数据库。

第二，工具权限只给当前任务需要的最小范围，能只读就不写入。

第三，保留日志：输入、模型输出、工具调用、最终动作、人工确认结果。

缺少这三条，个人 harness 可能从效率工具变成风险放大器。

5. 市场产品和框架：不要按名气选，要按抽象层选

市场上产品很多，最容易混乱。

更清楚的分类是：开发框架、无代码/低代码平台、企业知识型 agent 平台、观测评估工具、安全工具、连接协议。

5.1 开发框架：适合工程团队构建可控 agent

**LangGraph / LangChain。

** LangGraph 是低层 orchestration framework and runtime，适合 long-running、stateful agents^[4:2]；

LangChain agents 则提供模型 + 工具 + loop 的生产实现^[2:2]。

GitHub API 显示，2026-04-27 查询时 LangChain 仓库约 135k stars，LangGraph 约 30k stars^[20]。

优势是生态大、组件多、可控性强；

短板是学习曲线和抽象复杂度，生产系统仍需自己补权限、部署、评估和业务状态。

**OpenAI Agents SDK。

** 官方文档强调 concise primitives：agents、handoffs、guardrails、sessions、tracing、tools、MCP、usage/pricing 等^[1:3]。

优势是与 OpenAI 模型、Responses/API、tracing、MCP 集成顺；

短板是平台绑定较强，非 OpenAI 模型和复杂企业环境可能需要额外适配。

**AutoGen。

** Microsoft AutoGen 主打多 agent 协作、会话式编排和研究/原型环境。

GitHub API 查询约 57k stars^[20:1]。

优势是多 agent 对话范式成熟，适合研究、仿真、协作式任务；

短板是生产可控性和确定性需要额外工程约束。

**CrewAI。

** CrewAI 把 agent 类比为具备角色、目标、工具、记忆、协作和委派能力的团队成员^[21]，并明确提供 tools、MCP、apps、skills、knowledge 等扩展类型^[10:1]。

GitHub API 查询约 50k stars^[20:2]。

优势是概念直观，适合角色分工型流程；

短板是角色叙事容易诱导过度设计，复杂任务仍要靠状态、评估和权限落地。

5.2 无代码/低代码平台：适合个人和业务团队

**Dify。

** 开源平台，定位为 building agentic workflows，可视化定义流程、连接工具和数据源并部署 AI 应用^[18:1]。

适合知识库问答、客服助手、内部 AI 应用、简单 agentic workflow。

优势是上手快、开源、应用发布路径完整；

短板是深度自定义和复杂状态机不如代码框架。

**n8n。

** 工作流自动化平台，AI 文档覆盖 agent、chain、memory、tool、RAG、evaluations、human fallback^[17:2]。

适合个人自动化、SaaS 串联、定时任务和人工审批流。

优势是流程可见、连接器多、自托管可选；

短板是复杂 agent loop 和细粒度模型调试不是强项。

**Zapier Agents。

** 面向业务用户，强调数分钟创建 custom AI agent，并可连接 8,000+ apps^[9:2]。

适合销售、运营、客服、行政等 SaaS 驱动工作。

优势是生态连接和低门槛；

短板是可控性、透明度、复杂权限和成本可能受平台限制。

**Flowise。

** 开源 generative AI development platform，官方列出 Visual Builder、Tracing & Analytics、Evaluations、Human in the Loop、API/CLI/SDK、Teams & Workspaces，并提供 Assistant、Chatflow、Agentflow 三种 builder^[19:1]。

适合希望用视觉方式搭建 RAG、chatflow、agentflow 的用户。

短板是生产治理仍需团队补足。

5.3 企业知识型 Agent 平台：适合组织内部知识和流程

**Dust。

** Dust 面向企业内部 AI assistants 和知识连接，适合把 Slack、Notion、Drive、内部数据源接入员工工作流。

优势是企业知识上下文和协作体验；

短板是更偏应用平台，不适合需要底层控制的工程 agent。

**Relevance AI。

** 官方定位为 AI Agents for Sales & GTM Teams，强调让 agents 执行 GTM playbooks，如 BDR outreach、customer success^[22]。

适合销售和增长团队。

优势是垂直业务模板；

短板是通用 harness 可塑性不如开发框架。

5.4 观测、评估和安全：它们不是替代品，而是 harness 的质量层

**LangSmith。

** Framework-agnostic，覆盖 tracing、evaluation、prompt testing、deployment management^[13:2]。

适合已有 agent stack 的团队做调试和回归评估。

**Arize Phoenix。

** 定位 AI Observability and Evaluation^[14:2]。

适合 RAG、LLM 应用、agent trace 观测和评估。

**Guardrails AI。

** 帮助构建 reliable AI applications，适合结构化输出校验、内容约束和安全规则^[6:1]。

它不能替代 orchestration，但能提高输出和工具调用前后的质量边界。

**MCP。

** MCP 是连接标准，解决工具和数据源接入的一致性问题^[8:1]。

它让 harness 更容易扩展工具，但不是 agent runtime 本身。

5.5 选择建议

如果目标是个人自动化：n8n / Zapier / Dify 优先，避免多 agent 框架。

若目标是开发生产级 agent：LangGraph 或 OpenAI Agents SDK 优先，再配 LangSmith/Phoenix。

若目标是角色协作原型：CrewAI 或 AutoGen。

若目标是企业知识助手：Dust、Dify、Relevance AI 按业务场景评估。

若目标是提高安全和可审计：先补权限、日志、审批，再考虑 Guardrails 和观测平台。

6. “Agent = Model + Harness”在哪些意义上成立，又在哪些地方会被高估？

这个判断大方向是对的，但需要补两个条件。

成立之处：harness 改变模型的可行动性

模型单独存在时，只能生成文本。

Harness 给它入口、工具、状态、权限和反馈，它才成为能影响世界的系统。

ReAct 证明推理与行动交错能提升任务表现^[3:1]；

ToolSandbox、WebArena、SWE-agent 这类工作则进一步说明，工具环境、交互状态和计算机接口会显著影响 agent 表现^[12:2]^[15:1]^[16:2]。

因此，同一个模型放在不同 harness 中，能力边界会不同。

被高估之处：harness 不能消除模型上限

Harness 可以减少错误传播、提供更好上下文、限制工具风险、让失败可恢复，但它不能凭空制造模型没有的推理能力、领域知识或可靠长程规划。

差模型在好 harness 中可能更安全、更可控，但不一定更聪明。

好模型在差 harness 中可能表现糟糕，但好 harness 也不能保证复杂开放任务成功。

更准确的公式是：

text

Agent Quality = Model Capability × Harness Fit × Tool Reliability × Task Definition × Evaluation Feedback

任何一项接近零，最终质量都会塌陷。

模型能力是必要条件；

harness fit 决定能力能否稳定传递；

工具可靠性决定行动是否真实有效；

任务定义决定系统是否知道何时成功；

评估反馈决定能否持续改进。

交叉洞察

洞察一：未来 12 个月，个人 Agent 的主战场不会是“全自治”，而是“可审批的半自治工作流”

数据依据

Anthropic 的工程文章指出，成功实现常使用 simple, composable patterns，而不是复杂框架，并区分 workflow 与 agent^[5:2]。
n8n、Flowise、OpenAI Agents SDK 都把 human-in-the-loop、handoffs、guardrails、tracing、evaluations 放进核心能力或文档体系^[1:4]^[17:3]^[19:2]。

推理链 个人用户缺少工程团队、测试集和运维能力，直接追求全自治会把失败定位、权限控制和回滚成本都推给用户。

无代码平台已经把入口、工具、日志、人工确认做成可配置组件。

两者叠加后，最可落地的形态不是“让 agent 自己决定一切”，而是“固定流程中让模型判断、生成、分类、摘要，危险动作由人批准”。

置信度：高 可证伪条件：如果未来 12 个月，主流个人 agent 产品默认开放跨应用写入、付款、删除等高风险动作且无需人工确认，同时事故率没有显著上升，则该判断被削弱。

洞察二：Agent 框架的竞争会从“多 agent 叙事”转向“状态、观测、评估、权限”四件套

数据依据

LangGraph 官方强调 long-running、stateful agents 和 orchestration^[4:3]；CrewAI 提供 checkpointing 以支持失败后恢复^[11:1]。
LangSmith 与 Phoenix 分别把 tracing/evaluation/debugging 和 observability/evaluation 作为核心定位^[13:3]^[14:3]。

推理链 多 agent 角色分工能让 demo 更直观，但生产问题集中在长任务状态、失败恢复、工具越权和不可复现。

框架若不能解释“为什么失败、从哪里恢复、谁批准了动作、版本变化是否改善”，就无法支持高价值任务。

随着 agent 从演示进入日常流程，评价重心会自然从“能不能跑”转到“能不能治理”。

置信度：高 可证伪条件：如果未来 18 个月主流企业 agent 采购仍主要按角色模板和多 agent 数量评估，而不要求 trace、eval、权限和恢复能力，则该判断被推翻。

洞察三：MCP 会标准化工具接入，但不会标准化好 Harness

数据依据

MCP 官方定义是连接 AI applications 与外部系统的开放标准，类比 USB-C，用于连接数据源、工具和工作流^[8:2]。
OpenAI Agents SDK、CrewAI 等文档都已把 MCP 作为工具连接方式之一，而不是完整 runtime^[1:5]^[10:2]。

推理链 工具接入标准化会降低集成成本，让更多应用暴露为 agent 可用工具。

但好 harness 的难点还包括任务入口、上下文裁剪、权限策略、状态恢复、日志、评估和人工接管，这些无法由连接协议自动给出。

MCP 会扩大 agent 工具生态，也会扩大权限治理需求。

置信度：中高 可证伪条件：如果 MCP 规范在未来 18 个月内直接纳入统一的权限审批、审计日志、状态恢复和评估回放协议，并被主流平台一致实现，则该判断需要修正。

洞察四：没有技术背景的个人能搭 harness，但不能跳过“任务边界设计”

数据依据

Zapier Agents、Dify、n8n、Flowise 都提供低代码或无代码入口、工具连接和 AI 工作流能力^[9:3]^[17:4]^[18:2]^[19:3]。
OWASP 安全建议强调 least privilege、scoped tools、approval、logging；这些要求不因用户是否会代码而消失^[7:3]。

推理链 无代码工具把“连接”和“执行”门槛降下来，但不会自动判断哪些动作危险、哪些数据敏感、失败后谁负责。

个人如果只做只读整理、摘要、草稿生成，风险可控；

一旦允许写入、发送、删除、付款，就必须设计审批和日志。

非技术用户的关键能力不是编程，而是把任务拆成低风险步骤。

置信度：高 可证伪条件：如果未来 12 个月出现面向个人用户的主流 agent 平台，能在无需用户配置权限和审批的情况下稳定安全地执行跨应用写入任务，该判断被削弱。

认知校准

你的先验理解

agent harness框架包含哪些要素？如何才算好？没有技术背景的个人能否自己搭建harness？市场上有哪些产品，各自的优劣和使用场景？agent=model+harness，所以agent好不好，不单单靠大模型。

研究后的校准

✅ 确认：Agent 质量确实不能只看模型。工具、状态、权限、日志、评估、人类介入会显著改变同一模型的可用性。
🔄 修正：Agent = Model + Harness 可以作为认知入口，但完整公式还要加入工具可靠性、任务定义和评估反馈。Harness 不是万能补丁。
🔄 修正：市场上很多“Agent 产品”并不处在同一层。LangGraph/OpenAI Agents SDK 是开发框架；n8n/Zapier/Dify/Flowise 是低代码平台；LangSmith/Phoenix 是观测评估层；MCP 是连接协议。
✅ 确认：没有技术背景的个人可以搭最低可行 harness，但最好从半自治工作流开始，而不是全自治 agent。
💡 新发现：好 harness 的核心不是“更多工具”，而是状态可恢复、权限可限制、过程可观测、结果可评估、危险动作可审批。

最大的认知偏差在哪 最容易高估的是“harness 能把模型变成可靠员工”。

更准确地说，harness 把模型限制在可控工作台里，使它能稳定完成边界清楚的任务；

任务越开放、工具越危险、反馈越稀疏，越需要工程治理，而不是更复杂的 agent 叙事。

信息来源与注释

OpenAI, “OpenAI Agents SDK Documentation”, 官方文档. URL: https://openai.github.io/openai-agents-python/ 。成熟度：官方文档. 访问日期：2026-04-27. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
LangChain, “Agents - Docs by LangChain”, 官方文档. URL: https://docs.langchain.com/oss/python/langchain/agents 。成熟度：官方文档. 访问日期：2026-04-27. ↩︎ ↩︎ ↩︎
Shunyu Yao, Jeffrey Zhao, Dian Yu, et al., “ReAct: Synergizing Reasoning and Acting in Language Models”, arXiv:2210.03629, 2022-10 提交；ICLR 2023 论文版本广泛引用. URL: https://arxiv.org/abs/2210.03629 。成熟度：已发表-顶会/成熟预印本. 检索来源：SearXNG science. 访问日期：2026-04-27. ↩︎ ↩︎
LangChain, “LangGraph overview”, 官方文档. URL: https://docs.langchain.com/oss/python/langgraph/overview 。成熟度：官方文档. 访问日期：2026-04-27. ↩︎ ↩︎ ↩︎ ↩︎
Anthropic Engineering, “Building effective agents”, Anthropic Engineering Blog, 2024-12-19. URL: https://www.anthropic.com/engineering/building-effective-agents 。成熟度：官方工程博客. 访问日期：2026-04-27. ↩︎ ↩︎ ↩︎
Guardrails AI, “Introduction - Guardrails AI”, 官方文档. URL: https://www.guardrailsai.com/docs/ 。成熟度：官方文档. 访问日期：2026-04-27. ↩︎ ↩︎
OWASP Cheat Sheet Series, “AI Agent Security Cheat Sheet”, OWASP. URL: https://cheatsheetseries.owasp.org/cheatsheets/AI_Agent_Security_Cheat_Sheet.html 。成熟度：行业安全指南. 访问日期：2026-04-27. ↩︎ ↩︎ ↩︎ ↩︎
Model Context Protocol, “What is the Model Context Protocol (MCP)?”, 官方文档. URL: https://modelcontextprotocol.io/docs/getting-started/intro 。成熟度：官方规范文档. 访问日期：2026-04-27. ↩︎ ↩︎ ↩︎
Zapier, “Build AI teammates with Zapier Agents”, 官方产品页. URL: https://zapier.com/agents 。成熟度：官方产品文档/页面. 访问日期：2026-04-27. ↩︎ ↩︎ ↩︎ ↩︎
CrewAI, “Agent Capabilities”, 官方文档. URL: https://docs.crewai.com/en/concepts/agent-capabilities 。成熟度：官方文档. 访问日期：2026-04-27. ↩︎ ↩︎ ↩︎
CrewAI, “Checkpointing”, 官方文档. URL: https://docs.crewai.com/en/concepts/checkpointing 。成熟度：官方文档. 访问日期：2026-04-27. ↩︎ ↩︎
John Yang, Carlos E. Jimenez, Alexander Wettig, et al., “SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering”, arXiv:2405.15793, 2024-05 提交. URL: https://arxiv.org/abs/2405.15793 。成熟度：成熟预印本/研究论文. 检索来源：SearXNG science 与 arXiv API. 访问日期：2026-04-27. ↩︎ ↩︎ ↩︎
LangChain, “LangSmith docs”, 官方文档. URL: https://docs.langchain.com/langsmith/home 。成熟度：官方文档. 访问日期：2026-04-27. ↩︎ ↩︎ ↩︎ ↩︎
Arize, “What is Arize Phoenix?”, 官方文档. URL: https://arize.com/docs/phoenix 。成熟度：官方文档. 访问日期：2026-04-27. ↩︎ ↩︎ ↩︎ ↩︎
Jiarui Lu, Thomas Holleis, Yizhe Zhang, et al., “ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities”, arXiv:2408.04682, 2024-08 提交. URL: https://arxiv.org/abs/2408.04682 。成熟度：成熟预印本/研究论文. 检索来源：SearXNG science 与 arXiv API. 访问日期：2026-04-27. ↩︎ ↩︎
Shuyan Zhou, Frank F. Xu, Hao Zhu, et al., “WebArena: A Realistic Web Environment for Building Autonomous Agents”, arXiv:2307.13854, 2023-07 提交. URL: https://arxiv.org/abs/2307.13854 。成熟度：成熟预印本/研究论文. 检索来源：SearXNG science 与 arXiv API. 访问日期：2026-04-27. ↩︎ ↩︎ ↩︎
n8n, “n8n Advanced AI Documentation and Guides”, 官方文档. URL: https://docs.n8n.io/advanced-ai/ 。成熟度：官方文档. 访问日期：2026-04-27. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Dify, “Introduction - Dify Docs”, 官方文档. URL: https://docs.dify.ai/en/use-dify/getting-started/introduction 。成熟度：官方文档. 访问日期：2026-04-27. ↩︎ ↩︎ ↩︎
FlowiseAI, “Introduction”, 官方文档. URL: https://docs.flowiseai.com/readme 。成熟度：官方文档. 访问日期：2026-04-27. ↩︎ ↩︎ ↩︎ ↩︎
GitHub REST API 查询：langchain-ai/langchain、langchain-ai/langgraph、microsoft/autogen、crewAIInc/crewAI、langgenius/dify、n8n-io/n8n、FlowiseAI/Flowise、Arize-ai/phoenix、guardrails-ai/guardrails、openai/openai-agents-python。成熟度：平台公开数据. 访问日期：2026-04-27. ↩︎ ↩︎ ↩︎
CrewAI, “Agents”, 官方文档. URL: https://docs.crewai.com/en/concepts/agents 。成熟度：官方文档. 访问日期：2026-04-27. ↩︎
Relevance AI, “Relevance AI | AI Agents for Sales & GTM Teams”, 官方产品页. URL: https://relevanceai.com/ 。成熟度：官方产品文档/页面. 访问日期：2026-04-27. ↩︎

Agent Harness：大模型之外，真正决定 Agent 可用性的外部系统 ​

引子：同一个模型，为什么换个外壳就像换了一个人？ ​

1. Agent Harness 到底是什么：它不是 Agent Framework 的同义词 ​

2. 一个完整 Agent Harness 应包含哪些要素？必要层和高级层要分开 ​

2.1 任务入口：谁触发任务，输入如何结构化 ​

2.2 上下文装配：模型看到什么，不看到什么 ​

2.3 工具层：模型能做什么，参数如何约束 ​

2.4 控制循环：谁决定下一步，何时停止 ​

2.5 状态与记忆：一次任务如何跨多步保持一致 ​

2.6 权限与安全：工具越强，边界越要硬 ​

2.7 执行沙箱：行动发生在哪里，失败是否可隔离 ​

2.8 观测与日志：看不见的 agent 不能调试 ​

2.9 评估与回放：没有测试集，就没有稳定改进 ​

2.10 人类介入：不是失败补丁，而是设计要素 ​

3. 怎样才算一个好 Harness：评价标准不能只看炫技 ​

3.1 任务成功率：必须按场景定义，不存在通用分数 ​

3.2 稳定性：一次成功不算成功 ​

3.3 安全性：权限边界比模型道德更可靠 ​

3.4 可诊断性：失败必须能定位到层 ​

3.5 可维护性：低抽象不等于差，高抽象不等于好 ​

3.6 经济性：token 成本只是总成本一部分 ​

4. 没有技术背景的个人能否自己搭建 Harness？可以，但要降低自治级别 ​

4.1 最低可行形态：聊天入口 + 固定工具 + 人工确认 ​

4.2 无代码平台适合什么，不适合什么 ​

4.3 个人自建的四级路线 ​

4.4 三条个人安全底线 ​

5. 市场产品和框架：不要按名气选，要按抽象层选 ​

5.1 开发框架：适合工程团队构建可控 agent ​

5.2 无代码/低代码平台：适合个人和业务团队 ​

5.3 企业知识型 Agent 平台：适合组织内部知识和流程 ​

5.4 观测、评估和安全：它们不是替代品，而是 harness 的质量层 ​

5.5 选择建议 ​

6. “Agent = Model + Harness”在哪些意义上成立，又在哪些地方会被高估？ ​

成立之处：harness 改变模型的可行动性 ​

被高估之处：harness 不能消除模型上限 ​

交叉洞察 ​

洞察一：未来 12 个月，个人 Agent 的主战场不会是“全自治”，而是“可审批的半自治工作流” ​

洞察二：Agent 框架的竞争会从“多 agent 叙事”转向“状态、观测、评估、权限”四件套 ​

洞察三：MCP 会标准化工具接入，但不会标准化好 Harness ​

洞察四：没有技术背景的个人能搭 harness，但不能跳过“任务边界设计” ​

认知校准 ​

信息来源与注释 ​

Agent Harness：大模型之外，真正决定 Agent 可用性的外部系统

引子：同一个模型，为什么换个外壳就像换了一个人？

1. Agent Harness 到底是什么：它不是 Agent Framework 的同义词

2. 一个完整 Agent Harness 应包含哪些要素？必要层和高级层要分开

2.1 任务入口：谁触发任务，输入如何结构化

2.2 上下文装配：模型看到什么，不看到什么

2.3 工具层：模型能做什么，参数如何约束

2.4 控制循环：谁决定下一步，何时停止

2.5 状态与记忆：一次任务如何跨多步保持一致

2.6 权限与安全：工具越强，边界越要硬

2.7 执行沙箱：行动发生在哪里，失败是否可隔离

2.8 观测与日志：看不见的 agent 不能调试

2.9 评估与回放：没有测试集，就没有稳定改进

2.10 人类介入：不是失败补丁，而是设计要素

3. 怎样才算一个好 Harness：评价标准不能只看炫技

3.1 任务成功率：必须按场景定义，不存在通用分数

3.2 稳定性：一次成功不算成功

3.3 安全性：权限边界比模型道德更可靠

3.4 可诊断性：失败必须能定位到层

3.5 可维护性：低抽象不等于差，高抽象不等于好

3.6 经济性：token 成本只是总成本一部分

4. 没有技术背景的个人能否自己搭建 Harness？可以，但要降低自治级别

4.1 最低可行形态：聊天入口 + 固定工具 + 人工确认

4.2 无代码平台适合什么，不适合什么

4.3 个人自建的四级路线

4.4 三条个人安全底线

5. 市场产品和框架：不要按名气选，要按抽象层选

5.1 开发框架：适合工程团队构建可控 agent

5.2 无代码/低代码平台：适合个人和业务团队

5.3 企业知识型 Agent 平台：适合组织内部知识和流程

5.4 观测、评估和安全：它们不是替代品，而是 harness 的质量层

5.5 选择建议

6. “Agent = Model + Harness”在哪些意义上成立，又在哪些地方会被高估？

成立之处：harness 改变模型的可行动性

被高估之处：harness 不能消除模型上限

交叉洞察

洞察一：未来 12 个月，个人 Agent 的主战场不会是“全自治”，而是“可审批的半自治工作流”

洞察二：Agent 框架的竞争会从“多 agent 叙事”转向“状态、观测、评估、权限”四件套

洞察三：MCP 会标准化工具接入，但不会标准化好 Harness

洞察四：没有技术背景的个人能搭 harness，但不能跳过“任务边界设计”

认知校准

信息来源与注释