深度“解剖”AI Agent Harness

发表于 2026-05-25 原作者：兹拉坦分类于技术详解阅读次数：本文字数： 2.4k 阅读时长 ≈ 9 分钟

本文译介 Akshay Pachaar 的长文《The Anatomy of an Agent Harness》，系统拆解 Anthropic、OpenAI、LangChain 的 Agent Harness 架构：编排循环、工具、记忆、上下文管理等 12 个核心组件，以及定义 Harness 的 7 个关键决策。

Akshay Pachaar 2026年5月25日 07:00

“如果你不是模型本身，那你就是 Harness”。—— Vivek Trivedy

楔子

在这个 OceanBase 社区公众号上，兹拉坦向来没有把一份儿外文资料翻译成中文后直接发布的习惯。因为我们希望每篇文章都是在自己阅读之后，把理解的东西提炼出来分享给大家。但今天的这篇文章，是个特例。

Akshay Pachaar 前段儿时间，在推特上发了一篇长文《The Anatomy of an Agent Harness》，系统地拆解了 Anthropic、OpenAI、LangChain 等公司的 Agent Harness 架构设计。这篇文章也是截至目前为止，兹拉坦读到过的，讲 Harness 最为清晰和全面的。而且这篇文章现在已经有 139 万的阅读量了。

Akshay Pachaar 推特长文《The Anatomy of an Agent Harness》

原推文 139 万阅读量数据展示

也欢迎大家关注 OceanBase 社区公众号 “老纪的技术唠嗑局”。

正文开始

这篇文章聊的是 Anthropic、OpenAI 和 LangChain 他们究竟在造什么。让我们一起来看看——编排循环、工具、记忆、上下文管理，以及那些把“无状态”大语言模型变成全能智能体的底层机制。

你可能已经搭过聊天机器人，甚至用几个工具撸了一个 ReAct 循环。Demo 跑起来一切美好，但一上生产环境就原形毕露：模型转头就忘了三步前干过啥，工具调用悄无声息地挂掉，上下文窗口里塞满了没用的垃圾。

问题不在模型，在模型外面那一圈基础设施。

LangChain 用事实说了话：模型没换，参数没动，光改了外面那层架构，就在 TerminalBench 2.0 上从 30 名开外一路杀到第 5。还有一项研究让大模型自己去优化这套架构，结果通过率干到了 76.4%，比人类精心设计的系统还猛。现在，这套基础设施有了个正式名字：AI Agent Harness。

什么是 Agent Harness？

Harness 这个词虽然 2026 年初才正式叫开，但背后的理念早就有了。Harness 就是套在大模型外面的那一整套软件架构：编排循环、工具、记忆、上下文管理、状态持久化、错误处理、护栏……全算。

Anthropic 在 Claude Code 文档里说得很直白：SDK 就是“驱动 Claude Code 的 Agent Harness”。OpenAI 的 Codex 团队也是一个意思。LangChain 的 Vivek Trivedy 给出的定义：“如果你不是模型本身，那你就是 Harness。” 简单粗暴。

很多人分不清这俩概念：“AI 智能体”（Agent）是你看到的那个表现；“Harness” 是幕后那台机器。当有人说“我做了一个智能体”，其实他是说“我搭了一套 Harness，然后把模型接上去了”。

AI 智能体与幕后 Harness 关系图解

Beren Millidge 打了个特别到位的比方：裸奔的大模型就是一颗没有内存、没有硬盘、也没有输入输出的 CPU。上下文窗口是内存，外部数据库是硬盘，工具集成是设备驱动。而Harness，就是操作系统。“我们重新发明了冯·诺依曼架构”。

大模型类比冯·诺依曼架构的操作系统图解

工程化的三个层次

提示词工程：把喂给模型的指令写好。
上下文工程：管好模型在什么时候能看到什么。
Harness 工程：前两者全包，再加上整个应用架构——工具编排、状态持久化、错误恢复、验证循环、安全执行、生命周期管理。

Harness 可不是什么提示词套壳（AI Wrapper），它是让智能体真正能自主行动的完整系统。

提示词工程、上下文工程与 Harness 工程三层次对比

生产级 Harness 的 12 个核心组件

综合 Anthropic、OpenAI、LangChain 和一线从业者的经验，生产级 Harness 由 12 个核心组件构成。

生产级 Harness 的 12 个核心组件全景图

1. 编排循环 (The Orchestration Loop)

“思考 - 行动 - 观察”（TAO）循环：拼提示词 → 调大模型 → 解析输出 → 执行工具调用 → 喂回结果 → 再来，直到任务完成。代码层面就是一个 while 循环。Anthropic 管自家运行时叫“笨循环”。

思考-行动-观察 TAO 编排循环流程图

2. 工具 (Tools)

工具是智能体的“手”。Claude Code 提供了六大类工具：文件操作、搜索、执行、网页访问、代码分析和子智能体创建。OpenAI 的 Agents SDK 支持函数工具、托管工具以及 MCP 服务器工具。

3. 记忆 (Memory)

短期记忆就是一次会话里的对话历史。长期记忆跨会话存在：Anthropic 用 MEMORY.md，LangGraph 用 JSON 存储，OpenAI 用 SQLite 或 Redis。Claude Code 搞了三层记忆架构。重要原则：智能体把自己的记忆当“提示”看，行动前必须拿实际状态验证。