术语与证据边界

读这些材料时，最容易混淆的是事实、官方自述和文章中的比较解释。先把三者的边界摊开，会更容易判断一条说法到底落在哪一层。

如果你想先分清 agent harness 和 harness engineering 分别在说什么，先看概念入口；如果你更关心判断依据，以及哪些属于研究解释，再读下文。如果你还想知道“应该怎么精读一篇文章，再把它稳定带进概念和比较页面”，可以同时看文章证据工作法。

三层证据边界

文中的判断尽量拆成三层：

层级	它是什么	在文中通常长什么样
`事实陈述`	可以直接回到一手来源核对的陈述	“OpenAI 把 `thread / turn / item` 暴露成会话原语”
`官方表述`	项目官方对自己的定位、自述和命名方式	“X 官方称自己是 AI coding agent / agent harness / multi-agent orchestration”
`研究解释`	为了让比较成立而做出的工程划分与解释	“文中把它放到 `AI Agents` / `Agent Harnesses`，或写成 `Harness Engineering` 的实践视角”

这三层不是互斥关系，但不能混写。

`事实陈述`

事实陈述 的标准不是“听起来合理”，而是“能回到一手材料确认”。一手材料包括：

官方博客 / 工程文章
官方文档
官方仓库 README
官方协议、接口或架构说明

例如：

Anthropic 区分 workflows 和 agents
OpenAI 的 Codex App Server 公开了 thread / turn / item 这组会话原语
LangChain 在其博客里明确提出 Agent = Model + Harness

这些都可以算 事实陈述，因为原文里能直接找到。

`官方表述`

官方表述 指项目或厂商如何描述自己。它很重要，因为它是理解一个系统“想解决什么问题”的第一入口，但它不自动等于跨项目通用定义。

例如：

一个项目官方自称 编程代理
一个项目 README 把自己叫作 agent harness
一个项目把自己描述为 multi-agent orchestration

这些都应优先保留原表达，再决定文章如何解释它。

`研究解释`

研究解释 的作用，是把不同来源放进同一个可比较坐标系里。它不是为了取代官方定义，而是为了让比较可以成立。

例如：

某个项目更适合被放在 AI Agents
某套系统更像宿主之上的 Agent Harnesses
某篇文章强调的是 Harness Engineering 的实践问题，而不是对象层分类

这类判断可以很有价值，但必须明确标注为研究解释，而不是写成“官方就是这样定义的”。

从证据边界到阅读方法

上面的三层边界主要解决“这句话算哪一层”。但真正读文章时，往往还需要再多问一步：这篇文章把重心压在什么地方？

在仓库里，我们通常把这个问题交给文章证据工作法：

先看文章重心落在哪几个 要素
再判断关键句属于 可直接回原文确认、原文 framing 还是 本文解释

这样做的目的，不是增加复杂度，而是防止把原文内容、作者 framing 和仓库判断混成一种声音。

最容易混淆的几个词

`AI Agents`

文中用它来指直接作为工作宿主或代理产品出现的系统。它偏对象层。

它首先回答的是：

代理在哪里运行
代理能不能进入真实工程环境
代理有没有完整执行面、工具面和回话面

`agent harness`

文中用它来指模型外面那层让代理能工作、能恢复、能被约束的外壳系统。它偏系统对象。

它通常包括：

提示词 / 上下文注入
工具 / 协议化能力表面 / 中间层
执行环境 / 沙箱 / 文件系统
记忆 / 进度工件 / 交接表面
验证 / 评审 / 审批 / 防护栏

`harness engineering`

文中用它来指人如何设计、调试、约束、简化和演化这层外壳及相关机制的工程实践。它偏方法与实践，不是对象层里的第四类产品。

简化地说：

harness 是对象
harness engineering 是围绕这个对象和相关机制进行的工程活动

`宿主（host）`

host 指代理实际工作的主工作面，例如终端、IDE、桌面应用或某个核心运行时。它首先回答“代理在哪里工作”。

在本文语境里，像 Codex、Claude Code、OpenCode 这类通常更适合先看成 host。

`工作流 / 编排（workflow / orchestration）`

它更偏任务组织，关注的是多代理、多模型、多审批节点如何被编进一个更大的闭环。

它可以与 harness 深度重叠，但不自动等于一个独立对象层分类。当前仓库更倾向把很多工作流套件先收进 Agent Harnesses 这一层，再在内部继续区分它究竟更像方法系统还是交付套件。

`技能 / 方法系统（skills / methodology）`

它更偏执行纪律和方法层，例如规格驱动开发、评审纪律、上下文工程和检查清单。

它常常落在 Harness Engineering 的实践层里，也可能被某个 Agent Harness 吸纳，但不自动等于 agent harness 本身。

默认讨论范围

如果没有额外说明，本文默认讨论的是：

软件工程语境中的编程代理
代理直接进入代码仓库、命令行、浏览器、测试或其他真实工程工作面
长任务、恢复、验证、人类控制面这些问题已经变得重要

这意味着：

默认不会把所有代理系统都自动纳入核心研究范围
也不会把某个厂商在自己产品里的 harness 用法，自动扩张成所有场景的统一定义

什么时候需要保留模糊性

有些边界本来就在漂移，保留这种不稳定性，比强行裁成硬边更诚实：

AI Agents 与 Agent Harnesses 会互相吸收
Agent Harnesses 与 workflow 经常重叠
skills 有时只是外挂层，有时已经成为承重部分
模型进步会让一些 harness 组件失去必要性，也会让新的组件变得重要

因此，更应该看重“当前主要重心”而不是“永久类别”。

阅读这些材料时的顺序

如果看到一句判断，最稳的读取方式是：

先问：这是 事实陈述、官方表述，还是 研究解释？
再问：这个判断是在什么语境下成立？
最后问：它是在说 AI Agents、Agent Harnesses，还是 Harness Engineering 这条实践视角？

按这个顺序读，更容易判断一条说法到底在说什么。

继续阅读

如果你想回到完整概念定义，去概念入口
如果你想看“怎样精读一篇文章并把它带进比较”，去文章证据工作法
如果你想看这些边界如何落到项目比较里，去生态与比较
如果你想看一手材料如何支撑这些边界，去关键文章