Skip to content

术语与证据边界

读这些材料时,最容易混淆的是事实、官方自述和文章中的比较解释。先把三者的边界摊开,会更容易判断一条说法到底落在哪一层。

如果你想先分清 agent harnessharness engineering 分别在说什么,先看 概念入口;如果你更关心判断依据,以及哪些属于研究解释,再读下文。如果你还想知道“应该怎么精读一篇文章,再把它稳定带进概念和比较页面”,可以同时看 文章证据工作法

文中的判断尽量拆成三层:

层级它是什么在文中通常长什么样
事实陈述可以直接回到一手来源核对的陈述“OpenAI 把 thread / turn / item 暴露成会话原语”
官方表述项目官方对自己的定位、自述和命名方式“X 官方称自己是 AI coding agent / agent harness / multi-agent orchestration”
研究解释为了让比较成立而做出的工程划分与解释“文中把它放到 AI Agents / Agent Harnesses,或写成 Harness Engineering 的实践视角”

这三层不是互斥关系,但不能混写。

事实陈述 的标准不是“听起来合理”,而是“能回到一手材料确认”。一手材料包括:

  • 官方博客 / 工程文章
  • 官方文档
  • 官方仓库 README
  • 官方协议、接口或架构说明

例如:

  • Anthropic 区分 workflowsagents
  • OpenAI 的 Codex App Server 公开了 thread / turn / item 这组会话原语
  • LangChain 在其博客里明确提出 Agent = Model + Harness

这些都可以算 事实陈述,因为原文里能直接找到。

官方表述 指项目或厂商如何描述自己。它很重要,因为它是理解一个系统“想解决什么问题”的第一入口,但它不自动等于跨项目通用定义。

例如:

  • 一个项目官方自称 编程代理
  • 一个项目 README 把自己叫作 agent harness
  • 一个项目把自己描述为 multi-agent orchestration

这些都应优先保留原表达,再决定文章如何解释它。

研究解释 的作用,是把不同来源放进同一个可比较坐标系里。它不是为了取代官方定义,而是为了让比较可以成立。

例如:

  • 某个项目更适合被放在 AI Agents
  • 某套系统更像宿主之上的 Agent Harnesses
  • 某篇文章强调的是 Harness Engineering 的实践问题,而不是对象层分类

这类判断可以很有价值,但必须明确标注为研究解释,而不是写成“官方就是这样定义的”。

上面的三层边界主要解决“这句话算哪一层”。但真正读文章时,往往还需要再多问一步:这篇文章把重心压在什么地方?

在仓库里,我们通常把这个问题交给 文章证据工作法

  • 先看文章重心落在哪几个 要素
  • 再判断关键句属于 可直接回原文确认原文 framing 还是 本文解释

这样做的目的,不是增加复杂度,而是防止把原文内容、作者 framing 和仓库判断混成一种声音。

文中用它来指直接作为工作宿主或代理产品出现的系统。它偏对象层。

它首先回答的是:

  • 代理在哪里运行
  • 代理能不能进入真实工程环境
  • 代理有没有完整执行面、工具面和回话面

文中用它来指模型外面那层让代理能工作、能恢复、能被约束的外壳系统。它偏系统对象。

它通常包括:

  • 提示词 / 上下文注入
  • 工具 / 协议化能力表面 / 中间层
  • 执行环境 / 沙箱 / 文件系统
  • 记忆 / 进度工件 / 交接表面
  • 验证 / 评审 / 审批 / 防护栏

文中用它来指人如何设计、调试、约束、简化和演化这层外壳及相关机制的工程实践。它偏方法与实践,不是对象层里的第四类产品。

简化地说:

  • harness 是对象
  • harness engineering 是围绕这个对象和相关机制进行的工程活动

host 指代理实际工作的主工作面,例如终端、IDE、桌面应用或某个核心运行时。它首先回答“代理在哪里工作”。

在本文语境里,像 Codex、Claude Code、OpenCode 这类通常更适合先看成 host

工作流 / 编排(workflow / orchestration)

Section titled “工作流 / 编排(workflow / orchestration)”

它更偏任务组织,关注的是多代理、多模型、多审批节点如何被编进一个更大的闭环。

它可以与 harness 深度重叠,但不自动等于一个独立对象层分类。当前仓库更倾向把很多工作流套件先收进 Agent Harnesses 这一层,再在内部继续区分它究竟更像方法系统还是交付套件。

技能 / 方法系统(skills / methodology)

Section titled “技能 / 方法系统(skills / methodology)”

它更偏执行纪律和方法层,例如规格驱动开发、评审纪律、上下文工程和检查清单。

它常常落在 Harness Engineering 的实践层里,也可能被某个 Agent Harness 吸纳,但不自动等于 agent harness 本身。

如果没有额外说明,本文默认讨论的是:

  • 软件工程语境中的编程代理
  • 代理直接进入代码仓库、命令行、浏览器、测试或其他真实工程工作面
  • 长任务、恢复、验证、人类控制面这些问题已经变得重要

这意味着:

  • 默认不会把所有代理系统都自动纳入核心研究范围
  • 也不会把某个厂商在自己产品里的 harness 用法,自动扩张成所有场景的统一定义

有些边界本来就在漂移,保留这种不稳定性,比强行裁成硬边更诚实:

  • AI AgentsAgent Harnesses 会互相吸收
  • Agent Harnessesworkflow 经常重叠
  • skills 有时只是外挂层,有时已经成为承重部分
  • 模型进步会让一些 harness 组件失去必要性,也会让新的组件变得重要

因此,更应该看重“当前主要重心”而不是“永久类别”。

如果看到一句判断,最稳的读取方式是:

  1. 先问:这是 事实陈述官方表述,还是 研究解释
  2. 再问:这个判断是在什么语境下成立?
  3. 最后问:它是在说 AI AgentsAgent Harnesses,还是 Harness Engineering 这条实践视角?

按这个顺序读,更容易判断一条说法到底在说什么。

  • 如果你想回到完整概念定义,去 概念入口
  • 如果你想看“怎样精读一篇文章并把它带进比较”,去 文章证据工作法
  • 如果你想看这些边界如何落到项目比较里,去 生态与比较
  • 如果你想看一手材料如何支撑这些边界,去 关键文章