Harness Engineering 是 AI 工程领域继 Prompt Engineering、Context Engineering 之后的第三次重心迁移。从演进、构成、实践三个角度把它讲透

张开发

• 2026/4/20 14:02:44 • 15 分钟阅读

分享文章

Harness Engineering 是 AI 工程领域继 Prompt Engineering、Context Engineering 之后的第三次重心迁移。从演进、构成、实践三个角度把它讲透

下面从演进、构成、实践三条线把 Harness Engineering束具工程 / 驾驭层工程讲清楚并各配 OpenAI 与 Anthropic 的可核对公开案例附链接。一、演进为什么重心会从「提示」到「上下文」再到「束具」可以把三代重心理解成问题域在变大从「一句话怎么写」到「每一步模型看见什么」再到「整套系统怎么在真实世界里跑得稳」。Prompt Engineering提示工程核心问题是单次调用里指令怎么表达才能让模型更听话、更一致。它假设瓶颈主要在「措辞与结构」。当模型较弱、任务较窄时这很有效。Context Engineering上下文工程当窗口变大、工具变多、流程变长瓶颈转移到在每一步把「该知道的」以正确粒度、顺序、预算送进模型。它处理的是信息流与记忆/检索/工具结果的编排而不仅是提示文本本身。社区里常见表述是提示工程是上下文工程的子集。Harness Engineering束具工程再往前一步即使上下文配好了生产级失败往往来自系统层——工具调用失败、越权动作、成本失控、静默退化、分布漂移、评测与线上不一致等。Harness 关注的是模型之外的执行环境循环、约束、验证、恢复、观测与治理。Martin Fowler 等讨论里会用 Agent Model Harness 这类心智模型来概括「除模型以外的部分」。一句话串起来Prompt 解决「怎么说」Context 解决「给什么信息」Harness 解决「在什么规则与反馈下持续行动并被证明可靠」。术语说明「Harness」在英文里同时让人联想到测试束具test harness与马具/缰绳——前者强调可重复的驱动与断言后者强调约束与护栏两种联想对理解这一层都成立。二、构成Harness 通常包含哪些「模块」不同团队拆分方式不同但生产级 Harness 往往反复出现以下几类构件Context 通常被嵌套在 Harness 内而不是与之并列对立模块解决什么典型手段上下文与记忆长程任务中的精度与预算分步装配、摘要、外部状态文件/DB、子代理隔离噪声工具与编排何时调用什么、失败怎么办工具协议、权限、重试、超时、并行与 handoff验证与闭环防止「看起来对」schema 校验、单测/类型检查/静态分析、LLM-as-judge慎用、验收清单护栏与安全越权、注入、数据外泄输入/输出过滤、审批、沙箱、最小权限观测与评测可调试、可回归、可对比Trace、分级评测、数据集 eval、与线上结果对照人机协同高风险决策HITL、审批队列、可恢复的检查点Fowler 一文里还有一个实用二分前馈控制guides与反馈控制sensors——前者在行动前引导后者在行动后用「对模型友好」的信号例如带修复提示的 lint驱动自纠。三、实践OpenAI 与 Anthropic 在「真实产品/公开叙述」里怎么做OpenAI公开工程博文与平台能力「Harness engineering」作为方法论Codex 五个月、零手写代码的内部实验OpenAI 在 Harness engineering: leveraging Codex in an agent-first world 中描述团队用约五个月、以 Codex 生成应用、测试、CI、文档、可观测与内部工具等全部代码强调工程重心是环境设计、意图表达、反馈闭环而不是堆提示。文中量级叙述包括约百万行代码量级、约 1500 个 PR、小团队驱动等——这是官方对「Harness」一词在 AI 工程语境下的直接用法。产品化「Codex harness」与 App ServerUnlocking the Codex harness: how we built the App Server 把 Codex harness 定义为跨 Web/CLI/IDE/macOS 等表面共享的代理循环与配套逻辑并通过 Codex App ServerJSON-RPC 把同一条 harness 暴露给不同客户端——这是典型的「把执行环境产品化、协议化」的 Harness 工作。长程任务强调循环与外部化状态而非单条神 promptRun long horizon tasks with Codex 明确把可靠性归因于 plan → 改代码 → 跑工具 → 看结果 → 修错 → 更新文档/状态的闭环以及把 spec、计划、约束写进仓库文件作为耐久记忆——这是 Harness 层「状态与验证」的实践模板。平台侧Agents SDK 把 Harness concern 做成一等公民OpenAI Agents SDK 公开特性包含agent loop、handoff、guardrails、human-in-the-loop、tracing 等——这些正是「模型调用之外」的束具层。官方文档 Evaluate agent workflows 则把 trace 分级 → 数据集 eval 作为从调试走向可重复评测的路径。Skills Evals 的工程化闭环Testing Agent Skills Systematically with Evals 用 codex exec、JSONL 事件流、确定性检查描述如何把技能改进从「感觉更好」变成「可证伪的回归信号」——这是 Harness 中的 evaluation harness 范本。Anthropic工程博文、System Card、安全体系Claude Code「Auto mode」用分类器替代部分人工审批Claude Code auto mode: a safer way to skip permissions 描述两层防线输入层如面向工具输出的注入探测与输出层对将执行动作做分类决策并讨论 over-eager、误读范围、注入等失败模式——这是典型的 Harness 层安全与策略而不是改 system prompt 能单独解决的。System Card 中的 agentic safety / tool use 评测叙事例如 Claude Opus 4.6 system card 等文档中Anthropic 系统性地披露 agentic coding、工具滥用、提示注入鲁棒性、reward hacking、过度主动行为等评估维度。对工程团队而言这些公开材料说明供应商也在把「工具型智能体」的风险当成 harness eval safeguards 问题来管。上线后检测与分类器体系Building safeguards for Claude 概述前置评测实时分类器检测账户级处置聚合监控如分层摘要——这是把 Harness 从「开发态」延伸到「运营态」的完整链条。最后你怎么判断自己是在做 Harness 而不是「还在调 prompt」若你的工作主要在回答下面这类问题你已经在 Harness 层失败时能否定位到哪次工具、哪次 handoff、哪条 guardrail改动 prompt/模型版本后能否用 trace 数据集证明没有回归是否对权限、成本、超时、重试、人类审批有明确策略是否把「完成定义」写进了可执行的检查测试、schema、验收步骤而不只是文案OpenAI 用「五个月 Codex 实验」把结论写得很直白竞争力来自束具与闭环Anthropic 则用 Claude Code 与 safeguards 证明高自主性必须配分层检测与运营治理。两边合在一起恰好勾勒出第三次重心迁移的实质——从会聊的模型到会交付结果的系统。

Harness Engineering 是 AI 工程领域继 Prompt Engineering、Context Engineering 之后的第三次重心迁移。从演进、构成、实践三个角度把它讲透

最新文章

联想拯救者工具箱终极指南：开源轻量级硬件管理神器完全解析

Flutter for OpenHarmony：pull_to_refresh 下拉刷新与上拉加载适配实战

HDMI音频同步的“心跳”机制：深入浅出讲透N/CTS参数与时钟重建

别再傻等全量编译了！用gradlew processDebugManifest命令，30秒精准定位Android Manifest合并错误

用舞蹈链（DLX）算法搞定数独和八皇后：从理论到C++实战避坑

从M3U8密钥到DRM：实战解析主流流媒体视频加密方案

推荐文章

终极Python m3u8下载器：如何快速解密并批量下载加密视频的完整指南

5分钟搞定抖音素材批量下载：douyin-downloader让你的创作效率翻倍

Python高级应用系列（八）：并发编程——Threading、Multiprocessing与并发模式

CSS如何使用-is伪类缩减重复选择器_通过分组选择器提升代码维护效率

Vue.js监听器watch中deep深度监听与immediate立即执行配置

Redis怎样清理旧的快照文件_配合Shell脚本实现RDB历史备份轮转

相关文章

钢坯火焰清理机设计【开题报告+任务书+毕业论文+CAD图纸+翻译】

15 | Claude Code Hooks 事件驱动自动化：防微杜渐的安全防线

Linux党福利：Debian12下用VSCode+SDCC玩转51单片机（含WSL配置指南）

从微调到精控：可变电阻在音频电路中的深度应用解析

Mahony、互补滤波与卡尔曼：给嵌入式新手的六轴姿态融合算法选型指南

保姆级教程：在WSL2的Ubuntu 22.04上，用CUDA 12.9编译运行llama.cpp（含模型下载避坑指南）

分享文章

更多文章

宝塔面板安装后MySQL无法启动_修复数据表损坏与日志恢复

拒绝数字化“土方言”：从 0 到 1 建立企业 EDI 规范的避坑指南

【AIAgent可靠性黄金法则】：SITS2026权威发布的5大不可妥协要素（20年架构师亲验）

安装VMware后，没有VMnet1和VMnet8虚拟网卡，设备管理器里面VMnet1和VMnet8驱动有黄色感叹号的解决方案

Openclaw---接入Minimax Token Plan9折优惠

SP4523锂电池充放电 SOC

SITS2026多模态搜索上线前48小时：一场召回率突降38%的故障溯源与反脆弱加固

抖音直播WebSocket数据采集：破解实时弹幕与用户行为分析的技术方案

CefFlashBrowser：Flash内容兼容性一站式终极解决方案

提升企业知识使用率的运营活动设计指南

为什么92%的AIAgent在真实对抗测试中3秒内崩溃？揭秘工业级防御失效的4个反直觉设计盲区

2026年IATF16949认证咨询费解析：这笔钱到底花得值不值？