我发现很多人都误解了Harness这个概念

本文来自微信公众号：碳基智，作者：碳基智

最近因为工作关系，我花了不少时间研究AI编程产品的架构设计，尤其是Claude Code、Cursor、CodeBuddy这类产品背后的Harness Engineering。

在看了大量技术博客、社区讨论、还有Anthropic团队在各种场合的分享之后，我发现一个问题：

很多人对Harness最流行的那套理解，很可能是错的。

在很多人的理解里，Harness就是一个补丁，因为模型现在还不够好，所以需要在外面包一层东西来补它的缺陷。等模型足够强了，这层东西就会消失，大家又可以回到「直接把任务丢给模型」的简单世界。按这个逻辑，Harness就是一种临时性的补丁，是从AI辅助写代码到AI独立工作这条路上的过渡态。

这个理解非常符合大家对技术进步的直觉判断，缺陷被能力抹平，工具被智能取代，好像……没毛病？

但它解释不了一个很具体的事实，而事实是证伪最好的依据。

Claude最新的模型比一年多前的Sonnet 3.5强了不止一个量级，无论是代码能力、推理深度还是指令跟随，都能给到一个夯。

可你去看Claude Code这一年多的演进，你会发现：

query loop变复杂了，权限策略变细了，compact机制从简单截断变成了带摘要的上下文换页，hook系统从无到有，sub-agent并行架构从单线程变成了多worker协作。

不对啊，这不都是Harness的东西吗，它甚至在每一个维度上都变厚了。

如果Harness只是能力补丁，模型变强应该让补丁变少才对。实际情况正好相反。

Harness到底在做什么？我举个更好理解的例子：

想想你们公司管理新来实习生和管理一个总监的区别。实习生你基本不怎么管，给他派个活儿，他做完拿给你看就行了。为什么不管？因为他能干的事本来就少，权限有限，出不了大乱子。

但一个总监呢？OKR对齐、跨部门协调、定期汇报、预算审批、权限分级、下属管理……围绕他建立的管理机制比实习生复杂十倍。这是因为总监能力不行吗？恰恰相反，是因为他能调动的资源太多了、做的决策影响太大了、涉及的协作面太广了，所以需要更精密的协调和管控机制来确保他的能力被正确释放。

Harness和模型的关系，跟管理体系和员工的关系是同构的。模型越强，它能做的事越多、单次操作的影响越大、需要协调的上下文越复杂，围绕它建立的运行时机制就必须越精密。

换个更底层的类比：CPU和操作系统。Intel 8086时代的DOS几乎没有进程管理、没有内存保护、没有权限隔离。现在M4 Ultra上跑的macOS有虚拟内存、有沙箱、有进程调度器、有精细到每个文件的权限系统。

CPU从8086进化到M4 Ultra，操作系统从来没有因此变薄过。因为操作系统解决的问题是：一个强大但无状态、无边界的计算引擎，如何安全、可控地嵌入到一个有状态、有后果的真实世界中。

Harness就跟个操作系统一样。

具体拆解下来，Harness有四个职能，每一个都跟模型能力正相关而非负相关：

上下文管理。模型有context window的物理限制，但更关键的是，即使窗口无限大，注意力也有信噪比。塞进去的信息越多，每一条信息被有效利用的概率越低。Claude Code的compact机制就是在做虚拟内存——把当前不用的东西换出去、需要的时候换回来、中间做摘要保持连续性。模型越强、单次会话做的事越多，这套机制的压力就越大。

权限边界。一年前的模型大多数时候不敢也不会执行高危操作。现在的模型不但敢，而且真的能正确判断”该删的时候删”。恰恰因为它”能”了，围栏就得更精细。一个笨小孩拿剪刀你不太操心，一个身手灵活的成年人拿刀你得更关心他往哪挥。

任务编排。模型弱的时候，你给它的活是”改这个函数”。模型强了之后，你可以说”重构整个认证系统”。后者需要拆解成子任务、决定执行顺序、并行处理独立部分、在子任务间传递上下文、出了问题能回溯。这套调度逻辑只会随着任务规模的膨胀而变复杂。

人机协议。模型越自主，人的焦虑越大——它在做什么？走偏了怎么办？怎么纠正方向？Task list、plan mode、审批机制、进度可视化，这些不是”模型不行才需要的辅助轮”，是信任基础设施。你把一个天才员工放到高度自主的岗位上，反而需要更清晰的汇报制度和决策边界，不是更少。

四个职能里没有任何一个会因为模型变强而趋向消失，它们全部是正相关！

模型能力越强，对这四层基础设施的需求越大。现在你告诉我，Harness怎么可能随着模型能力的增长被填平？Tell me！

写到这里，可能有人要搬出Claude Code的创造者Boris在红杉AI大会上的发言来杠我了。

他说：

随着模型能力增强，产品层的重要性会下降，很多原来由产品层做的事模型会自己完成。他还具体点了名，比如防prompt注入、命令静态校验、权限模式、人工审批，这些都是模型能力不足时的补丁，模型够强就会退出。

理解起来，好像确实是在说Harness会消失啊？

但你再看下他后面提到的Claude Code正在推进的工作呢？

让loop成为一等功能、大规模并行Agent管理、Claude Design、computer use持续进化……

这些东西，不还是Harness的范畴吗？

防prompt注入、静态校验、人工审批，这些东西存在的原因是「我不信任模型的判断，所以在外面加一道校验」。这是防御性Harness，它确实是补丁，模型判断力够了，它确实可以跪安。

但loop一等化、并行agent编排、computer use，这些东西存在的原因是「模型已经够强了，我需要更复杂的运行时来释放它的能力」。这是使能性Harness（原谅我实在不想用赋能这个词），它是基础设施，只会随着模型能力的增长而增长。

所以，我觉得，更合理的理解是，Harness压根就不是补丁，它也不可能随着模型能力的增强被填平，反而会成为模型之外一个十分重要的，像操作系统一样的东西。

我个人判断，Harness Engineering会成为一个独立的、越来越重要的工程学科。

操作系统工程从来不会因为CPU变强而消失，反而随着硬件能力解锁而变得更复杂、更精妙。

这也是为什么Anthropic花巨大精力做Claude Code的harness，而不是只堆模型参数。

#我发现很多人都误解了Harness这个概念

我发现很多人都误解了Harness这个概念

奢侈品“拉黑”一条街背后，有人买到污损的“二手”商品

锅笑壶黑？Shein和Temu海外“互殴”：一个指责盗图，一个举报垄断

随特朗普访华的四家芯片巨头，与中国市场的往事

发表回复取消回复

Live casino ma faktycznie wspanialy klimat, dobry Thomas Nelson Strona bardzo szybko sie stanie laduje

Nos Prime Sans avoir de i� Annales : Mon Achevement de chaque Joueur ?

La sécurité les reglements ou entiers leurs préconisations credibles pratiquees

【随笔】泡泡玛特2026年一季度业绩及交流会思考

Boomsbet Salle de jeu – Nouveau méga presse avec des produits allechantes

Live casino ma faktycznie wspanialy klimat, dobry Thomas Nelson Strona bardzo szybko sie stanie laduje

Searching for the forgotten heroes of World War Two

‘Somebody threatened to burn the school down’

Trump-Putin: Your toolkit to help understand the story

Business booming for giant cargo planes

王毅分别会见阿联酋总统中国事务特使、日本国际贸易促进协会会长

联合国：袭击试图获取食物援助的加沙平民的行径“令人发指”

韩国总统李在明正式宣誓就职

俄侦查委员会：俄两座桥梁被炸系乌克兰所为

第五届“中菲相知奖”颁奖仪式在马尼拉成功举行

你感兴趣的其他新闻

Live casino ma faktycznie wspanialy klimat, dobry Thomas Nelson Strona bardzo szybko sie stanie laduje

Nos Prime Sans avoir de i� Annales : Mon Achevement de chaque Joueur ?

La sécurité les reglements ou entiers leurs préconisations credibles pratiquees

【随笔】泡泡玛特2026年一季度业绩及交流会思考

Boomsbet Salle de jeu – Nouveau méga presse avec des produits allechantes

最新文章

图库

阅读更多相关

发表回复 取消回复

你感兴趣的其他新闻

标签云

最新文章

图库

发表回复取消回复