Anthropic发布革命性工具:让AI自己写代码、测试、修Bug

张开发
2026/4/18 2:01:17 15 分钟阅读

分享文章

Anthropic发布革命性工具:让AI自己写代码、测试、修Bug
Anthropic发布革命性工具让AI自己写代码、测试、修BugAnthropic刚刚发布的这项技术可能彻底改变开发者写代码的方式。你有没有想过以后写代码可能只需要说一句话AI就能帮你从零开始做出一个完整可用的App这听起来像科幻但Anthropic告诉你——这已经是现实了。一个关键发现AI最大的短板不是能力是自知之明2026年3月24日Anthropic发布了一篇重磅工程博客揭露了一个让整个AI圈震动的发现“同一个AI既当运动员又当裁判永远会给自己打满分。”这是什么意思Anthropic团队做了个对比实验单代理模式让一个Claude同时负责写代码和自测。结果呢20分钟烧了9美元产出的应用Bug遍地、功能残缺根本没法用。三代理模式把任务拆给三个AI各干各的。结果呢6小时烧了200美元产出的是一个完整可用的应用直接能上线。同样的AI为什么差距这么大答案很简单AI无法诚实评估自己的工作质量。你让AI自己测自己它永远觉得我写得挺好。三代理架构让AI像开发团队一样协作Anthropic从这个发现出发设计了一套革命性的架构叫Harness Engineering。核心就是三代理分工1️⃣ Planner规划者你跟它说“帮我做个记账App。”它会输出一份详细的规格说明书——界面怎么布局、功能有哪些、技术怎么实现全给你安排明白。2️⃣ Generator生成者拿到规格书它就开始老老实实写代码。不纠结、不内耗、不自我怀疑——规格说啥我做啥。3️⃣ Evaluator评估者这是整个架构的灵魂。它会真正运行应用用自动化测试工具模拟用户操作发现Bug就记录下来生成详细的反馈报告。三个AI形成一个闭环Generator写代码 → Evaluator测试 → 反馈问题 → Generator修复 → 再测试 → ……直到Evaluator觉得可以了整个流程才结束。为什么这套架构这么有效原因一专注产生质量每个AI只干一件事。规划的不用写代码生成的不用管测试评估的不用操心需求。专注带来专业。原因二天然的质量门槛Evaluator就像公司的代码审查员——写代码的人和审查代码的人必须分开这是常识。原因三成本可控效果翻倍升级到更强的Opus 4.6模型后成本直接从200美元降到了124美元还做出了一款功能完整的音乐制作工具。重磅Anthropic把Harness做成了产品你以为这只是理论Anthropic已经把它做成了商业产品。4月初Claude Managed Agents正式发布——一套可直接构建、部署、云托管的AI智能体服务。核心数据很吓人企业智能体构建与部署效率提升10倍开发时间从数月缩短到几天。它把AI Agent拆成了三个独立组件会话SessionAI的长期记忆任务可以跨天、跨周持续运行协调器Harness大脑和双手之间的神经网络调度任务、管理工具沙盒SandboxAI的隔离试验场即使出错也不影响主系统而且安全被内嵌到了架构里工具级隔离只读代理只有Read权限凭证外部存储AI生成的代码碰不到敏感令牌最小权限原则每个Agent只拿干活必需的权限对普通开发者意味着什么别再重复造轮子了。构建沙箱、管理凭证、配置权限、链路追踪——这些东西不需要你自己写。Anthropic替你干了。你只需要做两件事想清楚你的AI Agent要干什么画好线——告诉它哪些事情绝对不能做Harness正在从方法论变成云服务。就像当年云计算把服务器变成服务一样AI Agent的操作系统正在变成云产品。懂Harness的人和只会写Prompt的人差距会越来越大。写在最后Anthropic的工程师说过一句话我觉得特别到位“Agent本身的能力已经很强了真正的难点是Harness——如何给AI套上缰绳让它可靠地干活。”AI Agent的未来不是单打独斗的超级英雄而是一个配合默契的团队。你觉得这种多代理架构会改变软件开发的方式吗

更多文章