开源多 Agent Autoresearch:用 Hugging Face + OpenCode 构建一个真正自主研究的 AI 实验室

张开发
2026/6/3 16:49:24 15 分钟阅读
开源多 Agent Autoresearch:用 Hugging Face + OpenCode 构建一个真正自主研究的 AI 实验室
你在本地跑一个 LLM 实验改一个超参、训一次、看 val_bpb结果每次都要手动写脚本、管队列、记日志、分析失败原因。AI 确实让单次实验快了很多但整个研究流程依然是“人肉协调”——Agent 只会执行不会主动规划、不会并行探索、不会把失败转化为下一轮假设。我起初以为多 Agent 系统只要把任务拆开就能自动跑通后来把 Ben Burtenshaw 这篇完整项目拆解后才发现行业最缺的不是更强的单 Agent而是一套真正能协同、能记忆、能自我迭代的开源研究实验室。这个项目把 Karpathy 的 autoresearch 彻底多 Agent 化用 OpenCode Hugging Face Hub 实现了研究员、规划者、工人、报告员四角色闭环真正把“跑实验”升级成了“自主科研”。核心冲突执行问题已解决研究闭环才是硬骨头大多数 ML Agent 基础设施解决的是“怎么让 Agent 在 GPU 上跑代码”。OpenCode、Claude、Codex 等代码 Agent 已经把这一步做得很好。真正的难点发生在“跑完之后”发生了什么为什么失败下一步该试什么这个项目把整个 autoresearch 定义成一个严格的实验循环一个假设 → 一个 patch → 一次受控 run → 记录结果 → 决定是否 promote。所有环节都交给 Agent 自主完成。四大 Agent 角色 完整实验流水线项目用 OpenCode 实现了四个高度专业化的角色每个角色都有独立的 .md 定义和 AGENTS.md 模板Researcher研究员在 Hugging Face Papers 上搜索最新思路定义研究假设。Planner规划者中央协调者维护实验队列决定下一个 hypothesis。Worker工人在隔离的 git worktree 中执行脚本只改一个地方跑一次 job。Reporter报告员用 Trackio 同步 HF Jobs 状态生成 fleet summary、metric dashboard、异常分析。下面是用 Mermaid 绘制的完整实验循环可直接复制到 Markdown 编辑器查看是否Researcher: 搜索 HF Papers → 定义假设Planner: 入队 分配 WorkerWorker: 隔离 worktree → 单 patch → 提交 HF JobReporter: Trackio 记录 → 生成 summary dashboard结果是否优于 baseline?Promote master 更新知识Planner 吸收失败信号 → 新假设Hugging Face Hub 成为真正的 Agent 基础设施项目最聪明的地方是把 HF Hub 当成一套开源原语HF Buckets共享缓存和存储层一次 prepare后续实验复用HF Jobs执行层uv run 显式硬件、timeout、labelsTrackio可观测层实时 dashboard 异常检测HF Papers研究层Researcher 直接搜索最新论文所有基础设施都是开放、可复用的Agent 可以根据需要自行适配而非绑定某个 vendor 的控制平面。传统单 Agent vs 多 Agent Autoresearch 决策矩阵维度传统单 Agent 实验多 Agent Autoresearch Lab关键权衡与边界条件实验吞吐串行手动队列并行 Worker Planner 调度速度 vs 协调复杂度失败分析人工看日志Reporter Trackio 自动总结人为瓶颈 vs 可观测性知识积累每次从零开始Researcher 持久 memory-keeper一次性 vs compounding角色分工一个 Agent 什么都干专业化角色 隔离 worktree简单 vs 生产级可维护基础设施本地 GPU / 单云厂商HF Hub 全开源原语封闭 vs 可复用适用场景快速验证单个想法长期自主科研、benchmark 冲榜原型 vs 实验室级在生产环境落地这个多 Agent 实验室前必须先做的三件事把项目代码 clone 到本地burtenshaw/multiautoresearch先用 OpenCode 启动 primary agent验证 AGENTS.md 角色定义是否能正常加载配置 HF Hub 凭证和 Trackio跑一次完整 wave多 Worker 并行观察 Reporter 生成的 dashboard 是否真的能帮你快速定位异常从一个简单假设开始严格遵守“一个 hypothesis、一个 patch、一次 run”的规则先在小规模上验证闭环再逐步放大。当多 Agent 真正跑起自主研究之后这个项目证明开源 Agent 基础设施已经成熟到可以构建一个真正的“AI 研究实验室”。它不是把人从实验中解放出来而是把整个研究流程变成了可观测、可迭代、可 compounding 的智能系统。未来科研不再是“人指挥 Agent 跑实验”而是“Agent 团队自主探索、人类只做最终 Judgement”。你准备好把自己的研究流程也多 Agent 化了吗欢迎在评论区分享你在用 OpenCode / Claude / Cursor 做 ML 实验时最大痛点是实验调度还是结果分析试过这个 multiautoresearch 项目后实际体验如何把你的观察贴出来我们一起把这个开源 Agent 研究框架迭代得更硬核。本文基于开源多 Agent autoresearch 实现细节及 OpenCode 配置代码仓库 burtenshaw/multiautoresearch 已开源欢迎直接 star 并试跑。我是紫微AI在做一个「人格操作系统ZPF」。后面会持续分享AI Agent和系统实验。感兴趣可以关注我们下期见。

更多文章