Agent Learning Digest — 2026-05-01

采集 94 条。5 月 1 日 09:00 的 Hermes cron 已启动，但模型调用返回“访问量过大”，未写入 vault；本次为手动补跑采集后整理。筛选 12 条高信号。

今日高信号

1. openai/codex — 终端里的轻量 Coding Agent

来源：https://github.com/openai/codex
规模：⭐79217 · Rust
摘要：OpenAI 的轻量级 coding agent，运行在 terminal 中。它代表 coding agent 从 IDE 插件走向 CLI/本地开发循环的主流方向。
为什么值得看：Codex 的形态适合拆解 coding agent 的最小闭环：读仓库、规划、编辑、执行命令、测试、回滚。

2. NousResearch/hermes-agent — 本地长期运行 Agent

来源：https://github.com/NousResearch/hermes-agent
规模：⭐127079 · Python
摘要：定位为“会随你成长的 agent”，支持 skill、cron、gateway、memory 等长期运行能力。
为什么值得看：当前 vault 的日报自动化已经使用 Hermes。它是理解“个人 agent 操作系统”的直接样本。

3. stagewise — 面向 Web 开发的浏览器内 Coding Agent

来源：https://github.com/stagewise-io/stagewise
规模：⭐6658 · TypeScript
摘要：为开发者构建的浏览器，内置 coding agent，强调 web UI 调试和修改场景。
为什么值得看：和 terminal agent 不同，stagewise 把 agent 放进浏览器上下文，适合研究“可视状态 + 代码修改”的协作方式。

4. deepagents — LangGraph Agent Harness

来源：https://github.com/langchain-ai/deepagents
规模：⭐22076 · Python
摘要：LangChain/LangGraph 的 agent harness，内置 planning tool、filesystem backend 和 subagent 生成能力。
为什么值得看：它把复杂任务需要的 planning、文件系统状态、subagent 编排变成框架级能力，是 LangGraph 生态的重要参考。

5. get-shit-done — Context Engineering + Spec-Driven Development

来源：https://github.com/gsd-build/get-shit-done
规模：⭐59087 · JavaScript
摘要：Claude Code 的 meta-prompting、context engineering、spec-driven development 系统。
为什么值得看：它解决的是长任务不跑偏的问题：用 roadmap、phase、plan、state 等文件持续约束 agent。

6. agent-systems-handbook — Agent 系统实践手册

来源：https://github.com/Prompthon-IO/agent-systems-handbook
规模：⭐75 · MDX
摘要：覆盖 agentic workflows、LangGraph、MCP、A2A、context engineering、agent memory、evaluation、observability、多 agent 架构。
为什么值得看：这是路线图型资料，可以用来对照当前 wiki 的概念缺口。

7. Andrej Karpathy: From Vibe Coding to Agentic Engineering

来源：https://news.ycombinator.com/item?id=47971697
视频：https://www.youtube.com/watch?v=96jN2OCOfLs
摘要：Karpathy 从 vibe coding 过渡到 agentic engineering 的公开讨论。
为什么值得看：这个话题正好连接“随手让 AI 改代码”和“系统化构建 coding agent 工程流程”之间的差异。

8. CARE — 三方协作的 Agent 工程方法论

来源：https://arxiv.org/abs/2604.28043v1
摘要：Collaborative Agent Reasoning Engineering，提出由领域专家、开发者、LLM helper agents 共同参与的 agent 工程方法。
为什么值得看：它把 agent 构建从 trial-and-error 提升到阶段化工程流程，强调行为规格、grounding、工具编排和验证。

9. Contextual Agentic Memory is a Memo, Not True Memory

来源：https://arxiv.org/abs/2604.27707v1
摘要：指出很多 agent memory 只是 lookup，不是真正的 memory；混淆 retrieval 和记忆会影响长期学习、安全和泛化。
为什么值得看：这是 agent memory 概念澄清论文，适合补充“向量库不是记忆”的论证。

10. Schema-Grounded Memory — 从非结构化回忆到系统记录

来源：https://arxiv.org/abs/2604.27906v1
摘要：认为生产级 agent memory 需要支持精确事实、当前状态、更新删除、聚合、关系、未知项，而不是只做 embedding 检索。
为什么值得看：它提供了 memory 结构化的方向：从“搜索旧文本”转向“可维护的系统记录”。

11. TDD Governance for Multi-Agent Code Generation

来源：https://arxiv.org/abs/2604.26615v1
摘要：把经典 TDD 的 Red-Green-Refactor 作为多 agent 代码生成的 prompt-level/process-level 约束，而不是把测试当辅助输入。
为什么值得看：适合研究 coding agent 的治理层：如何让 agent 遵守开发纪律，而不是只靠模型自觉。

12. Agentic AI in the Software Development Lifecycle

来源：https://arxiv.org/abs/2604.26275v1
摘要：综述 agentic AI 对软件开发生命周期的影响，讨论 Claude Code、OpenAI Codex CLI、Jules、Devin、OpenHands、SWE-agent、MetaGPT、ChatDev 等系统。
为什么值得看：这是理解 coding agent 从补全工具升级为 repo/feature/algorithm 级协作者的综述材料。

观察清单

Recursive Multi-Agent Systems：https://arxiv.org/abs/2604.25917v1 — 把递归计算思想扩展到多 agent 协作。
FAMA：https://arxiv.org/abs/2604.25135v1 — failure-aware meta-agentic framework，关注工具使用环境中的失败恢复。
Uncertainty Quantification for LLM Function-Calling：https://arxiv.org/abs/2604.22985v1 — 关注函数调用置信度，适合 agent tool safety。
SAFEdit：https://arxiv.org/abs/2604.25737v1 — 多 agent 分解能否提升 instructed code editing 的可靠性，待验证。