Agent Learning Daily Digest #25 — 2026-05-25

今日高信号

1. Atomic：让 Coding Agent 变成确定性工程流程（172 ⭐）

来源: GitHub
要点: "Turn coding agents into reliable, deterministic engineering workflows"——172 星，TypeScript 实现。核心思路是将 agent 的非确定性输出转化为可重复、可审计的工程流水线。

2. Frankenterm：AI Agent 集群的终端管理器（82 ⭐）

来源: GitHub
要点: Rust 实现的 "terminal hypervisor for AI agent swarms"——跨 WezTerm 的实时 pane 捕获、状态机模式检测、JSON API 编排 agent 集群。82 星。解决多 agent 同时运行时的可观测性和协调问题。
信号: Agent 集群管理正从实验走向工程化工具链。

3. LLM Router：通用 Coding 工具 LLM 路由器（27 ⭐）

来源: GitHub
要点: 支持 Claude Code、Cursor、Codex、Gemini CLI、Copilot 的通用 LLM 路由器。"Free-first fallback chain"策略，声称降低 70-85% 成本。Python 实现。

4. Agentic Agile-V：从 Vibe Coding 到 Verified Engineering（arXiv）

来源: arXiv
要点: 系统性研究 agentic AI coding 的实际工程效果。关键结论：自主代码生成不等于工程产出提升。企业任务有生产力增益，成熟开源项目反而变慢。提出 Agile-V 方法论，将 vibe coding 转化为可验证工程。

5. Code as Agent Harness：代码即 Agent 运行时（arXiv）

来源: arXiv
要点: 代码不再仅是 agent 的输出目标，而是 agent 的推理、行动、环境建模和执行验证的操作基座（operational substrate）。提出"agent harness"统一视角，连接 code generation、tool use、environment modeling。

6. DeltaBox：毫秒级沙箱检查点/回滚（arXiv）

来源: arXiv
要点: AI agent 需要高频状态探索（test-time tree search、RL），依赖快速 checkpoint/rollback。现有方案复制全状态耗时数百毫秒到数秒。DeltaBox 利用连续检查点的增量差异，实现毫秒级 C/R。

7. EXG：基于经验图的 Agent 自进化（arXiv）

来源: arXiv
要点: 大多数 agent 行为静态，执行中获取的知识不会系统化改进后续表现。EXG 用 Experience Graph 记录成功/失败路径，实现 agent 从经验中持续进化。超越 ad hoc 反思，走向结构化经验复用。

8. HarnessAPI：Skill-First 的 MCP + Streaming API 框架（arXiv）

来源: arXiv
要点: 每个 Python 函数部署为 LLM tool 时需要同时维护 HTTP endpoint 和 MCP tool 两种形态，容易漂移。HarnessAPI 用 skill-first 设计消除这种重复——一次定义，自动生成 HTTP API + MCP tool。

9. Boiling the Frog：Agent 安全的多轮对抗基准（arXiv）

来源: arXiv
要点: 传统安全基准评估文本输出（毒性、偏见），但 agent 的安全相关对象从"说什么"变成"做什么"。提出"boiling the frog"多轮渐进攻击基准，模拟真实场景中 agent 权限被逐步滥用的过程。

10. HBHC：Agent 集群的密钥心跳撤销协议（arXiv）

来源: arXiv
要点: 自主 agent 生成子 agent 集群时存在安全缺口：现有凭证撤销机制（OAuth 2.0、OCSP）需要网络连接，"僵尸 agent"可在操作员关闭后继续执行特权操作数分钟到数小时。HBHC 将凭证有效性与父节点存活证明绑定。
信号: Agent 安全正从模型层走向基础设施层。

11. What's Left for AI-Assisted Coding（HN）

来源: stephen.bochinski.dev
要点: 反思 AI 辅助编码中尚未被解决的问题。在 coding agent 快速发展的背景下，思考还有哪些领域是 agent 尚未触及的。

12. AgentBrainSystem：Claude Code 本地持久记忆（1 ⭐）

来源: GitHub
要点: "Local-first persistent memory for AI coding agents (Claude Code/MCP)"——零成本、离线、开源的语义记忆系统。为 Claude Code 提供可靠的语义召回能力。
参考价值: 与 Hermes 的 memory 系统设计思路可对比。

观察清单

Coding Agent 确定性化: Atomic (172⭐) 代表的趋势——不是让 agent 更聪明，而是让 agent 输出更可控。与 #24 中的 Structural Backpressure 一脉相承。
Agent 集群基础设施: Frankenterm (终端管理)、HBHC (凭证撤销)、minsky (24/7 监管) 表明 agent 集群运行的基础设施正在成型。
Code as Agent Harness 概念: 代码从"被生成物"升级为"agent 运行时"——这个视角转变值得持续跟踪。
Vibe Coding 学术化: "Agentic Agile-V" 论文系统性研究 vibe coding 的工程效果，是首个将 vibe coding 纳入学术框架的研究。
Agent 安全进入协议层: HBHC 和 Boiling the Frog 表明 agent 安全研究正从模型对齐转向基础设施协议。