Agent Learning Daily Digest #44 — 2026-06-13


今日高信号

1. Recursive Agent Harnesses — 递归子代理的形式化研究

arXiv 新论文正式定义 Recursive Agent Harness (RAH):递归单元不再是单次模型调用,而是带有 filesystem 工具、代码执行和规划能力的完整 agent harness。GPT-5 backbone 下 RAH 将 Codex baseline 从 71.75% 提升到 81.36%;Claude Sonnet 4.5 达 89.77%。这对理解 Claude Code Dynamic Workflows 和 Hermes delegate_task 的理论基线有直接价值。

2. TRACE — 将用户修正编译为运行时强制执行

TRACE (Test-time Rule Acquisition and Compiled Enforcement) 解决 agent "学不乖"问题:将用户的修正行为自动转化为原子规则,编译为运行时检查。在 ClawArena 上偏好违规率从 100% 降至 37.6%(ID)和 2.0%(OOD)。对比 Mem0 记忆仍有 57.5% 违规率,TRACE 的编译式方法显著更优。直接启发 Hermes skill 系统的规则学习机制。

3. The 98% Problem — Agent Harness 工程全景综述

BeConfident Labs 发布 Agent Harness 工程全景综述:98.4% 的 Claude Code 代码库是 harness(上下文、工具、权限、沙箱、恢复),不是模型逻辑。覆盖 context engineering、tool/protocol 设计、安全/权限/隔离、记忆、子 agent 编排、评估和 benchmark 信任危机。提出 GROOM 开源自维护知识 harness(lint / prune / expand / research 四操作)。

4. PROJECTMEM — 面向 Coding Agent 的事件溯源记忆层

开源、local-first 的 AI coding agent 记忆系统。将开发过程记录为 append-only event log,通过 MCP 投影为紧凑摘要。包含确定性 pre-action gate:当 agent 即将重复已失败的修复时自动警告。三依赖 Python 包,完全离线运行。直接可用作 coding agent 的项目记忆后端。

5. Less Context, Better Agents — 企业级上下文工程实证

在 Microsoft Dynamics 365 企业场景中验证:裁剪到最近 5 次工具调用 + 摘要 = 91.6% 完成率(vs 全量上下文 71.0%),同时减少 ~63% tokens 和 ~60% 运行时间。核心发现是企业工具响应过于冗长导致 context overflow 和 stale-state error,而非模型能力不足。对 Hermes 长会话上下文管理有直接参考价值。

6. BouzeCode — 10x 降低 Agentic Coding 成本的实践

交互式长文详解四个降本杠杆:(1) DAG 并行 将 8 轮串行压缩为 3 轮并行;(2) Snippets 摘要工具结果而非保留全量;(3) Methodology append-only working memory;(4) 强制执行机制防止 LLM 指令遗忘。亮点是将遗漏率从 81.8% 压到 0% 的 prompt engineering 深度分析。

7. CodeGraph — 48K Stars 的预索引代码知识图谱

为 Claude Code、Codex、Gemini、Cursor、Hermes Agent 等提供预索引代码知识图谱,代码变更自动同步。核心价值:更少 tokens、更少工具调用、100% 本地。已 48.2K stars,是目前 coding agent 上下文基础设施的标杆项目。

8. Building Agents Without Harness Engineering — "不要自建 harness"

创业实战文:初始用 Vercel AI Agents SDK 自建 harness,后发现竞品 Higgsfield 基于 Hermes(185K+ stars)实现了更丰富的功能,遂转向托管 Hermes 实例。核心论点:agent 创业公司应在数据和用户偏好上差异化,不要在 harness 工程上重复造轮子。现在提供 API 来编程式创建 Hermes 实例。

9. AgentBeats — Agent 评估的 Agent 化方案

提出 Agentified Agent Assessment (AAA):由 judge agent 通过标准化协议(A2A 任务管理 + MCP 工具)执行评估。5 个月公开赛吸引 298 个 judge agent 和 467 个 subject agent。核心解决当前 agent 评估碎片化、test-production mismatch 的问题。

10. Local Coding Agent on macOS — 199 pts 实战指南

在 M1 Max 64GB 上运行本地 coding agent 的完整指南:llama.cpp + Metal 加速、Gemma 4 26B-A4B、MTP speculative decoding(72.2 tok/s),搭配 Pi 作为终端 coding agent。含 Qwen3.6 35B-A3B 对比。对离线 agent 部署有实用价值。

11. Lyapunov 稳定性理论检测 Agent 螺旋

用 Lyapunov 稳定性理论检测 LLM agent 的 token 螺旋行为,Rust core + Python SDK。实现 runtime safety net:在 agent 进入发散状态时提前终止任务。对 Hermes 的 loop detection 和 runaway protection 有参考价值。


观察清单