Agent Learning Daily Digest #13 — 2026-05-11

⚠️ 自动采集全部超时（GitHub/HN/arXiv 均 90s timeout），通过 HN Algolia API 直接查询 + GitHub 浏览器验证补充。

今日高信号

1. 🎬 Agent VCR — LLM Agent 时间旅行调试器

LLM agent 的 rewind/edit/resume 调试工具。可以回放到任意执行步骤、编辑 agent 状态、然后从修改后的状态继续执行。类似浏览器的 DevTools 对 agent loop 的适配。25⭐，52 commits，OpenHands agent 自举贡献。

🔗 https://github.com/ixchio/agent-vcr

2. 📋 Stage CLI — 阅读 AI 生成变更的更好方式

将 AI agent 的 git diff 拆成小章节逐段展示，支持 Claude Code、Codex、Cursor 等多种 agent。141⭐，68 commits。解决了一个真实痛点：agent 一次改 20 个文件，人很难 review。

🔗 https://github.com/ReviewStage/stage-cli

3. 🧪 Resurf — 浏览器 Agent 确定性测试框架

为 AI browser agent 提供确定性和可复现的测试环境。Docker 镜像跑 mock 网站，agent 在隔离环境中执行任务，结果可断言。解决了 browser agent 测试的不确定性痛点。

🔗 https://github.com/lightfeed/resurf

4. 🔒 Airlock — 自升级编译型 AI Agent

Go 实现的 AI agent 框架，agent 可以自我升级编译。29 个版本标签，活跃开发中。代表 agent 从"脚本编排"向"编译型自治系统"演进。

🔗 https://github.com/airlockrun/airlock

5. 🔗 STAC — 工具链攻击使 Agent 越狱

论文证明：将看似无害的工具调用串成链，可以让 GPT-4.1 等 agent 以 >90% 成功率执行恶意操作。每个单独的工具调用都合法，但组合效果有害。防御需要推理整个动作序列的累积效果。

🔗 https://arxiv.org/abs/2509.25624

6. 📉 Silent Agent Degradation — Agent 静默降级检测

Viktor Bezdek（Groupon VP Engineering）的文章：agent 推理深度在两次静默模型更新间降了 67%，但 HTTP 200、延迟正常、JSON 合法。提出三层检测：执行指纹（fingerprint）、语义漂移（semantic drift）、用户信号三角定位（user-signal triangulation）。

🔗 https://www.ainative.builders/platform/silent-agent-degradation-detection
💡 观察：四种漂移类型（behavior/capability/policy/dependency）分类清晰。对 Hermes 的 cron job 质量监控有直接参考价值。

7. 🧠 Context Engineering 实践框架

Manny Silva 的文章提出 CE 三要素：目标（goal）、地图（map）、到达验证（arrival check）。引用 Gloaguen et al. (2026) 发现——过度全面的 context 文件反而降低 agent 任务成功率 20%+。核心原则是 progressive disclosure（渐进披露）。

🔗 http://instructionmanuel.com/context-engineering-for-agents

8. 🤖 GLM-5V-Turbo — 面向多模态 Agent 的基础模型

智谱 GLM-V 团队发布，163 HN points。专门为多模态 agent 场景设计的基础模型，不是通用 VLM 微调而是原生 agent 架构。提交于 2026-04-29，5 月 6 日更新。

🔗 https://arxiv.org/abs/2604.26752
💡 观察：国产模型在 agent-native 方向发力。与 another-rule-engine 的结合——规则引擎可做 agent 的决策外挂。

9. 🏎️ Mochi.js — Bun 原生高保真浏览器自动化

44 HN points。Bun-native 的浏览器自动化库，面向 AI agent 场景优化。与 Puppeteer/Playwright 竞争但专为 agent 设计。

🔗 https://mochijs.com/

10. 🔍 Obsidian-Semantic — Agent 语义搜索 Obsidian Vault

CLI 工具让 AI agent 按语义搜索 Obsidian 知识库。与本项目的 Obsidian vault 直接相关。

🔗 https://github.com/ravila4/obsidian-semantic-search

11. 🤝 Agent 互相"欺负"防 Context Drift

实验性方案：部署多个 agent 互相检查输出，通过对抗性反馈防止 context drift。7 HN points。

🔗 https://wuphf.team
💡 观察：多 agent 对抗式审查作为 CE 质量保障策略，与 claude-octopus 的多模型盲评互补。

12. 💻 本地 LLM 驱动 Coding Agent

Simon Couch 的文章展示笔记本上的本地 LLM 已经可以驱动 coding agent。趋势：coding agent 不再依赖云端大模型，端侧推理能力突破。

🔗 https://simonpcouch.com/blog/2026-04-16-local-agents-2/

观察清单

Agent 调试基础设施正在成型：Agent VCR（时间旅行）+ Stage CLI（diff 分章）+ Resurf（确定性测试）= 完整的 agent 开发调试链。
静默降级是生产 agent 的头号风险，传统监控完全无法捕获。需要专门的 agent quality monitoring。
工具链攻击（STAC）揭示 agent safety 的盲区：单步检查不够，必须审查完整执行链。与 another-rule-engine 的规则链检测天然互补。
本地 LLM coding agent趋势加速，端侧推理 + 沙箱将成为 coding agent 的标准部署模式。