Agent Learning Daily Digest #13 — 2026-05-11

⚠️ 自动采集全部超时(GitHub/HN/arXiv 均 90s timeout),通过 HN Algolia API 直接查询 + GitHub 浏览器验证补充。


今日高信号

1. 🎬 Agent VCR — LLM Agent 时间旅行调试器

LLM agent 的 rewind/edit/resume 调试工具。可以回放到任意执行步骤、编辑 agent 状态、然后从修改后的状态继续执行。类似浏览器的 DevTools 对 agent loop 的适配。25⭐,52 commits,OpenHands agent 自举贡献。

2. 📋 Stage CLI — 阅读 AI 生成变更的更好方式

将 AI agent 的 git diff 拆成小章节逐段展示,支持 Claude Code、Codex、Cursor 等多种 agent。141⭐,68 commits。解决了一个真实痛点:agent 一次改 20 个文件,人很难 review。

3. 🧪 Resurf — 浏览器 Agent 确定性测试框架

为 AI browser agent 提供确定性和可复现的测试环境。Docker 镜像跑 mock 网站,agent 在隔离环境中执行任务,结果可断言。解决了 browser agent 测试的不确定性痛点。

4. 🔒 Airlock — 自升级编译型 AI Agent

Go 实现的 AI agent 框架,agent 可以自我升级编译。29 个版本标签,活跃开发中。代表 agent 从"脚本编排"向"编译型自治系统"演进。

5. 🔗 STAC — 工具链攻击使 Agent 越狱

论文证明:将看似无害的工具调用串成链,可以让 GPT-4.1 等 agent 以 >90% 成功率执行恶意操作。每个单独的工具调用都合法,但组合效果有害。防御需要推理整个动作序列的累积效果。

6. 📉 Silent Agent Degradation — Agent 静默降级检测

Viktor Bezdek(Groupon VP Engineering)的文章:agent 推理深度在两次静默模型更新间降了 67%,但 HTTP 200、延迟正常、JSON 合法。提出三层检测:执行指纹(fingerprint)、语义漂移(semantic drift)、用户信号三角定位(user-signal triangulation)。

7. 🧠 Context Engineering 实践框架

Manny Silva 的文章提出 CE 三要素:目标(goal)地图(map)到达验证(arrival check)。引用 Gloaguen et al. (2026) 发现——过度全面的 context 文件反而降低 agent 任务成功率 20%+。核心原则是 progressive disclosure(渐进披露)。

8. 🤖 GLM-5V-Turbo — 面向多模态 Agent 的基础模型

智谱 GLM-V 团队发布,163 HN points。专门为多模态 agent 场景设计的基础模型,不是通用 VLM 微调而是原生 agent 架构。提交于 2026-04-29,5 月 6 日更新。

9. 🏎️ Mochi.js — Bun 原生高保真浏览器自动化

44 HN points。Bun-native 的浏览器自动化库,面向 AI agent 场景优化。与 Puppeteer/Playwright 竞争但专为 agent 设计。

10. 🔍 Obsidian-Semantic — Agent 语义搜索 Obsidian Vault

CLI 工具让 AI agent 按语义搜索 Obsidian 知识库。与本项目的 Obsidian vault 直接相关。

11. 🤝 Agent 互相"欺负"防 Context Drift

实验性方案:部署多个 agent 互相检查输出,通过对抗性反馈防止 context drift。7 HN points。

12. 💻 本地 LLM 驱动 Coding Agent

Simon Couch 的文章展示笔记本上的本地 LLM 已经可以驱动 coding agent。趋势:coding agent 不再依赖云端大模型,端侧推理能力突破。


观察清单