Agent Learning Daily Digest #29 — 2026-05-29
今日高信号
1. Claude Code Dynamic Workflows 发布 — 并行子代理编排
Anthropic 正式发布 Claude Code Dynamic Workflows:可在单次会话中动态编写编排脚本,运行数十到数百个并行子代理。用例包括全代码库 bug 搜索、大规模迁移、安全审计。研究预览版面向 Max/Team/Enterprise。案例:Jarred Sumner 用它把 Bun 从 Zig 移植到 Rust(~750K 行 Rust,11 天)。
- 🔗 https://claude.com/blog/introducing-dynamic-workflows-in-claude-code
- HN 132 points, 109 comments
2. Ktx — 可执行上下文层 for 数据代理
开源可执行上下文层(executable context layer),为数据分析代理提供结构化的上下文管理。290 stars,活跃开发中。HN 47 points。
3. Nezha — Claude Code & Codex 多代理 UI
1.3k stars 的代码编辑器,支持在同一台机器上跨项目运行多个 Claude Code 和 Codex 代理。代表了 coding agent IDE 化的趋势。
4. Agent Skill 生态系统安全威胁报告
分析 3,984 个 AI 代理 skill,发现 76 个确认恶意 payload(凭证窃取、后门安装、数据泄露)。13.4% 的 skill 含至少一个 critical 安全问题。至少 8 个已确认恶意 skill 仍在 clawhub.ai 公开可获取。
- 🔗 https://arxiv.org/abs/2605.28588v1
- 风险信号:skill marketplace 的供应链安全问题值得高度关注,Hermes 的 skill 体系需要安全审计机制。
5. DeepSWE — 长视野 coding agent 基准
Datacurve 发布 contamination-free 的长视野 coding agent 基准。113 个任务,覆盖 91 个仓库/5 种语言,比 SWE-bench Pro 多 5.5x 代码量,hand-written verifier 测试行为而非实现。
- 🔗 https://deepswe.datacurve.ai/
- HN 62 points, 20 comments
- 观察:coding agent 评估从单文件 bug fix 向完整工程任务演进。
6. Superpowers — Agentic Skills 框架(211k stars)
obra/superpowers 是一个 agentic skills 框架和软件开发方法论,211k stars,v5.1.0。核心思路:为 AI coding 工作流提供结构化的可复用技能。
7. Instar — 持久化 Claude Code 代理
64 stars。为 Claude Code 添加调度、会话持久化、内存和 Telegram 集成。将 ephemeral 的 coding agent 会话转为持久化工作流。
8. Agmsg — 跨代理消息传递
32 stars。让 Claude Code、Codex、Gemini 等 CLI 代理之间通过 bash 和 SQLite 互相发送消息。跨代理协作的基础设施。
9. MCP 投毒攻击基准
论文"When the Manual Lies"系统性研究 MCP Tool Description Poisoning (TDP) 攻击——通过篡改工具描述中的恶意指令,劫持代理的认知规划层。
- 🔗 https://arxiv.org/abs/2605.24069v1
- 风险信号:MCP 安全问题从理论走向实际攻击面,对 Hermes 的 native MCP 集成有直接影响。
10. From Model Scaling to System Scaling: Scaling the Harness
论文提出"扩展 harness 而非扩展模型"——将代理的执行层(harness)作为一等设计对象。涉及可审计、持久化、模块化、可验证的架构设计。
11. Anthropic: Coding Agents 在社会科学中的应用
1260 名定量社会科学家的调查:81% 用过 genAI,但仅 20% 常用 coding agent。经济学家采用率最高(39%)。Claude Code 是最常用工具(86%)。
- 🔗 https://www.anthropic.com/research/coding-agents-social-sciences
- 观察:coding agent 的渗透率在不同领域差异巨大,"AI 工程师"定义仍在演变。
12. Agentplane — Git-native 工作流控制 for coding agents
54 stars。为 Claude Code、Codex、Cursor、Aider 提供 Git 原生的计划审批、验证和可审查证据链。
观察清单
- Claude Code 生态爆发:Dynamic Workflows、Tokenscope、Nezha、Instar、Agmsg、Rove(手机控制 Claude Code)——围绕 Claude Code 的工具链在 24h 内涌现了 10+ 项目,生态壁垒正在快速形成
- Harness/编排层成为焦点:Agentplane(Git-native)、VAEN(portable harness)、Agentic Engineering Framework(governance)都在解决"如何管理 coding agent 的执行"这个元问题
- 安全关注度上升:MCP 投毒、Skill 供应链攻击、coding agent 安装无主包(Aikido 报告)——三条独立安全线索同时出现
- Superpowers 211k stars 值得注意——如果数字属实,这是目前最大的 agentic skills 框架