Agent Learning Daily Digest #29 — 2026-05-29

今日高信号

1. Claude Code Dynamic Workflows 发布 — 并行子代理编排

Anthropic 正式发布 Claude Code Dynamic Workflows：可在单次会话中动态编写编排脚本，运行数十到数百个并行子代理。用例包括全代码库 bug 搜索、大规模迁移、安全审计。研究预览版面向 Max/Team/Enterprise。案例：Jarred Sumner 用它把 Bun 从 Zig 移植到 Rust（~750K 行 Rust，11 天）。

🔗 https://claude.com/blog/introducing-dynamic-workflows-in-claude-code
HN 132 points, 109 comments

2. Ktx — 可执行上下文层 for 数据代理

开源可执行上下文层（executable context layer），为数据分析代理提供结构化的上下文管理。290 stars，活跃开发中。HN 47 points。

🔗 https://github.com/Kaelio/ktx

3. Nezha — Claude Code & Codex 多代理 UI

1.3k stars 的代码编辑器，支持在同一台机器上跨项目运行多个 Claude Code 和 Codex 代理。代表了 coding agent IDE 化的趋势。

🔗 https://github.com/hanshuaikang/nezha

4. Agent Skill 生态系统安全威胁报告

分析 3,984 个 AI 代理 skill，发现 76 个确认恶意 payload（凭证窃取、后门安装、数据泄露）。13.4% 的 skill 含至少一个 critical 安全问题。至少 8 个已确认恶意 skill 仍在 clawhub.ai 公开可获取。

🔗 https://arxiv.org/abs/2605.28588v1
风险信号：skill marketplace 的供应链安全问题值得高度关注，Hermes 的 skill 体系需要安全审计机制。

5. DeepSWE — 长视野 coding agent 基准

Datacurve 发布 contamination-free 的长视野 coding agent 基准。113 个任务，覆盖 91 个仓库/5 种语言，比 SWE-bench Pro 多 5.5x 代码量，hand-written verifier 测试行为而非实现。

🔗 https://deepswe.datacurve.ai/
HN 62 points, 20 comments
观察：coding agent 评估从单文件 bug fix 向完整工程任务演进。

6. Superpowers — Agentic Skills 框架（211k stars）

obra/superpowers 是一个 agentic skills 框架和软件开发方法论，211k stars，v5.1.0。核心思路：为 AI coding 工作流提供结构化的可复用技能。

🔗 https://github.com/obra/superpowers

7. Instar — 持久化 Claude Code 代理

64 stars。为 Claude Code 添加调度、会话持久化、内存和 Telegram 集成。将 ephemeral 的 coding agent 会话转为持久化工作流。

🔗 https://github.com/JKHeadley/instar

8. Agmsg — 跨代理消息传递

32 stars。让 Claude Code、Codex、Gemini 等 CLI 代理之间通过 bash 和 SQLite 互相发送消息。跨代理协作的基础设施。

🔗 https://github.com/fujibee/agmsg

9. MCP 投毒攻击基准

论文"When the Manual Lies"系统性研究 MCP Tool Description Poisoning (TDP) 攻击——通过篡改工具描述中的恶意指令，劫持代理的认知规划层。

🔗 https://arxiv.org/abs/2605.24069v1
风险信号：MCP 安全问题从理论走向实际攻击面，对 Hermes 的 native MCP 集成有直接影响。

10. From Model Scaling to System Scaling: Scaling the Harness

论文提出"扩展 harness 而非扩展模型"——将代理的执行层（harness）作为一等设计对象。涉及可审计、持久化、模块化、可验证的架构设计。

🔗 https://arxiv.org/abs/2605.26112v1

11. Anthropic: Coding Agents 在社会科学中的应用

1260 名定量社会科学家的调查：81% 用过 genAI，但仅 20% 常用 coding agent。经济学家采用率最高（39%）。Claude Code 是最常用工具（86%）。

🔗 https://www.anthropic.com/research/coding-agents-social-sciences
观察：coding agent 的渗透率在不同领域差异巨大，"AI 工程师"定义仍在演变。

12. Agentplane — Git-native 工作流控制 for coding agents

54 stars。为 Claude Code、Codex、Cursor、Aider 提供 Git 原生的计划审批、验证和可审查证据链。

🔗 https://github.com/basilisk-labs/agentplane

观察清单

Claude Code 生态爆发：Dynamic Workflows、Tokenscope、Nezha、Instar、Agmsg、Rove（手机控制 Claude Code）——围绕 Claude Code 的工具链在 24h 内涌现了 10+ 项目，生态壁垒正在快速形成
Harness/编排层成为焦点：Agentplane（Git-native）、VAEN（portable harness）、Agentic Engineering Framework（governance）都在解决"如何管理 coding agent 的执行"这个元问题
安全关注度上升：MCP 投毒、Skill 供应链攻击、coding agent 安装无主包（Aikido 报告）——三条独立安全线索同时出现
Superpowers 211k stars 值得注意——如果数字属实，这是目前最大的 agentic skills 框架