Agent Learning Daily Digest #25 — 2026-05-24

自动采集 GitHub 成功（82 条），HN RSS 成功（20 条），arXiv 部分成功（36 篇论文）。通过 HN Algolia API 补充查询 3 组关键词（agent+LLM、Claude+Code、MCP+server）获取额外 100+ HN 条目。delegate_task 批量浏览器验证 15 个关键 URL，全部确认有效。

今日高信号

1. Superset (YC P26) — Agent 时代的 IDE 🔥

GitHub: https://github.com/superset-sh/superset (11.1k ⭐, TypeScript)
HN: 101 points, 129 comments
要点: 面向 AI agent 的代码编辑器，支持同时运行 Claude Code、Codex 等多个 agent 的"army"模式。2 小时前仍有提交，活跃度极高。

2. Runtime (YC P26) — 团队级沙箱化 coding agent 平台 🔥

URL: https://www.runtm.com/
HN: 100 points, 30 comments
要点: 为团队提供预配置沙箱环境（含 Datadog、Stripe 等集成），支持 Slack/Linear/GitHub/Jira 工作流。自称节省 ~9 个月基础设施工作。自托管。

3. Microsoft 开始取消 Claude Code 许可证 ⚠️

URL: https://www.theverge.com/tech/930447/microsoft-claude-code-discontinued-notepad
HN: 455 points, 443 comments（今日最大热点）
要点: 微软在企业环境中停用 Claude Code。对 coding agent 生态有重大影响——意味着企业部署路径需要考虑供应商锁定风险。

4. Claude Code RCE 漏洞复现

URL: https://vechron.com/2026/05/i-reproduced-a-claude-code-rce-the-bug-pattern-is-everywhere/
HN: 7 points
要点: Claude Code 2.1.118 的 deeplink handler（claude-cli://open）存在 RCE 漏洞，通过 --settings= 参数注入加载恶意配置 + SessionStart hook 执行任意命令。已修复于 2.1.119。startsWith 反模式在 AI 开发工具中广泛存在。

5. GSD — Claude Code 的 meta-prompting + context engineering 系统 🔥

GitHub: https://github.com/gsd-build/get-shit-done (63.6k ⭐, JavaScript)
要点: 轻量但强大的 spec-driven development 系统，为 Claude Code 提供 meta-prompting 和 context engineering。由 TÂCHES 团队开发。

6. LiteLLM Agent Platform — 自托管 coding agent 沙箱

GitHub: https://github.com/BerriAI/litellm-agent-platform (488 ⭐, TypeScript)
要点: 自托管平台，支持 Claude Code、Codex、Hermes 在隔离沙箱中运行，带 vault proxy。BerriAI 团队（即 LiteLLM 作者）出品。

7. Codebase Context 减少 Claude Code 47% Token 消耗

URL: https://bito.ai/blog/codebase-context-cuts-claudes-token-cost/
要点: Bito AI 的 "AI Architect" 通过 MCP 提供结构化代码库上下文，减少 agent 昂贵的探索阶段。SWE-Bench Pro 评测：token 消耗降 47%，推理步骤降 60%，成功率从 51.9% 提升至 70.1%。

8. OpenRig — 多 agent coding 拓扑的控制平面

URL: https://www.openrig.dev/
HN: 5 points
要点: "Terraform for coding agents"——通过 YAML RigSpec 文件定义多 agent 编码拓扑。支持持久化 agent 身份、共享内存、跨 agent 编排（Claude Code + Codex 同一拓扑）。

9. DeltaBox — 毫秒级沙箱 Checkpoint/Rollback

arXiv: https://arxiv.org/abs/2605.22781v1
要点: 面向 AI agent 的 OS 级沙箱，通过 DeltaFS（copy-on-write 文件系统层）+ DeltaCR（增量进程状态转储）实现 14ms checkpoint / 5ms rollback。相比传统全量复制（秒级），提速两个数量级。

10. Code as Agent Harness — 统一视角综述

arXiv: https://arxiv.org/abs/2605.18747v1
要点: 综述性论文，将代码定位为 agent 的操作基础设施（harness），涵盖三个层次：harness 接口、规划/记忆/工具调用等机制、multi-agent 扩展。应用从 coding assistant 到 GUI 自动化到科学发现。

11. Contractual Skills — 企业 AI Agent 的合约化技能框架

arXiv: https://arxiv.org/abs/2605.22634v1
要点: 提出 "contractual skills"，将 SKILL.md 文件结构化为包含目标、输入边界、权限、输出合约、质量标准、验证步骤的可审计合约。960 个输出 + 192 个模拟 tool-call 评测。

12. Boiling the Frog — Agent 安全的多轮 Benchmark

arXiv: https://arxiv.org/abs/2605.22643v1
要点: 评估工具使用模型在企业场景中对渐进式攻击的脆弱性。9 模型评测中，严格攻击成功率 44.4%（Claude Haiku 4.5 最低 20.5%，Gemini 3.1 Flash Lite 最高 92.9%）。

观察清单

$30,983/月的 Claude Code token 费用 (IndieHackers): 在 $200/mo Max plan 上跑出 $30,983 token 价值。说明 agent coding 的实际成本远高于订阅费，token 优化是刚需。
MCP-safeguard (GitHub): MCP server 自动安全扫描器，52 条检测规则。MCP 生态安全问题开始被系统化解决。
CC-Wiki (GitHub, 19 ⭐): 将 ~/.claude 历史转为可分享的 Quartz 知识库。agent 会话持久化和知识化的方向。
Spec-Driven Development Workflow for Claude Code (HN 20 pts, 11 comments): 规格驱动开发工作流。与 GSD 项目呼应。