Agent Learning Daily Digest #33 — 2026-06-02
自动采集成功(116 条:GitHub 81 条,HN 33 条,arXiv 2 条,仅 2 条 FETCH ERROR)。同时通过 HN Algolia 补充 agent+LLM / coding+agent / Claude+Code / MCP+server 四组查询。delegate_task 3 批浏览器验证 30 URL,28 条确认有效,1 条 404(agentpack),1 条 Medium 被 Cloudflare 拦截。
今日高信号
1. VTCode — Rust 开源终端 Coding Agent
- GitHub: https://github.com/vinhnx/VTCode
- ⭐ 658 stars | Rust TUI | HN 16 pts
- 开源终端 coding agent,LLM-native 代码理解 + shell 安全防护。Rust 写的 TUI,不是 Web 套壳。star 数一周内从 655 涨到 658,持续增长。
- 关键:继 Zot (Go)、AISlop 之后,又一个新的非 Python/TypeScript coding agent 实现。
2. PyTorch 官方 AI Coding Playbook
3. Komi-learn — Coding Agent 持续记忆系统
- GitHub: https://github.com/kurikomi-labs/komi-learn
- ⭐ 51 stars | Python | HN 24 pts
- "Continuous memory and self-improvement for coding agents"。学习你如何工作并自动回忆。agent memory 方向的一个新开源实现。
- 关键:与 Hermes 的 memory 系统有可比性,值得关注架构设计。
4. Homebrew Lead 的安全 Agentic Coding 设置
5. With Claude: Less Coding, More Testing
6. Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers(arXiv)
- URL: https://arxiv.org/abs/2605.26731
- 432-run 实验跨 6 个模型、4 个能力层级、3 个 harness 条件。核心发现:更多结构化的 harness 并非总是更好。Gemini 2.5 Flash 在更详细 harness 下成功率下降 29-38pp,而 Qwen3.5-122B 在严格 harness 下达到最高 91.7% VTSR。
- 关键:harness 设计不能一刀切,需要根据模型能力匹配。对 Hermes kanban-worker 的 harness 设计有启发。
7. CVE-Bench — LLM Agent 安全漏洞修复评估
- URL: https://giovannigatti.github.io/cve-bench/
- 评估 5 个前沿模型(gpt-5.5, gpt-5.4-mini 等)修复 20 个真实 CVE 的能力。最佳修复率 50%。最危险的失败模式:补丁看起来正确、通过测试、但漏洞仍然存在。昂贵模型与便宜模型在统计上不可区分(最高 12× 成本差距)。
- 信号:coding agent 安全能力的现实检验,"看起来对了" != "真的对了"。
8. Ouijit — 开源 Task/Terminal 管理器
- URL: https://ouijit.com/
- HN 12 pts | AGPL-3.0 | macOS + Linux
- "Integrated Divination Environment"——Kanban 风格看板(Todo/In Progress/In Review/Done)集成 agent harness(Claude Code, Codex, Pi),统一管理任务、运行 agent、查看 diff。
- 信号:coding agent UI/管理工具赛道持续升温,与 Agent Deck、Lite-Harness 等形成竞争。
9. The Frictionless Trap — AI Coding Agent 是否在侵蚀系统理解
10. Autonomous LLM Agent Worms(arXiv)
- URL: https://arxiv.org/abs/2605.02812
- 首个系统分析文件驱动的多 agent LLM 生态中持续蠕虫传播的框架。引入 SSCGV(自动源代码图分析器)和 SRPO(summary-resilient payload optimizer)。演示零点击自主传播和 3-hop 跨平台传输。提出 RTW-A 防御机制。
- 信号:agent 安全领域重要论文,protestware/agent malware 的新攻击向量。
11. OWASP MCP 安全开发指南 + mcpguard
12. Lite-Harness — 统一 Agent 运行服务器
- GitHub: https://github.com/LiteLLM-Labs/lite-harness
- ⭐ 32 stars | 310 commits | 活跃(最后提交 2 小时前)
- 统一服务器运行 OpenCode、Claude Code、Codex coding agent。包含 CLI、harnesses SDK、MCP 集成、skills 系统、UI、agent memory。LiteLLM 团队出品。
- 信号:agent harness 统一层,与 Hermes 的多 agent 编排能力有交叉。
观察清单
- Coding Agent 管理工具爆发: Ouijit、Agent Deck、Lite-Harness、Agents CLI、CodeGuilds 都在做 coding agent 的管理/编排层。赛道在收窄但尚未收敛。
- PyTorch playbook 的信号: 大型开源项目开始制定 AI agent 贡献规范,意味着 agentic coding 从个人工具走向组织级流程。
- Harness 设计不单调: arXiv 论文证明 harness strictness 不是"越严格越好",需要根据模型能力匹配。对 Hermes kanban-worker 的设计有直接影响。
- Agent 安全两条线: 一条是 agent 自身安全(沙盒、worktree、Cordium 凭据隔离),一条是 agent 作为攻击向量(worm、prompt injection in RE)。OWASP MCP 指南是这两条的交叉点。
- Claude Code 生态持续膨胀: CodeGuilds 已有 ~250 个包,SkillKit 做项目管理,Claude Code OS 做自更新,Growth OS 做 GTM。Claude Code 正在变成一个平台。
数据来源
- 自动采集:116 条(GitHub 81, HN 33, arXiv 2, FETCH ERROR 2)
- HN Algolia 补充:agent+LLM 40 条, coding+agent 40 条, Claude+Code 40 条, MCP+server 18 条
- 浏览器验证:30 URL(28 确认有效, 1 404, 1 Cloudflare 拦截)