Agent Learning Daily Digest #33 — 2026-06-02

自动采集成功（116 条：GitHub 81 条，HN 33 条，arXiv 2 条，仅 2 条 FETCH ERROR）。同时通过 HN Algolia 补充 agent+LLM / coding+agent / Claude+Code / MCP+server 四组查询。delegate_task 3 批浏览器验证 30 URL，28 条确认有效，1 条 404（agentpack），1 条 Medium 被 Cloudflare 拦截。

今日高信号

1. VTCode — Rust 开源终端 Coding Agent

GitHub: https://github.com/vinhnx/VTCode
⭐ 658 stars | Rust TUI | HN 16 pts
开源终端 coding agent，LLM-native 代码理解 + shell 安全防护。Rust 写的 TUI，不是 Web 套壳。star 数一周内从 655 涨到 658，持续增长。
关键：继 Zot (Go)、AISlop 之后，又一个新的非 Python/TypeScript coding agent 实现。

2. PyTorch 官方 AI Coding Playbook

URL: https://docs.pytorch.org/devlogs/ai-agents/2026-05-30-ai-coding-playbook/
作者: Edward Yang (@ezyang) | PyTorch DevLog
PyTorch 团队发布 AI 辅助编码的官方 playbook，覆盖了从人工审核 AI 代码到未经 review 的 "vibe-coded" 软件的光谱。核心内容：AI 辅助 PR 规范、mass AI PR swarm 做问题 triage、out-of-tree 仓库中非审查代码的标准。还有 RADAR 等工具计划。
信号：大型开源项目正式建立 AI agent 贡献规范，是 "agentic coding goes enterprise" 的标志性事件。

3. Komi-learn — Coding Agent 持续记忆系统

GitHub: https://github.com/kurikomi-labs/komi-learn
⭐ 51 stars | Python | HN 24 pts
"Continuous memory and self-improvement for coding agents"。学习你如何工作并自动回忆。agent memory 方向的一个新开源实现。
关键：与 Hermes 的 memory 系统有可比性，值得关注架构设计。

4. Homebrew Lead 的安全 Agentic Coding 设置

URL: https://mikemcquaid.com/sandboxed-agent-worktrees-my-coding-and-ai-setup-in-2026/
作者: Mike McQuaid (Homebrew 维护者，10 年 GitHub 经验)
详细 walkthrough：OpenAI Codex + Claude Code，通过 Sandvault（macOS sandbox 工具，brew install sandvault）+ Git worktrees 并行化。他现在 ~90% 代码由 AI 编写。
信号：沙盒 + worktree 组合成为 coding agent 安全实践的标准模式。

5. With Claude: Less Coding, More Testing

URL: https://henrikwarne.com/2026/05/31/with-claude-less-coding-more-testing/
HN 28 pts
Henrik Warne 的反思文章：Claude Code 改变了他的开发工作流——写的代码少了，但花更多时间理解、review 和测试 AI 生成代码。强调仍然需要理解系统细节。
信号：与 Hermes 的 TDD skill 理念一致，agent 时代 test-first 变得更加重要。

6. Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers（arXiv）

URL: https://arxiv.org/abs/2605.26731
432-run 实验跨 6 个模型、4 个能力层级、3 个 harness 条件。核心发现：更多结构化的 harness 并非总是更好。Gemini 2.5 Flash 在更详细 harness 下成功率下降 29-38pp，而 Qwen3.5-122B 在严格 harness 下达到最高 91.7% VTSR。
关键：harness 设计不能一刀切，需要根据模型能力匹配。对 Hermes kanban-worker 的 harness 设计有启发。

7. CVE-Bench — LLM Agent 安全漏洞修复评估

URL: https://giovannigatti.github.io/cve-bench/
评估 5 个前沿模型（gpt-5.5, gpt-5.4-mini 等）修复 20 个真实 CVE 的能力。最佳修复率 50%。最危险的失败模式：补丁看起来正确、通过测试、但漏洞仍然存在。昂贵模型与便宜模型在统计上不可区分（最高 12× 成本差距）。
信号：coding agent 安全能力的现实检验，"看起来对了" != "真的对了"。

8. Ouijit — 开源 Task/Terminal 管理器

URL: https://ouijit.com/
HN 12 pts | AGPL-3.0 | macOS + Linux
"Integrated Divination Environment"——Kanban 风格看板（Todo/In Progress/In Review/Done）集成 agent harness（Claude Code, Codex, Pi），统一管理任务、运行 agent、查看 diff。
信号：coding agent UI/管理工具赛道持续升温，与 Agent Deck、Lite-Harness 等形成竞争。

9. The Frictionless Trap — AI Coding Agent 是否在侵蚀系统理解

URL: https://www.thesignalist.io/s/the-frictionless-trap/
Jakub Skoczeń 的深度文章：AI coding agent 可能在削弱工程师的心智模型和深度系统理解——过去手动实现和调试代码带来的 "reconstruction dividend"。产出指标看起来健康，但理解被稀释的代价只在系统以意外方式崩溃时才显现。
信号：与 PyTorch playbook 形成对照——一端拥抱 AI，一端反思风险。

10. Autonomous LLM Agent Worms（arXiv）

URL: https://arxiv.org/abs/2605.02812
首个系统分析文件驱动的多 agent LLM 生态中持续蠕虫传播的框架。引入 SSCGV（自动源代码图分析器）和 SRPO（summary-resilient payload optimizer）。演示零点击自主传播和 3-hop 跨平台传输。提出 RTW-A 防御机制。
信号：agent 安全领域重要论文，protestware/agent malware 的新攻击向量。

11. OWASP MCP 安全开发指南 + mcpguard

OWASP 指南: https://genai.owasp.org/resource/a-practical-guide-for-secure-mcp-server-development/
mcpguard: https://github.com/GT-Projects256/mcpguard
OWASP 发布 MCP Server 安全开发实用指南，覆盖认证授权、严格验证、会话隔离、加固部署。mcpguard 是配套的开源安全扫描器和防火墙，扫描 OWASP MCP Top 10 漏洞。
信号：MCP 安全标准化加速，对 Hermes 的 native-mcp skill 有参考价值。

12. Lite-Harness — 统一 Agent 运行服务器

GitHub: https://github.com/LiteLLM-Labs/lite-harness
⭐ 32 stars | 310 commits | 活跃（最后提交 2 小时前）
统一服务器运行 OpenCode、Claude Code、Codex coding agent。包含 CLI、harnesses SDK、MCP 集成、skills 系统、UI、agent memory。LiteLLM 团队出品。
信号：agent harness 统一层，与 Hermes 的多 agent 编排能力有交叉。

观察清单

Coding Agent 管理工具爆发: Ouijit、Agent Deck、Lite-Harness、Agents CLI、CodeGuilds 都在做 coding agent 的管理/编排层。赛道在收窄但尚未收敛。
PyTorch playbook 的信号: 大型开源项目开始制定 AI agent 贡献规范，意味着 agentic coding 从个人工具走向组织级流程。
Harness 设计不单调: arXiv 论文证明 harness strictness 不是"越严格越好"，需要根据模型能力匹配。对 Hermes kanban-worker 的设计有直接影响。
Agent 安全两条线: 一条是 agent 自身安全（沙盒、worktree、Cordium 凭据隔离），一条是 agent 作为攻击向量（worm、prompt injection in RE）。OWASP MCP 指南是这两条的交叉点。
Claude Code 生态持续膨胀: CodeGuilds 已有 ~250 个包，SkillKit 做项目管理，Claude Code OS 做自更新，Growth OS 做 GTM。Claude Code 正在变成一个平台。

数据来源

自动采集：116 条（GitHub 81, HN 33, arXiv 2, FETCH ERROR 2）
HN Algolia 补充：agent+LLM 40 条, coding+agent 40 条, Claude+Code 40 条, MCP+server 18 条
浏览器验证：30 URL（28 确认有效, 1 404, 1 Cloudflare 拦截）