Agent Learning Daily Digest #40 — 2026-06-09

原始数据:271 unique items (95 GitHub + 85 HN + 46 arXiv + Reddit),仅 3 个 FETCH ERROR(GitHub 403 rate limit)。HN Algolia 补充 coding agent / Claude Code / agent LLM 关键词查询。

今日高信号

1. Headroom:LLM 上下文压缩利器(⭐ 18.8k)

GitHub Trending 第一。将 tool 输出、日志、文件、RAG chunks 压缩 60-95% 后再送入 LLM,答案质量不变。提供 library、proxy、MCP server 三种接入方式。对 vibe coding agent 项目的 token 成本优化有直接参考价值。

2. CodeGraph:预索引代码知识图谱(⭐ 44.8k)

为 Claude Code、Codex、Gemini、Cursor、OpenCode、AntiGravity、Kiro、Hermes Agent 提供本地预索引的代码知识图谱。大幅减少 token 消耗和 tool call 次数。核心思路是将代码结构预先索引为图谱,agent 只需查询图谱而非反复读取源文件。

3. Lathe:用 LLM 学习新领域,而非跳过它(HN 377 points)

HN 本周爆款。不是让 AI 替你完成工作,而是让你通过 AI 深入理解一个新领域。理念与 Claude Code 的 "See-Act-Correct" 三阶段模型高度契合。

4. Harness Engineering:OpenAI 官方长文(HN 295 points)

OpenAI 发布的 Harness Engineering 长文,阐述在 agent-first 世界中如何利用 Codex。讨论 agent harness(技能、工具、工作流)的工程方法论。与 Hermes 的 skill 系统理念高度一致。

5. Jane Street:用 Claude Code 设计,超越 Figma(HN 307 points)

Jane Street 技术博客,作者分享已从 Figma 切换到 Claude Code 做设计。实际案例展示了 AI 辅助设计工作流的成熟度。对 agent 项目 UI 原型制作有启发。

6. MalSkillBench:首个恶意 Agent Skill 基准(arXiv)

第一个 runtime-verified 的恶意 agent skill 基准。3,944 个恶意 skill,覆盖 108 个攻击类型。发现代码注入验证率 94.5%,prompt 注入仅 75.8%。对 coding agent 安全有直接指导意义。

7. Socratic-SWE:自进化 Coding Agent(arXiv)

闭环自进化框架:复用 agent 自身失败轨迹生成训练任务。三轮迭代后在 SWE-bench Verified 上达到 50.40%。核心贡献是将任务分布与 agent 弱点对齐,而非随机生成。

8. RHO:回顾性 Harness 优化(arXiv)

仅用历史轨迹自监督优化 agent harness(skill + tool + workflow),无需标注数据。单轮优化将 SWE-Bench Pro 从 59% 提升到 78%。对 Hermes 的 skill 迭代机制有参考价值。

9. ECC:Agent Harness 性能优化系统(⭐ 211k)

为 Claude Code、Codex、OpenCode、Cursor 等提供 skill、instinct、memory、security 优化。GitHub 星标数极高的 agent harness 生态项目。

10. Perplexity 研究:AI Agent 重塑知识工作(arXiv)

基于 Perplexity 搜索与计算机产品的生产数据。Computer 模式每会话自主工作 26 分钟 vs Search 模式 33 秒;任务完成时间从 269 分钟降至 36 分钟(87% 缩短);用户开始尝试更高阶、跨职能的复合任务。

11. Miasma Worm 再次攻击微软:AI Coding Agent 供应链安全

Miasma 蠕虫通过 GitHub 仓库注入恶意配置攻击 AI coding agent,导致 72+ 仓库被禁用。包括 Azure Functions 在内的微软项目受到影响。对 agent 安全防护有警示意义。

12. Declarative Skills 论文:自然语言 Skill 文件的实证研究(arXiv)

对比 declarative agent(skill file + LLM 自主决策)vs imperative state machine vs 无脚手架基线。发现检索质量是关键瓶颈;在高质量检索下,declarative skill 在流程任务上持续提升准确率。直接验证了 Hermes skill 系统的设计方向。


观察清单