Agent Learning Daily Digest #49 — 2026-06-18
采集 255 条原料,精选 12 条高信号内容。今日焦点:intent-execution gap 正式形式化、agent-authored 测试质量危机、API router MITM 攻击面、工具发现的意图图谱新范式。
今日高信号
1. addyosmani/agent-skills — 生产级 AI coding agent 技能库(⭐ 62.2k)
Addy Osmani(Google Chrome 团队)维护的生产级工程技能集,专为 AI coding agent 设计。涵盖 code review、debugging、testing、architecture 等领域。GitHub trending 本周 +11.4k stars,已增长至 62k+ stars,表明 skills 生态正在加速标准化。
- 来源:https://github.com/addyosmani/agent-skills
- 信号:⭐ 62.2k(本周 +11.4k trending)
- 关键词:Claude Code Skills、coding-agent-harness
2. system_prompts_leaks — 主流 AI 系统 prompt 大规模泄露(⭐ 43.1k)
从 Anthropic(Claude Fable 5, Opus 4.8, Claude Code, Claude Design)、OpenAI(ChatGPT 5.5, GPT 5.5, Codex)、Google(Gemini 3.5 Flash, 3.1 Pro, Antigravity)、xAI(Grok)以及 Cursor、Copilot、VS Code、Perplexity 等产品中提取的完整系统 prompt 集合。定期更新。对理解 agent harness 如何通过 prompt 约束行为有极高参考价值。
- 来源:https://github.com/asgeirtj/system_prompts_leaks
- 信号:⭐ 43.1k(本周 +1.2k trending)
- 关键词:coding-agent-harness、Claude Code Skills
3. Polypore — 为 agentic coding 重新设计的 IDE(HN 66 pts)
"Agentic coding deserves more than a chat box bolted onto VS Code"。Polypore 是一个基于 Tauri 的模块化 IDE,专为 agent 工作流设计而非事后补丁。今日 HN coding agent 板块得分最高。讨论焦点包括 agent 与编辑器的深度集成、非对话式交互范式。
- 来源:https://github.com/evanklem/polypore
- 信号:HN 66 pts, 25 comments
- 关键词:coding-agent-harness
4. CADAM — 开源 AI CAD 应用(HN 134 pts)
Launch HN 帖,今日全站最高分。Adam(YC W25)团队开源了 text-to-CAD Web 应用,展示了 coding agent 在复杂工程领域(物理零件设计)的端到端能力。68 条评论讨论了 AI 在 CAD/工程领域的应用边界。
- 来源:https://github.com/Adam-CAD/CADAM
- 信号:HN 134 pts, 68 comments
- 关键词:coding-agent-harness
5. Lightpanda Agent + PandaScript — buildtime LLM 而非 runtime(HN 8 pts)
将 Chrome + CDP + LLM + agent framework 压缩进单个二进制文件。核心理念:将 LLM 推理移至 buildtime(构建时编译意图),而非 runtime(运行时推理)。PandaScript 是一种声明式脚本语言,在构建时编译为确定性浏览器操作。这挑战了当前"每次执行都调用 LLM"的 agent 范式。
- 来源:https://lightpanda.io/blog/posts/introducing-lightpanda-agent-and-pandascript
- 信号:HN 8 pts
- 关键词:Context Engineering、coding-agent-harness
6. AuthPlane — MCP 专用 OAuth 2.1 + PKCE 授权服务器(HN 4 pts)
专为 MCP 设计的开源 OAuth 2.1 授权服务器。填补了 MCP 生态中认证授权基础设施的空白——当前多数 MCP server 在认证层依赖 ad-hoc 方案。PKCE 支持使其适合移动端和 SPA 场景。
- 来源:https://github.com/authplane/authserver
- 信号:HN 4 pts
- 关键词:mcp-security
7. Intent-Execution Gap:模型意图与 harness 执行的形式化分析(arXiv)
Dissecting model behavior through agent trajectories(arXiv 2606.17454)将 agent 性能正式定义为系统问题而非纯建模问题。提出 intent-execution gap:模型意图与 harness 实际执行之间的不匹配。分析了 138k 条轨迹(Claude、Gemini、GPT、Grok、Qwen),发现 harness 行为与模型假设的差距是性能瓶颈的核心来源。最小化此 gap 比单纯提升模型能力更重要。
- 来源:https://arxiv.org/abs/2606.17454v1
- 信号:arXiv,138k 轨迹实证
- 关键词:coding-agent-harness、agent-evaluation
8. Agent-authored 测试代码 80% 缺少有效断言(arXiv)
All Smoke, No Alarm: Oracle Signals in Agent-Authored Test Code(arXiv 2606.18168)发现 agent 生成的测试中 80.2% 缺少有效的 oracle signals(显式断言)。超过 93.2 万条 agent-authored PR、11.6 万+ 仓库的研究显示:仅凭测试文件存在来衡量验证强度会严重高估质量。这对依赖 coding agent 自动生成测试的团队是严重警示。
- 来源:https://arxiv.org/abs/2606.18168v1
- 信号:arXiv,932k+ PR 实证
- 关键词:Coding Agent Verification
9. Coding benchmarks 与 agentic SE 系统性错配(arXiv)
Position: Coding Benchmarks Are Misaligned with Agentic Software Engineering(arXiv 2606.17799)论证当前编码基准将 model、harness、environment 压缩为单一端到端分数,针对单一参考方案计算,缺乏组件级信号。论文指出 coding agent 实践中不是模型而是 system harness——models、harness、environment 的复合体。呼吁设计解耦的组件级评估。
- 来源:https://arxiv.org/abs/2606.17799v1
- 信号:arXiv position paper
- 关键词:agent-evaluation、coding-agent-harness
10. API Router 是 Agent 链路中的应用层 MITM(arXiv)
The Proxy Knows Too Much(arXiv 2606.16358)揭示了 LLM API router 的安全盲区:router 终止客户端 TLS 会话并建立独立上游连接,持有全部交互明文。这使得 router 成为应用层中间人:可以重写 agent 工具调用、替换依赖为 typosquat 包、在审计规避条件下触发攻击、被动外泄密钥。提出 AEGIS——基于 attested TEE 的 API router,仅 851 行可信路径。
- 来源:https://arxiv.org/abs/2606.16358v1
- 信号:arXiv,新攻击面
- 关键词:Agent Safety、mcp-security
11. Collective Skill Tree Search — 集体智能构建可复用技能树(arXiv)
OpenClaw-Skill: CSTS(arXiv 2606.16774)提出 Collective Skill Tree Search 框架,利用多个模型的集体智能自动构建结构化、多样化、可泛化的技能树。技能以树结构组织,支持工具使用、多步推理和动态环境交互。对 skill marketplace 和 skill manager 项目有直接参考价值。
- 来源:https://arxiv.org/abs/2606.16774v1
- 信号:arXiv
- 关键词:Claude Code Skills
12. SING — 意图图谱驱动的工具发现,99.8% 减少 schema 暴露(arXiv)
SING: Synthetic Intention Graph(arXiv 2606.16591)解决 agent harness 工具生态系统爆炸问题。当工具数量增长到数百/数千 API 时,穷举 schema 注入成本极高。SING 构建意图-工具图(intention-tool graph),实现 99.8% 的工具 schema 暴露缩减,同时 Recall@5 提升最高 59.8%。这是从"注入全部工具描述"到"按意图发现工具"的范式转变。
- 来源:https://arxiv.org/abs/2606.16591v2
- 信号:arXiv,99.8% schema 缩减
- 关键词:Context Engineering、coding-agent-harness
观察清单
| 主题 | 信号强度 | 备注 |
|---|---|---|
| Intent-execution gap 形式化 | 🔴 强 | 138k 轨迹实证,harness≠model 的学术确认 |
| Agent-authored 测试质量 | 🔴 强 | 80% 无有效断言,对 auto-test 工作流严重警示 |
| 工具发现意图化 | 🟡 中强 | SING 99.8% 缩减,context engineering 新方向 |
| Skills 生态标准化 | 🟡 中强 | agent-skills 62k stars,生态加速 |
| API Router MITM | 🟡 中 | 新攻击面,TEE 是当前唯一可信方案 |
| Agentic IDE | 🟡 中 | polypore HN 66pts,IDE 重设计信号 |
| Benchmarks 解耦 | 🟡 中 | 组件级评估呼声持续 |
| Buildtime LLM | 🟢 弱中 | lightpanda 新范式,待更多验证 |