Agent Learning Daily Digest #49 — 2026-06-18

采集 255 条原料，精选 12 条高信号内容。今日焦点：intent-execution gap 正式形式化、agent-authored 测试质量危机、API router MITM 攻击面、工具发现的意图图谱新范式。

今日高信号

1. addyosmani/agent-skills — 生产级 AI coding agent 技能库（⭐ 62.2k）

Addy Osmani（Google Chrome 团队）维护的生产级工程技能集，专为 AI coding agent 设计。涵盖 code review、debugging、testing、architecture 等领域。GitHub trending 本周 +11.4k stars，已增长至 62k+ stars，表明 skills 生态正在加速标准化。

来源：https://github.com/addyosmani/agent-skills
信号：⭐ 62.2k（本周 +11.4k trending）
关键词：Claude Code Skills、coding-agent-harness

2. system_prompts_leaks — 主流 AI 系统 prompt 大规模泄露（⭐ 43.1k）

从 Anthropic（Claude Fable 5, Opus 4.8, Claude Code, Claude Design）、OpenAI（ChatGPT 5.5, GPT 5.5, Codex）、Google（Gemini 3.5 Flash, 3.1 Pro, Antigravity）、xAI（Grok）以及 Cursor、Copilot、VS Code、Perplexity 等产品中提取的完整系统 prompt 集合。定期更新。对理解 agent harness 如何通过 prompt 约束行为有极高参考价值。

来源：https://github.com/asgeirtj/system_prompts_leaks
信号：⭐ 43.1k（本周 +1.2k trending）
关键词：coding-agent-harness、Claude Code Skills

3. Polypore — 为 agentic coding 重新设计的 IDE（HN 66 pts）

"Agentic coding deserves more than a chat box bolted onto VS Code"。Polypore 是一个基于 Tauri 的模块化 IDE，专为 agent 工作流设计而非事后补丁。今日 HN coding agent 板块得分最高。讨论焦点包括 agent 与编辑器的深度集成、非对话式交互范式。

来源：https://github.com/evanklem/polypore
信号：HN 66 pts, 25 comments
关键词：coding-agent-harness

4. CADAM — 开源 AI CAD 应用（HN 134 pts）

Launch HN 帖，今日全站最高分。Adam（YC W25）团队开源了 text-to-CAD Web 应用，展示了 coding agent 在复杂工程领域（物理零件设计）的端到端能力。68 条评论讨论了 AI 在 CAD/工程领域的应用边界。

来源：https://github.com/Adam-CAD/CADAM
信号：HN 134 pts, 68 comments
关键词：coding-agent-harness

5. Lightpanda Agent + PandaScript — buildtime LLM 而非 runtime（HN 8 pts）

将 Chrome + CDP + LLM + agent framework 压缩进单个二进制文件。核心理念：将 LLM 推理移至 buildtime（构建时编译意图），而非 runtime（运行时推理）。PandaScript 是一种声明式脚本语言，在构建时编译为确定性浏览器操作。这挑战了当前"每次执行都调用 LLM"的 agent 范式。

来源：https://lightpanda.io/blog/posts/introducing-lightpanda-agent-and-pandascript
信号：HN 8 pts
关键词：Context Engineering、coding-agent-harness

6. AuthPlane — MCP 专用 OAuth 2.1 + PKCE 授权服务器（HN 4 pts）

专为 MCP 设计的开源 OAuth 2.1 授权服务器。填补了 MCP 生态中认证授权基础设施的空白——当前多数 MCP server 在认证层依赖 ad-hoc 方案。PKCE 支持使其适合移动端和 SPA 场景。

来源：https://github.com/authplane/authserver
信号：HN 4 pts
关键词：mcp-security

7. Intent-Execution Gap：模型意图与 harness 执行的形式化分析（arXiv）

Dissecting model behavior through agent trajectories（arXiv 2606.17454）将 agent 性能正式定义为系统问题而非纯建模问题。提出 intent-execution gap：模型意图与 harness 实际执行之间的不匹配。分析了 138k 条轨迹（Claude、Gemini、GPT、Grok、Qwen），发现 harness 行为与模型假设的差距是性能瓶颈的核心来源。最小化此 gap 比单纯提升模型能力更重要。

来源：https://arxiv.org/abs/2606.17454v1
信号：arXiv，138k 轨迹实证
关键词：coding-agent-harness、agent-evaluation

8. Agent-authored 测试代码 80% 缺少有效断言（arXiv）

All Smoke, No Alarm: Oracle Signals in Agent-Authored Test Code（arXiv 2606.18168）发现 agent 生成的测试中 80.2% 缺少有效的 oracle signals（显式断言）。超过 93.2 万条 agent-authored PR、11.6 万+ 仓库的研究显示：仅凭测试文件存在来衡量验证强度会严重高估质量。这对依赖 coding agent 自动生成测试的团队是严重警示。

来源：https://arxiv.org/abs/2606.18168v1
信号：arXiv，932k+ PR 实证
关键词：Coding Agent Verification

9. Coding benchmarks 与 agentic SE 系统性错配（arXiv）

Position: Coding Benchmarks Are Misaligned with Agentic Software Engineering（arXiv 2606.17799）论证当前编码基准将 model、harness、environment 压缩为单一端到端分数，针对单一参考方案计算，缺乏组件级信号。论文指出 coding agent 实践中不是模型而是 system harness——models、harness、environment 的复合体。呼吁设计解耦的组件级评估。

来源：https://arxiv.org/abs/2606.17799v1
信号：arXiv position paper
关键词：agent-evaluation、coding-agent-harness

10. API Router 是 Agent 链路中的应用层 MITM（arXiv）

The Proxy Knows Too Much（arXiv 2606.16358）揭示了 LLM API router 的安全盲区：router 终止客户端 TLS 会话并建立独立上游连接，持有全部交互明文。这使得 router 成为应用层中间人：可以重写 agent 工具调用、替换依赖为 typosquat 包、在审计规避条件下触发攻击、被动外泄密钥。提出 AEGIS——基于 attested TEE 的 API router，仅 851 行可信路径。

来源：https://arxiv.org/abs/2606.16358v1
信号：arXiv，新攻击面
关键词：Agent Safety、mcp-security

11. Collective Skill Tree Search — 集体智能构建可复用技能树（arXiv）

OpenClaw-Skill: CSTS（arXiv 2606.16774）提出 Collective Skill Tree Search 框架，利用多个模型的集体智能自动构建结构化、多样化、可泛化的技能树。技能以树结构组织，支持工具使用、多步推理和动态环境交互。对 skill marketplace 和 skill manager 项目有直接参考价值。

来源：https://arxiv.org/abs/2606.16774v1
信号：arXiv
关键词：Claude Code Skills

12. SING — 意图图谱驱动的工具发现，99.8% 减少 schema 暴露（arXiv）

SING: Synthetic Intention Graph（arXiv 2606.16591）解决 agent harness 工具生态系统爆炸问题。当工具数量增长到数百/数千 API 时，穷举 schema 注入成本极高。SING 构建意图-工具图（intention-tool graph），实现 99.8% 的工具 schema 暴露缩减，同时 Recall@5 提升最高 59.8%。这是从"注入全部工具描述"到"按意图发现工具"的范式转变。

来源：https://arxiv.org/abs/2606.16591v2
信号：arXiv，99.8% schema 缩减
关键词：Context Engineering、coding-agent-harness

观察清单

主题	信号强度	备注
Intent-execution gap 形式化	🔴 强	138k 轨迹实证，harness≠model 的学术确认
Agent-authored 测试质量	🔴 强	80% 无有效断言，对 auto-test 工作流严重警示
工具发现意图化	🟡 中强	SING 99.8% 缩减，context engineering 新方向
Skills 生态标准化	🟡 中强	agent-skills 62k stars，生态加速
API Router MITM	🟡 中	新攻击面，TEE 是当前唯一可信方案
Agentic IDE	🟡 中	polypore HN 66pts，IDE 重设计信号
Benchmarks 解耦	🟡 中	组件级评估呼声持续
Buildtime LLM	🟢 弱中	lightpanda 新范式，待更多验证