Agent Learning Daily Digest #51 — 2026-06-23
Claude Code Extended Thinking 信任危机、Agent Skill 供应链攻击论文双发、AGENTS.md 效果争议实证、StaminaBench 长程编码评测、Omnigent 元框架发布。
今日高信号
1. Claude Code Extended Thinking 输出并非真实推理
Claude Code 的 Extended Thinking 模式输出的"思考过程"文本并非模型的真实推理,而是经过后处理的结构化摘要。作者通过分析日志中的 signature blocks 发现,Extended Thinking 的输出被截断和重写,用户看到的"思维链"与实际 token 级推理之间存在系统性偏差。这一发现对依赖 Extended Thinking 输出进行调试和审计的 agent 工作流有直接影响——你不能假设 thinking 输出等于模型的内部推理路径。
- 来源: patrickmccanna.net | HN 253 points, 179 comments
- 关键词: Claude Code | Context Engineering | [Extended Thinking] | [reasoning transparency]
2. asgeirtj/system_prompts_leaks — 主流 AI 产品系统提示词泄露合集
一个持续维护的系统提示词泄露仓库,涵盖 Claude Fable 5 / Opus 4.8 / Claude Code / Claude Design、ChatGPT 5.5 Thinking / GPT 5.5 Instant / Codex、Gemini 3.5 Flash / 3.1 Pro / Antigravity、Grok、Cursor、Copilot、VS Code、Perplexity 等。45k+ stars,586 commits,更新频繁。对于理解 agent harness 如何通过系统提示词塑造行为有极高参考价值——这些提示词本质上就是 agent harness 的隐式架构文档。
- 来源: GitHub - asgeirtj/system_prompts_leaks | GitHub Trending 1984 stars/period
- 关键词: coding-agent-harness | [system prompt] | Agent Safety | [prompt engineering]
3. DeusData/codebase-memory-mcp — 高性能代码知识图谱 MCP Server
将整个代码库索引为持久化知识图谱的 MCP 服务器,支持 158 种语言,亚毫秒级查询,号称减少 99% token 消耗。单一静态二进制、零依赖。将代码结构化为知识图谱的思路与 CodeGraph 一脉相承,但更侧重于通过 MCP 暴露给 agent 持续查询,而非一次性 context injection。
- 来源: GitHub - DeusData/codebase-memory-mcp | GitHub Trending 6372 stars/period, 11.5k total stars
- 关键词: CodeGraph | Context Engineering | [MCP] | [code intelligence] | mcp-security
4. addyosmani/agent-skills — 生产级 AI 编码 Agent 工程技能库
Addy Osmani(Google Chrome 团队)维护的生产级工程技能(skills)集合,支持 Claude Code / Gemini / OpenCode / Cursor / Copilot。65.4k stars。标志着 agent skills 从实验性概念走向成熟的工程实践——这与 Claude Code Skills 的方向一致,技能即 agent 的可复用能力单元。
- 来源: GitHub - addyosmani/agent-skills | GitHub Trending 5610 stars/period, 65.4k total stars
- 关键词: Claude Code Skills | [agent skills] | agent-harness | [production]
5. NVIDIA/SkillSpector — Agent Skill 安全扫描器
NVIDIA 官方发布的 agent skill 安全扫描工具,可检测漏洞、恶意模式和安全风险。与 PhantomSkill 论文(见第 8 条)形成互补——一个定义威胁模型,一个提供检测工具。对于构建 skill 安全 体系有直接参考价值。
- 来源: GitHub - NVIDIA/SkillSpector | GitHub Trending 4055 stars/period, 9.4k total stars
- 关键词: agent-skill-security | Agent Safety | [skill scanner] | [NVIDIA]
6. ArgusRed — 后训练模型以渗透测试替代拒绝
将模型从"拒绝执行安全任务"重定向为"主动执行渗透测试"的后训练方案。支持安全扫描(只读)和渗透测试(主动)两种模式。这是一个值得关注的 red-teaming 方向:不绕过安全护栏,而是通过训练将模型的攻击能力引导到合法的安全审计场景。HN 91 points, 40 comments。
- 来源: argusred.com/cli | HN 91 points, 40 comments
- 关键词: Agent Safety | [penetration testing] | [red teaming] | [post-training] | [tool use]
7. Agentjacking — 公开 Sentry Key 即可劫持 Claude Code/Cursor/Codex
攻击者仅需一个公开的 Sentry DSN key,即可通过 Sentry MCP 劫持 Claude Code、Cursor 和 Codex 的行为。这是 MCP 安全 领域的又一个供应链攻击向量,攻击面从恶意 MCP server 扩展到"被恶意注入的合法 MCP server 的数据源"。对 any agent 使用 MCP 的场景都有警示意义。
- 来源: thenewstack.io | HN 3 points
- 关键词: mcp-security | Agent Safety | [supply chain attack] | [Sentry] | [agentjacking]
8. PhantomSkill — Agent Skill 供应链攻击框架(论文)
系统性地定义了 agent skill 的供应链攻击面:攻击者将恶意行为隐藏在 skill 的辅助资源(脚本、配置)中,而非文本描述里。核心技术 VulMask 将恶意脚本重写为"漏洞形状"的实现,仅在攻击者控制的触发条件下激活。直接关联 agent-skill-security 和 Coding Agent Failure Patterns,是 skill 生态安全的基础性论文。
- 来源: arXiv 2606.19191 | cs.CR, 2026-06-17
- 关键词: agent-skill-security | Agent Safety | [supply chain attack] | [VulMask] | [skill injection]
9. StaminaBench — 100 轮交互压力测试 Coding Agent
提出了一种全新的 coding agent 评测维度:stamina(持久力)—— agent 能连续处理多少轮变更请求后才失败。实验设定为 REST API 服务器的 100 轮过程化生成的变更请求,代码库增长到数千行。这与传统的"单任务完成率"评测形成互补,直接关联 Coding Agent Verification 和 strained-coherence——长程交互中的上下文退化和约束衰减是真实世界的核心挑战。
- 来源: arXiv 2606.19613 | cs.SE/cs.AI, 2026-06-17
- 关键词: agent-evaluation | Coding Agent Verification | strained-coherence | Constraint-Decay | [benchmark] | [long-horizon]
10. Probe-and-Refine — AGENTS.md 对 Coding Agent 的效果争议实证
对 AGENTS.md 等仓库级指导文件的效果进行了系统性实证研究。核心发现:AGENTS.md 的效果存在争议——一些研究显示 LLM 生成的指导改善了 agent 表现,另一些则显示有害。论文提出 Probe-and-Refine 方法来优化仓库指导。这对 Vibe Coding Agent 项目蓝图 有直接参考:AGENTS.md 不是万能的,需要验证其投入产出比。
- 来源: arXiv 2606.20512 | cs.SE/cs.LG, 2026-06-18
- 关键词: Context Engineering | [AGENTS.md] | [repository guidance] | coding-agent-harness | [empirical study]
11. Before the Pull Request — 多 Agent 协调的冲突挖掘(论文)
研究发现在 PR 提交之前的阶段,多 agent 并行开发存在协调问题:agent 如何认领、划分和碰撞共享工作。提出了开源协调工具 grite,将协调记录存储在 git 本身中。数据揭示 agent PR 产出更快但接受率更低,根因在于 PR 之前的协调失败。直接关联 Multi-Agent Communication Patterns 和 Coding Agent 编排模式。
- 来源: arXiv 2606.19616 | cs.SE/cs.AI/cs.MA, 2026-06-17
- 关键词: Multi-Agent Communication Patterns | Coding Agent 编排模式 | [coordination] | [pull request] | [multi-agent]
12. State Harness — 用李雅普诺夫稳定性检测 LLM Agent 失控螺旋
将经典控制理论中的李雅普诺夫稳定性分析应用于 multi-turn LLM agent 的状态空间,检测 agent 何时进入"失控螺旋"(token spiral)。通过定义 agent 状态空间的能量函数,量化 agent 是否在收敛或发散。这是一个将数学工具引入 Coding Agent Failure Patterns 检测的创新方法,与 strained-coherence 和 Constraint-Decay 的方向高度互补。
- 来源: GitHub - vishal-dehurdle/state-harness | HN 3 points
- 关键词: Coding Agent Failure Patterns | strained-coherence | [Lyapunov stability] | [agent monitoring] | [failure detection]
观察清单
| 主题 | 信号强度 | 说明 |
|---|---|---|
| Agent Skill 安全 | 🔴 极强 | PhantomSkill 论文 + SkillSpector 工具同时出现,skill 供应链安全成为焦点 |
| Extended Thinking 信任 | 🔴 极强 | 253 points 的深度分析,直击 Claude Code 可审计性核心问题 |
| 长程 Agent 评测 | 🟡 中强 | StaminaBench 提出 100 轮 stamina 维度,填补了长程交互评测空白 |
| MCP 攻击面扩张 | 🟡 中强 | Agentjacking 从恶意 server 扩展到合法 server 的数据投毒 |
| 多 Agent 协调 | 🟡 中强 | PR 前协调冲突的实证,指出 agent PR 低接受率的根因 |
| Agent 指导文件争议 | 🟡 中强 | AGENTS.md 效果的系统性实证,打破了"有就行"的假设 |
| 代码知识图谱 MCP | 🟢 中 | codebase-memory-mcp 11.5k stars,知识图谱式代码索引是新趋势 |