Agent Learning Daily Digest #51 — 2026-06-23

Claude Code Extended Thinking 信任危机、Agent Skill 供应链攻击论文双发、AGENTS.md 效果争议实证、StaminaBench 长程编码评测、Omnigent 元框架发布。

今日高信号

1. Claude Code Extended Thinking 输出并非真实推理

Claude Code 的 Extended Thinking 模式输出的"思考过程"文本并非模型的真实推理，而是经过后处理的结构化摘要。作者通过分析日志中的 signature blocks 发现，Extended Thinking 的输出被截断和重写，用户看到的"思维链"与实际 token 级推理之间存在系统性偏差。这一发现对依赖 Extended Thinking 输出进行调试和审计的 agent 工作流有直接影响——你不能假设 thinking 输出等于模型的内部推理路径。

来源: patrickmccanna.net | HN 253 points, 179 comments
关键词: Claude Code | Context Engineering | [Extended Thinking] | [reasoning transparency]

2. asgeirtj/system_prompts_leaks — 主流 AI 产品系统提示词泄露合集

一个持续维护的系统提示词泄露仓库，涵盖 Claude Fable 5 / Opus 4.8 / Claude Code / Claude Design、ChatGPT 5.5 Thinking / GPT 5.5 Instant / Codex、Gemini 3.5 Flash / 3.1 Pro / Antigravity、Grok、Cursor、Copilot、VS Code、Perplexity 等。45k+ stars，586 commits，更新频繁。对于理解 agent harness 如何通过系统提示词塑造行为有极高参考价值——这些提示词本质上就是 agent harness 的隐式架构文档。

来源: GitHub - asgeirtj/system_prompts_leaks | GitHub Trending 1984 stars/period
关键词: coding-agent-harness | [system prompt] | Agent Safety | [prompt engineering]

3. DeusData/codebase-memory-mcp — 高性能代码知识图谱 MCP Server

将整个代码库索引为持久化知识图谱的 MCP 服务器，支持 158 种语言，亚毫秒级查询，号称减少 99% token 消耗。单一静态二进制、零依赖。将代码结构化为知识图谱的思路与 CodeGraph 一脉相承，但更侧重于通过 MCP 暴露给 agent 持续查询，而非一次性 context injection。

来源: GitHub - DeusData/codebase-memory-mcp | GitHub Trending 6372 stars/period, 11.5k total stars
关键词: CodeGraph | Context Engineering | [MCP] | [code intelligence] | mcp-security

4. addyosmani/agent-skills — 生产级 AI 编码 Agent 工程技能库

Addy Osmani（Google Chrome 团队）维护的生产级工程技能（skills）集合，支持 Claude Code / Gemini / OpenCode / Cursor / Copilot。65.4k stars。标志着 agent skills 从实验性概念走向成熟的工程实践——这与 Claude Code Skills 的方向一致，技能即 agent 的可复用能力单元。

来源: GitHub - addyosmani/agent-skills | GitHub Trending 5610 stars/period, 65.4k total stars
关键词: Claude Code Skills | [agent skills] | agent-harness | [production]

5. NVIDIA/SkillSpector — Agent Skill 安全扫描器

NVIDIA 官方发布的 agent skill 安全扫描工具，可检测漏洞、恶意模式和安全风险。与 PhantomSkill 论文（见第 8 条）形成互补——一个定义威胁模型，一个提供检测工具。对于构建 skill 安全体系有直接参考价值。

来源: GitHub - NVIDIA/SkillSpector | GitHub Trending 4055 stars/period, 9.4k total stars
关键词: agent-skill-security | Agent Safety | [skill scanner] | [NVIDIA]

6. ArgusRed — 后训练模型以渗透测试替代拒绝

将模型从"拒绝执行安全任务"重定向为"主动执行渗透测试"的后训练方案。支持安全扫描（只读）和渗透测试（主动）两种模式。这是一个值得关注的 red-teaming 方向：不绕过安全护栏，而是通过训练将模型的攻击能力引导到合法的安全审计场景。HN 91 points, 40 comments。

来源: argusred.com/cli | HN 91 points, 40 comments
关键词: Agent Safety | [penetration testing] | [red teaming] | [post-training] | [tool use]

7. Agentjacking — 公开 Sentry Key 即可劫持 Claude Code/Cursor/Codex

攻击者仅需一个公开的 Sentry DSN key，即可通过 Sentry MCP 劫持 Claude Code、Cursor 和 Codex 的行为。这是 MCP 安全领域的又一个供应链攻击向量，攻击面从恶意 MCP server 扩展到"被恶意注入的合法 MCP server 的数据源"。对 any agent 使用 MCP 的场景都有警示意义。

来源: thenewstack.io | HN 3 points
关键词: mcp-security | Agent Safety | [supply chain attack] | [Sentry] | [agentjacking]

8. PhantomSkill — Agent Skill 供应链攻击框架（论文）

系统性地定义了 agent skill 的供应链攻击面：攻击者将恶意行为隐藏在 skill 的辅助资源（脚本、配置）中，而非文本描述里。核心技术 VulMask 将恶意脚本重写为"漏洞形状"的实现，仅在攻击者控制的触发条件下激活。直接关联 agent-skill-security 和 Coding Agent Failure Patterns，是 skill 生态安全的基础性论文。

来源: arXiv 2606.19191 | cs.CR, 2026-06-17
关键词: agent-skill-security | Agent Safety | [supply chain attack] | [VulMask] | [skill injection]

9. StaminaBench — 100 轮交互压力测试 Coding Agent

提出了一种全新的 coding agent 评测维度：stamina（持久力）—— agent 能连续处理多少轮变更请求后才失败。实验设定为 REST API 服务器的 100 轮过程化生成的变更请求，代码库增长到数千行。这与传统的"单任务完成率"评测形成互补，直接关联 Coding Agent Verification 和 strained-coherence——长程交互中的上下文退化和约束衰减是真实世界的核心挑战。

来源: arXiv 2606.19613 | cs.SE/cs.AI, 2026-06-17
关键词: agent-evaluation | Coding Agent Verification | strained-coherence | Constraint-Decay | [benchmark] | [long-horizon]

10. Probe-and-Refine — AGENTS.md 对 Coding Agent 的效果争议实证

对 AGENTS.md 等仓库级指导文件的效果进行了系统性实证研究。核心发现：AGENTS.md 的效果存在争议——一些研究显示 LLM 生成的指导改善了 agent 表现，另一些则显示有害。论文提出 Probe-and-Refine 方法来优化仓库指导。这对 Vibe Coding Agent 项目蓝图有直接参考：AGENTS.md 不是万能的，需要验证其投入产出比。

来源: arXiv 2606.20512 | cs.SE/cs.LG, 2026-06-18
关键词: Context Engineering | [AGENTS.md] | [repository guidance] | coding-agent-harness | [empirical study]

11. Before the Pull Request — 多 Agent 协调的冲突挖掘（论文）

研究发现在 PR 提交之前的阶段，多 agent 并行开发存在协调问题：agent 如何认领、划分和碰撞共享工作。提出了开源协调工具 grite，将协调记录存储在 git 本身中。数据揭示 agent PR 产出更快但接受率更低，根因在于 PR 之前的协调失败。直接关联 Multi-Agent Communication Patterns 和 Coding Agent 编排模式。

来源: arXiv 2606.19616 | cs.SE/cs.AI/cs.MA, 2026-06-17
关键词: Multi-Agent Communication Patterns | Coding Agent 编排模式 | [coordination] | [pull request] | [multi-agent]

12. State Harness — 用李雅普诺夫稳定性检测 LLM Agent 失控螺旋

将经典控制理论中的李雅普诺夫稳定性分析应用于 multi-turn LLM agent 的状态空间，检测 agent 何时进入"失控螺旋"（token spiral）。通过定义 agent 状态空间的能量函数，量化 agent 是否在收敛或发散。这是一个将数学工具引入 Coding Agent Failure Patterns 检测的创新方法，与 strained-coherence 和 Constraint-Decay 的方向高度互补。

来源: GitHub - vishal-dehurdle/state-harness | HN 3 points
关键词: Coding Agent Failure Patterns | strained-coherence | [Lyapunov stability] | [agent monitoring] | [failure detection]

观察清单

主题	信号强度	说明
Agent Skill 安全	🔴 极强	PhantomSkill 论文 + SkillSpector 工具同时出现，skill 供应链安全成为焦点
Extended Thinking 信任	🔴 极强	253 points 的深度分析，直击 Claude Code 可审计性核心问题
长程 Agent 评测	🟡 中强	StaminaBench 提出 100 轮 stamina 维度，填补了长程交互评测空白
MCP 攻击面扩张	🟡 中强	Agentjacking 从恶意 server 扩展到合法 server 的数据投毒
多 Agent 协调	🟡 中强	PR 前协调冲突的实证，指出 agent PR 低接受率的根因
Agent 指导文件争议	🟡 中强	AGENTS.md 效果的系统性实证，打破了"有就行"的假设
代码知识图谱 MCP	🟢 中	codebase-memory-mcp 11.5k stars，知识图谱式代码索引是新趋势