Agent Learning Daily Digest #51 — 2026-06-23

Claude Code Extended Thinking 信任危机、Agent Skill 供应链攻击论文双发、AGENTS.md 效果争议实证、StaminaBench 长程编码评测、Omnigent 元框架发布。

今日高信号

1. Claude Code Extended Thinking 输出并非真实推理

Claude Code 的 Extended Thinking 模式输出的"思考过程"文本并非模型的真实推理,而是经过后处理的结构化摘要。作者通过分析日志中的 signature blocks 发现,Extended Thinking 的输出被截断和重写,用户看到的"思维链"与实际 token 级推理之间存在系统性偏差。这一发现对依赖 Extended Thinking 输出进行调试和审计的 agent 工作流有直接影响——你不能假设 thinking 输出等于模型的内部推理路径。

2. asgeirtj/system_prompts_leaks — 主流 AI 产品系统提示词泄露合集

一个持续维护的系统提示词泄露仓库,涵盖 Claude Fable 5 / Opus 4.8 / Claude Code / Claude Design、ChatGPT 5.5 Thinking / GPT 5.5 Instant / Codex、Gemini 3.5 Flash / 3.1 Pro / Antigravity、Grok、Cursor、Copilot、VS Code、Perplexity 等。45k+ stars,586 commits,更新频繁。对于理解 agent harness 如何通过系统提示词塑造行为有极高参考价值——这些提示词本质上就是 agent harness 的隐式架构文档。

3. DeusData/codebase-memory-mcp — 高性能代码知识图谱 MCP Server

将整个代码库索引为持久化知识图谱的 MCP 服务器,支持 158 种语言,亚毫秒级查询,号称减少 99% token 消耗。单一静态二进制、零依赖。将代码结构化为知识图谱的思路与 CodeGraph 一脉相承,但更侧重于通过 MCP 暴露给 agent 持续查询,而非一次性 context injection。

4. addyosmani/agent-skills — 生产级 AI 编码 Agent 工程技能库

Addy Osmani(Google Chrome 团队)维护的生产级工程技能(skills)集合,支持 Claude Code / Gemini / OpenCode / Cursor / Copilot。65.4k stars。标志着 agent skills 从实验性概念走向成熟的工程实践——这与 Claude Code Skills 的方向一致,技能即 agent 的可复用能力单元。

5. NVIDIA/SkillSpector — Agent Skill 安全扫描器

NVIDIA 官方发布的 agent skill 安全扫描工具,可检测漏洞、恶意模式和安全风险。与 PhantomSkill 论文(见第 8 条)形成互补——一个定义威胁模型,一个提供检测工具。对于构建 skill 安全 体系有直接参考价值。

6. ArgusRed — 后训练模型以渗透测试替代拒绝

将模型从"拒绝执行安全任务"重定向为"主动执行渗透测试"的后训练方案。支持安全扫描(只读)和渗透测试(主动)两种模式。这是一个值得关注的 red-teaming 方向:不绕过安全护栏,而是通过训练将模型的攻击能力引导到合法的安全审计场景。HN 91 points, 40 comments。

7. Agentjacking — 公开 Sentry Key 即可劫持 Claude Code/Cursor/Codex

攻击者仅需一个公开的 Sentry DSN key,即可通过 Sentry MCP 劫持 Claude Code、Cursor 和 Codex 的行为。这是 MCP 安全 领域的又一个供应链攻击向量,攻击面从恶意 MCP server 扩展到"被恶意注入的合法 MCP server 的数据源"。对 any agent 使用 MCP 的场景都有警示意义。

8. PhantomSkill — Agent Skill 供应链攻击框架(论文)

系统性地定义了 agent skill 的供应链攻击面:攻击者将恶意行为隐藏在 skill 的辅助资源(脚本、配置)中,而非文本描述里。核心技术 VulMask 将恶意脚本重写为"漏洞形状"的实现,仅在攻击者控制的触发条件下激活。直接关联 agent-skill-security 和 Coding Agent Failure Patterns,是 skill 生态安全的基础性论文。

9. StaminaBench — 100 轮交互压力测试 Coding Agent

提出了一种全新的 coding agent 评测维度:stamina(持久力)—— agent 能连续处理多少轮变更请求后才失败。实验设定为 REST API 服务器的 100 轮过程化生成的变更请求,代码库增长到数千行。这与传统的"单任务完成率"评测形成互补,直接关联 Coding Agent Verification 和 strained-coherence——长程交互中的上下文退化和约束衰减是真实世界的核心挑战。

10. Probe-and-Refine — AGENTS.md 对 Coding Agent 的效果争议实证

对 AGENTS.md 等仓库级指导文件的效果进行了系统性实证研究。核心发现:AGENTS.md 的效果存在争议——一些研究显示 LLM 生成的指导改善了 agent 表现,另一些则显示有害。论文提出 Probe-and-Refine 方法来优化仓库指导。这对 Vibe Coding Agent 项目蓝图 有直接参考:AGENTS.md 不是万能的,需要验证其投入产出比。

11. Before the Pull Request — 多 Agent 协调的冲突挖掘(论文)

研究发现在 PR 提交之前的阶段,多 agent 并行开发存在协调问题:agent 如何认领、划分和碰撞共享工作。提出了开源协调工具 grite,将协调记录存储在 git 本身中。数据揭示 agent PR 产出更快但接受率更低,根因在于 PR 之前的协调失败。直接关联 Multi-Agent Communication Patterns 和 Coding Agent 编排模式。

12. State Harness — 用李雅普诺夫稳定性检测 LLM Agent 失控螺旋

将经典控制理论中的李雅普诺夫稳定性分析应用于 multi-turn LLM agent 的状态空间,检测 agent 何时进入"失控螺旋"(token spiral)。通过定义 agent 状态空间的能量函数,量化 agent 是否在收敛或发散。这是一个将数学工具引入 Coding Agent Failure Patterns 检测的创新方法,与 strained-coherence 和 Constraint-Decay 的方向高度互补。


观察清单

主题 信号强度 说明
Agent Skill 安全 🔴 极强 PhantomSkill 论文 + SkillSpector 工具同时出现,skill 供应链安全成为焦点
Extended Thinking 信任 🔴 极强 253 points 的深度分析,直击 Claude Code 可审计性核心问题
长程 Agent 评测 🟡 中强 StaminaBench 提出 100 轮 stamina 维度,填补了长程交互评测空白
MCP 攻击面扩张 🟡 中强 Agentjacking 从恶意 server 扩展到合法 server 的数据投毒
多 Agent 协调 🟡 中强 PR 前协调冲突的实证,指出 agent PR 低接受率的根因
Agent 指导文件争议 🟡 中强 AGENTS.md 效果的系统性实证,打破了"有就行"的假设
代码知识图谱 MCP 🟢 中 codebase-memory-mcp 11.5k stars,知识图谱式代码索引是新趋势