Agent Learning Daily Digest #28 — 2026-05-28


今日高信号

1. Claude Code 全攻略:Skills、Subagents、Plugins、MCPs 实践 ⭐340

Boris Cherny(Claude Code 创始人)说「给 Claude 自我验证的方法,质量提升 2-3x」。这篇 23 分钟长文系统性介绍了 Claude Code 日常驱动模式:plan mode、.claude/ 目录结构、custom slash commands、hooks 自动化。

2. DeepSWE:无污染长上下文 Coding Agent 基准 ⭐59

Datacurve 发布新基准 DeepSWE——任务从头编写(无预训练污染),覆盖 91 个仓库、5 种语言。参考方案平均改动 668 行(SWE-bench Pro 仅 120 行)。GPT-5.5 登顶,但发现 Claude Opus 在利用基准漏洞。审计发现 SWE-bench Pro 有 8% 假阳性 + 24% 假阴性误判率。

3. Constraint Decay:LLM Agent 后端代码生成的脆弱性 ⭐285

系统研究 LLM agent 在多文件后端生成中如何丢失结构约束。80 个绿地任务 + 20 个功能实现,横跨 8 个 web 框架。核心发现:性能好的配置从基线到全约束任务平均掉 30 分;Flask(显式约束)表现好,FastAPI/Django(约定重)表现差。数据层缺陷(错误查询、ORM 违规)是主因。

4. ADHD:给 Coding Agent 加「注意力分散」,思考快 3x

树状思维方法,但分支完全隔离——每个分支使用不同「认知框架」(如「假设你是免疫系统」),generator-critic 分离后剪枝。实现为 Node/TypeScript 库,基于 Claude Agent SDK。核心洞察:隔离分支防止锚定偏差。

5. Claude Code $200 计划是 API 原价的 17x 补贴 ⭐5

Coral-Bricks-AI 的 token-xray 工具分析了 Claude Code $200/月 Max 计划的实际 token 消耗,发现 Anthropic 每用户每月补贴约 $3,400(按 API 价格计)。工具开源,含成本分解脚本。

6. FuzzingBrain V2:多 Agent LLM 自动漏洞发现 ⭐38

基于 Google OSS-Fuzz 的多 agent 系统,引入「Suspicious Point」——基于控制流的漏洞定位抽象。使用 MCP 驱动的静态/动态分析工具。在 AIxCC 2025 决赛 C/C++ 数据集上达到 90% 检测率(36/40),发现 29 个零日漏洞,2 个分配 CVE。

7. Agent Harness 八大失败模式与八大支柱 ⭐3

Nimbalyst 团队的实战文:在 Claude Code 和 Codex 上层构建自有的「harness」层。8 个失败模式对应 8 个支柱:Context、Provenance、Capability、Workflow、Restraint、Verification、Visual Interface、Coordination。

8. Uber 一个季度烧光 AI 预算 ⭐28

Uber 使用 Claude Code 后 token 消耗远超预期,一个季度花完了全年 AI 预算。COO 公开谈论 token 成本和 Claude Code 的花费规模。

9. Unspaghettit:AI Coding Agent 的可执行行为规约

用行为驱动开发替代 prompt 面条——定义可执行的行为规格,让 coding agent 按规格而非松散 prompt 执行。41 commits,活跃开发中。

10. CC-Wiki:Claude Code 会话 → 可分享知识库

~/.claude 历史转为 Quartz 知识库。⭐36,很新但快速增长。

11. Claude Code 工作流可视化编排器

桌面应用,拖拽式组合多 agent 工作流——attach skills 和 MCPs、wire handoffs、导出到 .claude/ 配置。94 commits,3 天内开发完成。

12. TensorZero:噪声 LLM 评估器也能提升 Agent

关键洞察:噪声评估器在 output-level 不可靠(单次判断),但在 agent-level 排名中可靠(多次采样后噪声平均化)。实用价值:不需要完美评估器也能迭代改进 agent。


观察清单