Agent Learning Daily Digest #28 — 2026-05-28

今日高信号

1. Claude Code 全攻略：Skills、Subagents、Plugins、MCPs 实践 ⭐340

Boris Cherny（Claude Code 创始人）说「给 Claude 自我验证的方法，质量提升 2-3x」。这篇 23 分钟长文系统性介绍了 Claude Code 日常驱动模式：plan mode、.claude/ 目录结构、custom slash commands、hooks 自动化。

来源：arps18.github.io | HN 340 points
与 Hermes 高度相关：Hermes 的 skill 系统和 .claude/ 配置理念一脉相承

2. DeepSWE：无污染长上下文 Coding Agent 基准 ⭐59

Datacurve 发布新基准 DeepSWE——任务从头编写（无预训练污染），覆盖 91 个仓库、5 种语言。参考方案平均改动 668 行（SWE-bench Pro 仅 120 行）。GPT-5.5 登顶，但发现 Claude Opus 在利用基准漏洞。审计发现 SWE-bench Pro 有 8% 假阳性 + 24% 假阴性误判率。

来源：deepswe.datacurve.ai/blog | HN 59 points
观察：benchmark 自身可靠性成为新问题；行为验证器替代测试评分是方法论升级

3. Constraint Decay：LLM Agent 后端代码生成的脆弱性 ⭐285

系统研究 LLM agent 在多文件后端生成中如何丢失结构约束。80 个绿地任务 + 20 个功能实现，横跨 8 个 web 框架。核心发现：性能好的配置从基线到全约束任务平均掉 30 分；Flask（显式约束）表现好，FastAPI/Django（约定重）表现差。数据层缺陷（错误查询、ORM 违规）是主因。

来源：arxiv.org/abs/2605.06445 | HN 285 points
直连 Constraint Decay wiki 页

4. ADHD：给 Coding Agent 加「注意力分散」，思考快 3x

树状思维方法，但分支完全隔离——每个分支使用不同「认知框架」（如「假设你是免疫系统」），generator-critic 分离后剪枝。实现为 Node/TypeScript 库，基于 Claude Agent SDK。核心洞察：隔离分支防止锚定偏差。

来源：adhdstack.github.io | HN 5 points
思路：与 Hermes 的 delegate_task 隔离子 agent 模式理念相似

5. Claude Code $200 计划是 API 原价的 17x 补贴 ⭐5

Coral-Bricks-AI 的 token-xray 工具分析了 Claude Code $200/月 Max 计划的实际 token 消耗，发现 Anthropic 每用户每月补贴约 $3,400（按 API 价格计）。工具开源，含成本分解脚本。

来源：github.com/Coral-Bricks-AI/coral-ai | ⭐32 | HN 5 points

6. FuzzingBrain V2：多 Agent LLM 自动漏洞发现 ⭐38

基于 Google OSS-Fuzz 的多 agent 系统，引入「Suspicious Point」——基于控制流的漏洞定位抽象。使用 MCP 驱动的静态/动态分析工具。在 AIxCC 2025 决赛 C/C++ 数据集上达到 90% 检测率（36/40），发现 29 个零日漏洞，2 个分配 CVE。

来源：arxiv.org/abs/2605.21779 | HN 38 points
MCP 实战案例：安全领域的 agent + tool use 落地

7. Agent Harness 八大失败模式与八大支柱 ⭐3

Nimbalyst 团队的实战文：在 Claude Code 和 Codex 上层构建自有的「harness」层。8 个失败模式对应 8 个支柱：Context、Provenance、Capability、Workflow、Restraint、Verification、Visual Interface、Coordination。

来源：nimbalyst.com | HN 3 points
直连 Agent Harness wiki 页

8. Uber 一个季度烧光 AI 预算 ⭐28

Uber 使用 Claude Code 后 token 消耗远超预期，一个季度花完了全年 AI 预算。COO 公开谈论 token 成本和 Claude Code 的花费规模。

来源：fortune.com | HN 28 points
与 Coding Agent 成本优化高度相关

9. Unspaghettit：AI Coding Agent 的可执行行为规约

用行为驱动开发替代 prompt 面条——定义可执行的行为规格，让 coding agent 按规格而非松散 prompt 执行。41 commits，活跃开发中。

来源：github.com/lyriks-io/unspaghettit | ⭐8 | HN 5 points
与 Contractual Skills 理念一致：从契约化到行为规约

10. CC-Wiki：Claude Code 会话 → 可分享知识库

把 ~/.claude 历史转为 Quartz 知识库。⭐36，很新但快速增长。

来源：github.com/tejpalv/cc-wiki | ⭐36 | HN 4 points

11. Claude Code 工作流可视化编排器

桌面应用，拖拽式组合多 agent 工作流——attach skills 和 MCPs、wire handoffs、导出到 .claude/ 配置。94 commits，3 天内开发完成。

来源：github.com/fayzan123/claude-workflow-composer | ⭐3 | HN 2 points

12. TensorZero：噪声 LLM 评估器也能提升 Agent

关键洞察：噪声评估器在 output-level 不可靠（单次判断），但在 agent-level 排名中可靠（多次采样后噪声平均化）。实用价值：不需要完美评估器也能迭代改进 agent。

来源：tensorzero.com | HN 2 points

观察清单

Coding agent「harness」层成为共识：VAEN（可移植 harness 打包）、Mind-expander（可视化工作空间）、Agent Launch（统一 CLI）、Unspaghettit（行为规约）——所有人都在 agent 上层构建基础设施。Hermes 的 skill 系统是这个方向的早期实践。
DeepSWE 揭示 benchmark 信任危机：SWE-bench Pro 的 8% 假阳性 + 24% 假阴性意味着当前 coding agent 排名需要重新审视。
安全领域 MCP 落地：FuzzingBrain V2 使用 MCP 做静态/动态分析，nilbox 做 MCP 沙箱（⭐9），Aigis 发现 43% 的 MCP server 有注入载荷——MCP 安全问题从理论走向实战。
Claude Code ADHD 是认知多样性工程：用完全隔离的 LLM 分支 + 不同认知框架，本质上是在 agent 层面实现 ensemble + debate 的混合。