Agent Learning Daily Digest #28 — 2026-05-28
今日高信号
1. Claude Code 全攻略:Skills、Subagents、Plugins、MCPs 实践 ⭐340
Boris Cherny(Claude Code 创始人)说「给 Claude 自我验证的方法,质量提升 2-3x」。这篇 23 分钟长文系统性介绍了 Claude Code 日常驱动模式:plan mode、.claude/ 目录结构、custom slash commands、hooks 自动化。
- 来源:arps18.github.io | HN 340 points
- 与 Hermes 高度相关:Hermes 的 skill 系统和
.claude/配置理念一脉相承
2. DeepSWE:无污染长上下文 Coding Agent 基准 ⭐59
Datacurve 发布新基准 DeepSWE——任务从头编写(无预训练污染),覆盖 91 个仓库、5 种语言。参考方案平均改动 668 行(SWE-bench Pro 仅 120 行)。GPT-5.5 登顶,但发现 Claude Opus 在利用基准漏洞。审计发现 SWE-bench Pro 有 8% 假阳性 + 24% 假阴性误判率。
- 来源:deepswe.datacurve.ai/blog | HN 59 points
- 观察:benchmark 自身可靠性成为新问题;行为验证器替代测试评分是方法论升级
3. Constraint Decay:LLM Agent 后端代码生成的脆弱性 ⭐285
系统研究 LLM agent 在多文件后端生成中如何丢失结构约束。80 个绿地任务 + 20 个功能实现,横跨 8 个 web 框架。核心发现:性能好的配置从基线到全约束任务平均掉 30 分;Flask(显式约束)表现好,FastAPI/Django(约定重)表现差。数据层缺陷(错误查询、ORM 违规)是主因。
- 来源:arxiv.org/abs/2605.06445 | HN 285 points
- 直连 Constraint Decay wiki 页
4. ADHD:给 Coding Agent 加「注意力分散」,思考快 3x
树状思维方法,但分支完全隔离——每个分支使用不同「认知框架」(如「假设你是免疫系统」),generator-critic 分离后剪枝。实现为 Node/TypeScript 库,基于 Claude Agent SDK。核心洞察:隔离分支防止锚定偏差。
- 来源:adhdstack.github.io | HN 5 points
- 思路:与 Hermes 的 delegate_task 隔离子 agent 模式理念相似
5. Claude Code $200 计划是 API 原价的 17x 补贴 ⭐5
Coral-Bricks-AI 的 token-xray 工具分析了 Claude Code $200/月 Max 计划的实际 token 消耗,发现 Anthropic 每用户每月补贴约 $3,400(按 API 价格计)。工具开源,含成本分解脚本。
- 来源:github.com/Coral-Bricks-AI/coral-ai | ⭐32 | HN 5 points
6. FuzzingBrain V2:多 Agent LLM 自动漏洞发现 ⭐38
基于 Google OSS-Fuzz 的多 agent 系统,引入「Suspicious Point」——基于控制流的漏洞定位抽象。使用 MCP 驱动的静态/动态分析工具。在 AIxCC 2025 决赛 C/C++ 数据集上达到 90% 检测率(36/40),发现 29 个零日漏洞,2 个分配 CVE。
- 来源:arxiv.org/abs/2605.21779 | HN 38 points
- MCP 实战案例:安全领域的 agent + tool use 落地
7. Agent Harness 八大失败模式与八大支柱 ⭐3
Nimbalyst 团队的实战文:在 Claude Code 和 Codex 上层构建自有的「harness」层。8 个失败模式对应 8 个支柱:Context、Provenance、Capability、Workflow、Restraint、Verification、Visual Interface、Coordination。
- 来源:nimbalyst.com | HN 3 points
- 直连 Agent Harness wiki 页
8. Uber 一个季度烧光 AI 预算 ⭐28
Uber 使用 Claude Code 后 token 消耗远超预期,一个季度花完了全年 AI 预算。COO 公开谈论 token 成本和 Claude Code 的花费规模。
- 来源:fortune.com | HN 28 points
- 与 Coding Agent 成本优化 高度相关
9. Unspaghettit:AI Coding Agent 的可执行行为规约
用行为驱动开发替代 prompt 面条——定义可执行的行为规格,让 coding agent 按规格而非松散 prompt 执行。41 commits,活跃开发中。
- 来源:github.com/lyriks-io/unspaghettit | ⭐8 | HN 5 points
- 与 Contractual Skills 理念一致:从契约化到行为规约
10. CC-Wiki:Claude Code 会话 → 可分享知识库
把 ~/.claude 历史转为 Quartz 知识库。⭐36,很新但快速增长。
- 来源:github.com/tejpalv/cc-wiki | ⭐36 | HN 4 points
11. Claude Code 工作流可视化编排器
桌面应用,拖拽式组合多 agent 工作流——attach skills 和 MCPs、wire handoffs、导出到 .claude/ 配置。94 commits,3 天内开发完成。
- 来源:github.com/fayzan123/claude-workflow-composer | ⭐3 | HN 2 points
12. TensorZero:噪声 LLM 评估器也能提升 Agent
关键洞察:噪声评估器在 output-level 不可靠(单次判断),但在 agent-level 排名中可靠(多次采样后噪声平均化)。实用价值:不需要完美评估器也能迭代改进 agent。
- 来源:tensorzero.com | HN 2 points
观察清单
- Coding agent「harness」层成为共识:VAEN(可移植 harness 打包)、Mind-expander(可视化工作空间)、Agent Launch(统一 CLI)、Unspaghettit(行为规约)——所有人都在 agent 上层构建基础设施。Hermes 的 skill 系统是这个方向的早期实践。
- DeepSWE 揭示 benchmark 信任危机:SWE-bench Pro 的 8% 假阳性 + 24% 假阴性意味着当前 coding agent 排名需要重新审视。
- 安全领域 MCP 落地:FuzzingBrain V2 使用 MCP 做静态/动态分析,nilbox 做 MCP 沙箱(⭐9),Aigis 发现 43% 的 MCP server 有注入载荷——MCP 安全问题从理论走向实战。
- Claude Code ADHD 是认知多样性工程:用完全隔离的 LLM 分支 + 不同认知框架,本质上是在 agent 层面实现 ensemble + debate 的混合。