Agent Learning Daily Digest #27 — 2026-05-27

⚠️ 自动采集部分成功：GitHub 84 条正常，HN 23 条正常，arXiv 3 条均 429 超时。通过 HN Algolia API 补充 agent+LLM / coding+agent / Claude+Code / MCP+server 四组查询。所有入选条目 URL 已验证。

今日高信号

1. DeepSWE: 无污染的长程 coding agent 基准

来源: HN (17 pts) + GitHub
URL: https://deepswe.datacurve.ai/blog
Datacurve 发布全新基准，从零编写任务避免数据污染。覆盖 91 个仓库、5 种语言，每个 prompt 要求 ~668 行代码（SWE-bench Pro 的 5.5x）。使用行为验证器替代实现细节测试，发现 SWE-bench Pro 有 8% FP + 24% FN 误判率。排行榜已有 kimi-k2.6、glm-5.1、deepseek-v4-pro 等模型。

2. Constraint Decay: LLM Agent 在后端代码生成中的脆弱性

来源: HN (283 pts, 192 comments) + arXiv
URL: https://arxiv.org/abs/2605.06445
论文提出"约束衰减"概念：结构约束累积时 agent 表现骤降。80 个绿地 + 20 个增量任务，agent 在 Flask（最小框架）表现尚可，但在 FastAPI/Django（约定密集）几乎崩溃。数据层缺陷（错误查询、ORM 违规）是首要根因。

3. Coding Agent 八大失败模式与八大支柱

来源: HN (3 pts) + Blog
URL: https://nimbalyst.com/blog/agent-harness-above-claude-code-codex/
Nimbalyst 团队实战总结：定义 agent "harness"（指令/工具/权限/上下文/验证的持久层），映射 8 个失败模式→8 个支柱：上下文缺失、溯源断裂、能力不足、工作流重复、约束失控、验证幻觉、视觉盲区、协调混乱。每个支柱给出具体解决方案。

4. skills-for-humanity: 171 个结构化推理技能 for Claude Code

来源: HN (13 pts) + GitHub (30 stars)
URL: https://github.com/human-avatar/skills-for-humanity
将历史上最严谨的思想家的推理方法论打包为 Claude Code skills。覆盖认识论、逻辑、系统思维等类别。JavaScript/Shell 编写。

5. Herdr: AI Coding Agent 的终端多路复用器

来源: HN (4 pts) + GitHub (2,500 stars)
URL: https://github.com/ogulcancelik/herdr
类 tmux 的终端 multiplexer，专为并行运行多个 coding agent 设计。Rust 编写，617 commits，极其活跃。

6. Rust 适合 Agentic 时代

来源: HN (4 pts) + Blog
URL: https://kerkour.com/rust-agentic-coding
Sylvain Kerkour 论点：agent 接管实现后，人类聚焦需求规范和一致性测试。Rust 的强类型和编译器验证提供 agent 需要的反馈循环——"编译通过即正确"。sqlx 编译期 SQL 验证是其他语言做不到的。
观察: Rust 在 agent 生态加速渗透（herdr、pi、clark-agent 都是 Rust）。

7. Uber 一个季度烧光 AI 预算

来源: HN (19 pts, 9 comments)
URL: https://fortune.com/2026/05/26/uber-coo-ai-spending-tokens-claude-code/
Uber COO 透露 Claude Code 等 coding agent token 消耗远超预期，一季度即耗尽全年 AI 预算。

8. OpenTelemetry 监控 Claude Code 质量退化

来源: HN (5 pts) + Blog
URL: https://signoz.io/blog/claude-code-measure-degradation-opentelemetry/
提出"output-per-token"作为核心效率指标（每 token 消耗产出多少有效代码/PR），而非仅追踪 token 用量/成本。展示如何用 OpenTelemetry 仪表化 Claude Code 会话并构建可行动的 dashboard。

9. Agent Airlock: AI Agent 安全防火墙

来源: GitHub (6 stars, 82 commits)
URL: https://github.com/sattyamjjain/agent-airlock
开源 agent 安全层：验证 tool calls、剥离幽灵参数、类型安全、PII 脱敏（含印度语言）、RBAC、成本追踪、沙箱隔离。支持 LangChain / OpenAI Agents SDK / PydanticAI / CrewAI / Gemini 3。v0.8.5，活跃开发中。

10. GSD-PI: 元提示与上下文工程系统

来源: GitHub (256 stars, 241 commits)
URL: https://github.com/open-gsd/gsd-pi
元提示 + 上下文工程 + 规范驱动开发系统，让 agent 长时间自主工作而不丢失全局视图。TypeScript 为主，含 Rust/Python 组件。

11. AWS Well-Architected Skills for AI Coding Agents

来源: HN (2 pts) + GitHub (52 stars)
URL: https://github.com/aws-samples/sample-well-architected-skills-and-steering
AWS 官方 sample：一套 playbook 覆盖 12 种 AI coding tool（Claude、Junie、Amp、DevOps Agent 等），教 agent 应用 AWS Well-Architected Framework。
观察: AWS 亲自下场教 coding agent 最佳实践——大厂对 agent 标准化的重视程度在上升。

12. Coding Agents 给所有人带来决策疲劳

来源: HN (4 pts) + Stack Overflow Blog
URL: https://stackoverflow.blog/2026/05/21/coding-agents-are-giving-everyone-decision-fatigue/
SO 博文：AI 生成代码将瓶颈从"写代码"转移到"代码审查和判断"。80% 的 AI 内容在最终采用前被编辑。工作日不更长但决策更密集。新生产力衡量标准是"判断质量"而非代码行数。

观察清单

Coding agent 基准化运动: DeepSWE + AgentToolBench-Code + agent-eval-harness 同日出现，社区在认真思考怎么评估 agent。
Rust 在 agent 工具链的加速: herdr (2500★)、clark-agent、pi (55k★) 等核心工具选 Rust——性能和安全是 agent 工具的刚需。
Token 成本焦虑: Uber 烧完预算 + token cost calculator 工具涌现 + "My AI coding flow was burning tokens" 文章——成本优化是下一个热门方向。
Agent 安全成独立赛道: Aigis (43% MCP server 有注入载荷)、agent-airlock、mcpaudit、MCP-safeguard 等安全工具密集出现。