Agent Learning Daily Digest #23 — 2026-05-22

⚠️ 自动采集 GitHub 成功（59 条），HN 全部失败（502），arXiv 部分成功（8 篇论文，2 个 429）。通过 HN Algolia API 手动查询 5 组关键词（agent+LLM、Claude+Code、coding+agent、MCP+server、context+engineering）+ delegate_task 批量浏览器验证 17 个 URL，全部确认有效。

今日高信号

1. Forge：Guardrails 让 8B 模型 agentic 任务从 53% 飙到 99%

来源：HN Show | ⭐ 1.5k | 668 pts
URL：https://github.com/antoinezambelli/forge
一个 Python 框架，通过 guardrails 把小模型的 agentic 任务可靠性从 53% 提升到 99%。核心思路不是用更强的模型，而是用结构化的验证和约束层。对 coding agent 项目的 agent 可靠性设计有直接启发。
关键词：agent guardrails, 小模型可靠性, agentic evaluation

2. 100K 行 Rust 的 AI 编码经验：Code Contracts —— "By AI, For AI"

来源：HN | 173 pts
URL：https://zfhuang99.github.io/rust/claude%20code/codex/contracts/spec-driven%20development/2025/12/01/rust-with-ai.html
Azure 工程师用 Claude Code/Codex 重写 Azure RSL（多 Paxos 共识引擎）的一手经验。提出 Code Contracts 作为 AI 可验证的规格层：agent 先写 contract，contract 驱动实现和测试。对 vibe coding agent 的 spec-driven development 有直接参考价值。
关键词：spec-driven development, code contracts, Claude Code 实战

3. Structural Backpressure Beats Smarter Agents

来源：HN | 137 pts
URL：https://reubenbrooks.dev/blog/structural-backpressure-beats-smarter-agents/
核心论点：用确定性验证门（编译器、类型检查、证明器）作为 "结构化背压" 比提升 agent 智力更有效。使用 Shen 语言构建 5 层验证链演示。配合 Codex CLI 的 /goal 系统和 Geoff Huntley 的 "Ralph loop" 概念。对我们的 coding agent 验证流程有直接启发。
关键词：formal verification, agent loop, structural backpressure

4. Runtime（YC P26）：团队级沙箱化 Coding Agent 平台

来源：HN Launch | 49 pts
URL：https://www.runtm.com/
YC P26 公司，提供团队共享的沙箱化 coding agent 环境。支持 Claude Code 等多种 agent，集成 Slack/Linear/GitHub/Jira，提供 Mission Control 仪表盘。自托管可选。这代表了 coding agent 从个人工具向团队基础设施演进的信号。
关键词：coding agent platform, team agents, sandbox

5. openclaw-nerve：OpenClaw 实时 Web 控制台（821⭐）

来源：GitHub + HN | ⭐ 821
URL：https://github.com/daggerhashimoto/openclaw-nerve
OpenClaw 的实时 Web 驾驶舱：语音对话、agent 自动化看板、工作区/文件控制、子 agent 会话、内联图表。302 commits，极其活跃。展示了 coding agent 生态向可视化编排方向演进。
关键词：OpenClaw, agent orchestration, 可视化

6. 1,281 次 Agent 运行揭示：大型代码库中 Coding Agent 的 5 大失败模式

来源：Tessl 博客 | 6 pts
URL：https://tessl.io/blog/coding-agent-failure-patterns-large-codebases/
基于 Sourcegraph 的 CodeScaleBench，分析 40+ 企业级代码库。5 个关键发现：① 超过 400K 行后 grep 搜索失效；② 找到代码 vs 找到*正确的*代码是不同问题；③ 半成品重构=定时炸弹；④ "工具振荡"——没有好的检索机制的 agent 成本更高、产出更低；⑤ 多仓库任务差距更大。核心洞察："完成失败和接近完美的区别不是智力——是高效获取上下文的能力。"
关键词：coding agent evaluation, large codebase, context retrieval

7. Proof Loop：让 Coding Agent 证明任务完成

来源：HN Show
URL：https://github.com/LeoStehlik/proof-loop
本地验证协议：定义验收标准、独立的 verifier 角色、proof artifact、基于证据的"完成"声明。概念简单但实用——每次 agent 说"做完了"，它需要提供可验证的证据。
关键词：agent verification, proof-of-completion

8. eidetic_engine_cli：Coding Agent 的持久本地优先记忆（Rust）

来源：GitHub | ⭐ 16
URL：https://github.com/Dicklesworthstone/eidetic_engine_cli
Rust 实现的 coding agent 记忆基底。本地优先、可解释、基于 "franken-stack"（Asupersync + FrankenSQLite + Frankensearch + FrankenNetworkX）。4,017 commits，极度活跃。对 Agent Memory 页面有补充价值。
关键词：agent memory, local-first, Rust

9. DeepSeek 正在构建自己的 Agent Harness

来源：HN | 4 pts
URL：https://dlcmh.github.io/deepseek-harness
分析 DeepSeek 的 "Agent Harness R&D Engineer" 职位描述，逆向推导其技术架构：Agent Loop（async Rust/Python）、Context Engineering（KV cache）、Memory（SQLite + vectors）、Tool Use/MCP、Desktop UI（Tauri）、Model-Harness 协同设计。Model + Harness = Agent 的公式值得注意。
关键词：DeepSeek, agent harness, MCP

10. mistle：开源后台 Coding Agent（25⭐）

来源：HN Show | 3 pts
URL：https://github.com/mistlehq/mistle
开源后台 agent 平台。v0.19.0 刚发布，2,271 commits，非常活跃。代表 coding agent 从"交互式会话"向"后台自动化"演进的趋势。
关键词：background agents, autonomous coding

11. OpenCMO：基于 OpenAI Agents SDK 的开源多 Agent CMO

来源：GitHub | ⭐ 82
URL：https://github.com/study8677/OpenCMO
用 OpenAI Agents SDK + Crawl4AI 构建的开源 AI 营销总监。376 commits，活跃开发。是 OpenAI Agents SDK 生态的代表性项目，展示了 multi-agent 在垂直领域的应用模式。
关键词：OpenAI Agents SDK, multi-agent, marketing automation

观察清单

Guardrails > 大模型：Forge 证明 8B 模型加 guardrails 可以达到接近完美的 agentic 性能。这与之前 Semble 的 "结构化搜索 > 更强模型" 趋势一致。
Coding Agent 验证层爆发：Proof Loop、Structural Backpressure、Code Contracts——三个独立项目/文章都在解决同一问题：如何验证 agent 的输出。这正在成为 coding agent 基础设施的关键层。
Coding Agent 平台化：Runtime (YC P26)、mistle、InsForge——coding agent 从个人 CLI 工具向团队平台演进。
DeepSeek 入局 Agent Harness：中国公司在 agent harness 层的布局值得关注，特别是 Model + Harness 协同设计的思路。
Agent Memory 持续演进：eidetic_engine（Rust）、A.I.M.（SQLite exoskeleton）、openclaw-nerve 的记忆系统——coding agent 的持久记忆正在从"想法"变成"基础设施"。