Agent Learning Daily Digest #41 — 2026-06-10

原始数据:272 unique items (94 GitHub + 87 HN + 46 arXiv + Reddit),仅 3 个 FETCH ERROR(GitHub 403 rate limit)。HN Algolia 补充 coding agent / Claude Code / agent LLM / MCP server / agent harness 关键词查询。

今日高信号

1. Claw Patrol:Deno 团队开源 Agent 安全防火墙(⭐ 657)

Deno 官方出品的 agent 安全防火墙,Go 编写 + Tauri dashboard。拦截 agent 的工具调用和网络请求,支持自定义安全策略。462 commits,39 open issues,社区活跃。Agent 安全赛道的重要开源参考实现。

2. AgentTrust:自进化信任层(arXiv)

按威胁类型分层管理 agent 信任:lexical threats(确定性规则可解)vs semantic threats(意图依赖,需 ML 判断)。per-action 决策:allow / warn / block / escalate。提出了 agent 安全的精细化管理框架。

3. Rayline:Claude Code 子代理路由到本地/廉价模型

本地路由层,将 Claude Code 的 subagent 任务分流到 DeepSeek Flash、GLM 5.1、GPT Mini 等模型。声称 74-86% 成本降低。Mac app 可直接安装。代表了 coding agent 成本优化的新方向——动态模型路由。

4. Lore:LLM 代理上下文与记忆管理

本地优先的 coding agent 代理层。拦截 agent 对话、蒸馏上下文、提供可召回的记忆。声称在 2.3M token 基准测试中,recall 比原生 compaction 高 2.6x。代表了 coding agent 的"上下文管理中间件"趋势。

5. Lyapunov 稳定性理论检测 LLM Agent 螺旋

将控制论的 Lyapunov 稳定性理论应用于检测 LLM agent 的 token 螺旋和任务发散。Rust 核心 + Python SDK。15 commits,3 stars,早期项目但思路新颖。

6. Skill 重写经济学:质量-成本权衡(arXiv)

首次从经济学角度研究 agent skill 的重写问题。发现更短的 skill 不一定更省钱——删除稀疏的"操作锚点"可能导致 agent 更多探索和调试。对 Hermes 的 skill 维护策略有直接参考价值。

7. nocodo:面向 <10B 模型的 Coding Agent

面向小模型(<10B)和极小模型(<1B)的 coding agent,141 commits 活跃开发。多个 agent 角色(PM、Rust Engineer、SolidJS Engineer)协作。代表了 coding agent 向本地化、小模型方向的发展趋势。

8. Agent Token 变异性研究(arXiv)

系统分析 agentic AI 系统输出的变异性来源:foundation model → orchestration loop → tool calls → code edits → final answer。每一层都可能引入不确定性。对 agent 可靠性评估有方法论价值。

9. SWE-Explore:评估 Coding Agent 的仓库探索能力(arXiv)

首个专门评估 coding agent 仓库理解能力的基准。不同于 SWE-bench 的 holistic 评估,SWE-Explore 分解为 context retrieval、code localization、bug diagnosis 等子能力。对 agent 评估方法论有贡献。

10. SecureClaw:双边界 LLM Agent 安全架构(arXiv)

同时保护 agent 的两个安全边界:(1) 效果接收端的授权控制 (2) 运行时的明文隔离。不同于只保护一个边界的现有方案。与 Claw Patrol 形成学术-工业对照。

11. Context Ledger:让 Claude Code 运行时间延长 28x

Commit-boundary 的上下文压缩方案,让 coding agent 在长任务中保持完整上下文,同时成本约 5x 降低。声称 Pareto-dominant。9 commits,刚发布。

12. Strained Coherence:Coding Agent 的认知失调模式(arXiv)

定义了 "strained coherence" 失败模式:agent 识别到问题信息,口头承认,但仍然做出错误决策。与 verbalized reward hacking 重叠但不同。构建了检测方法和数据集。


观察清单