Agent Learning Daily Digest — 2026-05-15

数据来源：GitHub API（6 组关键词）+ HN RSS + arXiv

原始数据：2026-05-15

今日采集 140 条，筛选 11 条高信号内容

今日高信号

1. 🔐 Toward Securing AI Agents Like Operating Systems (arXiv)

URL: https://arxiv.org/abs/2605.14932v1
要点: 从操作系统安全视角审视 AI agent 安全性。研究 OpenClaw 等系统引入的安全风险——无限制能力 + 敏感用户数据访问。提出类 OS 的安全分层方案。

2. 🧪 Holistic Evaluation and Failure Diagnosis of AI Agents (arXiv)

URL: https://arxiv.org/abs/2605.14865v1
要点: 提出 top-down agent 级诊断 + bottom-up span 级评估的全局评估框架。分解独立 span 评估，可扩展到长 trace。解决"只知道失败不知道为什么"的问题。

3. 🏗️ claude-code-harness — Plan→Work→Review 自主循环 (⭐866)

URL: https://github.com/Chachamaru127/claude-code-harness
要点: Claude Code 专用开发 harness，通过 Plan→Work→Review 三阶段自主循环实现高质量开发。Shell 实现，866 星。

4. 📊 CodexBar — Codex & Claude Code 用量统计 (⭐12191)

URL: https://github.com/steipete/CodexBar
要点: macOS 菜单栏显示 OpenAI Codex 和 Claude Code 使用统计，无需登录。Swift 实现，12191 星。

5. 🤖 DeepSeek-Reasonix — DeepSeek 原生 coding agent (⭐2440)

URL: https://github.com/esengine/DeepSeek-Reasonix
要点: 基于 DeepSeek 的终端 coding agent，围绕 prefix-cache 稳定性设计，支持长时间运行。TypeScript 实现，2440 星。

6. 🎮 BitFun — 桌面 Agent 运行时 (⭐728)

URL: https://github.com/GCWing/BitFun
要点: 桌面级 Agent 运行时 + 应用套件。内置 Code Agent、Cowork Agent、Computer Use。有记忆、人格、进化能力。Rust 实现。

7. 📋 Systematically Auditing AI Agent Benchmarks with BenchJack (arXiv)

URL: https://arxiv.org/abs/2605.12673
要点: 对 AI agent benchmark 进行系统性审计。发现评估中的偏差和不一致问题。

8. 🛡️ mcp-firewall — MCP 安全策略执行 (⭐1)

URL: https://github.com/Betoche57/mcp-firewall
要点: Go 实现的 MCP 安全层。执行安全策略、数据脱敏、进程沙箱、完整性验证。

9. 🔬 AI Harness Engineering — Agent 运行时基底理论 (arXiv)

URL: https://arxiv.org/abs/2605.13357v1
要点: 提出 software-engineering capability 来自 model-harness-environment 系统。harness 作为运行时基底，中介 agent 观察、行动、反馈和验证。

10. 🧬 Skill-R1: Agent Skill Evolution via RL (arXiv)

URL: https://arxiv.org/abs/2605.09359
要点: 用强化学习优化 agent skill——而非传统 prompt engineering 或模型微调。双层信用分配：skill 必须改善 rollout 质量。

11. 📜 Making OpenAPI Documentation Agent-Ready (arXiv)

URL: https://arxiv.org/abs/2605.14312v1
要点: 将 16 个生产 API（~600 endpoints）暴露为 agent 可消费的工具。发现文档异味和 REST 反模式导致 agent 系统性失败。多 agent LLM 系统检测和修复。

观察清单

Coding agent 安全层加速: arXiv 上同时出现 OS 级安全、MCP firewall、guardrail 保守策略三篇，说明安全问题已成为焦点
Agent 评估从 score 走向 diagnosis: 不再只看 pass/fail，开始关注"为什么失败"和"benchmark 本身是否可信"
Skill 进化自动化: Skill-R1 用 RL 优化 skill，可能改变当前人工维护 skill 的范式
桌面 Agent 运行时: BitFun 代表 agent 从 CLI/IDE 向桌面应用扩展的新方向