Agent Learning Daily Digest #52 — 2026-06-24

代码审查消亡论、人类审核习惯化、RigorBench 流程纪律基准、PORTICO 可撤销权限、GLM-5.2 开源代理里程碑、NVIDIA SkillSpector 技能安全扫描、AOHP OS 级 Agent 框架、DeepDiscovery 任务级上下文恢复。

今日高信号

1. The End of Code Review: Coding Agents Supersede Human Inspection

arXiv 立场论文，主张编码代理的代码质量已超越人类人工代码审查的能力边界，软件质量管线应转向自动化验证而非依赖人类 review。核心论点：随着 coding-agent-harness 成熟，以测试通过率、静态分析和自动安全扫描为基础的质量门控可取代传统 PR review 流程。该观点与同日发表的 "Habituation at the Gate" 形成互补——人类 reviewer 本身就在退化。

来源: arXiv 2606.13175
HN: 19 points, 18 comments
关键词: Coding Agent Verification · agent-evaluation · coding-agent-harness

2. Habituation at the Gate: Rising Approval and Declining Scrutiny in Human Review of AI Agent Code

纵向实证研究（AIDev 数据集，400 名 reviewer，11,429 条 review），发现人类 reviewer 对 AI 生成 PR 的审查逐步松懈：通过率从 30.1% 升至 36.8%，而 inline comment 数量显著下降。这一趋势被称为 "习惯化"（habituation），意味着人类审核正变成橡皮图章。被 KDD 2026 SE 3.0 Workshop 接收。

来源: arXiv 2606.22721
关键词: Coding Agent Verification · agent-evaluation · Coding Agent Failure Patterns

3. RigorBench: Benchmarking Engineering Process Discipline in Autonomous AI Coding Agents

首个评估编码代理流程纪律（而非仅结果正确性）的基准。测试维度涵盖计划、验证、恢复和弃权（abstention）。核心发现：具备结构化纪律的 harness 比无纪律的 trial-and-error 方式在结果上提升约 17%。直接挑战了当前 SWE-bench 系列只看 pass/fail 的评价范式。

来源: arXiv 2606.22678
关键词: agent-evaluation · coding-agent-harness · Coding Agent Verification

4. Lingering Authority: Revocable Resource-and-Effect Capabilities for Coding Agents

提出 "残留权限"（lingering authority）问题：编码代理在完成子任务后仍保留对工具/资源的完整访问权。PORTICO 是一个参考监视器（reference monitor），将任务合约编译为可撤销能力（revocable capabilities），在子目标完成后自动撤销权限。实验中拒绝了 10/10 的跨阶段权限复用请求。20 页论文。

来源: arXiv 2606.22504
关键词: Agent Safety · agent-skill-security · mcp-security

5. GLM-5.2 is the Step Change for Open Agents

Nathan Lambert（interconnects.ai）分析 Z.ai 发布的 GLM-5.2，认为这是开放权重代理模型领域的 DeepSeek R1 级里程碑。GLM-5.2 在代理能力（工具使用、多步推理）上达到或接近闭源前沿水平，且许可证允许商用。HN 讨论 20 points。

来源: interconnects.ai
HN: 20 points, 3 comments
关键词: coding-agent-harness · tool-use

6. NVIDIA SkillSpector: Security Scanner for AI Agent Skills

NVIDIA 开源的 AI 代理技能安全扫描器，检测技能包中的漏洞、恶意模式和安全风险。GitHub trending 3.3k stars/period。这是继 agent-skill-security 和 mcp-security 之后又一个工业级的技能供应链安全工具——技能安全正在成为独立品类。

来源: GitHub NVIDIA/SkillSpector
GitHub: ~3.3k stars (trending)
关键词: agent-skill-security · mcp-security · Agent Safety

7. codebase-memory-mcp: Codebase Knowledge Graph MCP Server

高性能代码智能 MCP 服务器，将代码库索引为持久化知识图谱。支持 158 种语言，亚毫秒查询，单一静态二进制零依赖，号称减少 99% token 消耗。GitHub trending 7.5k stars/period。对 Context Engineering 和 coding agent 的检索增强有直接参考价值。

来源: GitHub DeusData/codebase-memory-mcp
GitHub: ~7.5k stars (trending)
关键词: CodeGraph · Context Engineering · coding-agent-harness

8. AOHP: An Open-Source OS-Level Agent Harness

提出将 AI 代理作为操作系统的一等公民（first-class OS actor），而非在应用层适配。基于 AOSP 构建的 Android Open Harness Project（AOHP），实现 +21% 完成率和 -52% token 消耗。17 页论文，覆盖 OS 级权限隔离、资源调度和个性化。

来源: arXiv 2606.23449
关键词: Agent Sandbox Checkpoint · Agent Safety · agent-harness

9. DeepDiscovery: Task-Level Context Recovery for Large Industrial Codebases

两阶段 Location-Inference 框架，针对大型工业代码库的任务级仓库理解。不再只检索局部片段，而是恢复完整的任务级上下文路径。在 SWE-bench Verified 上达到 78.6%（+8.2pp）。直接关联 Context Engineering 和 coding agent 上下文恢复。

来源: arXiv 2606.22906
关键词: Context Engineering · coding-agent-harness · CodeGraph

10. Intent-Governed Tool Authorization for AI Agents

提出意图治理访问控制（IGAC），一种服务端授权层。核心原则：用户意图只能收窄工具权限，永远不能扩展。即一个凭证可以调用某工具，但如果当前用户请求不需要该工具，则应被拒绝。解决"合法凭证执行不必要操作"的盲区。

来源: arXiv 2606.22916
关键词: Agent Safety · mcp-security · tool-use

11. ArgusRed: Post-Trained Model That Pen Tests Instead of Refusing

通过后训练使模型执行渗透测试而非拒绝。两种模式：只读安全扫描和门控渗透测试。HN 92 points。这是"对齐后训练以解锁合法安全工作流"方向的代表作——与通用模型的安全过滤器形成对比。

来源: argusred.com/cli
HN: 92 points, 40 comments
关键词: Agent Safety · agent-skill-security

12. Claude API 多模型错误率飙升事件（已恢复）

Anthropic 状态页确认事件：Claude API、Console、Code、Cowork 在 2026-06-23 14:08–15:33 UTC 出现错误率飙升，现已恢复。HN 203 points / 250 comments——是当天 HN 讨论量最高的帖子。直接影响所有依赖 Claude 的 coding agent 工作流。

来源: status.claude.com
HN: 203 points, 250 comments
关键词: Claude Code Skills · coding-agent-harness

观察清单

主题	信号强度	说明
代码审查替代论	🔴 强	2 篇论文 + 1 篇 HN 讨论同时指向人类 review 的局限性
Agent 流程纪律评估	🟡 中	RigorBench 首次量化过程维度，17% 提升数据有说服力
可撤销权限 / 最小权限	🔴 强	PORTICO + IGAC 两篇独立论文覆盖 OS 级和应用级
技能供应链安全	🟡 中	NVIDIA SkillSpector 进入主流视野
开源代理模型	🟡 中	GLM-5.2 被视为开放权重代理的关键节点
代码图谱 / 知识图 MCP	🟡 中	codebase-memory-mcp 高星 trending
OS 级 Agent 框架	🟡 中	AOHP 将 Agent 提升为 OS 一等公民