风控日报 — 2026-06-23

📊 原料：49 条相关条目（GitHub 仓库搜索 46 条 / arXiv 15 条全部无关——SAR 合成孔径雷达遥感、Agentic 控制面证书绑定、LLM 漏洞检测校准、扩散模型透明度 DiffusionGemma、主动 flock 重整化群、FID 生成评估方差、$B^+\to K^+\nu\bar\nu$ 粒子物理、机器人手部生成、MoE 分布偏移校准、UNIEGO 视频表示学习、多校准 omniprediction、StylisticBias MLLM 社会偏见、SSD 图像生成加速等 / HN 21 / Trending 20 / Reddit 0）。arXiv 数据源连续八期（06-13→06-22）返回 100% 噪声，累计 225 条全部无关。另发现 1 个破解/盗版垃圾仓库（Aml-Maple-7.32），已剔除。今日 GitHub 源出现几个技术亮点突出的新项目——Agentic 支付欺诈分析平台（Medallion 架构 + XGBoost/SHAP + Google ADK RAG）、Achilles 欺诈调查平台（GNN + 无监督 ML + GenAI 三合一）、比特币 GNN 欺诈检测（GCN + Autoencoder + Elliptic Dataset）。另有 8 条在近 1-2 期日报中已覆盖（upi-fraud-gnn、payment-fraud-detector、marketplace-phaas-tracker、MAGRITTE、maharashtra-pride、VPN-Detector、defi-risk-screening、payment-channel-guide），本轮不重复入选。

今日高信号

1. Agentic_Merchants_Payments_Dashboard — Medallion 架构 + XGBoost/SHAP + Google ADK Agent 的支付欺诈分析平台【信号：★★★】

Rupesh2026/Agentic_Merchants_Payments_Dashboard 是一套支付分析平台，核心架构分三层：(1) Medallion 架构 ETL（Bronze/Silver/Gold 分层数据湖），(2) XGBoost 欺诈检测 + SHAP 可解释性，(3) Google ADK（Agent Development Kit）驱动的 Agentic RAG 助手，支持自然语言查询商户洞察。风控视角：Medallion 分层架构（Bronze 原始→Silver 清洗→Gold 聚合）是数据湖/湖仓（Lakehouse）的行业标准，Delta Lake/Iceberg/Hudi 均支持该模式。将 Medallion 用于风控场景意味着欺诈分析可以同时访问原始交易流（实时检测）和聚合特征（商户级风险画像）。Google ADK 的 Agentic RAG 将风控分析从「写 SQL 查看报表」进化为「自然语言提问→Agent 自动查询+解释」——例如风控分析师可以直接问「上周商户 X 的欺诈率为什么上升？」，Agent 通过 RAG 检索相关数据 + SHAP 解释生成回答。与风控数据架构和风控模型的可解释性直接相关。→ GitHub

2. Achilles (fraud_detector) — GNN + 无监督 ML + GenAI 三合一欺诈调查平台【信号：★★★】

RishiMehtaa/fraud_detector（Achilles）是面向企业的欺诈检测和调查平台，核心技术组合：图神经网络（GNN）+ 无监督机器学习 + 生成式 AI（GenAI），目标是将原始交易日志转化为可操作的「犯罪情报（criminal intelligence）」。风控视角：Achilles 的三技术组合覆盖了欺诈检测的完整链路——GNN 负责团伙/网络检测（捕捉资金骡、关联账户），无监督 ML 负责异常检测（无需标注，发现新型欺诈模式），GenAI 负责自然语言调查报告生成（将复杂图分析结果转化为调查员可读的叙述性报告）。「调查」而非「检测」的定位值得关注——区别于大多数项目只做「欺诈/正常」分类，Achilles 强调事后深度调查，输出的是可指导行动的情报而非仅是风险评分。与反欺诈体系的团伙检测和风控模型的 GNN 应用关联。→ GitHub

3. bitcoin-fraud-detection-gnn — GCN + Autoencoder 比特币欺诈检测（Elliptic Dataset）【信号：★★★】

Vedikajawaria/bitcoin-fraud-detection-gnn 使用图卷积网络（GCN）+ 自编码器（Autoencoder）在 Elliptic Dataset 上进行比特币欺诈检测。风控视角：Elliptic Dataset 是加密货币反洗钱领域最知名的公开数据集——200k+ 比特币交易节点，标注为 illicit（ illicit / licit / unknown），被学界广泛用作 GNN 欺诈检测的基准。GCN + Autoencoder 的组合是一个经典范式：GCN 利用图拓扑结构（地址间的转账关系）学习节点表示，Autoencoder 提供无监督的异常重构误差作为辅助信号（未标注交易也能获得异常评分）。加密货币欺诈检测与传统银行风控的关键差异在于地址的伪匿名性（pseudonymous）——同一实体可拥有大量地址，必须通过图结构（UTXO 转账链）而非身份信息来识别。与反洗钱-AML 的加密货币场景和风控模型的 GNN 应用关联。→ GitHub

4. finledger — 多语言生产级金融平台（Django + FastAPI + GraphQL + Rust 风险引擎）【信号：★★】

sanjay-rassani/finledger 是生产级个人金融平台，架构亮点：复式记账（double-entry ledger）+ 事件驱动支付 + 实时 WebSocket 更新 + Rust 风险引擎。前端 Django，API 层 FastAPI + GraphQL，核心风控逻辑用 Rust 实现。风控视角：Rust 用于风控引擎是性能优先场景的技术选型——风控引擎需要在毫秒级延迟内完成规则匹配和评分，Rust 的零成本抽象 + 无 GC 暂停 + 内存安全使其成为比 Java/Python 更优的低延迟风控引擎实现语言（与 06-18 的 FastRules C++23 高性能规则引擎思路一致）。复式记账是金融风控的基石——每笔交易必须借贷平衡，任何不一致都可能是欺诈或系统错误。事件驱动支付架构意味着每笔交易触发风控事件流水（event sourcing），支持事后回溯和审计。与实时风控引擎的高性能架构和风控数据架构关联。→ GitHub

5. Insurance-policy-FastAPI — 生产级保险保单管理 API（反欺诈引擎 + Celery 批处理 + OSFI 合规）【信号：★★】

yogurt98/Insurance-policy-FastAPI 是面向加拿大保险机构（Sun Life、Manulife、Definity）的生产级保单管理 REST API，核心特性：JWT + RBAC 鉴权、Celery 异步批量上传（10 万+ 保单）、内嵌反欺诈引擎、OSFI 合规、Redis 缓存、Docker 部署。风控视角：OSFI（加拿大金融机构监管局）合规意味着该系统需要满足严格的监管审计要求——保单数据完整性、交易可追溯、反欺诈决策日志留存。Celery 批处理（10 万+保单）展示了高吞吐异步风控场景——批量保单审查不需要实时响应，但需要处理海量数据。保险反欺诈引擎嵌入保单管理流程（而非独立系统）代表了风控内嵌化（embedded risk control）趋势：反欺诈不是事后检查，而是融入业务流程的每个节点。与保险风控和实时风控引擎关联。→ GitHub

6. anti-fraud-monitor — 电信运营商反欺诈舆情监控系统【信号：★★】

N-E-C/anti-fraud-monitor 是面向电信运营商的反欺诈公众舆情监控系统，使用自动化社交媒体情感分析（NLP sentiment analysis）监测与电信欺诈相关的公众舆情。风控视角：舆情监控是风控的情报层而非检测层——传统风控关注交易级异常检测，舆情监控关注「用户是否在社交媒体上投诉欺诈/诈骗」。对于电信运营商，SMS 钓鱼、虚假号码、话费欺诈（AIT）等欺诈类型往往最先在用户投诉和社交媒体暴露。NLP 情感分析可以提前预警欺诈事件爆发（如某地区突然出现大量「收到诈骗短信」的社交媒体帖子），辅助风控团队主动响应。这与 06-22 的 telecom-otp-fraud（电信 AIT 检测管道）形成互补——一个做交易级检测，一个做舆情级预警。与反欺诈体系的威胁情报关联。→ GitHub

7. SnifTern.ai — AI 驱动的实习/招聘欺诈检测平台【信号：★★】

gilangcowokull/SnifTern.ai 是基于 Flask 的 AI 实习欺诈检测平台，使用机器学习识别虚假招聘信息并验证公司合法性。风控视角：招聘欺诈（job scam）是社会工程欺诈的重要类型——虚假招聘信息用于骗取求职者的个人信息（身份盗窃）、押金/培训费（直接诈骗）、或作为洗钱招募资金骡的渠道。SnifTern.ai 的检测角度包括虚假职位描述的 NLP 特征分析 + 公司合法性验证（工商注册、网站域名、社交媒体存在性）。招聘欺诈检测的挑战在于合法招聘信息与欺诈信息在表面特征上高度相似，需要结合公司实体验证和语言模式分析。与反欺诈体系的社会工程防护关联。→ GitHub

8. disposable-email-detector — 74k+ 域名的临时邮箱检测器（含合法别名区分）【信号：★★】

emailalias/disposable-email-detector 检测临时邮箱（disposable email）地址，并能区分真正的临时邮箱与合法的邮件转发别名（forwarding aliases）——支持 EmailAlias.io、SimpleLogin、addy.io、DuckDuckGo 等合法隐私转发服务。覆盖 74,000+ 域名，提供 JS + Python 实现。风控视角：临时邮箱检测是注册风控和营销反作弊的基础能力——欺诈者使用临时邮箱批量注册账户进行薅羊毛（promotion abuse）、虚假评论、垃圾信息发送。但该项目的独特价值在于「合法别名区分」——隐私转发服务（如 SimpleLogin、DuckDuckGo Email）是合法用户保护隐私的工具，简单地将所有别名标记为「临时邮箱」会导致大量误杀（false positive）。精准区分恶意临时邮箱和合法隐私别名，是降低风控误报率的关键工程细节。与反欺诈体系的设备/身份指纹和电商风控的营销反作弊关联。→ GitHub

技术趋势

Agentic RAG 进入风控分析层：Agentic_Merchants_Payments_Dashboard 引入 Google ADK 的 Agentic RAG 助手，将风控分析从「写 SQL 看报表」进化为「自然语言提问→Agent 自动查询+SHAP 解释」。这是继 06-22 OKO 的 Graph RAG 持续特征工程后，又一个 RAG/Agent 技术在风控场景的落地——RAG 不再只是文档问答，而是风控分析的工具层。
GNN + 无监督 ML + GenAI 三合一调查平台浮现：Achilles（GNN + 无监督 + GenAI）展示了欺诈调查平台的新范式——检测（GNN 团伙识别）+ 异常发现（无监督）+ 报告生成（GenAI）一体化，输出的是「可指导行动的犯罪情报」而非仅是风险评分。
加密货币 GNN 欺诈检测聚焦基准数据集：bitcoin-fraud-detection-gnn 在 Elliptic Dataset 上用 GCN + Autoencoder，代表了加密货币 AML 场景的标准化研究路径——伪匿名地址必须依赖图拓扑（UTXO 转账链）而非身份信息检测欺诈。
Rust 成为低延迟风控引擎的新语言选择：finledger 用 Rust 实现风险引擎，与 06-18 的 FastRules（C++23）一致——风控引擎的极致延迟需求正在推动从 Java/Python 向 Rust/C++ 等系统语言迁移。
风控内嵌化（Embedded Risk Control）：Insurance-policy-FastAPI 将反欺诈引擎嵌入保单管理 API 流程（而非独立系统），代表风控从「事后检查」走向「流程内嵌」。
隐私感知的设备/身份检测：disposable-email-detector 的「合法别名区分」思路与 06-22 的 scent（无 PII 概率身份连续性）一致——后隐私法规时代，风控的设备/身份检测必须在精度和隐私合规间取得平衡，精细化的误报控制成为工程关键。

行业案例

支付欺诈 / Medallion + Agentic RAG：Agentic_Merchants_Payments_Dashboard 展示了 Medallion 分层数据湖 + XGBoost/SHAP + 自然语言 Agent 查询的完整商户欺诈分析平台。
欺诈调查 / GNN + GenAI：Achilles 展示了从交易日志到犯罪情报的端到端调查平台（GNN + 无监督 + GenAI 报告生成）。
加密货币 AML / GCN + Autoencoder：bitcoin-fraud-detection-gnn 在 Elliptic Dataset 基准上的比特币欺诈检测实践。
金融基础设施 / Rust 风控引擎：finledger 展示了 Django + FastAPI + GraphQL + Rust 风险引擎的 polyglot 生产级金融平台。
保险风控 / 内嵌反欺诈：Insurance-policy-FastAPI 展示了保单管理流程内嵌反欺诈引擎 + OSFI 合规的生产实现。
电信欺诈 / 舆情预警：anti-fraud-monitor 展示了社交媒体 NLP 情感分析辅助电信欺诈预警的情报层方案。
招聘欺诈 / NLP 检测：SnifTern.ai 展示了虚假招聘信息的机器学习检测 + 公司合法性验证。
注册风控 / 临时邮箱检测：disposable-email-detector 展示了 74k+ 域名覆盖 + 合法别名区分的精细化误报控制。

值得深入

[ ] 深入 Agentic_Merchants_Payments_Dashboard 的 Medallion 分层 ETL 设计——Bronze/Silver/Gold 层的表 schema 和转换逻辑，以及 Google ADK Agent 如何将自然语言查询转化为 SQL + SHAP 解释
[ ] 研究 Achilles 的 GNN + 无监督 ML + GenAI 三技术架构——GenAI 如何将图分析结果转化为可读的调查报告？调查报告的结构和信息源是什么？
[ ] 分析 bitcoin-fraud-detection-gnn 的 GCN + Autoencoder 组合在 Elliptic Dataset 上的性能——GCN 嵌入与 Autoencoder 重构误差如何融合？与纯 GCN 基线的提升幅度
[ ] 对比 finledger 的 Rust 风险引擎与 Java/Python 实现在延迟和吞吐上的差异——Rust 在规则引擎场景的性能优势是否值得引入额外语言栈成本
[ ] 研究 disposable-email-detector 的「合法别名区分」算法——如何区分 SimpleLogin/DuckDuckGo 别名与 10minutemail 等临时邮箱？域名特征还是行为特征驱动？