风控日报 — 2026-06-22

📊 原料：53 条相关条目（GitHub 仓库搜索 50 条 / arXiv 15 条全部无关——SAR 合成孔径雷达遥感、Agentic 控制面证书绑定、LLM 漏洞检测校准、扩散模型透明度、主动 flock 重整化群、FID 生成评估方差、$B^+\to K^+\nu\bar\nu$ 粒子物理、机器人手部生成、MoE 分布偏移校准等 / HN 22 / Trending 20 / Reddit 0）。arXiv 数据源连续七期（06-13→06-20）返回 100% 噪声，累计 210 条全部无关。今日 GitHub 源质量极高——出现两个来自同一作者（vrundava46）的生产级完整数据栈管道项目（电信 OTP 欺诈 + 银行卡交易），以及多个有独特技术亮点的风控引擎。

今日高信号

1. telecom-otp-fraud — 生产级电信 OTP/SMS AIT 欺诈检测管道（完整现代数据栈）【信号：★★★】

vrundava46/telecom-otp-fraud 是一套生产级电信 OTP/SMS 事件管道，实现实时 AIT（Artificial Inflation of Traffic，SMS-pumping 话费欺诈）检测 + 投递分析。技术栈：Kafka 事件流 + Spark 批/流处理 + Iceberg 数据湖（MinIO 存储）+ Trino 查询 + dbt 模型 + Airflow 调度。风控视角：SMS-pumping/AIT 是电信行业增长最快的欺诈类型之一——欺诈者通过向高端国际号码大量发送短信，利用运营商间结算价差套利（每条 SMS 几美分到几美元的利润），传统风控系统难以检测。该项目的完整现代数据栈（Kafka→Spark→Iceberg→Trino→dbt→Airflow）是流式风控数据管道的行业最佳实践参考。与同一作者的 banking-card-transactions 形成「电信欺诈 + 支付欺诈」的姊妹项目。与风控数据架构和实时风控引擎直接相关。→ GitHub

2. banking-card-transactions — 生产级银行卡交易管道：规则引擎 + ML 评分 + 卡分析【信号：★★★】

vrundava46/banking-card-transactions 是生产级信用卡交易管道，核心架构：实时欺诈规则引擎 + 监督学习 ML（HistGradientBoosting）评分 + 卡消费分析。技术栈与 telecom-otp-fraud 完全一致：Kafka + Spark + Iceberg + Trino + dbt + Airflow。风控视角：规则引擎 + ML 双路架构是生产级交易风控的标准范式——规则引擎提供可解释、低延迟、可快速调整的确定性检测（黑名单、限额、速率），ML 模型（HistGradientBoosting，sklearn 的高效梯度提升实现）提供模式识别和复杂异常检测。两个项目共用同一套现代数据基础设施（Kafka→Spark→Iceberg→Trino→dbt→Airflow），展示了风控数据平台复用的工程理念：一套湖仓基础设施支撑多个风控场景（电信欺诈 + 支付欺诈）。与实时风控引擎和风控数据架构直接相关。→ GitHub

3. risk-engine — 可解释的电商实时欺诈检测风险评分引擎【信号：★★★】

archittrehan/risk-engine 是面向印度电商场景的实时欺诈检测风险评分引擎，强调可解释性（explainable）。风控视角：电商欺诈（刷单、虚假交易、退款欺诈、黄牛抢购）是垂直风控的高频场景，印度电商市场（Flipkart/Amazon India）的货到付款（COD）模式带来独特的欺诈挑战——买家拒收/虚假退货导致卖家损失。可解释的风险评分引擎让风控分析师能理解决策依据，对高风险订单进行人工复核。该项目展示了从特征提取→规则匹配→ML 评分→可解释决策的完整链路。与电商风控和风控模型关联。→ GitHub

4. credit-risk-catalyst-dashboard — CatBoost + SHAP + Streamlit 信贷风控引擎【信号：★★★】

AbhinavSingh722/credit-risk-catalyst-dashboard 是端到端信贷风控引擎，技术栈：CatBoost 梯度提升 + SHAP 模型可解释性 + Streamlit 实时仪表盘，带自定义 glassmorphism UI。风控视角：CatBoost 是信贷风控的理想模型选择——信用评分数据中大量类别型特征（职业、地区、收入等级），CatBoost 原生支持类别特征编码，无需手动 one-hot。SHAP 可解释性在信贷场景中不仅是工程优化，更是合规要求（GDPR 的「知情权」和「解释权」要求拒绝贷款时提供可理解的解释）。Streamlit 仪表盘让信贷审批人员实时查看模型决策和特征贡献。与信贷风控和风控模型的可解释性直接相关。→ GitHub

5. Anti-Money-Laundering-AML-Modeling — XGBoost AML 分类器（极端类别不平衡 + 阈值优化）【信号：★★★】

JBangtson/Anti-Money-Laundering-AML-Modeling 是面向反洗钱的 XGBoost 分类器，核心亮点：在 0.1% 正样本率的极端类别不平衡下达到 75% 召回率，方法包括特征工程、scale_pos_weight 调参、以及基于 Precision-Recall 曲线的阈值选择。风控视角：AML 可疑交易检测是极端类别不平衡的典型场景——银行日均数百万笔交易中，真正可疑的交易不到 0.1%。该项目展示了三个关键工程实践：(1) scale_pos_weight 是 XGBoost 处理类别不平衡的核心参数（正样本权重放大），(2) PR 曲线而非 ROC 曲线用于不平衡场景的模型评估（ROC 在极度不平衡下虚高），(3) 阈值选择基于业务需求（召回率优先还是精确率优先）。与反洗钱-AML 和风控模型的样本不平衡处理直接相关。→ GitHub

6. upi-fraud-gnn — GNN + 流式分析检测 UPI 欺诈团伙（资金骡网络）【信号：★★★】

yoelpa6680/upi-fraud-gnn 使用图神经网络 + 流式分析检测 UPI（统一支付接口，印度即时支付系统）欺诈团伙，识别复杂的资金骡（money mule）网络。风控视角：UPI 是全球交易量最大的实时支付系统之一（月交易超百亿笔），其即时性和不可撤销性使其成为欺诈转移的理想通道。资金骡网络检测是 GNN 在风控中最直接的应用——欺诈者通过多层骡子账户分散、转移和提现赃款，形成复杂图结构。GNN 可以捕捉传统特征工程无法发现的拓扑模式（如星形收网、环状转账、快速分拆）。流式分析则保证实时图更新和检测。与反欺诈体系和风控模型的 GNN 应用关联。→ GitHub

7. maharashtra-pride / FraudLens — 政府/警务级欺诈检测平台（GNN + 集成 ML + Neo4j 知识图谱）【信号：★★★】

ajinkyachalke008/maharashtra-pride（FraudLens Intelligence Platform）是面向马哈拉施特拉邦警方的生产级欺诈检测平台，技术栈：图神经网络 + 集成 ML 模型 + Neo4j 知识图谱，用于识别犯罪集团、追踪交易网络、生成侦查报告。风控视角：政府/执法级风控平台与企业风控有本质区别——执法场景需要将检测结果转化为可呈堂的侦查证据链，知识图谱（Neo4j）在这里的作用是可溯源的犯罪网络可视化，不仅是检测工具，更是调查和取证工具。GNN + 集成 ML 的组合覆盖了「深度图结构检测」+「广度统计模式」两个维度。这是继 06-18 的 verify-my-interview（多 agent 身份验证）后，又一个面向执法/合规场景的风控平台。与反欺诈体系和反洗钱-AML 的执法级应用关联。→ GitHub

8. OKO — 理赔与实体欺诈检测（地理时序 DNN + Graph RAG 持续特征工程）【信号：★★★】

ar7emiy/OKO 是理赔（claims）与实体欺诈检测 ML/AI 系统，架构创新点：地理时序 DNN（geotemporal DNN）+ 类 Collibra 的 Graph RAG agent 用于持续特征工程和测试。风控视角：Graph RAG 用于持续特征工程是全新的架构模式——传统特征平台是静态的（预定义特征 + 定期刷新），而 OKO 的 Graph RAG agent 可以动态查询知识图谱、发现新的欺诈模式关联，并自动生成和验证新特征。这回应了风控领域「概念漂移」的核心挑战——欺诈者持续变换策略，特征工程也需要持续进化。地理时序 DNN 则将时空行为序列建模为图（如「同一 IP 在不同城市短时间内出现多次」）。与风控模型的自动化特征工程和特征平台关联。→ GitHub

9. pixtrap — 巴西 Pix 支付欺诈的 LLM 安全基准（社会工程评估）【信号：★★★】

patrickpassosb/pixtrap 是一个巴西葡萄牙语的 LLM 安全基准，专门衡量 LLM 在 Pix 支付欺诈和社会工程场景下的安全性。风控视角：Pix 是巴西央行的即时支付系统（月交易超 50 亿笔），结合巴西高发的社会工程攻击（假冒客服、投资诈骗、 Pix 劫持），是新兴市场支付欺诈的典型样本。该基准的独特价值在于：它评估的不是欺诈检测模型，而是 LLM 本身是否会协助社会工程攻击——这对应了 AI 时代的新型风控需求：LLM 安全对齐（alignment）也是风控防线的一部分（防止 LLM 被用于生成钓鱼话术、伪造身份验证问答等）。与反欺诈体系的社会工程防护和风控模型的 LLM 安全评估关联。→ GitHub

10. payment-fraud-detector — Transformer + LoRA 微调的实时支付欺诈检测【信号：★★★】

Para99999/payment-fraud-detector 使用 Transformer 架构 + LoRA（Low-Rank Adaptation）高效微调进行支付欺诈检测，提供实时预测。风控视角：Transformer + LoRA 是风控领域的新 ML 路线——传统欺诈检测以树模型（XGBoost/LightGBM/CatBoost）为主，Transformer 的序列建模能力可以捕捉交易行为序列中的时间依赖模式（如「先小额试探→再大额转移」的攻击序列）。LoRA 微调降低了 Transformer 的适配成本——只需训练少量低秩参数即可在新欺诈场景上适配预训练模型，比全量微调快 10x+。这与 06-18 的 FraudGNN（GNN+RL）和 06-20 的 finomaly（Autoencoder+GNN）一起，展示了欺诈检测 ML 方法的多元化探索。与风控模型关联。→ GitHub

11. scent — 对抗性浏览器环境的概率身份连续性（无 PII 设备指纹）【信号：★★★】

tindalabs/scent 提供概率身份连续性方案，在对抗性浏览器环境中跟踪回访访客——支持 cookie 删除、VPN 切换、反指纹插件场景，且不依赖 PII（个人身份信息）。核心技术：漂移容忍（drift-tolerant）的置信度评分。风控视角：设备指纹与身份连续性是反欺诈的第一道防线——账户盗用、多账户关联、营销羊毛党检测都依赖「同一设备/用户」的识别。但隐私法规（GDPR/CCPA）限制了 PII 的使用，隐私沙箱（Privacy Sandbox）逐步淘汰第三方 cookie，传统指纹方案面临挑战。scent 的「无 PII + 漂移容忍」思路代表了后 cookie 时代的设备识别方向：用概率模型而非确定性匹配，容忍环境变化（VPN、清除 cookie），在隐私合规和检测精度间取得平衡。与反欺诈体系的设备指纹和身份验证关联。→ GitHub

12. marketplace-phaas-tracker — 多品牌 PhaaS 钓鱼运营追踪器（IOCs + 检测签名）【信号：★★★】

malek-alhu/marketplace-phaas-tracker 是针对多品牌 PhaaS（Phishing-as-a-Service）运营的威胁情报拆解和无密钥实时追踪器，覆盖 Classiscam/Telekopye 级别的钓鱼运营——冒充 OLX、Subito、Kleinanzeigen 等 ~120 个品牌，窃取银行卡数据和 3D Secure/OTP。提供 IOCs（入侵指标）、kit 分析和检测签名。风控视角：PhaaS 是钓鱼/欺诈的 SaaS 化——Classiscam 等运营为诈骗者提供完整的钓鱼工具包（伪造品牌页面、自动聊天脚本、OTP 采集），降低犯罪门槛。该追踪器的价值在于防御情报：IOCs 可直接集成到风控系统的 IP/域名信誉库，检测签名可用于实时拦截已知钓鱼基础设施。「无密钥追踪」意味着无需登录钓鱼平台即可监测其活动，降低了情报收集的法律风险。与反欺诈体系的威胁情报和支付风控的 3DS/OTP 保护关联。→ GitHub

技术趋势

现代数据栈复用成为风控基础设施标准：vrundava46 的两个项目（telecom-otp-fraud + banking-card-transactions）共用完全相同的 Kafka→Spark→Iceberg→Trino→dbt→Airflow 管道，展示了一套湖仓基础设施支撑多个风控场景的工程理念。这与 06-18 的 Huanca（Redpanda+Iceberg+StarRocks）一致，风控数据架构正在向开放表格式 Lakehouse 收敛。
GNN 欺诈团伙检测全面进入垂直场景：upi-fraud-gnn（UPI 资金骡网络）、maharashtra-pride（警务级犯罪集团追踪）、OKO（理赔欺诈的 Graph RAG 特征工程）三个项目展示了 GNN 在支付、执法、保险三个垂直领域的落地。Neo4j 知识图谱与 GNN 的结合（maharashtra-pride）代表了「检测 + 取证」一体化的趋势。
Graph RAG 驱动持续特征工程：OKO 引入类 Collibra 的 Graph RAG agent 用于持续特征工程，这是继传统静态特征平台后的新范式——RAG agent 动态发现欺诈模式关联并自动生成新特征，回应概念漂移挑战。
Transformer + LoRA 进入欺诈检测 ML 混合阵营：payment-fraud-detector 用 Transformer 序列建模 + LoRA 高效微调，与主流树模型（XGBoost/CatBoost）形成互补。LoRA 的大幅降本让 Transformer 在新欺诈场景的快速适配成为可能。
LLM 安全对齐成为风控新维度：pixtrap 评估 LLM 在支付欺诈和社会工程中的安全性，反映了 AI 时代的新型风险——LLM 本身可能被武器化（生成钓鱼话术、伪造验证问答），LLM 安全性也是风控防线的一部分。

行业案例

电信欺诈 / SMS-pumping：telecom-otp-fraud 展示了 AIT（话费欺诈）检测的完整现代数据栈管道，填补了电信行业风控的空白。
银行卡交易 / 规则+ML 双路：banking-card-transactions 展示了规则引擎 + HistGradientBoosting 双路并行评分的生产级实现。
电商欺诈 / 可解释风控：risk-engine（印度电商可解释风险评分）展示了垂直电商场景的风控引擎。
信贷风控 / CatBoost+SHAP：credit-risk-catalyst-dashboard 展示了 CatBoost 类别特征处理 + SHAP 合规可解释性的组合。
AML / 极端类别不平衡：Anti-Money-Laundering-AML-Modeling 展示了 0.1% 正样本率下的 scale_pos_weight + PR 曲线阈值优化。
支付团伙检测 / GNN：upi-fraud-gnn（UPI 资金骡）、maharashtra-pride（警务级犯罪集团）展示了 GNN 在团伙检测和执法取证中的应用。
LLM 安全 / 新兴市场支付：pixtrap（巴西 Pix 支付社会工程基准）展示了 LLM 安全评估在风控中的应用。
设备指纹 / 后 cookie 时代：scent（无 PII 概率身份连续性）展示了隐私合规时代的设备识别方向。

值得深入

[ ] 深入 vrundava46 的 telecom-otp-fraud 和 banking-card-transactions 代码仓库，提取 Kafka topic 设计、Iceberg 表 schema 和 dbt 模型定义作为风控数据架构模板
[ ] 研究 OKO 的 Graph RAG agent 架构——如何用 RAG 自动发现欺诈模式关联并生成新特征？特征验证如何自动化？
[ ] 分析 upi-fraud-gnn 的资金骡网络检测方案——GNN 如何建模 UPI 转账图？社区检测（community detection）与 GNN 嵌入在骡网络识别中的优劣
[ ] 拆解 maharashtra-pride 的 Neo4j 知识图谱 + GNN 组合——知识图谱如何为 GNN 提供实体和关系特征？检测结果如何转化为可呈堂的侦查证据链？
[ ] 对比 payment-fraud-detector 的 Transformer+LoRA 与传统 XGBoost 在交易序列建模上的性能差异，评估 LoRA 在欺诈场景快速适配的可行性
[ ] 研究 pixtrap 的 LLM 安全评估方法论——如何系统化评估 LLM 在支付欺诈场景的安全性？评估维度有哪些？
[ ] 分析 scent 的无 PII 漂移容忍置信度评分算法——概率身份连续性如何在 cookie 删除/VPN 切换后保持跟踪？