摘要

从观测数据中发现因果关系(即通过变量联合分布的有限样本学习因果图)是因果效应识别与估计的关键前提。因果发现面临两大挑战:有限数据导致统计测试误差,以及学习任务的计算复杂度极高。本文基于四项前期研究(Mokhtarian等,2021;Akbari等,2021;Mokhtarian等,2022, 2023a),提出可移除变量概念——这类变量是因果发现过程中唯一可递归移除的变量。通过识别可移除变量实现递归因果发现,能有效缩小问题规模:既减少每次条件独立性(CI)测试所需的条件集以降低错误率,又显著减少所需CI测试次数。该方法最坏情况下的性能接近理论下限。

统一框架

  1. 算法增强:整合前期工作形成统一框架,补充优化细节
    1. 复杂度对比:文献综述显示该方法达到当前最优计算效率
    1. 工具发布:开源Python工具包RCD(github.com/ban-epfl/rcd)提供完整文档支持

技术贡献

  • 递归问题分解机制
    • 条件独立性测试优化方案
    • 工业级实现方案(支持大规模因果图学习)
  • 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)