摘要
从观测数据中发现因果关系(即通过变量联合分布的有限样本学习因果图)是因果效应识别与估计的关键前提。因果发现面临两大挑战:有限数据导致统计测试误差,以及学习任务的计算复杂度极高。本文基于四项前期研究(Mokhtarian等,2021;Akbari等,2021;Mokhtarian等,2022, 2023a),提出可移除变量概念——这类变量是因果发现过程中唯一可递归移除的变量。通过识别可移除变量实现递归因果发现,能有效缩小问题规模:既减少每次条件独立性(CI)测试所需的条件集以降低错误率,又显著减少所需CI测试次数。该方法最坏情况下的性能接近理论下限。
统一框架
- 算法增强:整合前期工作形成统一框架,补充优化细节
-
- 复杂度对比:文献综述显示该方法达到当前最优计算效率
-
- 工具发布:开源Python工具包RCD(github.com/ban-epfl/rcd)提供完整文档支持
技术贡献
- 递归问题分解机制
-
- 条件独立性测试优化方案
-
- 工业级实现方案(支持大规模因果图学习)
- 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)