Lancet Digit Health(IF=24.1)牛津大学:基于Transformer的心血管病预防性治疗人群筛选
01文献信息本次分享的文献是由牛津大学Kazem Rahimi教授团队联合牛津大学多个系、哈佛大学、奥克兰大学、Memorial Sloan Kettering癌症中心等多家机构于2025年6月在柳叶刀子刊《The Lancet Digital Health》中科院1区topIF24.1上发表的研究“Refined selection of individuals for preventive cardiovascular disease treatment with a transformer-based risk model”即基于Transformer模型的心血管疾病预防性治疗人群精细化筛选研究该研究旨在通过深度学习的Transformer架构开发一个新的风险预测模型TRisk用于预测未来10年内心血管疾病CVD事件风险。研究基于英国近300万成年人的电子健康记录EHR比较了TRisk与现行主流模型如QRISK3、DeepSurv的性能。结果表明TRisk在总体人群及糖尿病亚群中均表现出显著更高的区分度C-index约0.91并能减少约三分之一被推荐治疗的人数而不降低事件预防效果。02研究背景1.研究问题现有心血管疾病风险预测模型存在两大核心问题过度推荐治疗传统统计模型如QRISK3、SCORE2、ASCVD虽广泛用于临床但会将大量低风险人群误判为“高风险”导致过度治疗如英国30-79岁成人中约1/3被推荐治疗但多数不会发生CVD事件特殊人群模型缺失对糖尿病等基础疾病人群当前指南采用“全员治疗”策略忽略个体风险差异如部分糖尿病患者CVD风险较低无需常规干预模型在该类人群中适用性不足。2.研究难点数据处理局限传统模型依赖专家驱动的特征工程难以处理电子健康记录EHR中“多模态、变长时序”的数据如诊断、药物、实验室检查的动态变化亚组性能不稳定传统模型对年龄依赖性强在窄年龄范围、不同性别或社会经济地位亚组中性能显著下降决策平衡难题难以同时实现“减少过度治疗”降低高风险人群分类和“避免漏判”降低假阴性二者常存在trade-off。3.解决思路架构创新采用Transformer基于BEHRT模型改进利用其自动提取时序特征的能力处理EHR多模态数据无需人工特征工程生存分析适配将BEHRT从二分类模型转为生存分析模型解决随访数据中的“截尾问题”如患者失访、研究结束时未发生事件迁移学习优化先在大样本一级预防人群训练模型再在糖尿病患者中微调适配高风险人群特征避免单独建模的样本量不足问题。03研究目标开发并验证TRisk模型实现一级预防人群和糖尿病患者的10年CVD风险精准预测对比TRisk与现有基准模型QRISK3、DeepSurv、SCORE2-Cox模型的性能鉴别能力、校准度、决策净获益评估TRisk在不同亚组年龄、性别、社会经济地位中的稳定性验证其对“弱势群体”的预测公平性量化TRisk的临床价值在减少过度治疗的同时确保CVD事件预防效果不降低。04Trisk模型架构TRisk基于双向电子健康记录TransformerBEHRT改进核心架构如下1. 输入层多模态特征涵盖EHR中4类核心数据共6366个特征单元3858种诊断、390类药物、1439项实验室检查、679个操作代码时序标注每个特征单元关联患者“年龄”和“医疗服务接触时间”形成变长时序序列如患者A的诊断记录按“2010年50岁-2012年52岁”排序无人工预处理无需缺失值插补直接保留缺失状态作为特征、无需人口统计学特征如性别、社会经济地位模型通过时序数据自动捕捉相关信息。2. Transformer层注意力机制通过自注意力Self-Attention捕捉不同特征间的时序关联如“高血压诊断利尿剂使用”的组合对CVD风险的协同影响双向编码采用双向Transformer结构同时考虑“基线前历史”的正向和反向时序依赖如“实验室检查异常后调整药物”的因果关系。3. 生存分析输出层风险函数建模在Transformer输出后接入生存分析模块基于Cox比例风险模型框架输出患者的10年CVD风险概率截尾处理通过对数似然损失函数优化纳入截尾数据如失访患者的信息避免偏倚。4. 迁移学习适配预训练阶段在222万一级预防人群中训练模型学习通用CVD风险时序模式微调阶段在4.5万糖尿病患者中微调模型参数适配“糖尿病其他并发症”的特殊风险模式提升高风险人群预测精度。05数据和方法研究数据数据来源英国临床实践研究数据链CPRD覆盖291家诊所训练和98家诊所验证。样本量一级预防人群约297万糖尿病患者约5.9万。随访时间中位2.5年IQR0.8–5.9。结局定义复合心血管事件冠心病、缺血性卒中、短暂性脑缺血发作。表 1一级预防人群推导集与验证集的人口特征研究方法对比模型QRISK3、DeepSurv、基于SCORE2的Cox模型。评估指标C指数、校准曲线、决策曲线分析、临床影响分析高风险人数、真阳性、假阴性。统计方法使用TRIPODAI指南报告模型性能。06结果与分析1.一级预防人群核心结果1鉴别能力TRisk显著优于基准模型模型C 指数95% CI精确召回曲线下面积AUC-PRTRisk0.910 (0.906-0.913)0.892QRISK30.831 (0.826-0.835)0.785DeepSurv0.846 (0.841-0.850)0.8012校准度所有模型在临床阈值内表现良好0-20%风险阈值临床推荐治疗阈值范围内TRisk、QRISK3、DeepSurv的校准曲线均接近对角线仅QRISK3在高风险区间15%略有高估预测风险高于实际风险TRisk校准最稳定。图 2决策曲线分析DCA3风险分布TRisk分类更极端减少“中间模糊人群”TRisk将23.5%患者归为“极低风险5%”或“极高风险20%”而QRISK3仅12.1%基准模型风险分布集中在8%-15%导致大量“中间风险人群”难以决策TRisk可减少此类模糊分类。图 1模型校准图与预测风险分布4临床影响减少过度治疗且降低漏判以1000名一级预防人群为基准不同阈值下的对比结果10%阈值下QRISK3高风险272人真阳36、假阴9TRisk高风险216人↓20.6%真阳40、假阴515%阈值下QRISK3高风险187人真阳29、假阴15TRisk高风险178人↓34.6%真阳37、假阴820%阈值下QRISK3高风险131人真阳24、假阴21TRisk高风险152人真阳35、假阴10。此外全员治疗全归高风险真阳45不治疗无高风险假阴45。表 3不同风险阈值下各模型的临床影响标准化至 1000 人2.糖尿病患者核心结果鉴别能力TRisk的C指数0.89595%CI0.887-0.903高于QRISK30.812和DeepSurv0.828表 2一级预防人群中各模型的鉴别性能C 指数对比临床影响对比“全员治疗”策略TRisk在10%阈值下减少24.3%治疗推荐757/1000vs1000/1000假阴性仅2例0.2%对比QRISK310%阈值TRisk减少12.6%高风险人群757/1000vs866/1000真阳性多1例115vs114。3.亚组性能TRisk稳定性更优年龄亚组在窄年龄范围40-69岁中TRisk的C指数0.902较QRISK30.815优势扩大差值从0.079增至0.087性别与社会经济亚组TRisk在男性/女性、不同IMD分层中C指数差异0.02而QRISK3在贫困人群IMD1分中C指数下降0.05从0.831降至0.781。07结论性能优势TRisk在一级预防人群和糖尿病患者中10年CVD风险预测的鉴别能力、校准度和决策净获益均显著优于传统模型QRISK3、DeepSurv等亚组稳定性TRisk对年龄、性别、社会经济地位的依赖性低在各亚组中性能一致可减少健康不平等临床价值TRisk可减少约1/3一级预防人群、1/4糖尿病患者的治疗推荐同时降低假阴性率实现“精准医疗资源节约”双赢可及性TRisk仅依赖常规EHR数据无需额外检查如基因检测、生物标志物便于在基层医疗推广。08讨论1.创新方向技术创新首次将Transformer架构用于CVD生存风险预测突破传统模型“手工特征工程”的局限自动挖掘EHR中的时序关联如“药物调整后实验室指标变化”对风险的影响方法创新通过迁移学习实现“通用人群→特殊人群”的模型适配解决糖尿病队列样本量不足的问题为其他基础疾病如慢性肾病的风险预测提供范式评估创新结合“决策曲线分析”和“临床影响量化”从“统计性能”到“实际临床价值”形成闭环评估避免模型仅停留在理论层面。2.临床价值减少过度医疗按英国人口估算TRisk可减少约350万一级预防人群的他汀/降压药推荐降低药物不良反应如他汀相关肌肉疼痛和医疗成本优化糖尿病管理替代“全员治疗”策略使24.3%低风险糖尿病患者避免不必要治疗同时确保高风险者不被漏判推动基层医疗效率基层医生无需掌握复杂风险评分规则TRisk可基于EHR自动输出风险分层辅助快速决策。3.局限性数据代表性仅基于英国CPRD数据需在其他国家/地区如美国、中国进行外部验证确认模型跨人群适用性随访时间中位随访2.5年部分患者缺乏完整10年随访数据虽与同类研究一致但长期预测精度需进一步验证可解释性Transformer模型存在“黑箱”问题虽BEHRT既往研究已挖掘部分风险因素如缺铁性贫血与心衰关联但TRisk的具体预测机制仍需更深入的解释性分析部署挑战TRisk依赖完整EHR数据和计算资源无法简化为“纸质评分表”需开发轻量化工具如离线计算模块适配基层医疗的低算力环境。4.未来展望外部验证在北美、欧洲、亚洲等不同医疗体系中验证TRisk性能优化模型适配性多组学融合纳入基因组、代谢组数据提升对“罕见高风险人群”的预测精度实时部署开发临床决策支持系统CDSS将TRisk集成到电子病历系统实现“患者就诊时自动生成风险报告”长期效果评估开展随机对照试验对比“TRisk指导治疗”与“传统模型指导治疗”的长期CVD事件发生率验证其因果效应。