01文献学习今天分享的文献是由上海交通大学联合复旦大学附属妇产科医院、湖南郴州市第一人民医院、江南大学附属妇产医院等团队于2026年1月10日在《npj Digital Medicine》中科院1区topIF15.1上发表的研究“Multimodal intelligent prediction model for in vitro fertilization”即体外受精的多模态智能预测模型该研究提出了一种名为VaTEP的多模态胚胎预测模型整合胚胎延时摄像视频与临床表格数据用于预测体外受精中的三个关键结局胎心出现、单胎/多胎妊娠、流产/活产。模型通过预训练、多任务学习与跨模态融合实现了优于传统方法和胚胎学专家的预测性能。创新点①多模态深度融合设计端到端跨模态交互框架动态融合胚胎时序视频与临床表格数据。②双任务预训练策略通过视频重建与胚胎阶段预测预训练增强视频编码器的时空特征提取能力。③多任务协同优化联合预测胎儿心跳、单/多胎妊娠及流产/活产提升模型泛化性与预测准确性。临床价值①辅助精准胚胎筛选提供胎儿心跳与活产概率预测帮助优选最具植入潜力的胚胎。②支持个体化移植决策预测多胎妊娠风险指导单胚胎移植降低多胎相关并发症。③提升整体治疗效率通过数据驱动评估减少反复移植失败节约医疗资源与患者身心负担。图 4VaTEP模型架构a预训练框架输入TLS视频经帧采样生成视频子集送入视频编码器Video Encoder得到帧特征帧特征同时用于两项预训练任务一是通过帧解码器Frame-wise Decoder实现视频重建损失函数为均方误差MSE二是通过帧分类器Frame-wiseClassifier实现胚胎发育阶段预测损失函数为加权交叉熵此外重建视频会进行阶段的循环一致性预测进一步优化特征学习。训练中交替冻结解码器和分类器避免训练不稳定。b视频编码器VideoEncoder结构采用“3D卷积块→Frame-wiseEncoder→Temporal Transformer”的层级结构。3D卷积块4个残差式实现局部时空交互、空间降维和通道扩张Frame-wise Encoder通过通道维度的2D平均池化将每帧特征编码为嵌入向量Temporal Transformer实现跨时间维度的全局信息交互在Transformer输入前添加类嵌入class token embedding用于后续训练中的特征聚合。c训练框架分为视频分支、表格分支和融合预测三部分。①视频分支SET输入1个TLS视频、DET输入2个TLS视频经多帧采样生成多个子集每个子集通过预训练的视频编码器得到类嵌入②表格分支临床变量分为分类变量通过嵌入层编码和连续变量通过前馈神经网络FFN编码所有变量嵌入经Table Transformer实现特征交互③融合预测视频子集类嵌入作为Query临床变量嵌入作为Key和Value通过交叉注意力模块实现深度融合融合特征拼接后送入多任务分类器同时输出三大结局的预测结果损失函数为加权交叉熵单胎/多胎、流产/活产任务采用掩码损失仅计算FH组样本。02研究背景及目的研究背景全球不孕症已成为严峻的公共健康挑战约影响4800万对夫妇与1.86亿个体。体外受精IVF作为辅助生殖技术的核心已帮助全球诞生约1000万至1300万名婴儿但其成功率仍受限于胚胎选择的准确性。目前临床实践中主要依赖胚胎形态学评估尤其是通过延时摄影系统TLS视频记录胚胎发育过程由胚胎学家人工观察与判断。然而该方法存在主观性强、耗时耗力、观察者间一致性低等显著局限性导致决策不确定性高新鲜胚胎移植的累计妊娠率仅为32.4%。此外IVF结局还受多种临床因素影响如女性年龄、抗穆勒氏管激素AMH水平、子宫内膜厚度ET、体重指数BMI等仅依靠形态学评估难以全面反映胚胎着床潜能与妊娠结局。尽管人工智能技术已逐步应用于胚胎筛选与结局预测但现有研究多聚焦于单一数据源如仅使用TLS图像或视频或单一预测目标如是否出现胎心缺乏对多模态数据视频与临床表格的深度融合与多任务联合预测且往往未充分利用预训练等策略提升模型表征能力。因此开发一种能够整合胚胎动态发育信息与多维临床特征的智能预测模型以实现更精准、个性化的胚胎选择与妊娠结局预测成为生殖医学领域的迫切需求。研究目的本研究旨在开发一个名为VaTEPVideo and Table model for Embryo Prediction的多模态智能预测模型以应对当前IVF胚胎评估与结局预测中的关键挑战。该模型的核心目标是深度融合胚胎TLS时序视频与患者临床表格数据并同时预测三个具有重要临床意义的结局是否出现胎心、单胎妊娠与多胎妊娠的区分、以及流产与活产的区分。为实现这一目标研究设计了创新的模型架构与训练策略首先通过两个预训练任务TLS视频重建与胚胎发育阶段预测来充分学习视频中蕴含的丰富时空动态与发育规律信息增强视频编码器的表征能力其次采用多帧采样策略以更全面地捕捉视频内容并设计异构编码方法以有效处理临床表格中的分类与连续变量最终通过跨注意力机制实现视频与表格特征的深度交互融合并在多任务学习框架下对三个预测目标进行协同优化。本研究利用来自三家医院共9786名参与者的数据进行模型训练与验证旨在证明VaTEP在各项预测任务上优于现有方法及胚胎学专家评估。其根本目的是为临床医生提供一个全面、数据驱动的决策支持工具助力实现更精准的胚胎选择优化移植策略如推动单胚胎移植降低移植失败、多胎妊娠及流产风险从而推动生殖医学向更个性化、高精度与智能化的方向发展。03数据和方法研究数据1. 数据来源研究对象3家医院共9786名接受辅助生殖技术的参与者其中医院1郴州第一人民医院9057人用于预训练、训练和内部验证医院2无锡妇幼保健院和医院3贵港市人民医院共729人用于外部测试。数据类型模态1胚胎TLS视频采用Geri®全自动延时培养箱拍摄每5分钟采集一帧涵盖胚胎发育全程模态2临床表格数据39个变量包括人口学特征年龄、BMI激素水平AMH、FSH、LH等生殖指标子宫内膜厚度ET、不孕类型等。2. 数据筛选与质控排除标准缺失临床数据/视频/妊娠结局、移植胚胎数3、非第3天胚胎移植视频质控剔除失焦、黑屏/冻结帧、分辨率300×300或帧数576的视频标准化分辨率和帧率后去重临床数据质控剔除不完整、错误或异常值记录标准化单位后去重最终有效数据内部数据集1012人257例单胚胎移植SET、755例双胚胎移植DET共1767个视频外部数据集221人54例SET、167例DET共388个视频。3. 标注数据目标检测标注113个视频的1130帧900帧训练、230帧验证由胚胎学家标注胚胎区域预训练标注5000个视频的每帧发育阶段标注包括第二极体期、原核期、2-8细胞期等11类。图 2数据筛选与质控流程图 3临床数据在不同亚组的分布技术方法1.模型架构VaTEP整体框架端到端多模态多任务模型包含视频分支、临床表格分支、多模态融合模块和多任务分类器。2. 关键技术1预训练任务提升视频编码器表征能力视频重建任务通过解码器重构输入视频学习胚胎时空特征胚胎发育阶段预测任务预测每帧胚胎发育阶段捕捉与活力相关的发育模式交替训练策略冻结解码器训练重建任务冻结编码器训练阶段预测任务避免训练不稳定。2多帧采样策略对比两种采样方式全局均匀采样最优配置6个子集×48帧和分段均匀采样全面捕捉视频信息降低计算复杂度。3临床变量编码异质编码策略分类变量通过嵌入层编码连续变量通过前馈神经网络FFN映射为嵌入向量表格Transformer实现临床变量间的特征交互。4多模态融合交叉注意力机制视频子集类嵌入作为Query临床变量嵌入作为Key/Value实现深度交互融合。5多任务学习联合优化三个任务胎心搏动二分类、单胎vs多胎妊娠二分类仅针对有胎心组、流产vs活产二分类仅针对有胎心组损失函数加权交叉熵损失解决类别不平衡多胎/活产任务采用掩码损失仅计算有效样本。3. 对比实验设计模态对比表格单模态、视频单模态、视频表格多模态预训练对比无预训练vs有预训练任务对比单任务训练vs多任务训练基线模型表格模型MLP、LR、GBDT、TabNet、视频模型R(21)D、I3D、SlowFast、ViViT、多模态模型ConGraph、SFusion、DeFusion等人类对照10名胚胎学家5名初级1-3年经验5名资深3年经验。4. 评价指标主要指标AUC曲线下面积、准确率Accuracy、F1分数辅助指标敏感性、特异性、Kappa系数评估观察者一致性。图 1VaTEP模型整体构建流程04实验结果任务AUCVaTEP最佳对比专家表现胎心预测0.8000 ± 0.0130优于所有专家单胎/多胎预测0.8823 ± 0.0268优于所有专家流产/活产预测0.9258 ± 0.0220优于所有专家预训练与多任务学习均显著提升性能视频表格融合优于单一模态模型在SET与DET亚组中表现一致图 5VaTEP模型结果分析图 6VaTEP与专家预测的一致性与差异案例a预测一致的案例b预测不一致的案例05研究结论本研究提出并验证了多模态胚胎预测模型VaTEP该模型创新性地融合了胚胎时差成像TLS视频与临床表格数据通过双预训练任务视频重建与胚胎阶段预测与多任务协同学习框架实现了对体外受精IVF中三个关键结局的联合预测胎儿心跳、单胎与多胎妊娠、以及流产与活产。研究表明VaTEP在外部测试中表现出色其AUC分别达到0.8000胎儿心跳、0.8823单/多胎妊娠和0.9258流产/活产性能显著优于单一模态模型及现有先进方法甚至超越资深胚胎学家的预测水平。该模型通过跨模态注意力机制实现视频与临床数据的深度融合能够识别如女性年龄、AMH、FSH等关键临床变量的贡献为胚胎选择提供了全面、数据驱动且可解释的决策支持。VaTEP不仅有助于提升胚胎选择的准确性、降低多胎妊娠与流产风险也为实现个性化、高精度的辅助生殖治疗奠定了技术基础展现了其在临床转化与推广中的重要潜力。参考文献Gao Q, Yao S, Du D, Yang F, Yu P, Quan S, Hua R, Zhao L, Shang A, Lu H, Yue C. Multimodal intelligent prediction model for in vitro fertilization. NPJ Digit Med. 2026 Jan 10. doi: 10.1038/s41746-025-02331-5.