物理信息贝叶斯机器学习:破解核数据评估中的数据稀疏难题
1. 项目概述当机器学习遇见核物理的“数据荒”核物理研究尤其是核数据评估领域一直面临着一个核心困境实验数据极其珍贵且稀疏。以核裂变产额为例这是核能反应堆设计、燃料循环分析、医用同位素生产等应用的关键输入数据。然而受限于单能中子源制备的困难和高昂的实验成本我们能够获得的、针对特定入射中子能量的裂变产额测量数据点非常有限。传统上核数据评估严重依赖专家经验将零散的实验数据与复杂的理论模型如统计模型、裂变动力学模型相结合进行人工或半人工的插值、外推和不确定性评估。这个过程不仅耗时费力而且高度主观不同评估库如JENDL、ENDF、JEFF的结果常存在显著差异。近年来数据驱动的机器学习方法在众多科学领域展现出强大能力核物理也不例外。人们尝试用神经网络等模型来预测核质量、反应截面等观测量。但当我们兴致勃勃地将这些“黑盒”模型应用到核数据评估时却很快撞上了南墙数据太少了。对于一个动辄需要成千上万数据点才能训练出可靠模型的深度学习算法来说核物理那几百个、几十个甚至几个数据点简直是杯水车薪。纯粹依赖数据的模型极易过拟合其外推能力例如预测未测量能量点的产额和不确定性量化往往不可靠物理上可能产生不合理的结果如产额随能量出现非物理的振荡。这正是我们工作的起点如何让机器学习在“数据荒”中依然保持可靠答案是将领域知识也就是物理深深地“注入”到机器学习框架内部。贝叶斯机器学习为我们提供了实现这一目标的天然框架。其核心魅力在于“先验”Prior这个概念。我们可以将我们对物理的认知——比如一个经过验证的裂变模型所揭示的质量分布规律、奇偶效应、能量依赖趋势——编码为模型参数的先验概率分布。然后当稀疏的实验数据到来时我们依据贝叶斯定理用数据去更新这个先验得到“后验”Posterior分布。这个后验分布不仅给出了最可能的预测值还给出了预测的不确定性范围。这相当于让一位经验丰富的核物理专家先验知识去指导一个学习能力很强的学生机器学习模型利用有限的实验笔记稀疏数据共同完成一份高质量的评估报告。本文要分享的正是我们团队将这一思想具体应用于独立裂变产额能量依赖性评估的完整实践。我们构建了一个“物理信息贝叶斯机器学习”框架其创新点在于双管齐下第一我们使用成熟的GEF裂变模型生成大量模拟数据来预训练贝叶斯神经网络从而得到一个“物理信息先验”第二我们引入累积裂变产额数据通过一个由β衰变链决定的转换矩阵将其作为物理约束融入损失函数。最终这个框架仅用数百个实测独立产额数据点就实现了对铀-235在中子入射能量从热中子到14 MeV范围内独立裂变产额随能量变化的可靠推断与不确定性量化。下面我将拆解整个方案的思路、实现细节、踩过的坑以及实际效果。2. 核心思路拆解为什么是“物理信息先验”加“物理约束”面对稀疏的核数据一个朴素的机器学习思路是尽可能收集所有相关数据扔进一个复杂的模型里训练。但在核裂变产额评估中这条路走不通。独立裂变产额指裂变碎片在发射瞬发中子后、β衰变前的产额的实测数据尤其稀少。相反累积裂变产额指特定核素在经历所有β衰变链后的最终产额的数据相对多一些因为测量相对容易。此外我们还有基于物理原理的裂变模型如GEF模型它虽然不能完美复现所有实验细节但能可靠地给出产额分布的整体形态、奇偶效应以及随能量变化的主要趋势。我们的核心设计正是基于对这三类信息价值的深刻认识物理模型先验解决“知识匮乏”纯粹的“数据驱动”在数据不足时是盲目的。贝叶斯框架中的先验如果只是简单的无信息先验如高斯分布那么模型从数据中学到的东西非常有限且不稳定。我们将GEF模型在多个能量点生成的大量模拟数据近万个数据点用于预训练一个贝叶斯神经网络。这个过程本质上是让神经网络先“学习”物理模型所蕴含的规律。训练后得到的网络权重分布就成为了一个强大的、富含物理信息的先验。当后续用真实的、稀疏的实验数据去更新这个先历时模型是在一个已经具备良好物理直觉的起点上进行微调而非从零开始。这极大地加速了收敛稳定了训练过程并保证了外推行为的物理合理性。累积产额约束解决“数据稀疏”独立产额Yi和累积产额Yc并非独立它们通过一个庞大的转换矩阵M相联系Yc M · Yi。这个矩阵由β衰变分支比决定是已知的物理知识。因此即使某个能量点的独立产额数据缺失但如果我们有该能量点的累积产额数据我们就可以通过这个物理关系反过来约束独立产额。我们在损失函数中增加了一项约束项惩罚网络预测的独立产额通过M转换后与实测累积产额之间的差异。这相当于利用更丰富的累积产额数据为稀疏的独立产额评估提供了额外的、强有力的“锚点”显著增强了模型对能量依赖性的推断能力。注意这里有一个关键技巧。转换矩阵M通常是病态的非方阵、稀疏直接求解逆问题非常困难。而我们的方法将其作为软约束融入损失函数让贝叶斯神经网络在优化过程中自动寻找一组同时满足稀疏独立产额数据和高维累积产额约束的、最可能的解巧妙地规避了直接求逆的数值不稳定问题。贝叶斯框架解决“不确定性量化”核数据评估不仅需要最佳估计值更需要可靠的不确定性。贝叶斯神经网络通过其权重的概率分布自然地为预测值提供了概率分布。我们可以从中抽取样本计算预测值的均值和置信区间如95%置信区间。这为我们评估结果的可靠性提供了直观的量化指标这是传统点估计神经网络无法做到的。3. 框架构建与关键技术实现3.1 贝叶斯神经网络基础与改进我们采用的贝叶斯神经网络BNN基础是随机梯度哈密顿蒙特卡洛SGHMC进行后验采样。与早期工作相比我们进行了两项关键改进以适配核数据问题网络结构定制输入特征为三个物理量碎片质量数A、电荷数Z和中子入射能量E。输出是相应的独立裂变产额Y。经过多次测试我们确定了一个具有两个隐藏层、每层22个神经元的网络结构激活函数使用tanh。这个规模足以捕捉产额分布与A, Z, E之间的复杂非线性关系又不会因为参数过多而在小数据场景下难以训练。GPU加速训练传统的马尔可夫链蒙特卡洛MCMC采样对于神经网络这类高维参数空间效率极低。我们实现了基于GPU的SGHMC采样将训练速度提升了一个数量级以上使得用大量模型数据预训练先验变得可行。3.2. 物理信息先验的构建从GEF模型到可学习的先验分布这是本工作的核心创新点。具体步骤如下数据生成运行GEF模型采用默认参数为235U靶核在入射中子能量为0.0, 0.6, 2.0, 4.0, 6.0, 8.0, 10.0, 12.0, 14.0 MeV的点上生成对应的独立裂变产额数据。这产生了约9330个*(A, Z, E, Y)*数据点。GEF模型虽然半经验但其内建了壳效应、能级密度、奇偶效应、多机会裂变等物理机制能产生物理上合理的产额分布。预训练将这9330个模型生成数据作为训练集输入到上述贝叶斯神经网络中进行训练。训练目标是最小化网络预测产额与GEF产额之间的均方误差。我们进行约10^5步的SGHMC采样。先验提取预训练完成后保存此时网络权重参数w的近似后验分布P(w | D_phys)。这个分布即为我们所需的“物理信息先验”。它不再是一个简单的数学分布如高斯分布而是一个已经学会了GEF模型所描述裂变物理的、高维的、复杂的参数分布。实操心得预训练的数据量要足够大覆盖的特征空间A, Z, E要尽可能广。我们最初只用了热中子和14 MeV两个端点能量的GEF数据发现先验的“引导能力”不足。扩展到多个能量点后先验对中间能量插值的引导效果显著提升。这好比学生不仅要学两个例题还要看一系列有渐变的例题才能掌握规律。3.3. 物理约束的集成损失函数的设计我们的损失函数是融合实验数据与物理约束的关键[ \chi^2 \sum_i \frac{(Y_i^c - Y_i^e)^2}{2(\sigma^2 \delta_i^2)} \sum_j \frac{\lambda (t_j^e - \sum_k M_{jk} Y_k^c)^2}{2(\sigma^2 \xi_j^2)} ]第一项数据拟合项衡量网络预测的独立产额Y_i^c与实验测量/评价库数据Y_i^e的差异。δ_i是实验不确定度。第二项物理约束项衡量网络预测的独立产额Y_k^c通过转换矩阵M计算得到的累积产额与实验测量的累积产额t_j^e的差异。ξ_j是累积产额实验不确定度。超参数σ是一个全局噪声尺度在训练中学习用于平衡模型复杂度和数据拟合程度。λ是约束项的权重我们通过交叉验证将其设置为一个较大的值如10以确保约束项起到足够强的引导作用。似然函数在贝叶斯推断中似然函数定义为P(D|w) ∝ exp(-\chi^2/2)。3.4. 完整工作流程整个评估流程如下图所示也对应了我们代码的执行逻辑阶段一先验学习使用GEF模型数据D_phys训练BNN得到物理信息先验分布P(w)。阶段二后验推断将P(w)作为新的先验结合真实的实验数据集D_expt包含独立的和累积的产额数据通过SGHMC采样得到更新后的后验分布P(w | D_expt)。阶段三预测与不确定性量化从后验分布P(w | D_expt)中抽取大量权重样本对于任意输入的(A, Z, E)让每个样本网络做一次前向传播得到一组预测产额。这组预测值的分布即为我们最终的预测结果其均值为最佳估计其标准差或分位数可用于计算置信区间。此处为概念性描述替代图表 输入碎片质量数A电荷数Z入射中子能量E ↓ [物理信息先验BNN] ← 预训练于GEF模型数据 ↓ 结合稀疏实验独立产额数据 丰富实验累积产额数据通过转换矩阵M约束 ↓ [贝叶斯更新] → 得到后验分布 ↓ 输出预测的独立产额Y(A,Z,E)及其不确定性4. 实战效果分析与对比我们以235U的中子诱发裂变独立产额评估为例展示了方法的有效性。实验数据来自EXFOR数据库评价库数据来自JENDL-5。4.1. 与无信息先验学习的对比我们对比了两种方式无信息先验学习使用标准高斯分布作为先验仅用实验数据训练BNN。物理信息先验学习使用我们构建的GEF先验再结合实验数据训练。结果显而易见收敛速度与稳定性如图3a所示使用物理信息先验的训练损失下降更快、更平稳且最终收敛到的损失值更低。无信息先验的训练则波动较大收敛慢。这说明物理先验为优化过程提供了一个极佳的起点。能量依赖性预测的物理合理性这是最关键的差异。看图2中质量产额随能量的变化。无信息先验模型预测的对称裂变通道质量数~118产额随能量增长过快在低能区就迅速上升这与物理认知对称裂变位垒较高其贡献随激发能增加而缓慢增加不符。而物理信息先验模型预测的趋势则平缓合理与GEF模型和主流评价库的趋势一致。精细结构再现对于电荷分布中奇偶效应的演化图2b,d物理信息先验模型能更好地再现奇偶效应随能量升高而逐渐消失的特征且消失的能区轻碎片约10 MeV重碎片约6 MeV更符合基于配对能的理论预期。归一化与不确定性物理信息先验学习的预测结果总产额归一化偏差仅为0.22%远优于无信息学习的5.3%。同时其预测的不确定性范围95%置信区间显著更窄说明预测置信度更高。4.2. 物理约束项的作用验证我们比较了使用物理信息先验时损失函数中是否包含累积产额约束项的效果图3b。损失值包含约束项的训练其关于累积产额的损失值更低且分布更集中。具体案例观察图4中Z53碘同位素在3 MeV和8 MeV的独立产额分布。在3 MeV有实验数据点的地方几种方法结果相近。但在8 MeV无独立产额数据点处仅使用物理信息先验的预测与使用物理信息先验累积产额约束的预测出现了可见差异。后者因为受到了更多累积产额数据的约束其预测曲线更平滑不确定性也更小。这表明在数据真空区物理约束起到了关键的“锚定”和“平滑”作用。能量依赖曲线图4c,d展示了135I和136I产额随能量的变化。我们的方法物理信息先验约束给出的曲线能够捕捉到一些非单调的变化特征如135I在3 MeV处的凸起这些特征与个别精确的实验数据点相符并且得到了累积产额数据的交叉验证。而单纯的无信息学习或GEF模型本身则可能平滑掉这些细节。4.3. 与主流评价库的交叉检验我们将我们的推断结果与JENDL-5、ENDF/B-VIII.1、JEFF-4.0等主流评价库在热中子和14 MeV的数据进行了对比图4c,d。结果显示在数据点较多的能区我们的结果与各大评价库基本一致。在数据稀疏的能区我们的方法提供了基于物理原理和所有可用数据包括模型数据和异构的累积数据的、带有不确定性量化的插值结果这可以作为对现有评价库的有益补充和交叉验证。值得注意的是即使在热中子能区不同评价库之间也存在差异这正凸显了发展自动化、偏置更小的评估方法的必要性。5. 经验总结、挑战与未来展望5.1. 实操中的关键要点与避坑指南先验模型的选择至关重要GEF模型是一个很好的起点因为它综合性、计算快。但它的准确性并非完美。如果未来有更精确的微观模型如TD-GCM能生成大量数据将其作为先验来源会进一步提升评估的物理可靠性。核心原则是先验模型应能抓住物理现象的主要规律。处理数据不一致性核实验数据本身可能存在矛盾。我们的框架中可以通过调整损失函数中每个数据点的权重即放大或缩小其δ_i^2或ξ_j^2来灵活处理。对于公认不可靠的数据点可以赋予其更小的权重。这需要一定的专家判断体现了“人机结合”的优势。超参数调优约束项权重λ和全局噪声尺度σ需要仔细调节。λ太小则约束不起作用太大则可能压制实验数据本身的信号。建议采用交叉验证在一个有实验数据的能量点上观察不同λ下模型对“已知”数据的预测能力和对“未知”数据的泛化能力。计算资源考量贝叶斯神经网络的训练尤其是SGHMC采样比确定性神经网络耗时得多。GPU加速是必须的。在工程上可以先在CPU上用小规模网络和少量步骤调试流程确定无误后再上GPU进行大规模训练。5.2. 当前方法的局限性与挑战模型依赖风险当前方法的性能上限部分受限于所使用的物理模型如GEF的准确性。如果模型在某些区域存在系统性偏差这种偏差可能会通过先验传递给评估结果。高维输出扩展目前我们主要处理一维质量产额或电荷产额或二维Y(A,Z)的分布。对于更完整的三微分产额包含动能、角分布等数据将更加稀疏网络设计和先验构建会面临更大挑战。转换矩阵的精度累积产额约束的有效性依赖于转换矩阵M的准确性而M依赖于β衰变数据库。数据库的不确定性会传导至评估结果中。5.3. 未来拓展方向这项工作为我们打开了一扇门。这套“物理信息贝叶斯机器学习”框架具有很强的通用性可以推广到核物理乃至其他数据稀缺的物理科学领域核反应数据应用于中子俘获截面、弹性散射角分布等稀疏反应数据的评估与插值。核结构数据用于预测远离β稳定线核素的质量、寿命等其中实验数据极少但已有相对成熟的核质量模型和结构理论可作为先验。多信息融合除了累积产额还可以融入其他类型的物理约束如电荷分布矩、平均中子数等整体可观测量作为额外的正则化项。主动学习与实验设计贝叶斯框架预测的不定性可以指导下一步实验在预测不确定性最大的能量点或核素区域进行新的测量能以最高效率降低评估的总不确定性。回过头看这项工作的最大价值不在于提出了一个多么复杂的算法而在于展示了一种思维范式在数据稀缺的硬核科学领域放弃对“纯粹数据驱动”的迷信转而寻求一种知识引导、数据驱动的务实路径。将物理模型作为“教练”将贝叶斯框架作为“训练场”让机器学习模型这个“运动员”在有限的数据“营养”下依然能成长为可靠的问题解决者。这或许是人工智能与基础科学深度融合的一条必经之路。