1. 项目概述最优传输机器学习的几何新视角如果你在机器学习领域摸爬滚打了一段时间肯定对衡量两个概率分布“距离”这件事不陌生。从早期的KL散度、JS散度到后来的各种f-散度我们一直在寻找一个能准确反映分布间差异的度量。但很多时候这些传统方法会“失灵”——比如当两个分布几乎没有重叠区域时KL散度会直接爆炸成无穷大这在实际应用中比如训练一个生成模型简直是灾难。大约十年前一个源自18世纪法国数学家蒙日Gaspard Monge关于“如何最省力地搬运沙土”的古老问题——最优传输Optimal Transport, OT——开始被机器学习社区重新审视。它的核心思想直观得惊人把一种概率分布比如一堆沙土变成另一种分布比如一个沙雕最少需要做多少“功”这个“功”就是Wasserstein距离。与KL散度只关心概率密度比值不同Wasserstein距离本质上度量的是将一个分布“搬运”成另一个分布所需的最小“成本”这个成本由分布所在空间的几何结构比如点与点之间的距离决定。正是这种几何感知的特性让最优传输在机器学习中脱颖而出。它不仅能处理支撑集不重叠的分布其度量本身还具有良好的数学性质如满足三角不等式、定义了一个真正的度量空间。这为许多棘手问题提供了全新的解决思路如何让GAN的训练更稳定如何量化两个图结构的相似性如何将在一个领域学到的知识迁移到另一个领域最优传输都给出了优雅的几何化答案。这篇综述或者说这篇深度解析旨在为你拆解最优传输从数学基石到前沿应用的完整脉络。我不会只停留在公式层面而是会结合我这些年阅读论文和复现算法的实际经验重点讲清楚为什么这个工具如此有效如何将其应用到具体任务中以及在实际操作时会遇到哪些“坑”和技巧。无论你是想寻找新的研究灵感还是希望为你的项目引入一个更强大的分布度量工具这篇文章都将为你提供一个坚实的起点和实用的指南。2. 数学基石从蒙日问题到可计算的Wasserstein距离理解最优传输在机器学习中的应用必须从其数学核心开始。这部分内容看似抽象但却是理解后续所有应用和算法改进的关键。我会尽量用直观的例子和图像来辅助说明避免陷入纯数学符号的泥潭。2.1 问题起源从沙土搬运到概率耦合最优传输的故事始于1781年。法国数学家蒙日提出了一个工程学问题给定两堆土或沙一堆是初始分布 $\mu_0$一堆是目标分布 $\mu_1$如何找到一个“搬运方案” $T: x \rightarrow y$将 $\mu_0$ 中的每一点土运送到 $\mu_1$ 的对应位置使得总搬运成本 $\int c(x, T(x)) d\mu_0(x)$ 最小。这里的 $c(x, y)$ 是单位质量从点 $x$ 运到点 $y$ 的成本通常取为两点间距离的 $p$ 次方即 $|x-y|^p$。蒙日问题要求映射 $T$ 必须是确定性的每个源点映射到唯一目标点且保测度的搬运前后质量守恒。这个要求太强了导致解的存在性和唯一性在一般情况下很难保证。直到20世纪中叶苏联数学家坎托罗维奇Leonid Kantorovich提出了一个革命性的松弛版本。他允许“质量分裂”即源点 $x$ 处的质量可以分配到多个目标点 $y_1, y_2, ...$ 上。这个方案由一个联合概率分布$\pi(x, y)$ 来描述它表示从 $x$ 处运送到 $y$ 处的质量是多少。这个联合分布的边缘分布必须分别等于源分布 $\mu_0$ 和目标分布 $\mu_1$。所有满足这个条件的联合分布 $\pi$ 的集合记为 $\Pi(\mu_0, \mu_1)$。于是坎托罗维奇形式的最优传输问题就变成了在一个凸集 $\Pi(\mu_0, \mu_1)$ 上寻找一个最优的耦合 $\pi^*$以最小化期望成本 $$W_p(\mu_0, \mu_1) \left( \inf_{\pi \in \Pi(\mu_0, \mu_1)} \int |x-y|^p d\pi(x, y) \right)^{1/p}$$ 这个最小值 $W_p$ 就被定义为$p$-Wasserstein距离。当 $p2$ 时就是我们最常用的2-Wasserstein距离。这个距离定义了一个真正的度量赋予了概率分布空间一个丰富的几何结构即Wasserstein空间。注意这里有一个关键的理解点。Wasserstein距离不仅仅是一个“数字”它同时给出了一个最优的“搬运计划” $\pi^*$。这个计划本身包含了极其丰富的信息比如哪些源样本对应哪些目标样本这在许多应用如领域适应、语义对应中是至关重要的。2.2 计算之殇与熵正则化的救赎Wasserstein距离的美妙之处伴随着一个巨大的现实挑战计算复杂度。求解原始的Kantorovich问题本质上是一个线性规划问题。对于离散分布比如用 $n$ 个样本点近似表示的分布其计算复杂度高达 $O(n^3 \log n)$这对于现代机器学习中动辄成千上万的样本量是完全不可行的。这就是Marco Cuturi在2013年那篇里程碑式论文《Sinkhorn Distances: Lightspeed Computation of Optimal Transport》所做的工作的意义所在。他引入了一个简单却极其强大的技巧熵正则化。具体来说他在原始的目标函数中加入了一个负熵项 $$W_{p, \gamma}(\mu_0, \mu_1) \inf_{\pi \in \Pi(\mu_0, \mu_1)} \left[ \int c(x, y) d\pi(x, y) - \gamma H(\pi) \right]$$ 其中 $H(\pi) -\sum_{i,j} \pi_{ij} \log \pi_{ij}$ 是耦合矩阵 $\pi$ 的熵离散情形$\gamma 0$ 是正则化系数。这个改动带来了两个根本性的好处严格凸性原始问题是线性规划可能有多个解。加入严格的凹函数 $-H(\pi)$ 后问题变成了严格凸优化存在唯一解。计算革命这个熵正则化问题的解具有特殊形式$\pi^* \text{diag}(u) K \text{diag}(v)$其中 $K \exp(-C/\gamma)$ 是由成本矩阵 $C$ 指数变换得到的核矩阵$u$ 和 $v$ 是两个正向量。寻找 $u, v$ 可以通过经典的Sinkhorn-Knopp迭代算法高效完成该算法本质上是交替进行行和列的归一化复杂度降到了 $O(n^2)$或利用GPU加速更低。实操心得$\gamma$ 的选择是一个权衡。$\gamma$ 越大熵正则项越强解 $\pi^*$ 越“平滑”更像均匀分布计算越稳定、越快但距离 $W_{p,\gamma}$ 对真实 $W_p$ 的近似偏差也越大。$\gamma$ 越小近似越精确但迭代收敛可能变慢数值稳定性变差因为 $K$ 矩阵元素差异极大。实践中通常需要将 $\gamma$ 作为一个超参数进行调优或者采用退火策略开始时用较大的 $\gamma$ 快速得到一个粗略解然后逐渐减小 $\gamma$ 进行精细化。2.3 Wasserstein重心分布空间的“平均点”另一个极其有用的概念是Wasserstein重心。给定一组概率分布 ${\mu_1, ..., \mu_N}$ 和权重 ${\lambda_1, ..., \lambda_N}$$\lambda_i \geq 0, \sum \lambda_i 1$它们的Wasserstein重心 $\bar{\mu}$ 定义为 $$\bar{\mu} \arg\min_{\mu} \sum_{i1}^N \lambda_i W_2^2(\mu_i, \mu)$$你可以把它理解为在Wasserstein空间概率分布构成的几何空间中这些点的加权平均。这个操作在机器学习中用途广泛图像插值如果你想生成两张人脸图像之间的平滑过渡序列可以计算它们颜色分布或特征分布的Wasserstein重心序列。模型聚合/融合在联邦学习或多模型融合场景下可以将不同客户端或不同模型输出的预测分布进行平均得到更稳健的共识分布。分布鲁棒优化寻找一个对周围一组可能分布都表现良好的“中心”决策。计算Wasserstein重心同样可以利用熵正则化和Sinkhorn算法进行高效近似这进一步拓展了其应用范围。3. 核心应用领域深度解析有了坚实的数学和计算基础我们就可以深入最优传输在机器学习各领域的精彩应用了。这部分我将按照从视觉到语言从生成到推理的逻辑顺序挑选几个最具代表性且实践价值高的方向进行拆解。3.1 计算机视觉从图像匹配到生成模型计算机视觉是最优传输最早“大放异彩”的领域因为图像天然可以表示为像素空间或特征空间上的概率分布例如颜色直方图、深度特征分布。3.1.1 生成对抗网络的革命Wasserstein GAN传统GAN的训练 notoriously 不稳定容易出现模式崩溃只生成少数几种样本和梯度消失问题。2017年Arjovsky等人提出的Wasserstein GAN彻底改变了这一局面。核心思想将判别器Critic的任务从“分辨真假”改为估计真实数据分布与生成分布之间的Wasserstein距离。通过Kantorovich-Rubinstein对偶定理1-Wasserstein距离可以表示为 $$W_1(\mathbb{P}_r, \mathbb{P}g) \sup{|f|L \leq 1} \mathbb{E}{x \sim \mathbb{P}r}[f(x)] - \mathbb{E}{x \sim \mathbb{P}_g}[f(x)]$$ 其中上确界在所有1-Lipschitz函数 $f$ 中取得。在WGAN中这个函数 $f$ 就是由判别器网络来参数化学习的。为什么有效有意义的损失指标Wasserstein距离即使在两个分布没有重叠时也是平滑变化的这提供了比JS散度等更可靠的训练信号。你可以看到Wasserstein损失Critic输出的差值随着生成器变好而稳定下降这本身就是一个强大的诊断工具。缓解模式崩溃Wasserstein距离鼓励生成分布覆盖真实分布的所有模式因为它惩罚的是“未覆盖的质量”而不是具体的分布形状差异。实操要点与避坑指南Lipschitz约束的实现为了保证判别器是1-Lipschitz的原始WGAN采用了简单的权重裁剪将权重限制在某个区间如[-0.01, 0.01]。但这容易导致优化困难或容量下降。梯度惩罚WGAN-GP后续改进提出了梯度惩罚项在真实数据和生成数据的连线区域上对判别器的梯度范数进行惩罚使其接近1。这比权重裁剪更有效成为后来的标准实践。其损失函数增加一项$\lambda \mathbb{E}{\hat{x} \sim \mathbb{P}{\hat{x}}}[(|\nabla_{\hat{x}} D(\hat{x})|_2 - 1)^2]$其中 $\hat{x}$ 是插值点。不要用基于动量的优化器论文作者建议使用RMSProp或SGD而不是Adam。在实践中Adam有时也能工作但RMSProp通常更稳定。3.1.2 语义对应与形状匹配语义对应的目标是找到不同图像中语义相同部分如人的眼睛、车的轮子之间的像素级或区域级对应关系。传统方法通常假设一对一匹配但现实中经常存在一对多或多对一的情况例如源图像中一个像素块对应目标图像中多个分散的像素。最优传输的质量分裂特性天然适合处理这种模糊匹配。我们可以将两张图像的特征点或超像素视为两个分布求解它们之间的最优传输计划 $\pi^$。$\pi^$ 矩阵中的元素 $\pi_{ij}$ 就表示了源点 $i$ 与目标点 $j$ 的对应强度这个强度可以是分数完美地建模了软分配。一个典型流程提取图像特征使用预训练的CNN如VGG提取图像区域的特征。构建分布将每张图像的特征集合视为一个经验分布通常每个特征点赋予均匀权重或根据区域大小加权。定义成本矩阵成本 $C_{ij}$ 通常定义为两个特征向量之间的余弦距离或欧氏距离的平方。求解熵正则化OT得到软分配矩阵 $\pi^*$。后处理可以通过阈值化或取每行/每列最大值将软分配转化为硬对应。优势这种方法对非刚性形变、遮挡和外观变化具有较好的鲁棒性因为它是在整体分布匹配的框架下寻找对应而不是孤立的特征匹配。3.2 图学习度量图与图之间的“距离”图结构数据无处不在社交网络、分子结构、知识图谱。如何度量两个图的相似性是一个基础且挑战性的问题。最优传输特别是其变体Gromov-Wasserstein (GW) 距离为此提供了优雅的解决方案。GW距离的核心洞察传统的Wasserstein距离要求两个分布定义在同一个度量空间上。但对于两个图它们的节点可能处于完全不同的特征空间甚至节点数都不同。GW距离比较的不是节点自身的绝对位置而是节点之间关系的相似性。定义对于两个图我们有其邻接矩阵或更一般的相似性矩阵$C^s$ 和 $C^t$以及节点上的分布如均匀分布$\mu_s$, $\mu_t$。GW距离寻找一个耦合 $\pi$一个 $n_s \times n_t$ 的矩阵使得 $$GW(C^s, C^t, \mu_s, \mu_t) \min_{\pi \in \Pi(\mu_s, \mu_t)} \sum_{i,j,k,l} L(C^s_{ik}, C^t_{jl}) \pi_{ij} \pi_{kl}$$ 其中 $L$ 是一个损失函数例如 $L(a,b) |a-b|^2$。直观上它惩罚的是如果源图中节点 $i$ 和 $k$ 很相似$C^s_{ik}$ 大但耦合计划却把 $i$ 映射到 $j$把 $k$ 映射到 $l$而目标图中 $j$ 和 $l$ 不相似$C^t_{jl}$ 小那么这就是一个“坏”的匹配成本很高。应用场景图分类通过计算待分类图与一系列模板图之间的GW距离将其作为特征输入分类器。图匹配/对齐最优耦合矩阵 $\pi^*$ 直接给出了节点之间的对应关系可用于社交网络对齐、蛋白质相互作用网络比对等。图嵌入将图嵌入到向量空间使得嵌入向量之间的欧氏距离近似于图之间的GW距离。计算挑战与技巧GW距离的计算比OT更复杂是四阶的。通常也采用熵正则化并利用镜像下降或条件梯度法求解。一个实用的技巧是Fused Gromov-Wasserstein (FGW) 距离它结合了节点属性用Wasserstein和图结构用GW的差异通常能取得更好的效果。3.3 领域适应弥合分布差异的桥梁领域适应是迁移学习的关键问题如何让在源域有丰富标签上训练的模型在目标域无标签或标签少上也能表现良好核心挑战是源域和目标域的数据分布不同。最优传输为领域适应提供了一个非常自然的框架寻找一个将源域分布“搬运”到目标域分布的最优传输计划。这个计划 $\pi^*$ 不仅给出了一个距离分布差异更重要的是给出了一个样本级的对应关系。基本流程无监督领域适应特征提取用一个共享的特征提取器 $G_f$ 分别提取源域样本 $X_s$ 和目标域样本 $X_t$ 的特征。计算OT计划将源域和目标域的特征视为两个离散分布通常均匀加权计算它们之间的熵正则化OT计划 $\pi^*$。领域对齐损失使用 $\pi^$ 来定义对齐损失。一种常见方法是传输源域样本对于每个源域样本 $x_s^i$根据 $\pi^$ 的第 $i$ 行将其“移动”到目标域特征空间的加权平均位置。然后在这个对齐后的特征空间上训练分类器。联合优化总损失 源域上的分类损失 $\lambda \times$ OT对齐损失。通过反向传播同时优化特征提取器 $G_f$ 和分类器。优势与注意事项几何感知OT对齐考虑了特征空间的几何结构比简单的最大均值差异MMD等矩匹配方法更精细。处理类别不平衡可以通过在OT问题中引入类别信息如计算每个类别的独立OT计划实现类条件分布的对齐防止负迁移。计算开销每次迭代都计算OT计划开销较大。实践中常采用小批量OT即仅在当前小批量数据上计算OT虽然是对全局问题的近似但能极大提升效率。目标域伪标签在迭代训练中可以用当前模型为目标域样本生成伪标签然后进行类条件对齐这通常能显著提升性能。3.4 自然语言处理从文档表示到大型语言模型对齐在NLP中文本通常被表示为高维空间中的分布如词向量集合的分布最优传输为此提供了强大的度量工具。3.4.1 文档表示与检索词移距离词移距离Word Mover‘s Distance, WMD是最优传输在NLP最直观的应用。它将一个文档视为其词向量集合上的一个分布例如每个词的权重为其TF-IDF值。两个文档之间的WMD就是将一个文档的“词质量”搬运到另一个文档所需的最小累积距离词向量间的欧氏距离。优点WMD考虑了词语的语义相似性通过词向量”President“搬运到”Obama“的成本比搬运到”banana“低得多因此比BOW或TF-IDF余弦相似度更准确。缺点计算复杂度高为 $O(n^3 \log n)$其中 $n$ 是文档中的非重复词数。后续有大量工作致力于加速WMD例如通过词向量聚类减少词汇量或使用松弛版本。3.4.2 大型语言模型的偏好对齐近年来如何让大语言模型的输出符合人类偏好对齐问题成为研究热点。除了经典的RLHF基于最优传输的方法也展现出潜力。核心思想将模型对同一个提示prompt生成的不同回复例如一个偏好回复一个非偏好回复视为两个分布。对齐的目标是让偏好回复的分布在某种奖励或价值空间上随机占优于非偏好回复的分布。这可以形式化为一个最优传输问题最小化将非偏好回复分布“提升”到偏好回复分布所需的成本。算法示例Alignment via Optimal Transport, AOT对于每个提示模型生成一对回复 $(y^w, y^l)$分别标记为偏好和非偏好。通过一个奖励模型或直接从偏好数据中学习为每个回复计算一个标量奖励 $r$。将偏好回复的奖励集合 ${r^w}$ 和非偏好回复的奖励集合 ${r^l}$ 视为两个一维经验分布。优化模型参数 $\theta$以最小化从非偏好分布到偏好分布的1-Wasserstein距离或一个上界。这鼓励模型生成高奖励的回复。优势与DPO等基于成对比较的方法相比AOT考虑了整个回复分布的全局几何结构可能对奖励模型的噪声更鲁棒并能更好地处理多模态的偏好分布。4. 实战指南工具、技巧与常见陷阱理论很美好但把最优传输用起来才是关键。这部分我将分享一些实用的工具选择、调参经验和常见问题的解决方法。4.1 主流计算库与工具链目前Python生态中有几个成熟的最优传输库选择哪一个取决于你的具体需求库名称核心特点适用场景注意事项POT (Python Optimal Transport)功能最全社区最活跃文档完善。实现了从基础OT、熵正则化Sinkhorn、GW距离、重心计算到领域适应等各种高级算法。通用首选适合研究、原型开发和大多数应用。后端主要为NumPy对于超大规模问题如数万样本可能较慢。支持GPU通过CuPy但配置稍复杂。GeomLoss基于PyTorch深度集成自动微分。专注于可微分的OT损失方便作为神经网络的一部分进行端到端训练。需要将OT作为神经网络损失层如WGAN、深度领域适应。API相对POT更面向PyTorch风格。某些高级功能不如POT全面。OTT (JAX Optimal Transport)基于JAX利用JIT编译和自动向量化在CPU/GPU/TPU上性能极高。设计用于大规模计算。需要极致性能处理超大尺度OT问题如大规模图像数据集。JAX生态相对较新API可能变化。需要熟悉JAX的函数式编程范式。PyTorch (自定义)灵活性最高。可以自己实现Sinkhorn迭代约10行代码便于自定义成本函数、正则化项或集成到复杂模型中。研究新算法或对计算过程有特殊定制需求。需要自己处理数值稳定性如log-sum-exp技巧、确保收敛。入门建议从POT开始。它的ot.emd(精确线性规划)、ot.sinkhorn(熵正则化)、ot.gromov_wasserstein(GW距离) 等函数接口清晰有大量示例。当你需要将OT嵌入到PyTorch训练循环时再考虑GeomLoss或自定义。4.2 熵正则化参数 $\gamma$ 的调优艺术$\gamma$ 是熵正则化OT中最重要的超参数没有之一。它控制着解的“模糊度”与计算效率/稳定性的权衡。过大 ($\gamma \rightarrow \infty$)解 $\pi^*$ 趋近于均匀分布$\pi_{ij} \approx 1/(n m)$计算极快且稳定但OT距离失去几何意义退化为一个简单的均值差异。过小 ($\gamma \rightarrow 0$)解趋近于原始OT的稀疏解近似更精确但Sinkhorn迭代可能收敛极慢且 $K \exp(-C/\gamma)$ 矩阵中会出现极大和极小的数值导致溢出/下溢。调优策略经验起点一个常用的启发式是设置 $\gamma \text{median}(C) / \text{某个因子}$例如 $\gamma \text{median}(C) / 10$。这确保了成本矩阵 $C$ 经过 $\exp(-C/\gamma)$ 变换后数值范围在一个合理的区间。可视化诊断对于中小规模问题可以画出耦合矩阵 $\pi^$ 的热力图。一个“好”的 $\pi^$ 应该在对角线附近有清晰的模式如果数据有序既不是完全均匀的也不是只有一个非零元素的极端稀疏。它应该表现出一定的“质量扩散”。退火策略在迭代算法如训练WGAN或领域适应模型中可以从一个较大的 $\gamma$ 开始随着训练进行逐渐衰减它。这类似于优化中的学习率衰减早期快速得到一个粗略对齐后期精细调整。任务依赖在需要清晰对应关系的任务如图像语义匹配你可能需要较小的 $\gamma$ 以获得更稀疏、更确定的匹配。在作为损失函数鼓励分布重叠的任务如WGAN稍大的 $\gamma$ 可能提供更平滑的梯度有利于训练稳定。4.3 数值稳定性实战技巧Sinkhorn迭代虽然简单但直接实现pi np.exp(-C/eps)然后行列归一化在 $\gamma$ 很小时极易出现数值溢出exp结果太大。标准稳定实现Log-Domain Sinkhorn 真正的工业级实现都在对数空间进行操作。核心是使用logsumexp技巧来稳定计算。import numpy as np def sinkhorn_log(C, gamma, a, b, num_iterations1000, log_domainTrue): C: cost matrix (n x m) gamma: regularization parameter a, b: marginal distributions (sum to 1) n, m C.shape K -C / gamma # 注意这里先不取exp # 初始化对数域的对偶变量 u, v u np.zeros(n) v np.zeros(m) for _ in range(num_iterations): # 更新 u (行归一化) # 稳定计算: log(sum_j exp(K_ij v_j)) u_prev u.copy() log_P K v[None, :] # (n, m) u np.log(a) - logsumexp(log_P, axis1) # 稳定计算 # 更新 v (列归一化) log_P K u[:, None] # (n, m) v np.log(b) - logsumexp(log_P, axis0) # 稳定计算 # 简单收敛判断 (可选) if np.max(np.abs(u - u_prev)) 1e-6: break # 计算最终的耦合矩阵 (可选如果需要的话) log_Pi K u[:, None] v[None, :] Pi np.exp(log_Pi) # 此时指数运算在合理的数值范围内 # 注意Pi 的行和与列和可能不完全等于 a, b但非常接近 return Pi, u, v def logsumexp(x, axis): 数值稳定的 log(sum(exp(x))) x_max np.max(x, axisaxis, keepdimsTrue) return x_max np.log(np.sum(np.exp(x - x_max), axisaxis))关键点全程在对数空间进行加法和logsumexp操作只在最后需要显式的 $\pi$ 矩阵时才做一次exp且此时指数内的数值已经被归一化到合理范围。4.4 常见问题与排查清单计算速度太慢检查数据规模原生Sinkhorn是 $O(n^2)$ 复杂度。对于 $n 5000$考虑使用小批量OT、低秩OT近似或多层尺度方法multiscale OT。利用GPUPOT (with CuPy), GeomLoss, OTT 都支持GPU。对于大规模矩阵运算GPU能带来数十倍加速。增大 $\gamma$这是最直接的加速方法但会牺牲精度。结果不理想如WGAN训练崩溃检查Lipschitz约束如果使用WGAN-GP确保梯度惩罚的系数 $\lambda$ 设置合理通常10左右并且惩罚是在真实数据和生成数据的插值点上计算的。检查 $\gamma$在OT作为损失时$\gamma$ 过小可能导致梯度方差大、训练不稳定过大则损失信号太弱。尝试调整 $\gamma$。检查成本矩阵 $C$$C$ 的定义是否合理特征是否经过适当的归一化不合理的成本度量会导致错误的传输计划。内存溢出OOM成本矩阵 $C$是 $n \times m$ 的非常吃内存。对于超大 $n, m$必须使用近似方法如基于Nyström方法的低秩近似或者使用切片Wasserstein距离Sliced Wasserstein Distance, SWD。SWD通过随机投影将高维分布映射到一维计算一维Wasserstein距离的期望极大降低了计算和内存开销是处理高维分布如图像特征的常用替代品。领域适应中负迁移源域和目标域类别分布可能差异巨大。盲目对齐全局分布会把不同类的样本对齐到一起。尝试类条件OT对每个类别单独计算OT计划或者使用JDOT等联合分布对齐方法在OT损失中融入分类损失。最优传输不是一个“即插即用”的黑盒魔法。理解其几何内涵谨慎处理计算细节根据具体任务调整策略才能让这个强大的数学工具真正为你的机器学习项目赋能。它正在从一种前沿技术变为一种基础工具掌握它意味着你手中多了一把解决分布对齐、几何度量与结构化预测问题的利器。