检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的极速模式浏览,或者使用谷歌、火狐等浏览器。
我院2024届博士毕业生李涛、2022级博士生朱珺在导师孟澄助理教授的指导下,关于Hilbert Curve Projection研究的系列论文Hilbert Curve Projection Distance for Distribution Comparison和Efficient Variants of Wasserstein Distance in Hyperbolic Space via Space-filling Curve Projection分别被IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)和IEEE Transactions on Neural Networks and Learning Systems(TNNLS)接收发表。TPAMI论文作者(字母排序)为李涛、孟澄、许洪腾(人大高瓴)、虞俊(北理工数学与统计学院),TNNLS论文作者(字母排序)为李涛、孟澄、许洪腾、朱珺。
论文概述
TPAMI论文提出了一种基于Hilbert曲线投影的分布距离度量,能够以较低的计算复杂度衡量两个概率分布之间的距离。同时设计了两种基于子空间投影的变体方案,有效降低了维数诅咒的影响。该度量不仅克服了sliced-Wasserstein距离无法提供运输方案的局限性,还可以作为Wasserstein距离的高效替代。TNNLS论文提出了一种基于空间填充曲线投影的双曲空间分布距离度量方法,通过将概率分布投影到空间填充曲线上,获得封闭形式的配对,并计算双曲空间中的分布距离。同时,论文基于测地线投影和水平球面投影提出了两种变体以应对维数诅咒问题。
度量两个概率分布之间的距离在许多机器学习任务中具有重要意义,Wasserstein距离因其能够有效刻画分布之间的差异,在机器学习领域引起了广泛关注,并在众多复杂学习问题中展现出显著的应用潜力。然而,直接计算Wasserstein距离的复杂度较高,为了降低计算成本,研究人员提出了多种Wasserstein 距离的替代方法,例如Sinkhorn 距离、sliced-Wasserstein(SW)距离,广义sliced-Wasserstein距离以及树结构Wasserstein距离等。尽管计算效率高,但这些替代方法可能无法为 Wasserstein 距离提供有效的近似值。
图1. (a) 原始分布和目标分布的样本。(b) 随着增加,各种距离的示意图。(c) 各种距离运行时间的比较
TPAMI论文提出了一种用于分布比较的新型度量,称为希尔伯特曲线投影(HCP)距离。该距离首先沿着样本空间的希尔伯特曲线投影两个概率分布,然后基于投影后的分布计算输运方案,最后再根据运输方案计算源空间中样本之间的HCP距离。HCP 距离作为 Wasserstein 距离的新替品,是一个有效的近似并且计算速度高效,正如图1.(b) 和图1.(c) 所示,它的表现与 Wasserstein 距离相似,但计算时间却比其他方法少许多。
与 Wasserstein 距离相比,HCP 距离具有近似线性的计算复杂度,适用于大规模数据集。与 SW 距离相比,HCP 距离结构更接近于 Wasserstein 距离。HCP距离成功的关键在于:首先,HCP 可以提供输入概率测度之间良好的输运方案,而 SW 不能。原因在于希尔伯特曲线几乎处处可逆。SW 中的线性投影和 广义SW 中的非线性投影都不满足这一性质。这样的输运方案对于有效的生成模型至关重要(论文中详细探讨)。其次,HCP距离是在原始空间而非在投影的一维空间中计算距离。希尔伯特曲线只在计算输运方案时起作用,在计算 HCP 距离时不对数据点做任何变换。然而,SW 涉及通过线性投影变换数据点,然后使用这些变换后的数据点(破坏了原始空间的距离结构)计算 Wasserstein 距离。图 1提供了一个直观的例子来展示这两种策略之间的差异,希尔伯特曲线投影相比线性投影更有效地保留了数据分布的结构。这是因为希尔伯特曲线具有”保持局部性”的,即在投影后的一维空间中的距离近的点在原高维空间中依旧距离近。虽然它的反面不能得到保证,即高维空间中近的点在投影后的一维空间中不一定近,但对于最优输运来说,一维最优输运是排序解,直观上会将近的点互相配对,所以一维中近则高维中近的性质更为重要(这一点在文中有详细讨论)。最后,HCP 在实践中的计算速度比 SW 距离快。这是因为计算 SW 距离需要多次投影和排序,而计算 HCP 距离只需要一次。
图2.算法说明。(a) 原始数据点(紫色)和目标数据点(橙色),以及它们对应的矩形和2阶希尔伯特曲线。(b) 沿着希尔伯特曲线投影的点。(c) 根据投影点计算的输运矩阵。(d) 基于输运矩阵计算样本之间的 HCP 距离。
模拟数据和真实数据的实验结果表明,与现有Wasserstein距离的替代方案相比,HCP距离不仅作为 Wasserstein距离的有效替代,在分类、聚类和生成任务中取得了更优的性能,而且还具有更低的计算复杂度,显著加速了学习过程,充分展现了其广泛的应用潜力。此外,该研究成果具有良好的理论保证,论文展示了其对具有有界支撑的概率测度是良好定义的,并对其统计收敛性质和诱导的拓扑结构进行了理论分析。
图 3. (a) 左图:原始分布和目标分布之间的对数 2-Wasserstein 距离随迭代次数 t 的变化。右图:当 t = 150 时的快照。(b) 不同距离度量方法的迭代情况。
近年来,双曲空间作为一种能够有效嵌入具有层次结构数据的通用工具,受到了广泛关注。为了有效地度量双曲空间中分布的距离,寻找双曲空间中Wasserstein距离的有效替代,TNNLS论文提出了一种双曲空间填充曲线投影Wasserstein(SFW)距离的新度量。其核心思想是首先将两个双曲空间中的概率分布投影到空间填充曲线上,以获得它们之间的输运方案,然后在双曲空间中计算这两个分布的输运距离。
图4. (a) 两个双曲模型:洛伦兹模型和庞加莱球
。(b) Hilbert 和 Morton 空间填充曲线的离散近似。
与测地线和水平球面投影相比,空间填充曲线投影策略在保持数据分布固有结构方面更具有优势,实证结果表明SFW在模拟和真实数据实验中的优越性能。
图5. 目标分布与 SFW、 GHSW、 HHSW、 SWB、 SWL 梯度流中的分布的 Log-10 Wasserstein 距离。
在实际应用中,为了降低维数诅咒的影响,TPAMI论文设计了两种基于子空间投影的变体方案,TNNLS论文基于测地线投影和水平球面投影提出了两种变体。实际数据结果表明,几种变体在各种机器学习任务包括文本分类、图像生成、图像颜色迁移、文本嵌入等等方面表现出色。
开源代码参见:
https://github.com/sherlockLitao/HCP
https://github.com/sherlockLitao/SFW
发表页面
研究院作者简介
李涛,中国人民大学统计与大数据研究院2024届博士毕业生,主要研究方向为最优传输、生成模型、非线性相依关系度量和大数据子抽样。在TPAMI、TNNLS、JCGS、JMLR等期刊上发表论文六篇,是TNNLS等学术期刊的审稿人。
朱珺,中国人民大学统计与大数据研究院2022级直博生,主要研究方向为最优传输、时间序列分析和充分降维。在TNNLS期刊上发表论文一篇。曾获博士研究生一等学业奖学金,优秀班团骨干奖学金,“优秀学生干部”、“三好学生”荣誉称号,华为“难题揭榜”鼓励火花奖。
孟澄,统计与大数据研究院助理教授、博士生导师。带领团队荣获两枚华为“难题揭榜”价值火花奖、三枚鼓励火花奖,荣获人大校官媒及华为官媒报道。2023年泛华统计协会Junior Researcher Award(全球五人)。中国大百科全书(第三卷)统计学卷-数据科学分卷副主编。主要研究方向为:大数据压缩、最优输运方法、统计及工业交叉科学等,在Biometrika,IEEE TPAMI, JMLR等期刊会议上发表论文二十余篇。
实验室主页:https://cheng-bdal.github.io/Cheng-BDAL-CN.github.io/
近年来,研究院博士生在国际顶级学术期刊上发表的高水平学术论文:
1. Hanzhong Liu, Fuyi Tu and Wei Ma (2023). Lasso-adjusted treatment effect estimation undercovariate-adaptive randomization. Biometrika. 110(2):431-447.
2. Xing Yan, Yonghua Su, Wenxuan Ma (2023). Adaptively flexible predictive distribution for uncertainty quantification. lEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI).45(11):13068-13082.
3. Wenxuan ma, Xing Yan and Kun Zhang (2023). Improving uncertainty quantification of variancenetworks by tree-structured learing. lEEE Transactions on Neural Networks and Leaming Systems.
4. Yan, Y., & Luo, X. (2024).Bayesian integrative region segmentation in spatially resolvedtranscriptomic studies. Journal of the American Statistical Association.119(547): 1709-1721.
5. Li, T., Meng, C., Xu, H., & Yu, J. (2024). Hilbert curve projection distance for distributioncomparison. lEEE Transactions on Pattern Analysis and Machine Intelligence.46(7): 4993 - 5007.
6. Tao Li, Cheng Meng, Hongteng Xu and Jun Zhu (2025). Efficient Variants of Wasserstein Distance in Hyperbolic Space via Space-filling Curve Projection. IEEE Transactions on Neural Networks and Learning Systems, Just accepted.