检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的极速模式浏览,或者使用谷歌、火狐等浏览器。
下载Firefox2023年6月,我院2020级博士生李梦雨(第一作者)、2019级博士生李涛及其导师孟澄助理教授(通讯作者)等合作的论文“Importance Sparsification for Sinkhorn Algorithm”被机器学习领域顶级期刊《Journal of Machine Learning Research》接收。
论文概述
最优输运(optimal transport,OT)是经典的数学问题,目标是寻找一个保测度的映射或规划,使得总的输运代价最小。自18世纪法国数学家Gaspard Monge提出最优输运以来,这个问题已得到了广泛的关注。国际知名数学家、首位华裔菲尔兹奖得主丘成桐院士对OT与计算几何的联系进行了深入的研究;意大利数学家Alessio Figalli因在OT理论及其在偏微分方程、度量几何和概率方面的应用做出的重要贡献,被授予2018 年菲尔兹奖;Martin Arjovsky等学者基于OT提出了改进的生成对抗网络(WGAN),成功解决了生成对抗网络(GAN)训练不稳定、训练进程难以判断、生成样本缺乏多样性等问题,在机器学习领域引起了极大的轰动。此外,最优输运在统计学、金融数学、生物医学、量子物理和量子化学等领域也有广泛的应用。
Sinkhorn算法是近似求解OT问题最常用的方法之一。然而,其计算复杂度随样本量增加呈平方增长,难以应用于大规模数据。为了减轻计算负担,我们提出了一种“重要性稀疏化”(Spar-Sink)方法,快速高效地近似求解平衡或非平衡的OT问题,将Sinkhorn算法的平方复杂度降为线性复杂度。具体而言,我们创新性地发现未知的最优输运规划(optimal transport plan)具有天然的已知上界并且能够显式表示。因此,我们利用这一上界作为重要性采样的采样概率对核矩阵进行稀疏化,从而加速矩阵运算。理论上,在一定的正则条件下,我们证明了所提出算法的收敛性及估计量的相合性。对于心脏超声(echocardiogram)视频,我们提出用OT问题中的Wasserstein-Fisher-Rao距离刻画任意两帧之间的差异,并展示了Spar-Sink方法能够有效地识别和可视化心脏周期,由此可以初步诊断出心力衰竭和心律不齐(见下图)。为了评估心脏周期预测的数值准确性,我们考虑了预测心脏收缩末期的任务。结果表明,和经典的Sinkhorn算法相比,Spar-Sink算法只需约2.3%的时间即可达到几乎相同的准确率。
2023年2月,李梦雨(第一作者)与其导师孟澄助理教授(通讯作者)等合作的另一篇论文“Efficient Approximation of Gromov-Wasserstein Distance Using Importance Sparsification”发表于统计学期刊《Journal of Computational and Graphical Statistics》。
论文概述
Gromov-Wasserstein (GW) 距离常用于度量结构化数据之间的差异,在图分析、形状匹配和点云配准等任务中具有重要应用。然而,精确计算GW距离是一个NP-hard问题,计算成本高昂。为了克服这一困难,我们将“重要性稀疏化”的思想拓展至近似GW距离,提出了Spar-GW方法(见下图)。该方法适用于任意的数据类型和损失函数,并且可以用于计算GW距离的变体,例如entropic GW距离、fused GW距离和unbalanced GW距离。理论上,我们证明了算法在一定正则化条件下的收敛性。通过广泛的数值模拟和真实数据实验,我们验证了Spar-GW方法的性能、效率与稳健性,及其在图分类、图聚类等任务中的价值。
发表页面
作者简介
李梦雨,中国人民大学统计与大数据研究院2020级直博生,主要研究方向为大规模数据子抽样方法、最优输运中的计算问题与理论性质分析等。曾获2022年、2023年联合统计会议(Joint Statistical Meetings)学生论文奖。博士学习期间成绩优异,多次获得博士研究生一等奖学金。代表性研究成果:
Mengyu Li & Junlong Zhao (2022). "Communication-Efficient Distributed Linear Discriminant Analysis for Binary Classification." Statistica Sinica , 32, 1343--1361.
Mengyu Li, Jun Yu, Hongteng Xu & Cheng Meng (2023). "Efficient Approximation of Gromov-Wasserstein Distance Using Importance Sparsification." Journal of Computational and Graphical Statistics , 1--25.
Mengyu Li, Jun Yu, Tao Li & Cheng Meng (2023). "Importance Sparsification for Sinkhorn Algorithm." The Journal of Machine Learning Research . Accepted.
Mengyu Li, Jun Yu, Tao Li & Cheng Meng (2023+). "Core-Elements for Classical Linear Regression." Revision in Statistica Sinica .
李涛,中国人民大学统计与大数据研究院2019级直博生,主要研究方向为最优传输、生成模型、非线性相依关系度量和大数据子抽样。目前已有论文发表在期刊《Journal of Computational and Graphical Statistics》、《International Journal of Cyber-Physical Systems》上。博士学习期间成绩优异,获得博士研究生一等奖学金。
虞俊,北京理工大学数学与统计学院助理教授,博士生导师。详情请见个人主页:https://junyubeta.github.io/yujunbeta.github.io/index.html
许洪腾,中国人民大学高瓴人工智能学院准聘副教授,博士生导师。详情请见个人主页:https://hongtengxu.github.io/
孟澄,中国人民大学统计与大数据研究院助理教授,博士生导师。详情请见个人主页:https://chengzijunaixiaoli.github.io/