检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的极速模式浏览,或者使用谷歌、火狐等浏览器。
下载Firefox
2026年3月,统计与大数据研究院2024级博士生薛敦耀(第一作者)、2025届博士毕业生李梦雨(通讯作者)及孟澄助理教授等合作的论文“Core-elements Subsampling for Alternating Least Squares ”已被国际统计领域重要学术期刊《Journal of Computational and Graphical Statistics》接收发表。此前,该论文在中国工业与应用数学学会(CSIAM)第二十三届年会暨第九届学生论坛中斩获优秀墙报奖。


研究背景
交替最小二乘算法(Alternating Least Squares,简称ALS)可有效处理显式反馈、隐式反馈及缺失数据,在个性化推荐系统、矩阵补全等任务中应用广泛。但传统ALS在处理大规模数据集时,计算成本高,面对海量用户和物品交互数据时需要反复进行大量回归计算,严重制约了算法的实用性。
现有概率子抽样方法虽能在一定程度上降低计算负担,但存在抽样成本高、信息损失大的问题。针对推荐系统中含缺失值的低秩矩阵分解问题,团队围绕交替最小二乘算法的加速与应用展开深入研究。
方法简介
核心元素(Core-elements)子抽样方法通过提取数据中最具代表性的部分,已被应用于大规模数据回归问题的近似计算。基于分解矩阵在迭代过程中呈现出的数值稀疏性特征,论文提出了适用于ALS框架的核心元素子抽样算法Core-ALS,并结合部分快速排序(Partial Quicksort)技术,设计了一种高效的稀疏矩阵近似计算方法。

上图展示了Core-ALS的算法流程。具体而言,该方法在每轮迭代中保留矩阵各列绝对值最大的“核心元素”,据此构建稀疏草图(sparse sketch),大幅减少无效计算,显著降低单步迭代的复杂度。在理论层面,论文证明了该方法的参数估计具有近似误差保证,并建立了完整的交替迭代过程的收敛性分析框架。
实验结果
数值模拟与Netflix开源竞赛数据集上的实验结果表明,该方法在极高稀疏度和超大规模数据(上亿次交互)条件下仍能保持优异的推荐性能,在Hit@k和NDCG@k等经典推荐系统指标上甚至优于全样本方法。在真实树皮纹理数据的图像重建任务中,相较于主流的抽样算法,Core-ALS取得了更高精度的图像恢复结果。
研究表明,Core-ALS能够在兼顾计算效率与近似精度的前提下,为大规模推荐系统与图像恢复等任务提供有效的ALS加速方案。
作者简介
薛敦耀,统计与大数据研究院2024级博士生。
主要研究方向为数据压缩、最优传输及其应用、大语言模型架构等。相关成果发表于JCGS,ICLR等国际期刊和会议。曾入选拔尖创新人才培育资助计划并在中国工业与应用数学学会(CSIAM)第二十三届年会暨第九届学生论坛中获得优秀墙报奖。
个人主页:https://sapphirexdy.github.io/