检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的极速模式浏览,或者使用谷歌、火狐等浏览器。

下载Firefox

南开大学周永道、王磊教授,付盛副教授到院开展学术讲座

2025-11-28

2025年11月24日下午,南开大学周永道、王磊教授,付盛副教授受邀访问中国人民大学。周永道教授开展了主题为“Stable Subsampling under Model Misspecification and Covariate Shift”的讲座,主要探讨协变量漂移和模型误设下的稳定子抽样方法;王磊教授开展了主题为“Optimal subsampling for high-dimensional partially linear models via machine learning methods”的讲座,主要探讨去偏机器学习与最优子抽样理论;付盛副教授开展了主题为“Enhanced Polytomous Logistic Regression Model for Multicategory Outcomes”的讲座,主要探讨多中心数据共享问题。本次讲座由统计与大数据研究院马维、何珂俊长聘副教授主持。

6711ae92d6edd446c20ef7cb9907671b.jpg

周永道针对大数据建模中普遍存在的训练与测试分布不一致和模型设定偏误问题,提出了一种融合均匀设计与混杂平衡的稳定子抽样新范式。该研究突破传统子抽样方法对模型设定的依赖,首次从理论层面证明均匀测度能够最小化最大积分均方误差,并提出以全局稳定性损失作为评估指标,有效量化变量间伪相关性的影响。周永道构建的USSP算法通过均匀设计点最近邻搜索与列置换优化,在降低数据规模的同时显著提升模型在分布外环境中的预测稳定性。在多种合成数据实验中,该方法在存在非线性协变量偏移与复杂模型误设的场景下均显著优于LowCon、IBOSS、SRS等现有抽样方法。进一步在中国城市空气质量数据集上的实证表明,该算法在跨省份泛化任务中保持最低且最稳定的预测误差。这一成果不仅为流数据建模、高维因果推断等场景提供了可扩展的稳健学习工具,更将试验设计理论与机器学习泛化问题深度交融,为构建下一代适应分布变化的可信机器学习系统奠定了方法论基础。

5e3bb432b9b63013110d8941a1a4b457.jpg

王磊首先介绍了子抽样方法的发展状况与前沿研究,他指出大部分方法都只关注参数模型,但是非参数模型的有效子抽样机制鲜有研究。部分线性模型历史悠久,结合了参数与非参数部分,但在高维大数据背景下存在计算瓶颈与模型误设的问题。为此,王磊创新性地融合去偏机器学习与最优子抽样理论,构建了一套兼具计算效率与统计保证的推断框架。该研究通过构造Neyman正交化子抽样得分函数,有效消除了机器学习估计冗余参数函数时引入的正则化偏差,并提出两阶段算法以控制过拟合风险。理论方面,王磊首次建立了子抽样估计量的无条件渐近正态性,推导出包含A最优与L最优准则的统一最优子抽样概率,并进一步将方法拓展至部分线性工具变量模型以处理内生性问题。在蛋白质三级结构数据等实证应用中,该方法计算效率提升近百倍,为高维因果推断、生物统计等复杂建模场景提供了可扩展且理论严谨的解决方案。

52bf4c8ef835a11b32eb388ca96ca851.jpg

付盛针对多中心研究中普遍存在的个体数据共享受限与模型异质性问题,提出了一种融合个体水平数据与外部汇总信息的多元逻辑回归新范式。该研究突破传统多元回归模型仅依赖内部数据的局限,首次系统构建了能够同时处理病例-病例比较模型与分组-病例对照模型的统一框架,并创新性地区分了规则与不规则两类汇总数据的整合路径。付盛提出的PolyGIM方法通过经验似然约束与最优权重迭代算法,在保护数据隐私的同时实现了接近个体数据水平的统计效率。理论证明显示,该估计量具有渐近正态性且严格优于仅基于内部数据的最大似然估计。在包含多种疾病亚型的模拟实验中,该方法在病例-病例与病例-对照两种外部模型设定下均显著优于传统方法。在分析非霍奇金淋巴瘤7个研究中心的实验中,该算法成功检测出多基因风险评分在淋巴瘤亚型间的异质性效应,为疾病机制探索提供了新的统计证据。这一成果不仅为跨机构合作研究提供了兼顾隐私与效率的解决方案,更将经典病例-对照研究设计与现代数据融合理论深度结合,为下一代多中心医学研究奠定了方法学基础。

7829eb56864ad97908cc45749730b307.jpg

讲座结束后,与会师生纷纷表示受益良多。本次讲座拓展了师生们在分布外泛化、高维推断与多中心融合建模等前沿方向的研究视野,进一步激发了同学们对研究统计理论与方法创新的热情。未来研究院将持续邀请海内外专家学者开展高水平学术讲座,持续打造研究院在统计与大数据领域的学术品牌影响力,为推动统计学科发展贡献更多力量。