检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的极速模式浏览,或者使用谷歌、火狐等浏览器。

下载Firefox

中国科学院助理研究员奚晋、滑铁卢大学助理教授田庆隆到我院开展学术讲座

2024-10-23

2024年10月18日上午,中国科学院数学与系统科学研究院预测中心助理研究员奚晋在崇德西楼815报告厅进行了主题为“Machine Learning using Nonstationary Data”的学术讲座;滑铁卢大学统计与精算科学系助理教授田庆隆进行了主题为“Positive and Unlabeled Data: Model, Estimation, Inference, and Classification”的学术讲座。

图片

奚晋助理研究员的讲座分享了关于将机器学习方法扩展到非平稳数据中的研究。面对非平稳数据时,传统的机器学习方法的某些已知性质可能不再适用。为此,提出了一种简单的程序,能够在无需研究者事先了解哪些变量是非平稳的或非平稳性的具体形式的情况下,处理非平稳数据。理论上证明了,结合该程序使用LASSO或自适应LASSO时,能够在包含平稳和非平稳解释变量的情形下实现一致的变量选择。此外,相关研究也表明,在存在非平稳性的情况下,该方法可以实现主成分的一致估计。在实证分析中,通过预测美国通胀率和工业生产指数,验证了该方法的有效性。实验结果表明,所提出的方法在多种机器学习方法中表现优异,相较于传统方法,显著提升了预测准确性,或至少具有相似的表现,因而成为提取高维数据中平稳成分的可靠选择。随后在FRED-MD宏观经济数据集上的应用进一步显示,该方法与传统的主成分分析相比具有类似的优点,同时提供了一些额外的优势。

图片

田庆隆助理教授的讲座分享了一种新的方法,通过双指数倾斜模型(DETM)处理正样本和未标注样本(PU)数据。传统的PU数据处理方法通常仅适用于随机完全选取(SCAR)数据,假设标注的正样本和未标注的正样本来自相同的分布。而DETM的双重结构能够有效应对更加复杂、尚未深入研究的随机选取PU数据,在这种数据中,标注和未标注的正样本可以来自不同的分布。研究严格构建了DETM的理论基础,包括模型的可识别性、参数估计以及渐近性质。为了进一步进行统计推断,研究开发了用于检验SCAR条件的拟合优度检验,并构建了目标领域中正样本比例的置信区间。此外,研究还引入了一种近似贝叶斯分类器,用于分类任务,展示了DETM在预测中的稳健表现。通过理论分析与实际应用的结合,研究突显了DETM作为应对PU数据挑战的综合框架,并展示了其在正样本识别中的有效性与广泛适用性。

图片

讲座结束后,师生们受益良多,对嘉宾们的精彩讲座表示感谢。研究院今后会继续邀请专家学者开展讲座,不断拓宽学术视野。