检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的极速模式浏览,或者使用谷歌、火狐等浏览器。
下载Firefox
2025年11月7日上午,清华大学丘成桐数学中心杨宇红教授受邀访问中国人民大学,并开展了主题为“A Framework to Understand Model Stealing Attacks and Defenses”的学术讲座,重点探讨如何保护模型的参数隐私,使其免受窃取者的攻击。本次讲座由统计与大数据研究院杨松山预聘副教授主持。

杨宇红教授首先指出人工智能亟需解决隐私性、安全性、可解释性和公平性这四大问题,随后引出机器学习模型隐私保护的统计方法。杨宇红强调,一个经过训练的稳定扩散模型通常建设费用较高,在为用户提供服务时,窃取者通过提供成本较低的查询语句获取模型输出,当查询语句规模较大时,就能利用输出结果构建效果相似的窃取模型。目前研究提出的模型保护方法通常是贪婪的,缺少理论支撑,并且没有一致的评价标准。为此,杨宇红教授团队提出首个系统性数学框架来描述攻击者行为与保护者行为。作为攻击者,采取的行为是输入查询语句,并获取保护者提供的经过干扰的模型输出,训练模型的目标是尽可能估计真实函数,因此评价指标是基于真实模型和保护者的输出;作为保护者,训练的模型输出需要增加噪声,以防止轻易被窃取。杨宇红严格定义了“攻击强度”、“防御强度”与“效用损失”,从经济学视角看,只要攻击者的窃取成本大于保护者设定的服务成本,并且保护者提供干扰输出的效用损失在可接受范围内,就可以视为保护成功。杨宇红的研究指出,传统独立同分布噪声防御存在根本局限,而新提出的具有依赖结构的扰动策略能显著提升模型抗窃取能力。在多项式回归、高维惩罚型回归和图像分类三个模拟实验中,该框架误导攻击者选取非显著变量,促使攻击者训练的模型过拟合,成功保护了模型隐私。在未知攻击者模型类别的情况下,该框架成功防御了来自赫尔德连续函数类的攻击。讲座最后,杨宇红基于真实文本分类任务分析了模型保护的实验结果,并展望了引入博弈论的可能性。杨宇红教授提出的框架为构建下一代安全、可信的机器学习系统提供了兼具严密理论与实用价值的解决路径。

讲座结束后,与会师生纷纷表示受益良多。本次讲座拓展了师生们在模型隐私保护领域的前沿学术视野,进一步激发了同学们将统计理论应用于实际问题的热情。未来研究院将持续邀请海内外专家学者开展高水平学术讲座,持续打造研究院在统计与大数据领域的学术品牌影响力,为推动统计学科发展贡献更多力量。