上海财经大学周帆副教授到院开展学术讲座

2025-12-08

2025年11月27日上午，上海财经大学周帆副教授受邀访问中国人民大学，开展了主题为“StatEval: A Comprehensive Benchmark for Large Language Models in Statistics”的讲座，主要探讨统计大模型的基线评价标准。本次讲座由统计与大数据研究院杨松山预聘副教授主持。

周1.jpg

周帆首先指出统计学领域蕴含着大量高质量推理数据，并且理论性质较为完备、结论较为确定，但大语言模型在统计学中却存在评估体系缺失的问题。为此，周帆团队提出了首个覆盖广度与深度、贯穿基础至研究级的系统性评测基准。在基础知识数据库上，该评测基准突破传统通用数学评测的局限，首次构建了融合概率、统计与机器学习三大分支，并涵盖校内课程、考试与前沿科研问题，问题总数约两万个。在统计研究数据库上，该评测基准包含了2020至2025年7000多篇论文的超过1.7万项证明任务。周帆团队通过设计可扩展的多智能体流水线，结合人工反馈循环，实现了从数万篇学术文献与教材中自动化提取、改写与质量控制研究级证明类问题的规模化构建，确保了问题的自洽性、难度适宜与答案可验证性。实验表明，大模型在基础任务上能够很好地解决统计问题，最不易解决的是机器学习问题，但在研究性任务上，大模型的能力还有待提升。这一成果不仅为评估与提升大语言模型的统计智能提供了权威、可复现的基准平台，也为面向统计学的检索增强生成与智能研究助手开发奠定了数据与方法基础，推动下一代具备严谨科学推理能力的可信人工智能系统发展。

讲座结束后，与会师生纷纷表示受益良多。本次讲座拓展了师生们在大模型落地应用方面的研究视野，进一步激发了同学们结合统计学与大模型进行创新的热情。未来研究院将持续邀请海内外专家学者开展高水平学术讲座，持续打造研究院在统计与大数据领域的学术品牌影响力，为推动统计学科发展贡献更多力量。