检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的极速模式浏览,或者使用谷歌、火狐等浏览器。

下载Firefox

我院博士研究生吴秋雨和导师罗翔宇助理教授合作发表多篇高水平论文

2022-04-01

2021年11月24日,我院2017级博士生吴秋雨与其导师罗翔宇助理教授的论文“Estimating Heterogeneous Gene Regulatory Networks from Zero-Inflated Single-Cell Expression Data”被应用统计学期刊Annals of Applied Statistics接收。

论文概述

生物体中基因不是独立运作的,而是通过相互协作来调控生命活动。推断基因调控网络可以探究基因的协同关系。基因--基因协作信息通常由高斯图模型来学习,该模型旨在识别任何一对基因的表达水平在给定其他基因的表达值下是否相依。保证高斯图模型有效性的一个基本假设是数据的正态性,这对于来自细胞集合的批量层次(bulk)表达数据通常是成立的。然而,在单细胞RNA测序中收集的细粒度细胞水平表达数据显示了非正态性特征——细胞异质性和零膨胀。我们提出了一个贝叶斯潜在高斯图混合模型,可以针对单细胞表达数据的零膨胀和未知异质性来联合估计多个基因调控网络。该方法在网络结构和精度矩阵估计准确度方面优于所比较的方法,并在应用于两个真实世界的单细胞RNA测序数据集时提供了有趣的生物发现。

发表页面


吴秋雨与其导师罗翔宇助理教授的另一篇论文“Nonparametric Bayesian Two-Level Clustering for Subject-Level Single-Cell Expression Data”在2021年2月被统计学期刊Statistica Sinica接收。

论文概述

单细胞测序的出现为个性化治疗开辟了新的途径。在这项研究中,我们基于来自多个个体的单细胞表达数据,解决了同时发现个体亚组(个体层次)和细胞类型(细胞层次)的双层次聚类问题。目前的统计方法或对细胞进行聚类而没有考虑个体的异质性,或对个体进行分组而没有利用单细胞信息。为了搭建起细胞聚类和个体分组之间的桥梁,我们提出了一个同时实现个体和细胞聚类的非参数贝叶斯模型。该模型不需要预先指定个体分组数量或细胞类型数量,能自动诱导个体群组结构,并在个体之间匹配细胞类型。此外,它直接对单细胞原始的计数型数据进行建模,并考虑了数据的零膨胀和库规模的特征。为了后验推断的便利性,我们提出了一个分块Gibbs抽样方法,并能根据后验样本识别在不同个体亚组或细胞类型中差异性表达基因。应用在模拟和实际数据上的结果证实了该模型同时对个体和细胞进行聚类的实用能力。

作者简介

吴秋雨,中国人民大学统计与大数据研究院2017级博士研究生。目前已有三篇论文发表在统计学期刊Statistica Sinica、Annals of Applied Statistics和Statistics in Biosciences,并参加第二十三届京津冀青年概率统计学术会议、2021 International Society for Bayesian Analysis World Meeting和2021 Joint Statistical Meetings会议做分组报告。博士学习期间成绩优异,多次获得博士研究生国家奖学金和中国人民大学一等奖学金。

罗翔宇,中国人民大学统计与大数据研究院助理教授,博士生导师。研究领域包括统计基因组学、贝叶斯统计、统计计算。已在Journal of the American Statistical Association、Nature Communications等统计学或综合类国际一流期刊发表多篇论文,论文曾获美国统计学会W.J. Youden in Interlaboratory Testing奖。

论文发表

Qiuyu Wu and Xiangyu Luo (2022). Nonparametric Bayesian two-level clustering for subject-level single-cell expression data. Statistica Sinica.

Qiuyu Wu and Xiangyu Luo (2022). Estimating heterogeneous gene regulatory networks from zero-inflated single-cell expression data. The Annals of Applied Statistics.

Jinge Yu, Qiuyu Wu and Xiangyu Luo (2021). Bayesian joint modeling of single-cell expression data and bulk spatial transcriptomic data. Statistics in Biosciences. (Co-first author)