LDSC 遗传关联分析

LD Score Regression 连锁分数回归

背景:
在GWAS研究中,多基因性(polygenicity,即若干较小的基因效应)和干扰因素引起的偏差(如隐性关联 cryptic relatedness,群体分层population stratification等)都会造成检验的统计量的分布偏高(inflated)。但我们并不能分辨偏高的统计量到底是来自多基因性信号还是干扰因素,所以通过LD score regression,我们可以通过研究检验统计量与连锁不平衡(linkage disequilibrium)之间的关系来定量分析每部分的影响。

一、关于连锁不平衡(Linkage Disequilibrium,LD)
https://socrates1100.github.io/post/qun-ti-yi-chuan-xi-lie-er/

二、LD Score Regression 的基本原理
GWAS检验中,对一个SNP效应量的估计通常也会包含与该SNP成LD的其他SNP的效应,也就是说一个与其他SNP成高LD的SNP,通常也会有更高的卡方检验量。

E[X2lj]=Nh2ljM+Na+1E[X^2|l_j] = \frac{N{h^2}l_j}{M} + Na + 1

NN表示样本大小;MM表示位点数目,所以h2M\frac{h^2}{M}表示每个位点的平均遗传度;
aa衡量了混杂因素(比如潜在亲缘关系和群体分层)的影响偏差值;
lj=krjk2l_j = \sum_k{r_{jk}^2}表示index variant jj与上下游一定区间内所有变异位点的LD值r2r^2(squared Pearson's correlation)的总和。实际计算过程中r2r^2的值会采用无偏估计值r^2\hat{r}^2,从 radj2=r^21r^2N2r^2_{adj} = \hat{r}^2-\frac{1-\hat{r}^2}{N-2} 计算而得。

  • 连锁分数ljl_j的计算,依赖于人群全基因组基因型数据,比如1000 Genome, HGDP,Nyuwa等。

Reference:

  1. https://zhuanlan.zhihu.com/p/379628546
  2. https://gwaslab.com/2021/03/29/ld-score-regression/
  3. Bulik-Sullivan, B., Loh, PR., Finucane, H. et al. LD Score regression distinguishes confounding from polygenicity in genome-wide association studies. Nat Genet 47, 291–295 (2015). https://doi.org/10.1038/ng.3211
  4. Bulik-Sullivan, B., Finucane, H., Anttila, V. et al. An atlas of genetic correlations across human diseases and traits. Nat Genet 47, 1236–1241 (2015). https://doi.org/10.1038/ng.3406
  5. Finucane, H., Bulik-Sullivan, B., Gusev, A. et al. Partitioning heritability by functional annotation using genome-wide association summary statistics. Nat Genet 47, 1228–1235 (2015). https://doi.org/10.1038/ng.3404
赞赏