群体遗传系列 (三)

连锁不平衡

连锁不平衡在群体遗传学中,指同一条染色体上两个等位基因在传代中共同遗传的概率。连锁不平衡程度往往会受到同源染色体间重组率的影响。重组率越高,连锁不平衡程度越小。
连锁不平衡在概率统计上,也反映为同一条染色体上两个等位基因的非随机相关性。因此,假设等位基因A,B,则它们之间的连锁关系可以表示为群体中观测AB基因型频率和随机背景下(Hardy-Weinberg平衡)AB基因型频率之差。

DAB=pABpApBD_{AB} = p_{AB}-p_{A}p_{B}

具体来说,

基因频率: pA=u+sp_A=u+s; pa=t+vp_a=t+v; pB=u+tp_B=u+t; pb=s+vp_b=s+v
对于AB来说, D=pABpApB=u(u+s)(u+t)=u(1ust)st=uvstD = p_{AB} - p_{A}p_{B} = u - (u+s) (u+t) = u (1-u-s-t) - st = uv - st

连锁不平衡的其它度量方法(1)
uvst>0uv - st > 0时:

Dmax=min[pApb,papB]D_{max} = min[{p_{A}p_{b}, p_{a}p_{B}}]

uvst<0uv - st < 0时:

Dmax=min[pApB,papb]D_{max} = min[{p_{A}p_{B}, p_{a}p_{b}}]

标准化不平衡度Dˊ定义为:

D=DDmaxD' = \frac{D}{D_{max}}

连锁不平衡的其它度量方法(2)
将不平衡度平方后除以四种等位基因频率的乘积:

r2=D2pApapBpbr^2 = \frac{D^2}{p_{A}p_{a}p_{B}p_{b}}

  1. r2r^2不平衡度的平方根正好等于两个座位间的相关系数;
    假设biallelic site A: 两个等位基因的频率分别为 pAp_Apap_a,满足pA+pa=1p_A+p_a=1
    biallelic site B: 两个等位基因的频率分别为 pBp_Bpbp_b,满足pB+pb=1p_B+p_b=1

    r=Cov(pA,pB)Var(pA)×Var(pB)r = \frac{Cov(p_A, p_B)}{\sqrt{Var(p_A)\times{Var(p_B)}}}

    在样本大小为nn的群体中,随机抽取等位基因使其满足频率为pAp_A,则pAp_A的分布为2n2n次随机抽样的二项分布,pAp_A的方差为2npApa2n{p_A}{p_a}pBp_B的分布同理。两者的协方差为2n(pABpApB)2n(p_{AB}-p_A{p_B})

    r=2n×(pABpA×pB)(2n×pA×pa)×(2n×pB×pb)r=\frac{2n\times({p_{AB}-p_A\times{p_B})}}{\sqrt{(2n\times{p_A\times{p_a}})\times(2n\times{p_B\times{p_b}})}}

由D的定义可知,DAB=pABpApBD_{AB} = p_{AB}-p_{A}p_{B}
则上式可写成:

r2=4n2×DAB24n2×pA×pa×pB×pb=DAB2pApapBpbr^2 = \frac{4n^2\times{D_{AB}^2}}{4n^2\times{p_A}\times{p_a}\times{p_B}\times{p_b}}=\frac{D_{AB}^2}{p_{A}p_{a}p_{B}p_{b}}

  1. r2r^2不平衡度乘以总样本量正好等于不平衡检验的 χ2\chi^2统计量。
    因此,不平衡度参数r2r^2在自然群体的遗传分析中有更广泛的应用。

总结:

  1. 前面的三种不平衡度参数,各自从不同侧面反映座位间的不平衡程度,难以相互取代。
  2. 后两者参数的目的是消除基因频率对不平衡度的影响。但是,不平衡度和基因频率都是从配子观测频率计算出来的,这度量方法有时也难以完全排除等位基因频率的影响。
  3. 此外,这些参数都不能用来判断不平衡度的显著性,不平衡度的显著程度仍然要借助于统计假设检验。

References:
https://www.isbreeding.net/teaching/?type=detail&id=14

赞赏