群体遗传系列 (一)

基因型频率、等位基因频率,杂合度和多态性

背景:
DNA序列经常被看作是控制性状的基本遗传单位。
基因座的概念:基因在染色体DNA上所处的物理位置称为基因座位。一般我们会从突变的最小单元定义基因座位,比如涉及单位点突变的SNV(Single Nucleotide Variation),长度范围在1-50bp范围的microInDel(Insertion and Deletion),以及50bp以上的Indel,也叫SV(Structural Variants),这样的不同类型的突变单元我们都可以当作为一个基因座。当然,我们也可以用一定长度范围内的DNA序列作为基因座,或者以生物功能为单元的基因序列或其它功能序列为单位定义基因座。
等位基因的概念:一个个体中,同源染色体一个基因座上的基因状态(先认为是SNV的碱基状态,即有A,C,G,T四种状态)。对于一个二倍体生物来说,一个个体在同源染色体某一个基因座上至多存在两种状态,这两个基因状态就定义为等位基因。
基因型的概念:一个个体中,同源染色体一个基因座上上等位基因的组合状态。若这两个等位基因状态相同,则称之为纯合基因型;若两个等位基因状态不同,则称之为杂合基因型。

一个二倍体个体携带两个等位基因,但从群体的角度来看,一个基因座位上的等位基因状态可以只有一个,即无多态性座位;也可以有两个,还有可能多于两个。如等位基因数目多于两个,则这样的等位基因又称为复等位基因(multiple allele)
表型的概念:与基因型相对应,一个个体表现出来的、外在的体征称为表现型(phenotype),简称表型,也称性状。基因遵循中心法则(Central Dogma),经过转录和翻译等一系列分子和生化过程,合成生长发育所需的蛋白质,基因通过基因的表达决定生物的表型。
基因型的显隐性:对于豌豆的圆鼓和皱缩两种表型来说,杂合型Ww与纯合型WW有相同的表型,因此称W是显性等位基因(dominant allele),简称显性基因(dominant gene)。而杂合型Ww中,等位基因W的存在抑制了纯合型ww表型的出现,因此称w是隐性等位基因(recessive allele),简称隐性基因(recessive gene)。基因显隐性的确定需要基因型和表现型两方面的信息,离开性状谈基因的显隐性是没有意义的。 携带显性等位基因的基因型,所对应的表型为显性性状,不携带显性等位基因的基因型,所对应的表型为隐性性状。
表型和基因型之间的关系:表型是基因型和环境共同作用的结果,大部分情况下,个体的基因型和表型之间不存在明确的一一对应关系。两个相同的基因型,由于环境的差异也可以表现出不完全相同的表型;同样的表型,也可能来自于不同的基因型。
基因的多效性:一个性状还可能受多个座位上基因的影响。反过来,一个基因也有可能同时影响多个性状,这一现象称为基因的多效性(pleiotropy)。

一、群体的基因频率和基因型频率
基因频率和基因型频率指特定等位基因或特定基因型在群体中所占的比例
假设某一座位只有一对等位基因,用A和a表示,该群体由n个具有二倍体遗传特性的个体组成。群体中可能的基因型有AA、Aa和aa三种,这三种基因型的个体数分别用nAA、nAa和naa表示,总样本量用n表示。
三种基因型AA、Aa和aa的观测频率分别为:

pAA=nAAnp_{AA}= \frac{n_{AA}}{n}

pAa=nAanp_{Aa}= \frac{n_{Aa}}{n}

paa=naanp_{aa}= \frac{n_{aa}}{n}

对应的等位基因频率分别为:

pA=2nAA+nAa2np_{A}= \frac{2n_{AA}+n_{Aa}}{2n}

pa=2naa+nAa2np_{a}= \frac{2n_{aa}+n_{Aa}}{2n}

除非随机交配大群体,一般来说,不能从等位基因的频率推测出基因型的频率

二、群体的杂合度
对于单个座位来说,杂合基因型的频率又称为群体的杂合度(heterozygosity) 。
对于只包含两个等位基因A和a的座位,杂合度等于杂合基因型Aa的频率。
对于具有复等位基因A1、A2、A3、…的座位s,杂合度等于所有可能杂合基因型频率之和。座位s上的任意两个等位基因用u和v表示,基因型uv的频率为:

psuv=nuvnp_{suv}= \frac{n_{uv}}{n}

座位s上的杂合度等于所有可能杂合基因型频率之和,即:

Hs=psuvH_s = \sum{p_{suv}}

对于m个座位来说,平均杂合度(average heterozygosity)定义为:

H=1ms=1,2,...,mHsH = \frac{1}{m} \sum_{s=1,2,...,m}{H_{s}}

三、基因的多态性
多态性和杂合度的概念其实很类似,为什么要提出多态性这样一个概念呢?
杂合度是从杂合基因型频率计算而来。在近交群体中,杂合基因型的频率很低,常用基因多样性(gene diversity)度量群体的异质性,基因多样性由等位基因频率计算而来。
基因多态性的计算:
假定座位s上等位基因的频率用psu表示,基因多样性定义为:

Ds=1upsu2D_s = 1 - \sum_{u}{p_{su}^2}

对于m个座位来说,平均基因多样性定义为:

D=1ms=1,2,...,mDs=11ms=1,2,...,mupsu2D = \frac{1}{m} \sum_{s=1,2,...,m}{D_{s}} = 1 - \frac{1}{m} \sum_{s=1,2,...,m} \sum_{u}{p_{su}^2}

四、多态性和杂合度的关系

  1. 群体杂合度由杂合基因型的频率计算而来,杂合基因型频率越大,群体杂合度就越高。
  2. 基因多样性由等位基因的频率计算而来,等位基因越多、频率越一致,多样性就越高。
  3. 一般群体中,不能从等位基因的频率推测出基因型的频率。但是,在随机交配的大群体中,基因型频率可以由等位基因频率计算出来,也只有在这种情况下,群体的杂合度才等于群体的基因多样性。

Reference:
https://www.isbreeding.net/teaching/?type=detail&id=14

赞赏