GWAS

　　GWAS(Genome-wide association study)，即全基因组关联分析，是指在人类全基因组范围内找出存在的序列变异，即单核苷酸多态性(SNP)，从中筛选出与疾病相关的SNPs。全基因组关联研究是一种检测特定物种中不同个体间的全部或大部分基因，从而了解不同个体间的基因变化有多大的一种方法。不同的变化带来不同的性状，如各种疾病的不同。在人类中，这种技术发现了特定基因与疾病的关联，如被称为年龄相关性黄斑变性的眼部疾病和糖尿病。

技术优势

多种关联分析模型，根据需求不同提供个性化分析；
拥有强大生信分析团队，快速分析SNP芯片/全基因组测序获得的SNP谱

技术路线

材料选择
性状调查
基因分型
模型选择
关联结果
数据深度挖掘

分析内容

（1）数据质控	（2）参考基因组比对分析；
（3）SNP 检测和注释；	（4）群体分层分析；
（5）连锁不平衡分析	（6）选择消除分析；
（7）全基因组关联分析；	（8）单体型图谱构建。

样本类型

不同品种、亚种、地方种/种质库/混合家系/野生资源/半同胞家系/全同胞家系/野生资源

案例展示

The genome sequence of allopolyploid Brassica juncea and analysis of differential homoeolog gene expression influencing selection

研究背景

异源四倍体芥菜（AABB）属于十字花科芸薹属，是重要经济作物，主要包括菜用和油用芥菜两大类群，种植范围较广，经济价值较大。菜用芥菜主要分布在中国等东亚国家和地区，油用芥菜主要分布在印度等南亚国家和地区。芥菜是“禹氏三角”中重要的一员，由白菜和黑芥杂交后加倍而来，至少发生了三次古多倍化事件，因此非常具有研究价值。但是由于其为异源多倍体，相关的全基因组测序工作一直很难开展。来自浙江大学、北京百迈客等单位的团队共同合作，利用最新的测序技术（PacBio+BioNano），成功的组装出高质量的芥菜基因组图谱，为进一步改良芥菜的农艺性状提供了基础，为多倍体物种遗传育种提供了新的方向。同时，也从多角度论证了芥菜A亚基因组起源问题，揭示了多倍体亚基因组间同源基因表达与选择机制。

研究结果

1、芥菜A亚基因组起源问题
芥菜的基因组是异源四倍体（AABB），在“禹氏三角”中由白菜（AA），黑芥（BB）杂交后加倍形成，在演化过程中变异类型非常丰富。问题是油用芥菜的AA和菜用芥菜的AA是来自同一个亚种，还是来自多个亚种呢，这个问题就是A亚基因组的起源问题。

如上图，a中对芥菜A、白菜A、甘蓝型油菜A进行共线性分析，可以发现其是高度共线的。
我们对10个菜用的芥菜、7个油用的芥菜，5个甘蓝型油菜基因组、27个白菜基因组（多亚种）进行了重测序分析，并绘制如上图b中的进化树。从b图中可以看到芥菜全部聚在一起，没有出现分散的情况，说明芥菜中A的基因组是来源于同一个亚种，属于单系起源。
C图中对同源物种和芥菜进行了进化树构建，并计算了芥菜分化的具体时间为3-5万年。
除了从群体的角度研究了芥菜亚基因组A起源问题，还从PCA聚类和Fixed SNP角度验正了单系起源的结论。

2、基因表达的dominance现象
由于芥菜基因组是异源四倍体，也就是说基因组中存在两套非常相似的亚基因组，那么在基因表达的过程中，位于两套亚基因组上的等位基因的表达模式是怎么样的呢，是一起表达，是相互抑制，还是一方占主导？

3、油用芥菜和菜用芥菜的选择与分化
通过菜用和油用芥菜群体进行选择清除分析，发现dominance的基因被筛选出来的比例较高，同时结合转录组数据，这部分基因在油用和菜用两个群体中差异表达。同时通过上面的分析发现与硫苷，脂类代谢显著相关并且存在dominance的基因组，这些基因在油用菜用群体中有各自独特基因分型。

参考文献

[1] The genome sequence of allopolyploid Brassica juncea and analysis of differential homoeolog gene expression influencing selection.

结果展示

1.Fst分布图
横坐标代表不同的染色体名称，纵坐标代表相应染色体窗口内 Fst 值，另外的两条虚线代表两种选择阈值（top 5%或 1%）。

2.θπ 选择消除分析图
图中横坐标表示染色体位置，纵坐标反映核苷酸多态性水平。从图中可以看出，在1 号染色体的不同位置，玉米的 parviglumis 品种（绿线）、地方品种（红线）和改良品种（蓝线）的多态性水平。

3.全基因组关联分析
注：左侧为曼哈顿图，为遗传标记效应值即经 F 检验的全基因组 P 值按染色体上物理位置排序图，横坐标为基因组坐标，纵坐标-log10P，P值越小关联性越强，表现为纵坐标越大。

4.GWAS 强关联 SNP 位点功能注释
注：图中红线表示关联最显著的 SNP 位点（即P值最小的位点），蓝线表示显著关联的阈值，绿色表示注释的基因（对关联最显著 SNP 位点两侧 50kb 范围内的基因进行注释）

5.单体型图谱
注：C 图为曼哈顿图，为遗传标记效应值即经 F 检验的全基因组 P 值按染色体上物理位置排序图，横坐标为基因组坐标，纵坐标-log10P，P 值越小关联性越强，表现为纵坐标越大，红色标记为显著性相关位点。D 和 E 图分别为 C 图中显著性位点附近的单倍体型图，上方为曼哈顿图，下方为代表连锁关系的 LD 图，颜色越深表示连锁越紧密，而 E 图中用黑色边框标记出的范围为 block 范围。

常见问题

1.如何解释基因-变异-环境因素之间的相互作用关系？
解释基因-变异-环境因素之间的相互作用关系需要使用GWAS对更多微效的与疾病关联的基因变异进行研究。

2.大样本研究中导致假阳性、假阴性结果出现的原因？
人群混杂(Population Stratification)是在大样本研究中导致假阳性、假阴性结果出现的重要原因之一。使用分层分数法(Stratification-score approach)控制人群分层、运用统计分析手段控制人群混杂的影响、采用基于家系的关联研究均能够避免人群混杂对关联结果分析的影响。

GWAS

人工客服

投诉建议

咨询热线