目录

GWAS初体验

2023-8-3新开一坑,开始学GWAS

GWAS学习可以分为以下几个板块:

  • GWAS的基本概念和原理:了解GWAS的目的、方法、优势和局限性,以及常用的统计模型和假设检验。
  • GWAS的数据处理和质量控制:学习如何对基因型数据进行格式转换、质量过滤、正负链翻转、基因型填补等操作,以及如何评估数据质量和避免潜在的偏差。
  • GWAS的关联分析和结果解读:学习如何使用不同的软件和工具进行关联分析,如何绘制曼哈顿图、QQ图等可视化结果,以及如何根据P值、置信区间、效应大小等指标判断关联性的显著性和强度。
  • GWAS的后续分析和功能注释:学习如何进行条件分析、Meta分析、基因多效性分析、孟德尔随机化分析等进一步探索关联信号的方法,以及如何利用数据库和工具进行SNP功能注释、基因集富集分析、组织特异性表达分析等方法,以揭示关联信号的生物学意义。
  • GWAS的文献阅读和案例学习:学习如何阅读和评价GWAS相关的文献,了解不同疾病或性状的GWAS发现和进展,以及如何应用GWAS结果进行风险评估、药物发现等应用。

GWA_tutorial:这是一个GitHub项目,提供了一个在Linux下学习GWAS实操数据的教程,包括四个部分:数据质量控制、群体分层校正、关联分析和多基因风险得分分析。 Genome-wide association studies in R:这是一个R博客文章,提供了一个用R语言分析GWAS的流程,包括数据质量控制、PCA分析、曼哈顿图、QQ图和候选位点功能分析。

GWAS基本概念

  • GWAS利用全基因组范围内的分子标记,如单核苷酸多态性(SNP),来探索与复杂性状或疾病相关的遗传变异
  • GWAS的目的是发现与表型变异有统计学关联的基因或基因区域,从而揭示生物学机制和潜在的治疗靶点

SNP 单核苷酸多态性

单核苷酸多态性(SNP)是指DNA序列中单个核苷酸的变异,它是生物遗传多样性的一种重要形式。SNP可以分布在基因的编码区或非编码区,影响基因的功能和表达。SNP也可以用于研究生物的起源、进化、迁移、疾病相关基因和药物反应等方面。

GWAS主要步骤

  1. 选择一个感兴趣的性状或疾病,以及一个适当的样本群体,如病例和对照组,或者具有连续性状值的个体。
  2. 对样本进行全基因组分型,即测定数百万个SNP位点的基因型。
  3. 对每个SNP位点进行关联分析,即计算其与性状或疾病的相关性强度和显著性水平,通常使用回归模型或卡方检验等统计方法。
  4. 根据设定的显著性阈值,筛选出具有显著关联信号的SNP位点,并绘制曼哈顿图(manhattan plot)来展示全基因组关联结果。
  5. 对显著关联信号进行进一步的验证和解释,如进行基因型插补(genotype imputation),精细定位(fine-mapping),功能注释(functional annotation),共定位分析(colocalization analysis)等,以确定最可能的因果变异和相关基因。

GWAS优势

可以在不依赖先验知识的情况下,全面地探索遗传变异与表型之间的关系,发现一些意想不到的新发现。此外,GWAS可以利用大规模的样本数据和高密度的分子标记,提高统计学效力和解析力

GWAS的局限性

  • GWAS通常只能解释表型变异中很小一部分的遗传力(heritability),这被称为“丢失的遗传力”(missing heritability)问题。这可能是由于一些罕见变异、结构变异、基因-基因相互作用、基因-环境相互作用等未被GWAS检测到的遗传因素所造成的。
  • GWAS通常只能发现与表型有关联而非因果关系的变异,这需要通过实验验证或其他方法来进一步证实。此外,GWAS也不能直接提供变异对表型影响的机制和途径,这需要结合其他功能基因组学数据和方法来进行解析。

参考

GWAS研究基本概念1 - 知乎 (zhihu.com)