Gwas_turtorial

2023-08-05 约 1262 字预计阅读 3 分钟

GWAS主要步骤

选择一个感兴趣的性状或疾病，以及一个适当的样本群体，如病例和对照组，或者具有连续性状值的个体。
对样本进行全基因组分型，即测定数百万个SNP位点的基因型。
对每个SNP位点进行关联分析，即计算其与性状或疾病的相关性强度和显著性水平，通常使用回归模型或卡方检验等统计方法。
根据设定的显著性阈值，筛选出具有显著关联信号的SNP位点，并绘制曼哈顿图（manhattan plot）来展示全基因组关联结果。
对显著关联信号进行进一步的验证和解释，如进行基因型插补（genotype imputation），精细定位（fine-mapping），功能注释（functional annotation），共定位分析（colocalization analysis）等，以确定最可能的因果变异和相关基因。

qc,(quality control)质量控制，比起表观学研究，GWAS研究很少有引起偏差的来源，一般来说，一个人的基因型终其一生几乎不会改变的，因此很少存在同时影响表型又影响基因型的变异。但即便这样，我们在做GWAS时也要去除一些可能引起偏差的因素。

这种因素主要有：群体结构、个体间存在血缘关系、技术性操作。

质量控制包括两个方向，一个是样本的质量控制，一个是SNP的质量控制

必须先进行SNP过滤，才能进行个体过滤 ???

对于PLINK来说，它既可以处理文本格式的文件，也可以处理二进制格式的文件。但是大文本的文件处理起来十分消耗计算资源，所以我们一般 推使用二进制格式的输入文件 。

文本格式的PLINK数据包括两份文件 .ped文件和 .map文件

二进制格式的PLINK数据则包括三份文件 ：.bed文件，.fam文件和 .bim文件

PLIINK基础使用命令

plink --bfile MY_DATA --assoc --out gwas_results

‐‐file {your_file}输入文本格式文件

‐‐bfile {your_file} 输入二进制格式文件

–assoc 关联分析,这一步会对每个SNP和研究者感兴趣的性状进行卡方检验

–out {outfile} 输出文件

样本的质量控制包括：缺失率、杂合性、基因型性别和记录的性别是否一致。

检测缺失率(个体缺失)，一般将样本缺失率大于5%的个体去除

plink --bfile file --mind 0.05 --make-bed --out file_mind

检测杂合性

plink --bfile file --het --make-bed --out file_het

检测性别不一致的个体 –

受试者信息填写的性别和遗传性别不一致

plink --bfile file --check-sex --make-bed --out file_checksex

将上述筛选出来的不符合的样本去除

plink --bfile file --remove removesample.txt --make-bed --out file_qcsample