经过前面两期的讲解,我们了解了GWAS分析需要的数据类型和数据质控方法,今天我们将重点讨论核心内容:关联分析。在GWAS分析中,通常采用回归模型来检验标记与表型之间的关联性。
零假设与备择假设
在这个过程中,零假设(H0) 认为标记的回归系数为零,意味着该标记(即SNP)对表型没有显著影响;而备择假设(H1)则认为标记的回归系数不为零,说明标记与表型之间存在显著相关性。
在第一期时,我们提到表型数据可以分为三种类型:数量性状、质量性状和分级性状。进行关联分析时,需要根据不同类型的表型选择合适的分析方法,并且为降低假阳性率,通常会对p值进行校正。
1. 连续性状
连续性状是指群体中具有连续分布的性状,如身高、体重和血压等。可以选择以下方法进行分析:
- T检验(Student’s t-test) 和 线性回归(linear regression)。
- 使用命令:
plink --bfile test --assoc --out result_assoc
(不校正p值)或plink --bfile test --assoc --adjust --out result_assoc
(校正p值)。注意,校正后会生成一个*assocadjusted后缀的文件。 - 线性回归使用命令
plink --bfile test --linear --out result_linear
(不校正) 或plink --bfile test --linear --adjust --out result_linear
(校正),使用协变量时加上--covar
参数。
2. 阈值性状
阈值性状的表型值数据通常是二元的:1和2(0和-9表示缺失)。比较常见的类别有对照组(用1表示)和实验组(用2表示)。可以选择以下分析方法:
- 卡方检验 和 逻辑斯蒂回归(logistic regression)。
- 卡方检验使用命令:
plink --bfile test --assoc --out result_assoc
(不校正) 或plink --bfile test --assoc --adjust --out result_assoc
(校正)。 - 逻辑斯蒂回归使用命令
plink --bfile test --logistic --out result_logistic
(不校正) 或plink --bfile test --logistic --adjust --out result_logistic
(校正),需使用--covar
参数添加协变量,例如性别和年龄等信息。
3. 分级性状
分级性状是指通过人为观察可以进行分类的离散型变量,其最终定义依赖于经验。例如,在植物的抗病性评估中,可以通过叶片病斑的面积(0~100%)定义为连续性状,或者设定阈值来定义为分级性状(如高、中、低)。同样,可以采用以下方法进行分析:
- 卡方检验 和 逻辑斯蒂回归(logistic regression)。
- 卡方检验使用命令:
plink --bfile test --assoc --out result_assoc
(不校正) 或plink --bfile test --assoc --adjust --out result_assoc
(校正)。 - 逻辑斯蒂回归使用命令
plink --bfile test --logistic --out result_logistic
(不校正) 或plink --bfile test --logistic --adjust --out result_logistic
(校正),协变量通过--covar
参数添加。
至此,我们终于获得了期待的显著性结果。接下来,我们可以对结果表格进行p值筛选以过滤假阳性,并通过可视化手段进行直观展示,例如Q-Q图和曼哈顿图等。关于如何进行可视化分析,我们将在下一期中详细讨论。关注尊龙凯时,获取更多生物医疗领域的前沿资讯和分析技巧!