中文

English

探秘尊龙凯时全基因组关联分析:揭示生物医疗新视野

发布时间:2025-07-28   信息来源:尊龙凯时官方编辑

经过前面两期的讲解,我们了解了GWAS分析需要的数据类型和数据质控方法,今天我们将重点讨论核心内容:关联分析。在GWAS分析中,通常采用回归模型来检验标记与表型之间的关联性。

探秘尊龙凯时全基因组关联分析:揭示生物医疗新视野

零假设与备择假设

在这个过程中,零假设(H0) 认为标记的回归系数为零,意味着该标记(即SNP)对表型没有显著影响;而备择假设(H1)则认为标记的回归系数不为零,说明标记与表型之间存在显著相关性。

在第一期时,我们提到表型数据可以分为三种类型:数量性状、质量性状和分级性状。进行关联分析时,需要根据不同类型的表型选择合适的分析方法,并且为降低假阳性率,通常会对p值进行校正。

1. 连续性状

连续性状是指群体中具有连续分布的性状,如身高、体重和血压等。可以选择以下方法进行分析:

  • T检验(Student’s t-test)线性回归(linear regression)
  • 使用命令:plink --bfile test --assoc --out result_assoc(不校正p值)或 plink --bfile test --assoc --adjust --out result_assoc(校正p值)。注意,校正后会生成一个*assocadjusted后缀的文件。
  • 线性回归使用命令 plink --bfile test --linear --out result_linear (不校正) 或 plink --bfile test --linear --adjust --out result_linear (校正),使用协变量时加上--covar 参数。

2. 阈值性状

阈值性状的表型值数据通常是二元的:1和2(0和-9表示缺失)。比较常见的类别有对照组(用1表示)和实验组(用2表示)。可以选择以下分析方法:

  • 卡方检验逻辑斯蒂回归(logistic regression)
  • 卡方检验使用命令:plink --bfile test --assoc --out result_assoc (不校正) 或 plink --bfile test --assoc --adjust --out result_assoc(校正)。
  • 逻辑斯蒂回归使用命令 plink --bfile test --logistic --out result_logistic (不校正) 或 plink --bfile test --logistic --adjust --out result_logistic(校正),需使用--covar 参数添加协变量,例如性别和年龄等信息。

3. 分级性状

分级性状是指通过人为观察可以进行分类的离散型变量,其最终定义依赖于经验。例如,在植物的抗病性评估中,可以通过叶片病斑的面积(0~100%)定义为连续性状,或者设定阈值来定义为分级性状(如高、中、低)。同样,可以采用以下方法进行分析:

  • 卡方检验逻辑斯蒂回归(logistic regression)
  • 卡方检验使用命令:plink --bfile test --assoc --out result_assoc (不校正) 或 plink --bfile test --assoc --adjust --out result_assoc(校正)。
  • 逻辑斯蒂回归使用命令 plink --bfile test --logistic --out result_logistic (不校正) 或 plink --bfile test --logistic --adjust --out result_logistic(校正),协变量通过--covar 参数添加。

至此,我们终于获得了期待的显著性结果。接下来,我们可以对结果表格进行p值筛选以过滤假阳性,并通过可视化手段进行直观展示,例如Q-Q图和曼哈顿图等。关于如何进行可视化分析,我们将在下一期中详细讨论。关注尊龙凯时,获取更多生物医疗领域的前沿资讯和分析技巧!