探秘尊龙凯时全基因组关联分析：揭示生物医疗新视野

经过前面两期的讲解，我们了解了GWAS分析需要的数据类型和数据质控方法，今天我们将重点讨论核心内容：关联分析。在GWAS分析中，通常采用回归模型来检验标记与表型之间的关联性。

在这个过程中，零假设（H0） 认为标记的回归系数为零，意味着该标记（即SNP）对表型没有显著影响；而备择假设（H1）则认为标记的回归系数不为零，说明标记与表型之间存在显著相关性。

在第一期时，我们提到表型数据可以分为三种类型：数量性状、质量性状和分级性状。进行关联分析时，需要根据不同类型的表型选择合适的分析方法，并且为降低假阳性率，通常会对p值进行校正。

连续性状是指群体中具有连续分布的性状，如身高、体重和血压等。可以选择以下方法进行分析：

T检验（Student’s t-test） 和 线性回归（linear regression）。
使用命令：plink --bfile test --assoc --out result_assoc（不校正p值）或 plink --bfile test --assoc --adjust --out result_assoc（校正p值）。注意，校正后会生成一个*assocadjusted后缀的文件。
线性回归使用命令 plink --bfile test --linear --out result_linear (不校正) 或 plink --bfile test --linear --adjust --out result_linear （校正），使用协变量时加上--covar 参数。

阈值性状的表型值数据通常是二元的：1和2（0和-9表示缺失）。比较常见的类别有对照组（用1表示）和实验组（用2表示）。可以选择以下分析方法：

卡方检验 和 逻辑斯蒂回归（logistic regression）。
卡方检验使用命令：plink --bfile test --assoc --out result_assoc (不校正) 或 plink --bfile test --assoc --adjust --out result_assoc（校正）。
逻辑斯蒂回归使用命令 plink --bfile test --logistic --out result_logistic (不校正) 或 plink --bfile test --logistic --adjust --out result_logistic（校正），需使用--covar 参数添加协变量，例如性别和年龄等信息。

分级性状是指通过人为观察可以进行分类的离散型变量，其最终定义依赖于经验。例如，在植物的抗病性评估中，可以通过叶片病斑的面积（0~100%）定义为连续性状，或者设定阈值来定义为分级性状（如高、中、低）。同样，可以采用以下方法进行分析：

卡方检验 和 逻辑斯蒂回归（logistic regression）。
卡方检验使用命令：plink --bfile test --assoc --out result_assoc (不校正) 或 plink --bfile test --assoc --adjust --out result_assoc（校正）。
逻辑斯蒂回归使用命令 plink --bfile test --logistic --out result_logistic (不校正) 或 plink --bfile test --logistic --adjust --out result_logistic（校正），协变量通过--covar 参数添加。

至此，我们终于获得了期待的显著性结果。接下来，我们可以对结果表格进行p值筛选以过滤假阳性，并通过可视化手段进行直观展示，例如Q-Q图和曼哈顿图等。关于如何进行可视化分析，我们将在下一期中详细讨论。关注尊龙凯时，获取更多生物医疗领域的前沿资讯和分析技巧！