西湖大学杨剑团队开发出全球首款可用于百万级生物样本库的全基因组混合模型关联分析工具

学术研究

杨剑课题组 2021年11月05日

媒体联系张弛邮箱: zhangchi@westlake.edu.cn
电话: +86-(0)571-86886861 公共事务部

2021年11月4日，西湖大学生命科学学院杨剑教授团队在《自然-遗传学》发表题为A generalized linear mixed model association tool for biobank-scale data的论文。该研究团队开发出了一款极为高效的广义线性混合模型（Generalized Linear Mixed Model，GLMM）关联分析工具，将其命名为fastGWA-GLMM，专门针对二元性状的全基因组关联研究（Genome-Wide Association Study，简称GWAS）。fastGWA-GLMM以及该团队之前开发的fastGWA（主要针对连续型性状）是目前唯一可应用于百万级生物样本库的混合模型GWAS分析工具。

人类常见的性状，包括我们的行为、生理特征、疾病易感性，大多都是由大量的、效应微小的DNA片段变化造成的。这些被称为遗传变异的DNA变化与哪些疾病的发生有关？ GWAS就是一种被广泛用于检测遗传变异与表型之间关联的实验设计。简单地说，它是通过比较大量人群的遗传信息特征，找到特定的遗传变异，利用统计学的方法寻找与复杂疾病相关的遗传因素，揭示与疾病发生、发展相关的基因和调控机制。

但GWAS受制于数据分析能力。尤其是近年来，随着十万级、甚至百万级大型生物样本库的出现，例如英国生物样本库（UK Biobank，简称UKB）、美国的基因检测公司23andMe等，原有的GWAS分析工具“捉襟见肘”。

人体的性状可以大致分为两类，一种是连续型数量性状，指的是个体间的差异可以用数量区别，例如身高、体重等；另一种是二元性状，表现为对立面的两种状态，例如患病还是不患病。UKB中有3000-4000个性状，其中一半以上是“非此即彼”的二元性状。

过去常用的GWAS分析工具主要是基于线性回归模型（Linear Regression，LR），但LR的缺点是忽略了群体结构以及人与人之间的亲缘关系，从而会影响结果的准确性。随后出现的基于线性混合模型（Linear Mixed Model，LMM）的方法，可以有效控制样本中的群体结构和亲缘相关，无需移除样本中大量的亲缘相关个体，从而在避免虚假关联的条件下达到更高的统计功效。但线性混合模型原则上只适用于连续型性状，当它被应用于二元性状时，得到的只是近似解，结果并不精确。广义线性模型正好能弥补上述二者的缺陷，但广义线性模型有着比一般线性模型更高的计算复杂度。于是，科学家们开始思考如何开发一种可以高效地分析大型生物样本库数据的广义线性模型方法。

杨剑团队提出了一系列基于稀疏矩阵的算法，突破了传统广义线性模型和线性混合模型耗时、耗计算资源的瓶颈，开发出了一款极为高效的基于广义线性混合模型的二元性状全基因组关联分析工具：fastGWA-GLMM。

图1、fastGWA-GLMM和SAIGE的运算速度和内存使用量的比较

图2、fastGWA-GLMM在2百万样本中的运算速度和内存使用量

该团队用真实数据展示了fastGWA-GLMM极高的运算效率，远超同类二元性状关联分析方法，运算效率最高可达到传统方法的36倍。而在一个模拟的两百万人的群体中（每个人有约1千2百万个变异位点），fastGWA-GLMM在使用16个CPU核和32GB内存的情况下只需要17小时就可以完成一个二元性状的全基因关联分析，而这对于原有的工具是几乎不可能完成的任务。fastGWA-GLMM对大量数据的快速处理能力，对即将到来的百万级生物样本库具有重大意义

作为一款稳健、强大且高效的关联分析工具，fastGWA-GLMM可以应用于几乎所有的大型生物样本库的二元性状关联分析。杨剑团队已经用fastGWA-GLMM分析了英国生物样本库中的2989个二元性状，并将所有的关联分析结果共享在他们的在线数据平台上（http://fastgwa.info/ukbimpbin）。用户可以在这个平台上无限制地浏览、检索、查询、下载所有的结果数据。并且，该方法已被整合至该团队开发的开源软件包GCTA中（https://yanglab.westlake.edu.cn/software/gcta）。fastGWA和fastGWA-GLMM或将成为未来超大型生物样本库关联分析研究不可或缺的工具之一，其破解人类复杂疾病遗传奥秘的应用潜力不可估量。

澳大利亚昆士兰大学博士生、西湖大学访问学生江龙达（现为纽约基因组中心博士后）、澳大利亚昆士兰大学郑志利博士为本文共同第一作者，西湖大学杨剑教授为本文通讯作者。