2019年1月11日至2019年1月18日受国际知名数量遗传学家Dorian Garrick教授和Jianming Yu教授的邀请,本人赴美国圣地亚哥参加国际动植物基因组大会,并在全基因组关联分析和全基因组选择研讨会做报告,报告内容为团队新开发的rMVP和HIBLUP软件。本次参会的目的为宣传团队开发的软件,并与国际同行建立合作意向。
报告的第一部分内容为本人所在团队开发的全基因组关联分析软件rMVP。全基因组关联分析(Genome-wide association study,GWAS)通过分析覆盖于全基因组范围的单核苷酸多态性(SNP)标记与表型的关联来挖掘表型相关的候选基因。近十多年来,GWAS被广泛的应用于人类、畜牧、水产、植物和微生物等各个研究领域,揭示了许多影响人类疾病与农业经济性状的关键基因。随着近年来高通量测序技术的迅速发展,测序成本以超摩尔定律的速度不断降低,用于分析的群体样本数量与分子遗传标记的数量大幅增加,对现有的关联分析算法和工具在计算速度上提出了巨大的挑战。本人所在团队提出了一种新的计算策略,针对模型中含有多个协变量的情况能够有效的提升计算效率,该策略可有效地加速一般线性模型(GLM)、混合线性模型(MLM)和多位点模型FarmCPU;同时rMVP软件设计实现了一套完整的GWAS分析流程,包括数据格式转换、数据的质控与填充、主成分分析、亲缘关系矩阵构建、关联分析、结果输出与可视化五个部分。该软件包具有内存利用高效(Memory-efficient)、可视化增强(Visualization-enhanced)以及并行加速(Parallel-accelerated)的特点。实现的主要功能有:(1)通过EMMA,FaST-LMM和HE回归算法高效地进行方差组分估计;(2)整合并加速了GLM、MLM和FarmCPU三种常用模型,便于用户进行多种模型的对比。基于并行加速与计算策略的优化,rMVP比PLINK、GEMMA和FarmCPU在保持结果一致的情况下快了5~20倍;(3)基于内存映射技术实现了一套GWAS数据分析文件格式以及与VCF、Hapmap、PLINK Binary和Numeric等主流文件格式的转换程序,便于用户整理和重分析数据;(4)实现了对GWAS结果的高质量、高效可视化图表绘制,提供了40个用于灵活调整图表的参数,并可兼容PLINK、GEMMA、GCTA、GAPIT以及TASSEL等主流GWAS分析软件的输出结果。rMVP是使用R语言编写的免费开源软件,遵循Apache开源协议,软件源码,用户文档与示例数据发布在Github (https://github.com/XiaoleiLiuBio/rMVP)。rMVP对Microsoft R Open环境做了并行加速优化,也可兼容传统的Base R环境,能够运行在Windows、MacOS和Linux操作系统上。
报告的第二部分内容为本人所在团队开发的基因组选择软件HIBLUP。在遗传学理论尚未诞生前,人们根据自己的经验进行育种,通过表型进行个体选择,遗传进展缓慢。在20世纪遗传学理论诞生后,育种进程被大大加快,选择指数法被用于育种。20世纪40年代,BLUP模型诞生,其综合利用了基于系谱信息构建的亲缘关系矩阵和表型值信息,大大提高了育种值的准确性,并使得人们可以在生物采样前获得其育种值。随着测序、芯片技术的发展,基因分型成本不断降低,亲缘关系矩阵由基于系谱信息转为基因组信息,在BLUP的基础上发展了GBLUP方法,降低了亲缘关系矩阵构建时由于孟德尔抽样误差导致的错误,并且可以对全同胞个体进行育种值估计。近年来,一个可同时利用系谱信息和基因分型信息构建的亲缘关系矩阵的模型SSBLUP,被用于育种值估计,相比GBLUP进一步提升了信息的利用效率,同时提高了育种值估计的准确度。在各类育种值估计模型中,亲缘关系矩阵被用于估计性状的方差组分,从而获得遗传方差、残差以及两者的比例,方差组分估计的准确性影响着育种值估计的准确度。而用于该重要参数估计的亲缘关系矩阵在从BLUP到SSBLUP的发展过程中发生了明显的变化,该矩阵由基于系谱估计的A矩阵变成了同时由系谱和基因型信息构建的H矩阵或者全部由基因型信息构建的G矩阵,同时意味着该矩阵由稀疏矩阵变成了稠密矩阵。方差组分估计过程中对该矩阵的求逆复杂程度相应发生了巨大的变化,本人所在团队开发的HIBLUP软件囊括了上述统计模型,并创新了方差组分估计的算法,同时,HIBLUP软件重新设计了三种BLUP模型的计算思路,降低了复杂度,报告内容受到同行的好评。
学术会议期间,本人与新西兰梅西大学Dorian Garrick教授、美国依阿华州立大学Rohan Fernando教授、美国加州大学河滨分校Shizhong Xu教授、美国华盛顿州立大学Zhiwu Zhang教授、美国加州大学戴维斯分校Hao Cheng教授等进行了学术交流,达成了算法、软件开发、以及互派学生交流的合作意向。