一种改进的基于通路的全基因组关联分析算法

文档序号:8299338阅读:398来源:国知局
一种改进的基于通路的全基因组关联分析算法
【技术领域】
[0001] 本发明涉及一种基于通路的全基因组关联分析算法,具体涉及一种改进的基于通 路的全基因组关联分析算法,属于生物技术领域。
【背景技术】
[0002] 随着测序技术的发展以及高密度SNP芯片的普及,全基因组关联分析(GWAS)已经 日益成为了人类疾病研宄及动物育种的一个有力工具。
[0003] 传统的全基因组关联分析仅仅关注了全基因组数据中严格符合统计学"全基因 组"显著水平的极少数位点,然而这些极少数位点通常只能解释小部分遗传变异,全基因组 关联数据中还有大量的剩余遗传信息有待发掘。
[0004] 随着对GWAS的深入研宄,它还逐渐暴露出了以下一些缺陷,具体有:
[0005] (1)对于一些性状而言,没有SNP能够通过多重检验,这样一来就无法进行基因定 位,或者即使一些SNP位点通过了检验,但发现其没有表现任何生物学意义。
[0006] (2)研宄表明,复杂数量性状的表型变异往往不是由少数几个SNP或基因所决定 的,这样一来单位点回归的研宄算法找到的SNP或基因无法解释所有的遗传变异。
[0007] 为了解决GWAS存在的上述问题,人们提出了许多不同的算法,其中最主要的一种 就是基于通路的全基因组关联分析算法,依据构建统计量的方法不同,该算法可以分为三 类:
[0008] (1)使用最显著的SNP效应构建基因统计量,这种算法可能无法检测到那些单个 SNP效应较小但联合起来效应很大的SNP位点,而且,这种算法偏爱于含有较多SNP的基因 及较多基因的通路。
[0009] (2)使用基因内部所有SNP效应构建统计量,这种算法不但计算量过大,而且容易 引起假阳性。
[0010] (3)按效应排序后使用前K个SNP的效应构建统计量,这种算法是基于SNP之间是 独立这个假设的,而实际上SNP间是有连锁不平衡的,SNP的互作效应会使关联分析准确性 大大降低。

【发明内容】

[0011] 为解决现有技术的不足,本发明的目的在于提供一种改进的基于通路的全基因组 关联分析算法,该算法将SNP互作效应考虑到基于通路的GWAS分析中,能够有效降低SNP 连锁对结果的影响。
[0012] 为了实现上述目标,本发明采用如下的技术方案:
[0013] 一种改进的基于通路的全基因组关联分析算法,其特征在于,包括以下步骤:
[0014] ( -)收集通路:
[0015] 在KEGG数据库里下载并筛选出与牛相关的通路;
[0016] (二)表型校正:
[0017] 应用R语言的GLM进行表型校正,具体使用的模型为:
[0018] yijkm=u+Seasoni+Yearj+FattendaySk+EnterweightJeijh
[0019]其中,yijkmS个体表型值,U为群体均值,Seasoni为出生季节,Year」为屠宰年份, Fattendaysk为屠宰日期减去进场日期,EnterweightmS进场时个体的体重,eijkmS剩余效 应;
[0020] (三)构建eSNP矩阵:
[0021] 建立组成基因的多个SNP基因型指示变量的相关矩阵,根据矩阵的特征根的累积 贡献率选择主成分,用相关矩阵中的所选择的主成分对应的特征向量建立超SNP指示变量 矩阵;
[0022] (四)建立GWAS模型:
[0023] 关联分析采用简单的基于单位点回归的广义线性模型,该模型具体如下:
[0024] y*=Xb+Qv+e
[0025] 其中,/为剔除固定效应的表型值,b为eSNP标记的效应值,v为群体的结构效应, e为剩余效应,X是eSNP对应的关联矩阵,Q为v对应的关联矩阵;
[0026] (五)构建基因统计量:
[0027] 使用下面公式计算基因统计量:
【主权项】
1. 一种改进的基于通路的全基因组关联分析算法,其特征在于,包括以下步骤: (一) 收集通路: 在KEGG数据库里下载并筛选出与牛相关的通路; (二) 表型校正: 应用R语言的GLM进行表型校正,具体使用的模型为:yiJkm=u+Seasoni+YearJ+Fattendaysk+Enterweightm+eiJkm 其中,yijkm为个体表型值,y为群体均值,Seasoni为出生季节,Yearj为屠宰年份,Fattendaysk为屠宰日期减去进场日期,EnterweightmS进场时个体的体重,eijkmS剩余效 应; (三) 构建eSNP矩阵: 建立组成基因的多个SNP基因型指示变量的相关矩阵,根据矩阵的特征根的累积贡 献率选择主成分,用相关矩阵中的所选择的主成分对应的特征向量建立超SNP指示变量矩 阵; (四) 建立GWAS模型: 关联分析采用简单的基于单位点回归的广义线性模型,该模型具体如下:y*=Xb+Qv+e 其中,/为剔除固定效应的表型值,b为eSNP标记的效应值,v为群体的结构效应,e为 剩余效应,X是eSNP对应的关联矩阵,Q为v对应的关联矩阵; (五) 构建基因统计量: 使用下面公式计算基因统计量:
式1
'分别是基因K中正的统计量的平均值和负的 统计量的平均值; (六) 计算通路ES值: 使用下面公式计算通路ES值:
(七) 重排数据和检验显著性。
2. 根据权利要求1所述的算法,其特征在于,在步骤(一)中,收集通路的具体步骤如 下: (la) 在KEGG数据库里下载所有与牛相关的通路; (lb) 保留具有以下特征的通路:所含基因数大于5个且小于300个,并且将SNP分配 到基因后仍含有5个以上基因。
3. 根据权利要求2所述的算法,其特征在于,在步骤(2)中,基因内部SNP由基因内部 及上下游20Kb的SNP组成。
4. 根据权利要求1所述的算法,其特征在于,在步骤(三)中,构建eSNP矩阵的具体步 骤如下: (3a)建立组成基因的多个SNP基因型指示变量的相关矩阵; (3b)计算相关矩阵的特征根和特征向量; (3c)根据特征根的累积贡献率选择主成分; (3d)用相关矩阵中的主成分对应的特征向量乘以组成基因的多个SNP基因型指示变 量,建立超SNP指示变量矩阵。
5. 根据权利要求1所述的算法,其特征在于,在步骤(七)中,重排数据和检验显著性 的步骤如下: (7a)重排数据和估计原始显著性: 置换不同表型标签下的数据,并再一次计算ES值,为每个通路和基因集合形成一个新 的ES分布,共完成1000次数据重排,从而每个通路有1000个假分布ESnull,实际观测的ES 的显著程度按照数据重排后有多少百分比的ESnull大于观测的ES来估计; (7b)多重检验校正: 首先,基于观测的ES值、ESnull的平均值和标准差,建立一个标准化的ES值NES,公式 如夂-
然后,基于NES值使用假阳性发现率FDR来进行多重校正获得更可靠的结果。
6. 根据权利要求5所述的算法,其特征在于,在步骤(7b)中,假阳性发现率FDR的计算 公式如下:
【专利摘要】本发明公开了一种改进的基于通路的全基因组关联分析算法,首次使用主成分分析法和最大均值法来构建基因统计量,剔除了SNP之间的互作效应,有效的解决了基因内部SNP连锁的问题,我们将这种策略应用于西门塔尔肉牛GWAS数据中,找到了两条通路(γ-伽马氨基丁酸通路和NAFLD通路)与两个性状(宰前活重和眼肌面积)显著相关,这为肉牛改良选育提供了可靠的参考,也给下一步分子验证提供了可靠的理论依据。
【IPC分类】G06F19-18
【公开号】CN104615912
【申请号】CN201510096276
【发明人】高会江, 樊惠中, 李俊雅, 夏江威, 吴洋, 张路培, 高雪, 陈燕, 郭鹏
【申请人】中国农业科学院北京畜牧兽医研究所
【公开日】2015年5月13日
【申请日】2015年3月4日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1