用于全基因组关联的分析的图形模型的制作方法

文档序号:6594627阅读:259来源:国知局
专利名称:用于全基因组关联的分析的图形模型的制作方法
用于全基因组关联的分析的图形模型背景如果诸如生物数据的许多类型的数据是不可交换的或独立同分布的(IID),那么 对这种数据中的相关性的搜索会是困难的。例如,一组病毒序列很少是可交换的,因为它们 是从系统演化或进化树导出的。换而言之,由于序列在进化树中的位置,有些序列彼此非常 相似而与其它序列则不类似。这种系统发生结构可使关联的统计识别混杂。该问题在全基 因组关联(GWA)研究中是类似的,其中试图标识与诸如疾病倾向的各种人类表现型相关的 单核苷酸多态(SNP)。部分由于DNA序列的群体结构的混杂,有可能无法在GWA研究上再现 结果。群体结构可能混杂关联的统计识别的其他领域包括给定多个序列比对对蛋白质中的 共同进化的残余的标识以及对调停人体免疫缺陷病毒(HIV)的逃逸突变的人类白细胞抗 原(HLA)等位基因的标识。为个体化医学使用全基因组关联(GWA)研究。在这种研究中,个体的基因类型与 各种类型的表现型相关联,所述表现型诸如个人是否有或将得病、个人的疾病是否会复发 以及个人对治疗反应良好还是不佳。当前的分析方法的重要缺点在于能力较弱。即,当前 的方法难以在所获取的噪声很大的数据中找到信号。典型的数据集包括一到五万个个体、 大约一百万个单核苷酸多态(SNP)(即一个DNA的样本)以及一些表现型——尽管这些数 字在不断地增长。随着基因型技术的快速改进,遗传关联研究面临许多挑战。最大的挑战之一是由 于群体结构引入假阳性而导致的混杂效应。在零模型下,不期望疾病特性与标记关联,但是 来自群体结构的隐混杂可能由于违反标记和疾病在个体上是独立与同分布(iid)的假设 而引入伪关联。这个问题被认识到已有十多年并且存在用于纠正由于群体结构而导致的偏 差的各种方法。一般地,当前的实践规定用于纠正群体结构的两种不同的方式。一种是基于仅较 小部分的全基因组标记可与疾病特性相关联的假设,在给定大量的全基因组标记的情况 下,重新估计统计的零分布——例如,基因组控制和加权排列是广泛使用的技术。这些方法 提供了用于纠正群体结构的简单方法,但是在来自群体结构的混杂效果较大时可能遭受较 弱能力的问题。第二种方法是将群体结构投影到低维度空间上,并接着测试所投影的数据 之间的关联。广泛使用的一个这样的方法是EIGENSTRAT,其可以被扩展到数百万SNP。这 种方法可以有效地纠正不同的子群体及其混合物引入的伪关联。然而,对于涉及家庭相关性和多级群体结构的更为复杂和神秘的相关性,它们仅 部分地捕捉夸大的假阳性,由此遭受到残余混杂的问题。近来,提出了可以通过合并比固定 维度向量更为一般的模型以表示群体结构和遗传相关性来极大地改进对群体结构的纠正。当前的实践没有充分利用提供用于在计算上高效的、强大的和直观的分析方法的 图形模型。当部署时图形模型可以从表示数据的群体结构——即从DNA的遗传得到的数据 的结构的能力到得出它们的力量。从上述可以理解存在改进现有实现的缺点的系统和方法。概述
提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概 念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于限定 所要求保护的主题的范围。此处所述的主题便于标识全基因组关联(GWA)研究中的高密度基因型标记和表 现型之间的关联。在说明性实现中,数据相关性环境包括群体结构引擎和指示群体结构引 擎处理表示基因型和表现型数据的数据以依照部署至少一个观察图形模型和可选地从观 察模型导出的群体结构子模型的基于所选的图形模型的数据相关性范例生成相关的基因 型/表现型数据(例如预测值变量(例如单核苷酸多态-SNP)和目标变量(例如表现型) 之间的关联的标识)的至少一个指令集。在说明性操作中,基因型/表现型数据可以由示例性群体结构引擎接收以用于依 照示例性指令集和基于所选的图形模型的数据相关性范例来处理。在说明性操作中,依照 基于所选的图形模型的数据相关性范例在操作上开发群体结构子模型。说明性地,可以单 独或结合SNP数据来使用群体结构子模型以预测表现型用于GWA研究。以下描述和附图详细阐明了所要求保护的主题的某些说明性方面。然而,这些方 面仅指示了可采用所要求保护的主题的各种方法中的几种,且所要求保护的主题旨在包括 所有这些方面及其等效方面。附图简述下文参考附图详细地描述的本发明的各实施例,其形成了本发明的一部分并且通 过引用包含于此,其中

图1是依照此处所述的系统和方法用于表现型预测的示例性图形模型的一个示 例的框图。图2是依照此处所述的系统和方法的群体结构子模型的一个或多个组件的交互 的一个示例的框图。图3是依照此处所述的系统和方法用于依照基于图形模型的数据相关性范例预 测表现型的系统的一个示例的框图。图4是依照此处所述的系统和方法用于依照基于图形模型的数据相关性范例预 测表现型的系统的一个示例的框图。图5是用于依照群体结构子模型预测表现型的系统的另一示例的框图。图6是依照基于图形模型的范例预测表现型的方法的一个示例的流程图。图7是依照采用一个或多个所选子模型的图形模型预测表现型的方法的一个示 例的流程图。图8是部署对预测值变量和目标变量进行操作的群体结构子模型的预测表现型 的方法的一个示例的流程图。图9是依照此处所述的系统和方法部署配置SNP数据的群体结构子模型的预测表 现型的方法的一个示例的流程图。图10是依照此处所述的各个方面的示例性计算环境。图11是依照此处所述的各个方面的示例性联网计算环境。详细描述现在参照附图描述所要求保护的主题,全部附图中,相同的附图标记用于指代相同的元素。在以下描述中,为解释起见,描绘了众多具体细节以提供对所要求保护的主题的 全面理解。然而,显然,所要求保护的主题可以在没有这些具体细节的情况下实现。在其它 情况下,以框图形式示出了公知的结构和设备以便于描述它们所要求保护的主题。如本申请中所使用的,词语“示例性,,此处可用于表示用作示例、实例或说明。在 此被描述为“示例性”的任何方面或设计并不一定要被解释为相比其它方面或设计更优选 或有利。相反,使用单词示例性的旨在以具体的方式呈现概念。此外,术语“或”意指包括性“或”而非互斥性“或”。即,除非另有指定或从上下文 可以清楚,否则“X使用A或B”意指任何自然的包括性排列。S卩,如果X使用A ;X使用B ; 或X使用A和B两者,则在任何以上情况下,都满足“X使用A或B”。另外,本申请中和所附 权利要求书中所使用的冠词“一”和“一个” 一般应被解释为是指“一个或多个”,除非另有 指定或从上下文可以清楚指的是单数形式。此外,术语“系统”、“组件”、“模块”、“接口”、“模型”等一般旨在表示计算机相关的 实体,其可以是硬件、硬件和软件的组合、软件、或者执行中的软件。例如,组件可以是,但不 限于是,在处理器上运行的进程、处理器、对象、可执行码、执行的线程、程序和/或计算机。 作为说明,运行在控制器上的应用程序和控制器都可以是组件。一个或多个组件可以驻留 在进程和/或执行的线程中,并且组件可以位于一个计算机内和/或分布在两个或更多的 计算机之间。人工智能(Al)可用于标识特定的上下文或动作,或生成系统的特定状态或用 户的特定行为的概率分布而无须人类干涉。人工智能依赖于将高等数学算法——例如,判 决树、神经网络、回归分析、聚类分析、遗传算法和强化学习——应用于系统或用户上的一 组可用数据(信息)上)。虽然可以在说明性图示的上下文中描述此处所描述的主题以预测基因型和表现 型数据之间的相关性,但是本主题并不限于这些特定的实施例。相反,此处所描述的技术可 应用于任何适当类型的表现型预测方法、系统、平台和/或装置。在说明性实现中,此处所述的系统和方法考虑应用群体结构模型来标识表现型。 图1提供了用于该任务的示例性图形模型的示例性形式的框图。如图1中所示,示例性数 据相关性环境100包括具有带有许多目标变量120和预测值变量125的多个节点115的群 体结构子模型105。在说明性实现中,节点Yj表示个体j的目标变量。节点乂」1,...4」111可 说明性地表示第j个目标变量的预测值变量。节点Hf . . .,可以说明性地概述群体结 构对t的影响。说明性地,有阴影的节点是观察到其对应的变量的节点。示例性地,群体 结构子模型110可以在操作上反映H变量之间的依赖性并且可以包括附加的隐变量。局部 分布Pbjlhjl, . . .,hJh, Xjl, ...,X1J对于所有的j可以是相同的(并且因此共享相同的参 数)。在说明性实现中,这种示例性公共局部分布可以被认为是示例性观察子模型。在说明性实现中,一组预测值变量xlk,...,^和该组目标变量y1;...,yN之间的 关联程度可以说明性地用这些变量之间的弧的强度来确定。该强度可以用许多方式来测 量,包括似然比检验(即其将两个最大似然模型中的数据的似然性作比较一个在这些变 量之间带有弧而另一个在这些变量之间不带有弧)以及诸如BIC的贝叶斯评分(例如其也 将这两个模型中的数据的似然性作比较)。当考虑许多目标变量时,可以使用例如错误发现 率来完成对多个比较的调整。图2说明性地描述了示例性的数据相关性环境200,其中示例性群体结构子模型可以从所选的家谱树导出。如所示的,数据相关性环境200包括可说明性地描述观察到的 家庭成员(例如分别是父亲、母亲和孩子)的关系的基因型数据元素205、210和215。数据 相关性环境200可以将家谱树元素分别转换成群体结构子模型元素220、225和230。在群 体结构子模型中,给定父母,孩子的分布由线形高斯关系给出ρ (孩子I母亲,父亲) 高斯(1/2*(母亲+父亲),Σ ~2)。通常,家谱树是不完整的。然而,可以使用用于学习线形高斯DAG模型的标准方法 从群体遗传数据学习群体结构子模型中的其它弧。群体结构图形樽型在说明性实现中,此处所述的系统和方法可以操作/部署一个或多个以下操作/ 特征,包括1)用于学习广义线形混合模型的参数的变化方法,其中观察子模型是逻辑回 归;2)目标变量是连续的,且预测值变量是连续的或二元的;幻每个个体与单个连续的隐 变量相关联;以及4)其中这些隐变量之间的群体结构子模型是表示为线形高斯DAG模型的 多元高斯分布,线形高斯DAG模型时从所选的家谱树和群体遗传数据导出的。出于此处所 述的系统和方法的目的,平凡的群体结构子模型是包括不带有独立约束的多元高斯分布的 模型。在说明性实现中,群体结构子模型350可以被应用到数据元素上以依照如图3和 3Α中所示的示例性图形模型所述的各个数据集之间的关系的相对强/弱来标识与特定的 目标相关联的表现型。在说明性操作中,可以依照一个或多个所选的图形模型关联(如由 源自一条或多条边的一个或多个轨迹点的箭头所述)来处理从群体子模型组分(例如父亲 352、母亲邪4和孩子356)收集的数据以标识表现型358。在说明性操作中,可作为标记-表 现型关联的标识的一部分生成一个或多个得到的数据集362、364、368、370以及376-386。应用广义线形混合模型(GLMM)中的一个难点在于统计推断在计算上比例如线形 混合模型中的计算要低效得多。GLMM中的似然计算通常是难以处理的,因为它涉及对隐变 量的高维空间的积分。McCulloch等人提出使用蒙特卡洛(Monte Carlo)方法结合EM算 法、Newton-Raphosn算法或重要性采样(均在概率正态和分对数正态模型中)来近似GLMM 中的似然性的若干种方法。他们的方法主要针对带有块结构的方差分量的相对较小维数的数据集。当维数变 得较大且方差分量变得复杂时,蒙特卡洛方法要求非常大量的样本,因为估计似然的精确 性和稳定性变得较差。存在在GLMM中执行在计算上更为健壮的似然估计的其它方法,但是 它们不提供足够的可伸缩性,因为全基因组情况控制研究通常涉及几百或几千个体。此处 所述的系统和方法提供了用于通过应用变分近似法在GLMM下进行情况控制关联映射(即 当表现型是二元变量时标识关联)的方法。变分法在物理学、统计学、控制理论和经济学方面具有用于近似统计推断和估计 的长久历史。它们提供了用于计算似然的下界和上界的计算上可以操作的方法。已经开发了用于情况控制关联映射的各种方法。包括在这种方法中的包括 McCulloch的概率正态GLMM。以下描述了用于情况控制研究的分对数正态GLMM。考虑涉及η个个体样本的情况控制关联研究。个体具有二元表现型r = (ri;r2,…, rn) e {-1,1}η。nXp的固定效果的矩阵X包括平均数、snp和其他混杂变量。忽略当前的 群体结构,给定混合效果Xi,可以依照以下分对数模型对每个A独立建模
Pr (r, |χ,) = η (r,
β) = l/(l+exp(-rix' ^)) 完整数据的对数似然可以被公式化为可以通过使用迭代再加权最小平方法(IRLQ获取优化参数β。通过在X中包括 SNP或不包括SNP,可以在零假设和备择假设之间执行似然比检验以评价SNP效果的重要 性。如果个体经由复杂的群体结构和家庭相关性相关,那么在遗传方面彼此接近的个体对 相对于其他的个体对具有有相同表现型的更高的概率。在这种情况下,不能简单地通过合 计个体似然来计算总体似然,因为独立性的假设不再有效。使用分对数正态广义线性混合 模型(GLMM),观察到的表现型的似然可以被公式化为对隐定量变量的多维积分形式。y = X β +UPr (Γ I Yi) = n (Γ (ω Yi+b))
,W,
b)
Σ) Π圳 此处u是解释遗传背景效果的随机变量,之后是具有零平均值的多元正态分布以 及协方差矩阵Var (u) =E= 0乍。K是从多点基因型估计得出的亲属关系矩阵。简单的 IBS亲属关系矩阵或Lynch-Ritland亲属关系矩阵是可以使用的矩阵的示例。多元正态似 然具有以下形式

1
11/2
(y
Zj
■ Xl
此处是对于f (y ;Χβ,Σ )成立的某些性质 f(y+5 1 ;Χβ + δ 1, Σ ) = f(y ;Χβ,Σ )
乂 Σ) =
Cl
(y + ilh^!Mr;02,Xi3,co,b)可以被重新公式化为 -/(y; IA Σ) H1
ery; Χβ+ -1, Σ
iw ■■
. r \ *.·*
卿‘My
< S ^
/r. i Lv
σ
Wi)
=Pr fr, 1, —^ 十.-^-1 wa, Oj \ σ -uxrJ
相应地,带有四个参数的任何再生模型可以被等价地表示为两个参数模型,其中
σ2 = Lb = 0,仅涉及Χβ和w。因此,如果不涉及其他混杂变量,那么ML估计在零假设下约简为二维优化问题,而在假设下约简为三维优化问题。因为对于大量的样本的准确的似然计算是难以处理的,所以提出了各种近似算法 来估计似然,包括上述MCEM、MCNR和SML方法。变分近似可以提供准确似然的下界作为似 然的近似。令y= J2,…,yn)为多元高斯 N(m,Σ ),而令 r = (ri;r2, n具有以下条件概率
权利要求
1.一种便于基因型-表现型关联标识的计算机实现的方法,包括接收表示群体遗传和表现型数据的数据(610);生成包括非平凡群体结构子模型(10 的数据的图形模型(630);以及将所述图形模型(100)应用到所述群体遗传和表现型数据上,以标识基因型和一个或 多个表现型之间的关联(640)。
2.如权利要求1所述的方法,其特征在于,还包括生成分对数观察模型,其中所述图形 模型的参数是使用变分近似从数据中学习的。
3.如权利要求1所述的方法,其特征在于,还包括定义一个或多个预测值变量。
4.如权利要求1所述的方法,其特征在于,还包括定义一个或多个表现型变量。
5.如权利要求3所述的方法,其特征在于,还包括将所述一个或多个预测值变量定义 为连续的预测值变量。
6.如权利要求3所述的方法,其特征在于,还包括将所述一个或多个预测值变量定义 为二元预测值变量。
7.如权利要求4所述的方法,其特征在于,还包括将所述一个或多个目标变量定义为 连续的目标变量。
8.如权利要求4所述的方法,其特征在于,还包括将所述一个或多个目标变量定义为二元目标变量。
9.如权利要求1所述的方法,其特征在于,还包括从所选的家谱树和群体遗传数据导 出群体结构子模型。
10.一种便于基因型-表现型关联标识的计算机实现的方法,包括接收表示群体遗传和表现型数据的数据(610);生成包括群体结构子模型(105)的数据的图形模型(100);以及使用变分近似将所述图形模型(100)应用到所述群体遗传和表现型数据上,以标识基 因型和一个或多个表现型之间的关联(640)。
11.一种便于基因型-表现型关联标识的系统,所述系统存储在计算机可读介质上,所 述系统包括计算组件(320),被配置成通过应用所选群体结构子模型来标识基因型-表现型关联;群体结构引擎(330),用于利用一个或多个所选图形模型(100)来生成群体结构子模 型(105)并且将所述群体结构子模型应用于群体数据(310)以标识一个或多个基因型-表 现型关联(350)。
12.如权利要求11所述的系统,其特征在于,其中所述群体数据包括群体遗传数据。
13.如权利要求11所述的系统,其特征在于,还包括数据存储,所述数据存储包括表示 群体数据的数据。
14.如权利要求13所述的系统,其特征在于,其中所述基因型-表现型关联是通过部署 所述群体结构子模型来标识的。
15.如权利要求14所述的系统,其特征在于,其中所述基因型-表现型关联是通过处理 一个或多个预测值变量和/或一个或多个目标变量来标识的。
16.如权利要求11所述的系统,其特征在于,其中所述计算组件和所述群体结构子模 型包括计算应用的一个或多个部分。
17.如权利要求11所述的系统,其特征在于,其中所述群体结构子模型是使用表示群 体遗传数据的输入数据生成的。
18.如权利要求11所述的系统,其特征在于,其中所述计算组件包括在计算环境上运 作的计算应用程序。
19.如权利要求11所述的系统,其特征在于,其中所述群体结构引擎包括计算应用程序。
20.如权利要求11所述的系统,其特征在于,其中所述系统包括计算应用程序。
全文摘要
提供了用于在全基因组关联(GWA)研究中标识基因型-表现型关联的系统和方法。在说明性实现中,数据相关性环境包括群体结构引擎和指示该群体结构引擎处理家谱树或群体遗传数据以依照基于所选的图形模型的数据相关性范例生成群体结构子模型的至少一个指令集。说明性地,所得的广义线性混合模型的参数可以使用变分近似来学习。
文档编号G06F17/30GK102132275SQ200980134173
公开日2011年7月20日 申请日期2009年6月12日 优先权日2008年6月27日
发明者C·M·卡迪厄, D·E·赫克曼, H·康 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1