提供与基于基因序列的个人标记有关的信息的方法和装置的制造方法_2

文档序号:9252017阅读:来源:国知局
选实施方式。参照结合附图详细描述的实施方 式,本发明及实现本发明的方法的优点和特征将变得明显。然而,本发明不限于下面描述的 实施方式,而是旨在以许多不同形式体现。提供本发明的实施方式仅为了向本发明所属技 术领域的普通技术人员完全传达本发明的概念,本发明仅由所附权利要求限定。在说明书 中通篇用相同的附图标记表示相同的要素。
[0024]在本发明的一个实施方式中,图1是示出从由序列分析仪得到的碱基序列数据提 取个人基因变异标记并以适于个人基因变异识别实验的形式呈现序列的方法的总体图。亦 即,本方法包括以下步骤:对来自序列分析仪的碱基序列读段进行解码;对各个读段执行 品质管理;利用公开的参考序列对所获得的碱基序列进行排列(arranging)和匹配;将匹 配后的序列与公开的参考序列或其他比较碱基序列进行比较;提取个人基因变异标记,并 提供与之有关的信息。在该情况下,为了在个人基因变异标记中选择具有最高有用性的标 记作为个人识别标记,执行可靠性评价、容易度评价和有用性评价。从评价结果提取的基因 信息将包括基因变异的碱基序列的外围序列呈现为例如fasta格式等常规标准序列文件 格式。
[0025]在本发明的另一个具体实例中(图2),本方法包括以下步骤:从由序列分析仪得 到的碱基序列数据中获得读段数据,对基因序列读段数据进行解码并将该数据存储在系统 中。基于基因各个位置的品质分数执行修整、N掩蔽和低品质读段过滤。通过全局比对或 局部比对将清理后的序列与参考序列进行比较。使用例如BWA、BWASW、B〇wtie2等程序执行 排列,以准备SAM或BAM格式的输出文件。
[0026] 本发明的另一个实施方式(图3)提出了使用经过上述品质管理过程的读段文件 来提取例如单核苷酸多态性(SNP)或结构变异(SV)等基因变异标记的过程。使用GATK UnifiedGenotyper和SAMtoolsmpileup对SNP和短INDEL变异标记的提取进行分析。为了 提高所提取标记的精确度,可以进行重新比对和重新校准处理。可以利用诸如BreakDancer 和Pindel等程序实现SV的提取,以发现染色体间/内重排,大插入缺失(INDEL)、倒置、大 范围重复序列变异和大的结构变异。
[0027] 在本发明的一个实施方式中,标记的评价划分为:i)可靠性评价;ii)容易度评 价;和iii)有用性评价。在可靠性评价中,使用例如在提取基因变异中使用的支持读段的 数量和序列品质等的信息来评价基因变异结果。在容易度评价中,对重复序列的出现、诸如 GC含量等序列组成性质、相应基因变异附近个人基因变异的出现进行分析以评价实验的容 易度。在有用性评价中,基于与生物性状的基因标记的关联性(例如与疾病风险程度的关 联性以及与抗癌剂的关联性)对有用性进行评价。
[0028] 在本发明的一个实施方式中,"可靠性评价"是如下过程:对基因变异的可靠性进 行评价,基于支持读段数量和序列的品质、在提取基因变异时使用的不一致(discordant) 的读段对和截短读段(clippedread)来指派分数,随后对各个变异的断点(breakpoint) 进行评价。根据下式如下计算:
[0029] R=f(2iJ(ffi(RiJ)),
[0030] 其中,f()是链接函数;wi()是加权函数;Ru是考虑了各类型支持读段的匹配品质 和单独序列的品质的分数。
[0031] 在本发明的一个实施方式中,SNP的可靠性由如下因素定义:匹配品质(Q,和碱 基品质(Q,的几何平均数(Qi)、基于品质的变异比(Ms)、含有变异的读段(支持读段)的 品质(As)、相应位置的深度与整体平均深度比的乘积(Ds)。
[0032] 在所发现的SNP的位置有总共n个支持读段(i= 1,...,n),我们假设具有参考核 苷酸序列n-m的读段。此时,碱基品质(Q,和匹配品质(Q,表示第i个读段的碱基品质 和匹配品质,并且可以按下式计算。
[0034] 其中,tfft和#分别是必须要满足的最小碱基品质和匹配品质值,并且分别表示 整个序列的平均碱基品质和相关联样品的匹配品质值。在下面的实例中,C#PCM使用 作为度量常数(scaleconstant)。Qi,即第i个读段的品质值,由该读段的碱基品质与匹 配品质的乘积定义如下。
[0036] 基于品质的变异比(Ms)、支持读数的品质(As)和相应位置的深度比(Ds)分别定义 如下。
[0039] Ds=m/d,
[0040] 其中,d是样品的整个序列的平均深度。
[0041]SNP的可靠性如下所示。
[0042] Qsnp=AsMsDs
[0043] 下表1示出了通过仿真创建的两个SNP的可靠性计算示例。
[0044]表1
[0046] 在本发明的一个实施方式中,结构变异(SV)的可靠性(Qsv)定义为匹配品质(Q, 与碱基品质(Q,的乘积。
[0048]为了计算结构变异的可靠性,在所发现的结构变异区(亦即,在具有切割面的中 心的配对端读段的情况下,与插入大小相对应的区域;而在单端读段的情况下,与读段长度 的两倍相对应的区域)中有总共n个支持读段(非典型读段和切割读段),假设具有参考序 列m-n的读段。此外,Q,是除了支持读段以外其余读段的平均值。QiB定义为如下匹配品 质值。
[0050] 其中,1是读段的长度。
[0052]其中,是匹配序列与参考序列的平均匹配品质值,定义如下:
[0054]其中,在下面的实例中,CjPCM使用作为度量常数。
[0055] 下表2示出了计算出的通过仿真产生的两个插入的结构变异的可靠性的实例。
[0056] 表 2
[0057]
[0058] 在本发明的一个实例中,"容易度评价"是用于确定对例如PCR或靶序列分析方法 提取的标记进行识别的容易度的指标,并且根据以下公式计算:
[0059]A=
[0060] 其中,Ai是分项的容易度,w1是每个容易度的权重。
[0061] 为了计算分项容易度,区域多态性可以包括例如SMP和短INDEL,但不限于此。如 果在感兴趣的标记以及周围序列中存在参考序列以及其他替代物或短INDEL,则确定其容 易度。例如,可以如下计算。
[0062]Arp= {在同(homo)同源SNP的情况下,为1;在同indel的情况下,为0;在异 (hetero)SNP的情况下,为-1 ;在异indel的情况下,为-9}。
[0063] 此外,引入序列复杂度以评价自组装或唯一性,并且其计算如下:
[0064]Asd=C2f(sj)
[0065]其中,字长为1,f(s)是序列相频率的函数,C是常数。
[0066] 此外,"GC含量"必须能够表示例如供PCR使用的引物的熔点。因此,必须要引入 到函数中的GC含量如下计算:
[0067]Agc=C:p(GC)+C2p(AT)+C3
[0068] 其中,(;是系数,p(XY)中的XY是含量。
[0069] 在本发明的一个实施方式中,如果在所发现的易位基因变异切割面的上游和下游 附近序列具有如下序列,则可以按如下方式计算容易度。
[0070] _BP_上游:
[0071]GACGCCCCAGGCCGCGGTGGAGTTGCGCGCGGCTTCTAlAAAGTGGAGTGGAGCAGGCCTGC
[0072] _8卩_下游:
[0073]AGCACAGGCAGGCACCAGCTGGGCAGTGT「A/TlAGGATGCTGGAGCAGCATCCGT「_1ACCCCAC
[0074] 换言之,上述上游附近序列具有其中同SNP中的一个,因此在A,p中没有扣除 (deduction)。另一方面,在下游的情况下,存在一个异SNP和一个同indel,因此扣除1点。 在Asp的情况下,可以按与论文(Computers&Chemistry23(3-4)
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1