一种单核苷酸多态性检测方法

文档序号:6470436阅读:352来源:国知局

专利名称::一种单核苷酸多态性检测方法
技术领域
:本发明属于生物工程领域,尤其涉及一种单核苷酸多态性检测方法和系统。
背景技术
:单核苷酸多态性(SingleNucleotidePolymorphism,SNP),即指由于单个核香酸石成基的改变而导致的核酸序列的多态性。在不同个体的同一条染色体或同一位点的核苷酸序列中,绝大多数核苷酸序列一致而只有一个碱基不同的现象,就是SNP。由于SNP在人类基因组中数量较多,发生频率较高,因此被认为是继微卫星之后的新一代遗传学标记,在医学遗传学、药物遗传学、疾病遗传学、疾病诊断学、以及人类进化等研究领域都有很高的研究价值和应用前景。二十多年以来,Sanger法测序和焚光电泳4支术一直在DNA测序领域占据检测。现有dbSNP数据库中的大多数SNP位点都是通过这些方法鉴定的。鸟并根据碱基的质量打分来过滤掉低质量的测序错误,得到较为可信的SNP结果。使用来自二倍体样本的PCR扩增序列进行直接测序,再通过对色谱图进行分析,检测出杂合的多态性位点,也是常见的方法,主要软件有SNPdetector,丽oSNP,PolyPhred以及PolyScan。与传统的毛细管电泳法测序相比,新一代测序技术如IlluminaGenomeAnalyzer(GA),ABSOLiD,以及Roche454FLX系统显著地提高了测序通量,极大地降低了成本。IlluminaGA—次运行可以产生约四千万条长度为50bp的测序片段。这种超高的测序通量使得新一代的测序技术特别适合于在已知参考基因组序列的基础上进行大规模个体的重测序,从而进行基因变异的研究。截至当前,使用新的测序技术已经完成了两个人的基因组测序JamesWatson的个人基因组测序(Roche454FLX)和第一个亚洲人的基因组测序(IlluminaGA)。此外,国际千人基因组计划执行委员会也决定使用这种测序技术对来自全世界的IOOO个个体基因组进行测序,得到最详细的人类基因组变异图谱。随着新的测序技术的发展,相应的SNP检测方法也有了很好的发展,然而,由于新测序技术产生的测序片段与以往相比有显著的差异,因此现有的SNP测序方法难以满足高通量测序技术的要求。
发明内容本发明的目的在于提供一种单核苷酸多态性检测方法,旨在解决现有的单核苷酸多态性检测方法难以满足高通量测序技术的要求的问题。本发明是这样实现的,一种单核苷酸多态性;险测方法,所述方法包括下述步骤将高通量测序技术得到的测序片段比对到参考基因组序列上;根据测序得到的待测基因组中每个碱基的测序质量分数,得到待测基因组上对应位点的各种基因型的似然概率;根据所述似然概率和为每种基因型预设的先验概率,计算参考基因组上每个位点上每种基因型的后验概率,并将后验概率最高的基因型确定为待测基因组对应位点最有可能正确的基因型,得到待测基因组的一致序列;检测待测基因组的一致序列中与参考基因组序列不一致的位点,得到待测基因组中的多态性位点。在本发明实施例中,根据测序片段的质量分数计算得到待测基因组上对应位点的各种基因型的似然概率,再根据似然概率和为每种基因型预设的先验概率,计算参考基因组上每个位点上每种基因型的后验概率,并将后验概率最高的基因型确定为待测基因组对应位点最有可能正确的基因型,得到待测基因组的一致序列,检测待测基因组的一致序列中与参考基因组序列不一致的位点,得到待测基因组中的单核苷酸中的多态性位点。本发明实施例在检测单核苷酸多态性时考虑了先验概率对检测结果的影响,从而使本发明实施例的检测结果更准确,适用于高通量测序技术。图1是本发明实施例提供的单核苷酸多态性检测方法的实现流程图;图2是本发明另一实施例提供的单核苷酸多态性^r测方法的实现流程图;图3a至图3d是测序片段比对的准确性和唯一性示意图;图4a和图4b本发明实施例提供的测序质量分数的不准确性和错配的偏向性示意图5是本发明实施例提供的测序质量分数校正前后的起点数目分布示意图6是本发明实施例提供的在不同质量阀值下全基因组覆盖度、基因分型位点的覆盖度和错误率示意图。具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附西及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。在本发明实施例中,将高通量测序技术得到的测序片段比对到参考基因组上,将测序得到的待测基囚组中每个碱基的质量分数,计算待测基因组每个位置上各种基因型的似然概率,根据该似然概率和为每种基因型预设的先验概率计算每种基因型的后验概率,将后验概率最高的基因型确定为待测基因组该位点最有可能正确的基因型,得到待测基因组的一致序列,通过检测待测基因组的一致序列中与参考基因组序列不一致的位点,即可检测出待测基因组中的多态性位点。图1示出了本发明实施例提供的单核苷酸多态性检测方法的实现流程,详述如下在步骤S101中,将高通量测序技术得到的测序片段比对到参考基因组序列上。在本发明实施例中,高通量测序技术可以为IlluminaGA测序技术,也可以为现有的其他高通量测序技术。可以通过任何一种短序列映射程序,如soap等映射程序,将高通量测序技术得到的测序片段比对到参考基因组序列上。在步骤S102中,将测序得到的待测基因組中每个碱基的测序质量分数按照PHRED分数的定义转换为碱基错配率,并根据对比对到参考基因组上的每个位点的所有测序片段碱基的错配率之积,得到待测基因组上对应位点的各种基因型的似然扭克率。在步骤S103中,根据似然概率和为每种基因型预设的先验概率,计算参考基因组上每个位点上每种基因型的后验概率,将后验概率最高的基因型确定为待测基因组对应位点最有可能正确的基因型,得到待测基因组的一致序列。其中每种基因型的先验概率可以根据经验值预先设置,如给定一个可用的参考基因组,可以估计待测基因组序列相对于参考基因组的突变率。例如,人类基因组上绝大部分位置每代发生突变的概率在10-8数量级,而两个个体和其共同祖先的差异大约要经过10000代的时间形成。据此推算出来的两个人的单倍染色体SNP概率大约为0.001。每个单倍体跟参考序列大概有1000个核苷酸的差异。假设人的参考基因组序列有0.00001的错误率,则此错误率相对于真实多态性位点的发生率可以忽略。综合这些数据,可以估计双倍体发生纯合SNP的概率为0.0005,发生杂合SNP的概率为0.001。根据以往对NCBIdbSNPs的研究,转换突变发生的频率是颠换的4倍,但是在这两种变异中各类型之间却几乎是等频率出现的。由此,在我们的SNP检测模型中用到了这些比率。例如,假如参考序列上某位点基因型为G,单倍体碱基类型可能是A,C,和T的先验概率都是6.67E-4,G的先验概率是0.999,而对于双倍体出现GG组合的概率是0.9985,AA是3.33E-4,TT是8.33E-5,AC和AT是1.11E-7,GC和GT是1.67E画4,AG是6.67E-4,CT是2.78E-8,如表1.1所示。<table>tableseeoriginaldocumentpage9</column></row><table>根据上述对先验概率的分析,即可根据待测基因组为每种基因型预设设置先验概率。根据似然概率和为每种基因型预设的先验概率,计算参考基因组上每个位点上每种基因型的后验概率时,根据似然概率和为每种基因型预设的先验概率,采用贝叶斯公式计算参考基因组上每个位点上每种基因型的后验概率,将后验概率最高的基因型作为待测基因组对应位点最有可能正确的基因型,得到待测基因组的一致序列。其中该基因型正确的概率为其后验概率在所有基因型后验概率之和中所占的比例。在步骤S104中,通过^r测待测基因组的一致序列中与参考基因组序列不一致的位点,检测出待测基因组中的单核苷酸中的多态性位点。在本发明实施例中,将待测基因组的一致序列中与参考基因组序列不一致的位点作为潜在的多态性位点,从而检测出待测基因组中单核苷酸的多态性,,为了使SNP检测结果更准确,在本发明另一实施例中,该方法还包括下述步骤将步骤S103中的基因型正确的概率转换为质量分数,并通过对质量分数设置阀值,过滤掉检测出的潜在多态性位点中质量分数小于设置的阀值的多态性位点,从而从检测出的潜在的多态性位点中筛选出把握较大的多态性位点,从而优化所提取的多态性位点的准确性。为了进一步优化所提取的多态性位点的准确性,在本发明另一实施例中,该方法还包括下述步骤对支持多态性石成基型的测序片段的数目设定阀值,过滤掉支持多态性碱基型的测序片段的数目小于预设阀值的多态性位点,从而过滤掉绝大部分的错配的碱基型。举例说明如下,如果支持检测出的潜在的多态性位点的测序片段的数目小于预设的阀值,则过滤掉该潜在的多态性位点。由于测序过程中的错误和短片段的比对错误都可能引起待测序列与参考序列之间差异的出现,且高通量测序技术得到的测序片断长度很短,那么会有更多的测序片断出现比对错误,因此就出现了错误的SNP。在本发明实施例中,通过设置支持多态性碱基型的测序片段的最低数目,可以过滤掉绝大部分的错配的碱基型。以下以试验数据说明,通过设置对支持多态性碱基型的测序片段的最低数目,来过滤掉绝大部分的错配的碱基型。通过从模拟数据中计算碱基的错误率以检测错误识别的SNPs。至少95%的错误碱基在单向测序的测序片段(35bp)和双向测序的测序片段(插入片段200bp)中都只出现了一次。基于这些数据,通过设置一个阈值滤除所有低频率的错误碱基(通常设为4)。用这个方法在炎黄一号基因组上查找SNPs,结果只有大约0.036%的错误等位基因没有被检出。在随机DNA片段的模拟中,36倍测序数据大下约有0.008。/。的测序错误未被滤除。为了区分具有高频碱基型的错误和真实的杂合多态性位点,我们利用二项分布(P=0.0001)来4企测这两种碱基型的差别,发现剩余的错误碱基型中87.3%都被滤除了。总共99.93%的由于测序片段的测序错误导致的错误碱基型都被滤除了。由于导致SNP错误的因素还包括测序片段中含有插入删除,这种错误跟测序片段的比对方式有关。由于SNPs数量大概是小片段的插入删除的510倍,比对中优先考虑了不加gap的比对情况,这类含有插入删除的测序片段可能比对失败。为了避免上述问题,在本发明另一实施例中,该方法还包括下述步骤10比较检测出的潜在多态性位点之间的距离,并过滤掉距离小于预设阀值的多态性位点,从而过滤掉确实含有插入删除的测序片段。我们模拟了10000个小片段插入删除来评价SNPs检测的潜在影响,结果发现0.6%的包含插入删除的reads没有冲企测出来。如果我们要求至少4个reads支持才可信的话,只有3(0.03%)个错误SNP等位基因被检出。图2示出了本发明另一实施例提供的单核苷酸多态性检测方法的实现流程,详述如下在步骤S201中,将高通量测序技术得到的测序片段比对到参考基因组序列上。在步骤S202中,对测序得到的待测基因组中每个碱基的测序质量分数进行校正,并根据校正后的测序质量分数得到待测基因组上对应位点的各种基因型的似然概率。其中一种对测序得到的待测基因组中每个碱基的测序质量分数进行校正的方法是通过四维矩阵来校正测序质量分数,得到似然概率,其具体过程如下a、根据唯一比对到参考基因组序列的测序片段,统计特定测序质量分数和测序序列坐标下,每两种碱基之间的错配比例,将该错配比例作为错配概率的估计,记录在四维概率矩阵中,作为统计学模型中各项参数的基础。其中四维概率矩阵的维度分别为测序质量分数、测序片段上的序列坐标、原始碱基和观察到的石成基。统计特定测序质量分数和测序序列坐标下,每两种碱基之间的错配比例是指根据唯一比对到参考序列上的测序片段,统计在测序质量分数、测序片段上的序列坐标下,从原始碱基观察到测序碱基的概率。在本发明实施例中,当测序片段比对到参考序列上具有最少碱基错配的位置时,认为是最佳匹配,如果一个测序片段在参考基因组序列上只有一个最佳匹配位置,则认为测序片段唯一比对到参考基因组序列,如果测序片段在参考基因组序列上有多个最佳匹配位置,则认为测序片段重复比对到参考基因组序列。为了评价测序片段覆盖的准确度和唯一性,以人类参考基因组12号染色体作为参考序列,模拟不同长度的测序片段(包含了0.001比例的SNP和测序错误),然后将这些模拟的测序片段重新比对到人类全基因组参考序列中。从这些模拟的测序片段中可以计算出具有唯一比对测序片段的百分比。对于单向测序唯一比对上的测序片段,其唯一比对的比例在测序长度从15bp增长到25bp时变化较大,之后再增加测序长度时,唯一比对的比例仅有很少的变化。对于长度为25bp的测序片段,有78.6%的测序片段能够唯一地比对到人类全基因组参考序列上。对于长度为50bp的测序片段,有91.5%的测序片段能够唯一地比对到人类全基因组参考序列上。如Illumina测序技术典型的测序长度是35bp,在比对结果中发现,没有错误的测序片段有85.7%能够唯一地比对到基因组上,1个错配的测序片段有86.3%能够唯一地比对到基因组上,两个错配的测序片段有85.9%能够唯一地比对到基因组上。模拟数据的比对结果与炎黄一号基因组实测比对结果相似。从分析中,可以发现,用双向测序技术能够很大的提高唯一比对的测序片段的比例。双向测序技术插入片段长度在100bp至10kbp(±10%)范围内,能够唯一比对的测序片段比例随着插入片段长度的增加而增加。其中,在插入片段为200bp的时候有95.4%的成对测序片段能够唯一的比对上。用短序列测序片段去比对的话,测序片段里面包含的SNP和一些测序错误都有可能导致测序片段比对到不正确的位置上。对于模拟的测序片段,由于原始的位置事先知道,所以能够估计不能比对正确的测序片段的含量。长度为25bp的单向测序测序片段,2.3%的具有1个测序错误的测序片段和3.5%的具有2个测序错误的测序片段没能正确的匹配上,参见图3c。如果测序长度为50bp,这两个比例分别降到了0.6%和0.8%。同理模拟了含有一个测序错误的双向测序测序片段,插入片段从100bp-10kbp,分别有0.4%和0.06%的测序片段比对错误;具有2个测序错误的测序片段在同样的插入片段下有0.3%和0.06%的不能比上。参见图3d。12b、对于参考基因组上每一个位点,收集比对在该位点上所有的测序片段的碱基,并记录其碱基类型、测序质量分数和在测序片段上的序列坐标,从四维概率矩阵中查出四种碱基观察到测序i成基的概率。C、根据从每一种真实基因型观察到每一个单独碱基的概率之积,得到待测基因组上对应位点的各种基因型的似然概率。其中从每一种真实基因型观察到覆盖该位点的所有碱基的概率,为观察到每一个单独碱基的概率之积,而从每一种真实基因型观察到每一个单独碱基的概率可以从步骤a中建立的四维概率矩阵中查到。这样,就得到了每一种潜在可能的基因型得到此位点的观察碱基的似然概率。对于单倍体基因组而言,其真实基因型的可能性有A、T、C、G四种,对于二倍体基因组而言,其真实基因型的可能性共有10种,其中纯合基因型4种AA、CC、GG、TT;杂合基因型6种AC、AG、AT、CG、CT、GT。Illumina测序技术通过每个测序循环的数据来校准质量分数。经过校准后的质量分数跟实际的错配率有一定的差异,而且这个差异是随着测序片段的坐标的不同而上下波动的(图4a),在本发明实施例中,对质量分数的校正仍然是通过比对信息和原始序列信息或者经过Illumina校正后的分数得来。除了测序误差随着测序循环的不断增加对质量分数造成影响之外,测序仪器本身对碱基的检测也影响了质量分数。Illumina测序技术利用两种不同频率的激光照射四种被标记过的碱基,A,C用一种激光表示,G,T用另一种激光表示。所以A<C,G<^T测序错误出现的频率就高于其它的错配。我们发现AGC,G^T错配的概率要比我们模拟比对的情况分别高出58%和72%,同时C0G错配概率大约要降低36Q/。(图4b)。例如,质量分数为10(理论错误率0.1)的碱基中,测序片段与参考序列之间能够观察到的错配A^C,C"A,GOT,T^G分别为4.62%,5.27%,5.29%,4.62%,而其它的错配类型仅有1.62%2.48%。鉴于此结果,在本发明实施例中,也按错配类型校正了质量分数。本发明实施例提供的另一种测序质量分数校正方法是先过滤掉已知的SN位点,再根据唯一比对到参考基因组序列的测序片段,统计特定测序质量分数和测序序列坐标下,每两种碱基之间的错配比例,将该错配比例作为错配概率的估计,记录在四维扭u率矩阵中。再采用该四维概率矩阵校正测序质量分数,得到待测基因组上对应位点的各种基因型的似然概率。由于测序错误的累积导致测序片段3,端错误率要远高于5,端。当采用Illumina测序技术对待测基因组进行测序时,可以给出一个测序质量分数,但是这个测序质量分数是通过信号强度来计算的,并不能准确代表错误率的发生。为了纠正这个问题,通过对炎黄一号基因组测序的结果进行了评估,在本发明实施例中,通过在统计错配率之前,将已知的SNP位点排除在外,从而在校正中为了尽可能的避免SNPs造成的干扰。本发明实施例提供的再一种测序质量分数校正方法,其在比对到参考基因组上的测序片段中有多个相同测序片段,且在参考基因组上定位相同时,此处多个片段可能是测序试验中PCR反应造成的冗余,因此在上述测序质量分数校正方法的步骤b之后,还包括下述步骤当第一条测序片段比对到参考基因組的某位点时,将从四维概率矩阵中查出四种碱基观察到测序碱基的概率之积进行概率归一化后,得到待测基因组上对应位点的各种基因型的似然概率。当第二条测序片段比对到参考基因组的上述位点时,将从四维概率矩阵中查出四种碱基观察到测序碱基的概率x校正因子后的积进行概率归一化后,得到待测基因组上对应位点的各种基因型的似然概率。其中校正因子的值一般为0.9。当第N条测序片段比对到参考基因组的上述位点时,则将从四维概率矩阵中查出四种碱基观察到测序碱基的概率x校正因子^"后的积进行概率归一化后,得到待测基因组上对应位点的各种基因型的似然概率。由于每个位置上的候选等位基因型D可以从与参考序列完全比对上的测序片段观察出来。假设每种碱基类型Ti的可能性为P(D|Ti),影响P(DITi)主要因素有四个,分别为碱基类型、测序质量、测序片段上的位置和出现的次数。而在本发明实施例中,在计算似然概率时,均考虑了上述因素对SNP检测的影响,从而提高了SNP检测的准确性。由于DNA建立文库过程中使用了PCR扩增,给定很少数量的DNA起始片断,能够产生大量的拷贝,因此能够获取大量一致长度的DNA片段。然而,这些大量复制的片断对测序过程中的随机性有很大影响,有些区域的测序深度不是很理想。这也可能导致各种易与杂合等位基因位点混淆的错误的出现。特别是DNA的损伤被PCR扩增以后可能带来的冗余序列覆盖度,这些可重复的错误很难和多态性位点区分开。因此,在本发明实施例中设置了针对扩增重复的罚分规则。如果DNA文库和测序过程都是随机的,那么序列的起点的分布也应该是服从泊松分布。炎黄一号基因组测序的深度是36倍,使用测序片段长度是35bp,大约0.39%的染色体上的位置有超过6个测序片段起始;然而,理论上这个比例应该是仅有0.07%。因此,在本发明实施例中,可以根据一个经验公式来减少有着共同起始位置的测序片段的影响。如使用Illumina1MBeadChip对炎黄一号样品做基因分型,并检验了纯合的位点。理论上,经过调整后测序错误出现的频率符合泊松分布,参见图5。用炎黄一号个人基因组36X测序数据测试了以上方法,在Illumina1MBeadChip上使用同一DNA样本对一致序列进行基因分型。假设所有的基因分型都是正确的,通过过识别和欠识别来分类基因分型和测序不一样的位点。所谓欠识别就是在等位基因查找过程中少找了一个杂合位点,过识别就是指多找了一个不正确的石成基类型。在步骤S203中,根据该似然概率和为每种基因型预设的先验概率计算每种基因型的后验概率,将后验概率最高的基因型确定为待测基因组该位点最有可能正确的基因型,得到待测基因组的一致序列。其具体过程如上所述,在此不再赘述。15在步骤S204中,通过检测待测基因组的一致序列中与参考基因组序列不一致的位点,检测出待测基因组中的单核芬酸中的多态性位点。图6显示的是一致序列在参考序列上的覆盖度,Illumina1MBeadChip分型位点的覆盖度和一致序列的错误率。如果没有质量过滤,整个基因组的覆盖度要低于基因分型位点的覆盖度。因为基因分型位点与基因组的特征是有差别的。增加Q0Q40的质量限制,基因分型位点的覆盖度有微小的减少从98.98%降到98.75%;但是当临界值设的更高时,基因分型位点的覆盖度减少得就比较明显。这个可以用SNP位点的先验概率来解释,结果是相对于其它位点质量分数低了很多。过识别和欠识别的概率随着质量阈值的增加(欠识别0.046%Q0~0.024%Q20,过识别0.096%Q00.067%Q20)^连续的减少。根据这些数据得到一个质量阈值为Q20,以平衡覆盖度和欠识别过识别几率。在本发明实施例中,使用了五个其它的过滤步骤用来去除一些共有序列中不可靠的部分l)要求单倍体最少两个测序片段,双倍体染色体最少4个测序片段覆盖;2)整体深度,包括重复比对上的测序片段的覆盖,必须小于100;3)局部序列在基因组上的重复数少于2;4)至少一个双向测序片段支持;5)SNPs间隔至少5bp以上。通过采用上述过滤步骤去除一些共有序列中不可靠的部分后,对于单倍体染色体x,我们对只含有一个x染色体的雄性基因组进行了测序,因此x染色体的一致序列查找与单倍体基因组是相同的。每个位点有四种不同的可能的基因型。在X染色体的37933个Illumina1MBeadChip基因分型位点中,99.59%的位点能够被很好的覆盖,而且基因分型和测序有99.96%的共同性,请参阅表1.2。一致序列在参考基因组中的X染色体上有88.07%的覆盖度。未有效覆盖的染色体区域是高度重复的,并且几乎没有能够唯一比对的测序片段。Y染色体主要由重复序列组成并且参考序列組装得不是很好,因此我们不对其进行讨论。对于双倍体常染色体,为了评价一致序列和SNP检测的准确性,我们将炎黄一号所有常染色体组装好的一致序列和NCBI参考序列作了比较,发现一致序列在参考序列的常染色体有92.25%的覆盖,在IlluminalMBeadChip基因分型位点上有99.22%的覆盖,其中大约有99.92%位点是一致的,请参阅表1.2。纯合基因分型位点,有0.062%被测序认为是杂合体。表1.2基因分型的碱基型分型位点数覆盖度相同过识别欠识别x染色体纯合非突变27,19699.75%99.99%0.007%-纯合突变10,73799.14%99,87%0.132%-总数37,93399.58%99,96%0.042%-常染色体纯合非突变540,87899.69%99.94%0.062%-纯合突变208,43699.26%99.78%0.222%-杂合250,66798.18%99.99%0.013%0.103%总数1999,98199.22%99.92%0.083%0.025%为评估本方法对SNP的识别准确性,针对部分过识别的SNPs采用PCR扩增后再运用传统的Sanger测序技术进行测定。在57个测试的中,49(86.0%)个碱基型和芯片得出的结果是一致的。高的一致性,并且对于过识别的位点,GA测序技术精确度更高。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。权利要求1、一种单核苷酸多态性检测方法,其特征在于,所述方法包括下述步骤将高通量测序技术得到的测序片段比对到参考基因组序列上;根据测序得到的待测基因组中每个碱基的测序质量分数,得到待测基因组上对应位点的各种基因型的似然概率;根据所述似然概率和为每种基因型预设的先验概率,计算参考基因组上每个位点上每种基因型的后验概率,并将后验概率最高的基因型确定为待测基因组对应位点最有可能正确的基因型,得到待测基因组的一致序列;检测待测基因组的一致序列中与参考基因组序列不一致的位点,得到待测基因组中的多态性位点。2、如权利要求1所述的方法,其特征在于,所述根据测序得到的待测基因组中每个石成基的测序质量分数,得到待测基因组上对应位点的各种基因型的似然概率的步骤具体为将测序得到的待测基因组中每个^f咸基的测序质量分数转换为碱基错配率,并根据对比对到参考基因组上的每个位点的所有测序片段石成基的错配率之积,得到待测基因组上对应位点的各种基因型的似然概率。3、如权利要求l所述的方法,其特征在于,在所迷根据测序得到的待测基因组中每个碱基的测序质量分数,得到待测基因组上对应位点的各种基因型的似然概率的步骤之前,所述方法还包括下述步骤对测序得到的待测基因组中每个碱基的测序质量分数进行校正。4、如权利要求3所述的方法,其特征在于,所述对测序得到的待测基因组中每个碱基的测序质量分数进行校正的步骤具体为根据唯一比对到参考基因组序列的测序片段,统计特定测序质量分数和测序序列坐标下,每两种碱基之间的错配比例,将所述错配比例作为错配率的估计,记录在四维概率矩阵中;对于参考基因组上每一个位点,收集比对在该位点上所有的测序片段的碱基,并记录其-威基类型、测序质量分数和在测序片段上的序列坐标,从四维概率矩阵中查出四种碱基观察到测序碱基的概率。5、如权利要求4所述的方法,其特征在于,在所述根据唯一比对到参考基因组序列的测序片段,统计特定测序质量分数和测序序列坐标下,每两种碱基之间的错配比例,将所述错配比例作为错配率的估计,记录在四维概率矩阵中的步骤之前,所述方法还包括下述步骤过滤掉已知的SNP位点。6、如权利要求4所述的方法,其特征在于,当比对到参考基因组上的测序片段中有N个相同测序片段,且所述N各相同测序片段在参考基因组上定位相同时,所述方法还包括当第N条测序片段比对到参考基因组的位点时,将从四维概率矩阵中查出四种碱基观察到测序碱基的概率x校正因子^n后的积进行概率归一化后,得到待测基因组上对应位点的各种基因型的似然概率。7、如权利要求4所述的方法,其特征在于,所述根据测序得到的待测基因组中每个碱基的测序质量分数,得到待测基因组上对应位点的各种基因型的似然概率的步骤具体为根据从四维概率矩阵中查出的每一种真实基因型观察到每一个单独碱基的概率之积,得到待测基因组上对应位点的各种基因型的似然概率。8、如权利要求1至7任一权利要求所述的方法,其特征在于,所述方法还包括下述步骤将后验概率最高的基因型确定为待测基因组对应位点最有可能正确的基因的后验概率之和中所占的比例;将所述基因型正确的概率转换为质量分数,并通过对质量分数设置阀值,过滤掉冲企测出的潜在多态性位点中质量分数小于设置的阀值的多态性位点。9、如权利要求1至7任一权利要求所述的方法,其特征在于,所述方法还包括下述步骤对支持多态性碱基型的测序片段的数目设定岡值,过滤掉支持多态性碱基型的测序片,殳的数目小于预设阀值的多态性位点。10、如权利要求1至7任一权利要求所述的方法,其特征在于,所述方法还包括下述步骤比较^r测出的多态性位点之间的距离,并过滤掉距离小于预设阀值的多态性位点。全文摘要本发明适用于生物工程领域,提供了一种单核苷酸多态性检测方法,所述方法包括下述步骤将高通量测序技术得到的测序片段比对到参考基因组序列上;根据测序得到的待测基因组中每个碱基的测序质量分数,得到待测基因组上对应位点的各种基因型的似然概率;根据所述似然概率和为每种基因型预设的先验概率,计算参考基因组上每个位点上每种基因型的后验概率,并将后验概率最高的基因型确定为待测基因组对应位点最有可能正确的基因型,得到待测基因组的一致序列;检测待测基因组的一致序列中与参考基因组序列不一致的位点,得到待测基因组中的多态性位点。本发明实施例由于考虑了先验概率对单核苷酸多态性检测结果的影响,从而使检测结果更准确。文档编号G06F19/00GK101539967SQ20081021834公开日2009年9月23日申请日期2008年12月12日优先权日2008年12月12日发明者昶余,方晓东,李松岗,李瑞强,李英睿,杨焕明,建汪,俊王申请人:深圳华大基因研究院;深圳华大基因科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1