用于序列解析性生物检测及鉴定的遗传靶的设计和选择的制作方法

文档序号:5831728阅读:181来源:国知局

专利名称::用于序列解析性生物检测及鉴定的遗传靶的设计和选择的制作方法
技术领域
:本发明一般地涉及再测序微阵列设计。
背景技术
:随着基于DNA的检测方法流行日盛,拥有设计、测试和改善测定法分析的计算机(insilico)方法变得更加重要。尤其,日益需要高度多重性病原体检测法并且该^r测法在成本、所需样品体积、时间及测定时间方面比多重单独的测试法可能更有效。然而,初始开发、设计和验证可以对数性地变得复杂、昂贵和耗时。使用新近可用遗传序列信息的针对微生物的精确模拟模型可以潜在地使开发这些高度多重性测定法的成本和时间最小化。基于核酸的全部测定法的设计标准具有相似的整体约束条件。在选定靶生净勿后,'乂、观1K用刁汰恭迅评1乂T及iff开;ttEaX刑丰巴玍^^效^T开且仍T兄明7j部遗传性变异(即林或亚型)的探针。已经用模型(对于每个模型具有相似要求)开发计算机设计方法用于PCR和点式寡核苷酸微阵列(Cleland等(2004)开发用于微生物病原体的合理设计的核酸标签(Developmentofrationallydesignednucleicacidsignaturesformicrobialpathogens).分子诊断专家述评(ExpertRevMolDiagn),4.303-315;Gardner等(2005)用于DNA和蛋白质诊断标签开发的草拟及完善序列数据(DraftversusfinishedsequencedataforDNAandproteindiagnosticsignaturedevelopment).核酸研究(NucleicAcidsRes),33,5838-5850;Rychlik等(1989)—种选择最佳寡核苷酸用于DNA的滤膜杂交、测序及体外扩增的计算才几程序(Acomputerprogramforchoosingoptimaloligonucleotidesforfilterhybridization,sequencingandinvitroamplificationofDNA).核酸研究(NucleicAcidsRes),17,8543-8551;Fitch等(2002)核酸诊断法的快速发展(Rapiddevelopmentofnucleicaciddiagnostics)。IEEE进展(ProceedingsoftheIEEE),90,1708-1721),用于测定法和寡核香酸微阵列(HeroW等(2003)寡聚物设计一种用于开发寡核苷酸-徵阵列的探针的计算机禾呈序(OligoDesign:acomputerprogramfordevelopmentofprobesforoligonucleotidemicroarrays).生4勿4支术(Biotechniques),35,1216-1221;Mehlmann等(2006)用来开发针对流感病毒的流感芯片(FluChip)诊断微阵列的耐用序列选择方法(RobustsequenceselectionmethodusedtodeveloptheFluChipdiagnosticmicroarrayforinfluenzavirus).临床4效生物学杂志(JClinMicrobiol),44,2857-2862)。因为探针、靶和干扰片段的可能集合是如此庞大,故优选以最小计算产生最大靶特异性的模型。在PCR引物或寡核苷酸微阵列的常见设计算法中,计数探针与把序列或背景生物序列之间的碱基匹配数。若超过阈匹配数,则假定存在杂交(Herold等.(2003)寡聚物设计一种用于开发寡核苦酸微阵列的探针的计算机程序(OligoDesign:acomputerprogramfordevelopmentofprobesforoligonucleotidemicroarrays).生物技术(Biotechniques),35,1216-1221;Mehlmann等(2006)用来开发针对流感病毒的FluChip诊断微阵列的耐用序列选4奪方法(RobustsequenceselectionmethodusedtodeveloptheFluChipdiagnosticmicroarrayforinfluenzavirus).临床微生物学杂志(JClinMicrobiol),44,2857-2862.)。这种水平的模拟是不完整的,因为对探针-靶杂交的最终检测依赖于单一信号强度(通常是荧光),其可能与预测的单一信号强度不相关。这导致无法确定所选探针效果如何直至开展实验工作以验证该选择并且建立杂交事件的强度临界值。已经使用更详细的热动力学模拟和计算来更好理解匹配-错配和单一匹配微阵列并且提供对强度的预测(Matveeva等(2003)用于寡探针设计的热动力学计算和统计相关(Thermodynamiccalculationsandstatisticalcorrelationsforoligo-probesdesign).核酸研究(NucleicAcidsRes),31,4211-4217;Held等(2003)利用杂交的物理特性模拟DNA微阵列数据(ModelingofDNAmicroarraydatabyusingphysicalpropertiesofhybridization),美国-斗学院院刊(ProcNatlAcadSciUSA),100,7575-7580;Naef等(2003)解决亮错配之谜寡核苦酸阵列中的标记和有效结合(Solvingtheriddleofthebrightmismatches:Labelingandeffectivebindinginoligonucleotidearrays).物理评论E(PhysicalReviewE),68,011906;Zhang等(2003)短寡核苷酸微阵列上的分子相互作用模型(Amodelofmolecularinteractionsonshortoligonucleotidemicroarrays).自然:生物技术(NatBiotechnol),21,818-821;Wu等(2005)在短寡聚物微阵列上交叉杂交的序歹'J依身负'性(Sequencedependenceofcross-hybridizationonshortoligomicroarrays).核酸研究(NucleicAcidsRes),33,e84)。建才莫方法说明了几个重要事项,如探针与表面连接以及实现片段的二聚体形成或片段依赖于碱基含量的环形成。当仅一个或两个探针可能与靶标杂交时,对这些事项的说明是相对简单明了的。然而,模型中这种增加的细节以计算要求同样提高为代价。与简单的寡核苷酸微阵列相反,使用再测序微阵列的最近工作证实再测序微阵列是4企-睑多种病原体(包括共感染)和开展密切相关病原体的详细鉴别和/或追踪病原体突变的可行替代品(Wang等(2006)用再测序微阵列鉴定流感病毒(IdentifyingInfluenzaViruseswithResequencingMicroarrays).新发传染病杂志(EmergInfectDis),12,638-646;Lin等(2006)使用再测序DNA微阵列的广谱呼吸道病原体鉴定法(Broad-spectrumrespiratorytractpathogenidentificationusingresequencingDNAmicroarrays).基因纟且研究(GenomeRes),16,527-535)。因为使用4个(或如还包括反义,则是8个)短探针的组,其中每个探针组代表所需序列的一部分和中央核苦酸位置的全部变异,则来自单一探针的绝对信号强度的重要性比不上遍及所述完整探针组的差异结合作用/强度。在有义或反义方向得到证实的这种信息仅用来以高置信度确定特定碱基是存在的。需要重叠探针组的这种用途来直接确定靶生物的核苷S吏序列,而非基于假定特异性探针的单一荧光信号强度推测性地确定所述核香酸序列(Malanoski等(2006)从再测序DNA微阵列中自动化鉴定多种微生物(Automatedidentificationofmultiplemicro-organismsfromresequencingDNAmicroarrays).核酸研究(NucleicAcidsRes),34,5300-5311)。再测序微阵列对广"i普检测各种水平的生物鉴别(organismdiscrimination)的有效性可能依赖于用来选择置于微阵列上的参考序列或耙序列的方法。权衡专用于某种生物的空间量与可能的鉴别水平必须对所考虑的每种生物进行平衡。此外,当特异性或半特异性引物用于生物富集时,这些引物的选择可以影响选择可能的参考序列。整体设计过程可以表征为一系列步骤。第一,选择生物和针对每种生物的所需鉴别水平并且必须测试核酸标记是否有特异性。第二,从已知序列数据中确定序列区域以从所述序列区域中选择参考序列。第三,选择参考序列并检查可能的冲突。第四,选择引物。第五,序列选择的改进。这些步骤中若干步骤的顺序可以相互交换并且所述的改进由产生变化后重复这些步骤中若干步骤组成。第一步骤总是选择生物和每种生物的所需鉴别水平,这代表对于设计的约束条件。待使用的微阵列的尺寸详述了对设计问题所设置的其它约束条件。不改变一个或多个所述约束条件则不可能有解决方案。不过,全部后续步骤旨在满足这些要求。
发明内容本发明包括一种计算机执行的方法,该方法包括提供与生物列表中一种或多种生物相关的耙序列列表;提供疑似与一个或多个所述把序列杂交的候选原型序列列表;生成与每个候选原型序列相对应的探针集合,每个探针集合具有针对每个子序列的探针组,所述的子序列具有相应候选原型序列的预定、固定的子序列长度。酸所形成的相应子序列的每一变异组成;生成与每个耙序列相对应的片段组,每一片段组包含具有相应靶序列的预定、固定片段长度的每个片段;计算每个片段与该片段的完全互补性序列的结合自由能;并且若任何结合自由能高于预定的固定阈值,则将该片段一次延伸一个核苦酸直至所述结合自由能低于该阈值或该片段具有与所述探针相同的长度,生成延伸片段组,并确定哪个延伸片段是针对任意探针的完全匹配物,以及装配与每个候选原型序列相对应的碱基酸相对应的碱基响应,其中所述的探针是针对任何延伸片段的完全匹配物,但对于该碱基响应而言含有所述完全匹配探针的该探针组的其余成员不是针对任何延伸片段的完全匹配物;和在全部其它环境下的非碱基响应。附图简述对本发明的更完整理解将参考以下对示例实施方案的描述和附图而轻易地获得。图1显示使用从23至13不同值m的模型的示例结果。原型序列(用来产生探针组)和样品序列用星号在两种序列中均配对的石威基上方显示。还显示了每个探针组针对不同值m的再装配模拟碱基响应结果。区域A具有20个连续碱基,从而对大于20的m,探针组没有在该区域中的配对。较长区域B具有在m-23时产生碱基响应的探针组。对于每个区域,m增加l或2导致在终止产生;成基响应的每个边缘处产生1或2个碱基响应。这些^4基响应取决于这样的片段,其对探针的一半具有多于对所述探针另一半的配对。区域C具有含9个及12个碱基的两个连续区域,在所述区域之间有一个单核苷酸多态性(SNP)。含所述SNP组的一个探针具有在样品中配对的22个碱基,不过在该区域内任何探针组中的其它探针均不具备大于12的匹配,并且因此全部探针在N上在全部值处均是N响应。图2显示来自引物的解析碱基响应的频率,作为引物中的位置的函数。全部,GC含量蛊-小于50%,T-大于50。/c。图3显示来自引物的解析碱基响应的频率,作为引物中的位置的函数。AG(空心符号指示具有少于12000个数据点的二进制数(bin)):*>-13、-13>國口-16、陽16>令0>-19、一19〉AA〉陽22、-22〉TV>-25、-25>*o。图4显示FluBHA的原型序列和来自常规测序、来自RPMv.l微阵列和来自模型预测的流感病毒BVictoria系样品的结果。区域A代表部分序列,其中SNP相距甚远或紧靠在一起,并且模型数据与微阵列数据良好符合。区域B序列具有居间频率的SNP并且模型与实验之间的符合性下降。观察为样品与样品之间差异百分数的这种特性上升高于4%。区域C情况相似,尽管观察到的碱基响应数高得多并且这些情况仅在10%上观察到。图5显示是假设的标称靶、靶列表和原型序列列表。图6显示假设的探针集合。图7显示片段及延伸片段的假设列表。图8显示探针与延伸片段之间的完全匹配物。图9显示假设的石咸基响应序列。图10显示每一候选原型的匹配性生物和最终靶标列表的形成。实施本发明的模式在以下描述中出于解释目的而非限制目的,阐述具体细节以提供对本发明的透彻理解。然而,对于本领域技术人员显而易见的是本发明可以在相异于这些具体细节的其它实施方案中实行。在其它情况下,省略对熟知方法及装置的详细描述,从而在没有多余细节下不难理解对本发明的描述。从最近发表的大量文献中显而易见基于DNA的检测方法(尤其用于多种病原体检测)的流行。因此,拥有辅助设计、初始测试和改进这些方法的计算机方法变得重要,原因是这些方法的开发变得更复杂、昂贵和耗时。使用再测序微阵列的最近研究工作证实再测序微阵列是检验多种病原体(包括共感染)和开展密切相关病原体的详细鉴别和/或追踪病原体突变的可行替代品。然而,再测序阵列的品质要求需要不同标准用于在个体探针水平上模拟再测序阵列的性能。此外,用可能数百个原型靶优化设计这些测定法超越了现有方法的能力。为解决这些问题,成功地开发了用于对再测序微阵列预测碱基响应(basecalling)的高效计算模型,该模型始于简单假设以预测杂交并且随后仅根据需要增加复杂性。随同昂飞用户定制序列(AffymetrixCustomSeq)微阵列的针对生物和短寡核苷酸杂交及碱基响应的庞大数据组允许测试并验证该模型。披露了适用于预测碱基响应的再测序微阵列的模型,其中所述的碱基响应将对位于该微阵列的指定原型序列上的样品序列出现。"原型,,序列是对用来生成置于再测序阵列上的探针组的基因组序列的命名,其中所述的探针组允许所选范围的病原体靶序列至少部分地杂交。尽管与在设计其它阵列中所用原则相似的原则是提供迅速计算的出发点,然而并入更详细的热动力学信息。通过针对生物及短寡核苷酸杂交和在昂飞(Affymetrix)再测序微阵列上碱基响应的庞大数据组测试而促进模型开发。该模型成功预测来自庞大种类的耙生物序种靶病原体组而如何良好地表现。这有助于简化再测序微阵列设计并且减少开发针对特定用途的再测序微阵列所需要的时间和成本。模型概念-在实验上,若某片段与探针组的一个探针更好地结合,则该探针组将仅表明存在特定碱基。为模拟这种行为,所产生的中心假设是当探针和样品序列具有m个互补连续碱基时,则出现可观察的杂交信号。这是最粗略的模拟,其代表不同序列针对某探针的结合强度的差异并代表最简单的模型。这种模拟的其余部分由以下步骤组成从原型序列中生成探针并且从样品中生成潜在结合性片段,并随后使用核心假设将所述探针组相互比较。第一步骤将生成探针组和样品片段。把选为原型序列的序列分成重叠的4探针组,其中所述探针组的探针各自例如长25碱基并且在中央碱基处不同(即对于含L个碱基的序列,产生L-24个探针组)。这代表可以在微阵列上实际存在的探针。对于样品序列而言,生成了长m个碱基的全部独特片段(即对于含K个碱基的序列,可以产生至多K-m+l个独特片段)。实验中的片段可以比所述独特片段长(平均100个碱基)。该模型仅要求最少m个碱基应当存在于片段中。既然已经生成微阵列探针和样品片段,则每个探针组的每个探针针对来自样品序列的全部片段进行测试,以确定完全互补性配对是否出现。标出具有配对的探针。探针组产生碱基响应的能力通过考察该探针组的探针的结果进行评估。若该探针组中仅一个探针在样品序列中具有配对物,则这个配对物是赋予该探针组的碱基响应,并且检验下一个探针组。当样品片段均不是探针组中任何成员的配对物时,则赋予代表模糊碱基身份的N。在探针组中多于一个探针具有配对物的情况下,从样品序列中生成较长片段并随后对其比较。将源自样品序列中的每个片段的相邻碱基以5'-3'方向一次添加一个直至与适宜探针的错配出现。若这些片段中的一个片段现在比其余片段长,则赋予这种碱基,否则赋予N。在测试了全部探针组后,将源自每个探针组的碱基响应(A、C、T、G或N)再装配成序列。图1显示使用从23至13的不同值m的模型的示例结果(不使用小于13的诸长度,因为它们可以非特异性地结合,即便有可能使用这些长度)并且指出在各种条件下所产生的一些石威基响应。虽然实验结果清楚地表明为产生特异性石咸基响应,片段不需要与探针的全部25个或甚至21个碱基互补,然而在没有进一步实验输入量的情况下,难以确定什么长度对于m是最适宜的。短寡聚物-使用用于样品扩增的多重特异性引物,从呼吸道病原体微阵列版本1(RPMv.1)(Lin等(2006)使用再测序DNA微阵列的广谱呼吸道病原体鉴定法(Broad-spectrumrespiratorytractpathogenidentificationusingresequencingDNAmicroarrays).基因组研究(GenomeRes),16,527-535)实验中可获得有关短寡核苷酸杂交的大量数据。因为杂交前没有从样品中除去未使用的引物并且这些引物的大部分位于原型序列内,故有可能研究16-27碱基长度的大量短寡聚物与再测序微阵列的结合。数据集是针对两种多重混合物的,一种混合物含有117种引物(777个实验)并且另一种混合物(906个实验)由作为前述117种引物混合物的子集的66种引物组成。存在从原型序列中可获得的多个纟笨针组,其中所述的探针组与相同引物杂交,不过具有不同数目的可用于杂交的精确配对的碱基(从13个石威基至引物长度或探针长度,即25个碱基)。例如,在引物寡聚物的任意末端处的碱基具有这样的探针组,其可以确定所述碱基的身份,不过仅以13碱基杂交为基础。在该分析中不包括对任何原型序列内的完整原型序列显示优于50%杂交的引物,因为这些引物代表未使用的引物与被掺入靶的扩增子内的引物杂交。从可用的引物寡聚物集合中,对于13-21的每个长度存在约3x105个数据点,对于长度Z2存在约2x105个数据点,对于长度23存在约1.5xl05个数据点并且对于24和25的每个长度存在约7.5xl(f个数据点。碱基响应由先前研究中所用的GDAS程序设置(Lin等(2006)使用再测序DNA微阵列的广镨呼吸道病原体鉴定法(Broad-spectrumrespiratorytractpathogenidentificationusingresequencingDNAmicroarrays).基因组研究(GenomeRes),16,527-535)进行。图2显示清晰;威基响应的频率与引物的数量,其中所述的引物可以基于引物GC含量与针对全部引物和两组引物的探针杂交。第一位置具有频率33%,这表明三分之一的仅匹配探针内25个碱基中13个碱基的DNA片段能够特异性及强烈地结合,足以生成独特的碱基响应。当可用于杂交的碱基长度增加时,观察到石威基响应频率增加并且该频率在长度16时达到50%或更高。为进一步理解结合频率,基于多重引物的GC含量,将多重引物杂交的结果分成两组。以GC含量分组,显示引物的结合频率平均值小于50%并且大于或等于50%。对于至多达22的长度而言,这种划分大致使位于下限的样品数目2倍于位于上限的样品数目。当长度从13上升至14时,石咸基响应频率的差异最大。对于大于50。/。的GC含量,从23至25的比率和趋势具有更大的不确定性,因为在这些界限中存在明显更少的探针样品。为更好理解引物组成的影响,图3显示在基于AG的独立组中具有各种长度的引物,其中所述的AG由nn模型(SantaLucia(1998)聚合物、哑铃和寡核苷酸DNA最邻近热动力学之统一观点(Aunifiedviewofpolymer,dumbbell,andoligonucleotideDNAnearest-neighborthermodynamics).美国考牛学院院刊(Proc.Nail.Acad.Sci.USA),95,1460-1465;SantaLucia等(2004)DNA结构性基序的热动力学(ThethermodynamicsofDNAstructuralmotifs).生物物理和生物分子结构年鉴(Annu.Rev.Biophys.Biomol.Struct.),33,415-440)计算。这些集合(bins)中的某些集合具有极少样品并且那些结果显示更大的不确定性。然而,可以观察到如此趋势,即整体上随着AG降低,频率增加,与长度无关。有趣的特征是当使用一个完全匹配探针和三个错配探针时,高碱基响应频率对于明显短于探针长度(24碱基)的寡聚物长度而言是可能的。仅在阵列上显然具有低碱基响应频率的探针具备长度l3和l4以及大于-13千卡/摩尔(kcai/mol)的AG。具有低于-16kcal/molAG的引物平均具备50。/。或更大机会以杂交并产生碱基响应。改进的模型概念-来自结合频率趋势的实验证据表明在不考虑任何其它因素时,大于16的长度很可能经常生成解析的碱基响应。对于较短长度,探针的AG在决定解析碱基响应的明显机会是否存在方面是重要的。改进该模型以测定从m43的样品中所生成片段的AG。若所述片段的自由能差异低于-14.5kcal/mol临界值,则接受该片段。在片段的自由能差异高于所述临界值的情况下,增加该片段的长度直至该片段的能量低于该临界值或该片段达到探针长度25。随后将所得的片段列表与已经提及的每个探针组比较。扩增、杂交和序列测定-呼吸道病原体微阵列版本l(RPMv.l)设计和实验方法的细节已经在先前研究工作中加以讨论(Wang等(2006)用再测序微阵列鉴定流感病毒(IdentifyingInfluenzaViruseswithResequencingMicroarrays).新发传染病杂志(EmergInfectDis),12,638-646;Lin等(2006)使用再测序DNA微阵列的广i普呼吸道病原体鉴定法(Broad-spectrumrespiratorytractpathogenidentificationusingresequencingDNAmicroarrays).基因纟且研究(GenomeRes),16,527-535;Davignon等(2005)再测序寡核苷酸微阵列鉴定化脓性链球菌(Streptococcuspyogenes)和相关抗生素耐药性决定因子的用途(UseofresequencingoligonucleotidemicroarraysforidentificationofStreptococcuspyogenesandassociatedantibioticresistancedeterminants).i降床孩吏生物学杂志(JClinMicrobiol),43,5690-5695;Lin等(2007)使用再测序微阵列作为多重呼吸道病原体检测测定法(UsingaResequencingMicroarrayasaMultipleRespiratoryPathogenDetectionAssay).临床微生物学杂志(JClinMicrobiol),45(2),443-452)。把来自含有诊断区域的基因的部分序列平铺(tiled)用于检测这些病原体。使用多重RT-PCR扩增方案从临床样品中获得用于初始引物分析的实验微阵列数据。使用不同的多重方法获得针对引物试验和California系样品的结果(Lin等(2007)临床微生物学杂志(JClinMicrobiol),45(2),443-452)。对其余流感病毒样品使用随机方法(Wang等,(2006)新发传染病杂志(EmergInfectDis),12,638-646)。使用GCOStm軟件1.3版(昂飞公司,圣克拉拉,加利福尼亚(AffymetrixInc.,SantaClara,CA))来确定探针的强度并且使用GDAS软件3.0.2.8版(AffymetrixInc.,SantaClara,CA)产生碱基响应。实例1:预测引物干扰-所述模型算法的第一试验用途是理解出现在使用新引物组的带空白样品(不添加核酸)的42个微阵列实验中的碱基响应,其中所述的新引物尽量使引物与原型序列的相互作用最小化。由于各引物仍然存在,故它们作为样品序列集合受到处理并且使用所述模型针对位于芯片上的每个原型序列进行测试。所述^^莫型准确地预测到在实^r中出现的来自引物的》咸基响应,其中所述的引物仍位于原型序列上。也观察到对原型序列的中心处位置的额外结合且其与实验结果符合。针对密切相关性生物的原型序列所设计的亏I物引起这些碱基响应。例如,腺病毒4E1A基因原型序列使得20个预测碱基中19个预测碱基在97%时间上响应,其中所述的19个预测-威基距离该序列的起点393个碱基。预测在该区域边缘处作为单核苷酸多态性(SNP)的一个碱基将响应,但是在实验中仅在12%时间上观察到响应。与其它原型序列比较时,该区域是针对腺病毒7ElA原型区域所选择的引物区域的配对物。对由该模型所预测的其余47个区域观察到类似的符合性。实例2:对长序列的模型预测-在成功证实该模型在较短片段上的准确性之后,检验了对完整原型序列的预测。表l中报告在所述模型中使用常规测序样品的结果,其中所述的结果与实验性微阵列结果就4个数据集进行比较;流感病毒A/H3N2类福建(Fujian)系、流感病毒A/H3N2类加利福尼亚系、流感病毒B山县/16/88(Yamagata/16/88)系和流感病毒B维多利亚/2/87(Victoria/2/87)。该结果报告了例如对流感病毒A/H3N2类Fujian样品具有巨大相似性的样品的一般水平,所述试验的平均碱基响应率是85%,而模型预测平均是97%。原型与常规序列之间的平均SNP数是9.8(1%)。尽管模型预测将解析9.2个SNP,在实验中仅观察到6.3个SNP。模型预测到8.8个N响应,而实验对其具有特异性石威基响应,并且微阵列具有9《9个N响应,而模型对其预测应当是特异性碱基响应。因此平均而言,在模型和微阵列结果之间匹配14.3个N响应。表1-针对可以基于谱系分在独立组内的流感病毒血凝素基因的平均模型结果和实验性;微阵列结果的汇总。<table>tableseeoriginaldocumentpage15</column></row><table>*括号内的数字是相对于常规结果的偏差数目表2显示来自类Fujian系样品的一个特定分离株(鉴定为A/尼泊尔/1727/2004(A/Nepal/1727/2004))。在微阵列上解析出6个SNP中每个SNP的位置,并且在长25碱基窗口中称作N的额外碱基的数目以所述SNP为中心。总碱基响应率对于所述模型是97.4%并且对于微阵列是88.4%。使用该信息对N响应分组,46个N响应与SNP密切相关,而29个N响应均匀地遍及孩t阵列分布并且大多由所解析碱基包围的单一N响应或两个连续N响应的若干事件或在三碱基组中的两个N响应组成。在比较常规序列和原型序列时,样品总计具有8个SNP,并且在微阵列上没有鉴定出的两个SNP均位于所鉴定的其它SNP附近。模型和微阵列在位于7个不同SNP附近的12个N响应上符合,不过模型中预测到的在SNP附近的另外6个N响应在实验中被解析并且因此代表在模型中的偏差。表2-与FluAHA3原型序列比较的流感病毒A抹的SNP的位置<table>tableseeoriginaldocumentpage15</column></row><table>对于流感病毒A/H3N2类California系样品而言,原型序列与样品序列相差达1.5%,而对于流感病毒BYamagata/16/88系样品而言相差达3,7%,以及对于流感病毒BVictoria/2/87系样品而言相差达9.8%。这些结果与第一组样品也不同,其原因是在常规测序与微阵列碱基响应之间存在除N响应之外的偏差。在与流感病毒A/H3N2类Fujian系相同的方法下处理的流感病毒B样品具有1个(Yamagata系)和4个(Victoria系)碱基响应差异。这些碱基响应均出现在距离含所解析众多碱基响应的任何区域至少3个N响应的区域中,并且所述模型在这些位置预测到N碱基响应。流感病毒A/H3N2类California样品采用不同方法,并且尽管所述偏差在其附近具有众多N响应,然而它们不是始终如一地以至少3个N响应将所述偏差与含所解析众多碱基的区域隔开。这种在碱基响应上99.87%的准确度是从单一微阵列实验中确定碱基响应时可预期的合理误差。该模型对预测与原型序列相异1%-4%的样品的^威基响应百分数具有相似表现并且在差异增加到约10%时似乎具有略微更好的符合性。然而,整体碱基响应百分数可以是模型性能的误导性指标。N响应可以分成三组;在模型中预测到而未观察到的N响应、观察到而未预测到的N响应和既观察到且预测到的N响应。检验这种趋势后,对于接受相同方法处理的三个样品组可以看到当变异量从1%增加至10%时,与观察到的N响应匹配的预测N响应增加至最大量,这反映所述模型是准确的。观察到而未预测到的N响应保持大致稳定。在模型中产生而在芯片上作为所解析碱基响应的N响应也增加。在10%上观察到的碱基响应百分数的改良符合性因整体碱基响应增加引起。整体而言,另一种流感病毒A/H3N2样品以与其余数据集相似的方式作出反应并且在一些细节上的差异可能反映所用方法的差异。即便该模型在SNP更频繁地出现时不如以往那样准确,然而正确地鉴定到具有较低频率的区域并且这些区域是在我们现有的病原体鉴定分析中所用的区域。图4显示来自相异达10%的流感病毒B样品的一个部分。一些特点(如大段的N响应或解析响应)存在于全部样品组中。来自这些区域的碱基响应最常用于分析程序CIBSIv.2中。图4的B区域代表在预测的N响应区域中散在的碱基响应并且存在于具有4%或更高变异的样品组中。图4中的C区域类似于B区域,除了在这种情况下在该区域中实验方式解析的众多碱基响应被预测为N。仅在具有10%变异的样品中观察到这种类型的响应。当使用来自基因组序列数据库的代表性序列而不是样品的常规测序结果时,该^t型可以用来理解生物的特点。实例是使用流感病毒A/波多黎各/8/34(A/PuertoRico/8/34)抹在微阵列上作为测试中的示踪物,并且所述的实验仅在神经氨酸酶和基质蛋白原型序列上具有明显的碱基响应率。这与模型模拟相一致,其中所述的模型模拟正确地鉴定到在这两种原型序列中将生成明显碱基响应的区域并且预测因流感病毒A/PuertoRico/8/34株与原型序列之间的差异,微小数目的石威基响应将出现在血凝素原型序列中。使用充分定义的短寡聚物探针检验再测序微阵列探针组的庞大集合已经清楚地证实仅具有16个连续互补性碱基的短片段可以在显著时间分量上产生准确的碱基鉴别。这种杂交不依赖于GC含量或计算的AG,并且当GC含量或AG有利时,短至13个碱基的节段将产生响应。当假定特异性结合仅需要13个完全匹配性连续碱基时,在本研究中开发的用于预测杂交模式的简单模型与所观察的实验结果具有优异的符合性。更好的符合性通过还要求结合性片段AG的预测大小应当满足最低大小要求而达到。对于再测序微阵列的意义是伴随所得的核苷酸石咸基响应,这样的片段出现明显量的特异性杂交,其中所述片段与探针具有少于25碱基的一个完全匹配。对引物的测试显示在高度多重的系统中难以消除引物与原型序列的全部潜在性交叉杂交。然而,因为可以预测在微阵列上的探针-耙杂交,故在分析结果时,对交叉杂交效应的解释简洁明了并且不需要实质地消除交叉杂交。该模型表现得相当好,尤其对于推动其开发的应用而言,并且该模型提供对这种检测方法为何在复杂混合物中奏效的理解。这应当适用于预测其它微阵列(如Affymetrix作图阵列和基因分型阵列)的响应,其中所述的其它微阵列使用完全匹配-错配探针组,以不同标准来选择探针组。当考察流感病毒B样品时,显而易见在需要13个连续互补性碱基用于杂交时,可能丟失一些可与探针潜在结合的片段。证据也提示含有一个如此错配的片段可以产生碱基响应,其中所述的错配具有极强的结合能。然而,目前可获得的很少流感病毒B样品不可能试图确立片段在其含有错配时必须具有何种能量。该模型的另一个缺点涉及它不能预测与SNP不密切相关的N响应。实验性微阵列结果仅提供每个样品的一个微阵列结果。因此,不能确定散在的N响应是重复出现还或随机出现,因为众多因素可能影响这种响应。消除了模型中作为主导因素的自身环结构形成,原因是自身环结构的掺入不导致预测与所观察实验模式匹配。当前模型可以用来预测对于目的病原体而言足量碱基响应是否将出现在所选的原型序列中,以使用分析程序CIBSIV2.0(Malanoski等(2006)从再测序DNA微阵列中自动化鉴定多种微生物(AutomatedidentificationofmultiplemicroorganismsfromresequencingDNAmicroarrays).核酸研究(NucleicAcidsRes).,34,5300-5311)进行鉴定。可以形成这样的经验法则,即与探针序列相异大于80%的序列少有这样的情况,其中足够匹配性碱基呈连续以产生明显数量的碱基响应,并且该序列将绝不因我们的方法而形成生物鉴定。这有效地快速估计了探针序列可以检测到的最大参考林数的上界。所开发的模型可以适用于处在该范围内的序列以更准确地预测可以4企测哪种生物并预测原型序列的性能。建模的结果可以用于选择在微阵列上包含的原型。整体设计过程可以在用于生物威胁因子特异性和地区(例如非洲)生物特异性微阵列的下一个微阵列文献检索仍是对于较大基因组靶的重要工具,但对于具有较小基因组的病毒生物可能是不必要的。适用于任何设计的生物检测方法学设计可以表征为一系列步骤第一,序列列表将包括靶序列和来自近缘遗传邻居的任何序列,从而可以;险验它们与参考序列杂交的效果。对杂交的总体预测可以从匹配比对方法(BLAST)的碱基百分数中获得。通过使用在常提供最小可用杂交程序的百分^:以下的临界值标准,有可能从BLAST询问中构建可以潜在杂交于不同区域中的序列的列表。这个序列列表将包括靶序列和来自近缘遗传邻居的任何序列,从而可以检验它们与参考序列杂交的效果。第二,通过将序列选择与分类学信息联合,每个区域可以就以下方面进行评估,即所述区域是否可以产生想要的鉴别水平以及是否将检测仅限于或不限于想要的靶。这将提供参考序列可以有效检测的可能生物数量的最接近上限。第三,此后,使用上述方法确定最的标准。第五,将检测到最多其它林的株从该列表中移出并用作第一参考抹。从该列表中也移出由第一参考抹能够检测到的全部林。在剩下的抹中,选择检测到最多其它林的抹作为下一个参考株。在一般方式中,并非限定仅用革巴标与序列比较,需要被检测的每个序列作为潜在的参考序列受到测试。将从使用BLAST的询问中获得可以由所述每个序列潜在鉴定到的其它生物序列,以确定该序列的哪个子集具有杂交机会。该子集用更详细的模型模拟以预测杂交。使用开发意在对真实芯片上的杂交分类的检测算法而非先前所用更简单标准评估所得的杂交。对于每个潜在的参考序列,现在可以建立分别可检测到的輩巴序列数目和非輩巴序列数目的改良上界。随后对所用参考序列的选择将以如此方式进行,从而使用最小空间来提供所需的鉴别水平。在已经选择序列后,随后进行引物选择。该方法可以具有以下特点。该方法不单纯依赖文献来决定参考序列的选择,因为文献可能自发表后因添加新的生物序列而过时。所述设计方案提供了在实施制造之前对所选参考序列有效度的独立检验。这种独立检验可以改进所选的参考序列,基于先前芯片设计的性能,这仅在微阵列设计之间是可能的。本方法可以确定最小参考序列列表,其可以提供指定的鉴别水平,无需先行验证。所述方法可以提供靶基因选择的自动化过程并且缩短芯片设计的周转时间。在已经描述本发明后,给出以下具体实施例以说明本发明的具体应用。这些具体实施例不意在限制本申请中所述的本发明范围。实施例1具有短序列的假设实施例-下文使用人工短序列说明所披露的方法,其中所述的人工短序列将不对应于任何具体的真实物种。需要制造用于检测物种A、B、C、D和E的再测序微阵列。如本文中所用,"物种,,可以指分类学物种及单一物种的不同型(type)或林(strain)以及它们的组合。已知标称靶1(图5)存在于这些物种至少之一的基因组中。使用数据库如BLAST进行相似性序列搜索以产生靶列表。最小相似性百分数(例如70%)可以用来滤除结果。若过多靶或来自过多物种(如遗传远缘物种)的靶被"l艮道,则可以提高最小相似性百分数以缩小列表的大小。另外,可以手工检查所述列表以除去特定的不利靶。图5显示靶10-40的4支设列表(参考编号范围如"10-40"仅包括这种形式的数字,而非从10到40的每个数字)。将这个靶列表提供给计算机系统,所述计算机系统可以是用来产生所述列表的同一台计算机。所述列表和随后描述的全部数据在本实施例中至少直至装配碱基响应序列时存储在计算机存储器或存储介质中。本实施例中的候选原型序列100-400列表与靶10-40列表相同,尽管这不作要求。图6显示从候选原型序列100-400衍生的假设探针集合111-434。选择探针的子序列长度是7,尽管可以使用其它值。〗笨针111-134从候选原型100等中衍生。探针111是候选原型100的头7个碱基。探针U2-114是探针111在中央位置处的单核苷酸多态性。探针111-114构成一个探针组。探针121和131也是候选原型100的7碱基子序列,每个子序列向右移动一个碱基。因此,候选原型IOO的全部三种可能的7碱基子序列均位于探针集合中。探针122-124和132-134分别是探针121和131的单核苷酸多态性。图7显示从耙10-40衍生的片段11-46的假设列表。选择片段长度是4,尽管可以使用其它值。因此,具有长度9的靶具有6种可能片段。还显示延伸片段ir-46'的列表,其中所述的延伸片段含有一些原始片段和通过添加来自所述耙的额外碱基而产生的一些片段。通过计算每个片段与该片段的完全互补性序列的结合自由能而产生延伸片段。若对某片段的结合自由能高于预定的固定阚值,则将该片段一次延伸一个核苷酸直至所述结合自由能低于该阈值或该片段与所述探针等长。一种计算结合自由能的合适方法是寡核苷酸最近邻模型,尽管可以使用其它方法。随昂飞(Affymetrix)再测序阵列使用的合适结合自由能阈值是约-14.5kcal/mo1,尽管可以使用其它值(因为该实施例是说明性的,故没有对该实施例进行实际计算)。图8显示探针与延伸片段之间的全部完全匹配物。从111、131、211、221、231、321、411和421开始的探针组仅含有匹配任何延伸片段的一个探针。当装配碱基响应序列时,这些探针组产生与所述组的第一(非多态性)探针的中央碱基相同的碱基响应。从121、311、331和431开始的探针组含有匹配任何延伸片段的多于一个的探针。将非碱基响应("N")赋予这些探针组。若存在无匹配的任何探针组,则也赋予这些探针组为非碱基响应。在图9中显示针对每个候选原型序列的碱基响应序列以及从候选原型序列中衍生的探针组。图IO显示每个候选原型的匹配性生物列表。^^全验的生物含有相应的候选原型。这可以通过参考外部数据库加以确定。选择最小碱基响应数是2,尽管可以使用较大数目,如50。同样,不需要对候选原型300产生匹配性生物列表,因为候选原型300的碱基响应序列(NGN)仅含有一个碱基响应。当候选原型300匹配绝大多数生物时,情况是这样。候选原型400匹配绝大多数生物(A、B和E)。将候选原型400添加至最终原型列表中并从候选原型列表中移出。A、B和E从所述生物列表中移出。在此时,候选原型100匹配剩余生物中的两种(C和D),而候选原型200仅匹配一种生物(C)。将候选原型IOO添加至最终原型列表中并从候选原型列表中移出。将C和D从所述生物列表中移出。由于所述生物列表现在是空的,故没有更多的原型被移至最终原型列表中。可以制造含有与每个最终原型序列相对应的每个探针组的再测序微阵列。这里,所述微阵列将含有探针111、112、113、114、121、122、123、124、131、132、133、134、411、412、413、414、421、422、423、424、431、432、433和434。该探针组将检测每种生物,即便该探针不检测每个靶。所述微阵列也可以含有与这些探针中每个探针互补的序列。该实施例基于单一的标称靶,但是可以使用多于一个的标称靶。耙序列可以与生物的子集中共有的单一基因相对应,并且所述生物列表可以包含单一物种的多个林。若所得的最终原型列表不能检测全部生物,则可以用不同参数(如靶、候选原型、探针长度、片段长度和最小碱基响应数目)重复所述方法或其部分。实施例2肠病毒和腺病毒-使用肠病毒和腺病毒作为生物列表实行所述方法。最终原型序列确定为SEQIDNOS:14-51。产生了含有从这些原型中生成的探针组的再测序微阵列并且命名为RPMv.3。显然,在上文教授内容的影响下有可能产生本发明的众多修改和变异。因此将理解的是可以实施所要求保护的发明,除非具体说明。对单数形式(使用冠词"a"、"an"、"the,,或"所述,,)的权利要求要素的任何称谓不得解释为将该要素限于单数。权利要求1.一种计算机执行的方法,其包括提供与生物列表中一种或多种生物相关的靶序列列表;提供疑似与一个或多个所述靶序列杂交的候选原型序列列表;生成与每个候选原型序列相对应的探针集合,每个探针集合包含针对每个子序列的探针组,所述的子序列具有相应候选原型序列的预定、固定的子序列长度,所述探针组由相应子序列和通过变动相应子序列的中央核苷酸所形成的相应子序列的每一变异组成;生成与每个靶序列相对应的片段组,每一片段组包含具有相应靶序列的预定、固定片段长度的每个片段;计算每个片段与该片段的完全互补性序列的结合自由能,并且若任何结合自由能高于预定的固定阈值,则将该片段一次延伸一个核苷酸直至所述结合自由能低于该阈值或该片段与所述探针等长,生成延伸片段组;和确定哪个延伸片段是针对任意探针的完全匹配物;和装配与每个候选原型序列相对应的碱基响应序列,所述的碱基响应序列包含与相应原型序列的每个探针的中央核苷酸相对应的碱基响应,其中所述的探针是针对任何延伸片段的完全匹配物,但对于该碱基响应而言,含有所述完全匹配探针的该探针组的其余成员不是针对任何延伸片段的完全匹配物;和在全部其它环境下的非碱基响应。2.根据权利要求1所述的方法,其中,所述革巴序列的子集对应于所述生物的子集共有的单一基因。3.根据权利要求1所述的方法,其中,所述生物列表包含单一物种的多个抹。4.根据权利要求1所述的方法,该方法还包括选择已知在所述生物至少之一中存在的标称靶序列;针对已知序列的数据库进行相似性搜索以添加与标称靶序列具有至少预定相似性程度的额外靶序列;和生成与耙序列列表相同的候选原型序列列表。5.根据权利要求1所述的方法,其中,所述的子序列长度是25。6.根据权利要求l所述的方法,其中,所述的片段长度是13。7.根据权利要求1所述的方法,其中,所述的结合自由能根据寡核苷酸最近邻模型计算。8.根据权利要求1所述的方法,其中,所述的结合自由能阁值是约-14.5kcal/mo1。9.根据权利要求1所述的方法,该方法还包括针对每个候选原型序列生成含有该候选原型序列的匹配性生物列表,其中,与该候选原型序列相对应的石威基响应序列包含固定的最小石威基响应数;将与匹配性生物最长列表相对应的候选原型序列移至最终原型序列列表;从所述生物列表中消除与所移动原型序列相对应的匹配性生物;并且重复所述的移动及消除过程直至所述生物列表为空。10.根据权利要求9所述的方法,其中,最小碱基响应数是50。11.根据权利要求9所述的方法,该方法还包括制造含有与每个最终原型序列相对应的每个探针组的再测序微阵列。.12.根据权利要求11所述的方法制造的微阵列。13.根据权利要求11所述的方法,其中,所述的微阵列还包含与微阵列上每个探针互补的序列。全文摘要如下是一种计算机执行的方法。提供与生物列表中一种或多种生物相关的靶序列列表。提供疑似与一个或多个所述靶序列杂交的候选原型序列列表。生成与每个候选原型序列相对应的探针集合,每个探针集合具有针对每个子序列的探针组,所述的子序列具有相应候选原型序列的预定、固定的子序列长度。所述探针组由相应子序列和通过变动相应子序列的中央核苷酸所形成的相应子序列的每一变异组成。生成与每个靶序列相对应的片段组,每一片段组包含具有相应靶序列的预定、固定片段长度的每个片段。计算每个片段与该片段的完全互补性序列的结合自由能。若任何结合自由能高于预定的固定阈值,则将该片段一次延伸一个核苷酸直至所述结合自由能低于该阈值或该片段具有与所述探针相同的长度,生成延伸片段组。确定哪个延伸片段是针对任意探针的完全匹配物。装配与每个候选原型序列相对应的碱基响应序列。该碱基响应序列具有与相应原型序列的每个探针的中央核苷酸相对应的碱基响应,其中所述的探针是针对任何延伸片段的完全匹配物,但对于该碱基响应而言含有所述完全匹配探针的该探针组的其余成员不是针对任何延伸片段的完全匹配物;和在全部其它环境下的非碱基响应。文档编号G01N33/48GK101535802SQ200780031084公开日2009年9月16日申请日期2007年8月22日优先权日2006年8月22日发明者乔尔·M.·施努尔,大卫·A.·斯滕格,安东尼·P.·马拉诺斯基,林宝川,峥王申请人:海军部长代表的美国政府
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1