再测序病原菌微阵列的制作方法

文档序号:440198阅读:3473来源:国知局

专利名称::再测序病原菌微阵列的制作方法再测序病原菌孩史阵列相关申请本发明要求了2004年7月2日提出的美国临时申i青第60/590,931号,2004年9月15日提出的美国临时申i青第60/609,918号,2004年11月29日提出的美国临时申请第60/631,437号,2004年11月29日提出的美国临时申请第60/631,460号和2005年6月16日提出的美国临时申请第60/691,768号的优先权。联邦资助项目声明才艮净居来自国防威月办1^孑氐局(DTRA;InteragencyCostReimbursementOrder(IACRO#02-4118),MIPRnumbers01-2817,02-2292,02-2219,和02-2887),美国空军军医长办/^室(HQUSAFSGR;MIPRNumbersNMIPR035203650、NMIPRONMIPR035203881、NMIPRONMIPR035203881)、美陆军医学研究(Contract#DAMD17-03-2-0089),国防高级研究计划局(DARPA;MIPRNumberM189/02),和美国海军研究总署(NRLWorkUnit6456)的基金,美国政府拥有本发明的权益。版权声明专利文件的公开部分包含了受到版^又保护的材料。当它以美国专利商标局专利文件或记录中公开时,版权所有者不反对他人景》印复制美国专利商标局7>开的专利文件或记载,^旦在其它的方面<呆留所有片反权。序列列表本申请包括附属光盘上序列列表,该光盘含有文件名为NC97416.txt,2005年7月15日生产,容量大小639KB,和另外标i己申请人美利坚合众国政府,由海军部长所代表题目为再测序病原菌孩史阵列文^牛引用号NC97,416附属光盘的全部内容通过在此引述而合并于本申请中。本发明提供了采用DNA再测序微阵列进行病原菌检测。优选,本发明提供了多个病原菌的同时测定方法。本发明也提供了再测序微阵列和区分诊断用的微阵列芯片和生物样本中紧密相关病原菌间的细《敬区别。本发明进一步提供了检测生物样本中病原菌的存在和识别的方法。本发明能够-珍断和监^L已知病原菌序列和由于未预期序列突变而^皮确定的病原菌,以及这种病原菌的混合物。联合一些扩增策略,再测序允许同时临床诊断和血清类型分类的传统监测试验、抗生素耐药性、遗传漂变/遗传漂移分析、法医、和生物恐怖事件的快速4笨测。本发明也是关于多种自动筛选体系,该体系包括采用可供选择的生成核酸或蛋白序列的任意方法自动子序列筛选体系。该系统适用于自动筛选由再测序DNA樣t阵列获得的不完全核苷酸序列数据的子序列,依据系统预先确定的参数或使用者确定的参数,采用一种或一种以上相似性搜索算法来筛选最适于对比预先确定数据库序列收集的序列子集。本发明的实施方案也能够进一步分析和表达由一种或一种以上子序列提交的相似搜索得到的相关结果。这里描述的本发明的主题分辨序列标记的组合,该序列标i己组合源于多个序列輩巴点(例如,孩乏生物)的混合或源于单个革巴点内序列的重排。基于DNA微阵列的相对信号强度值,本方法的实施方案也能分配相对丰富的混合耙点序列。此外,本发明的一种主题为采用"原型"序列块表达相关把点序列(例如,病原菌)的范围,设计再测序DNA微阵列的迭代程序的完整组成组分。
背景技术
:由于我们正在经历人类基因组工程的生物技术时代,已经将额外费用投入到发展获得和分析序列信息的高产量方法学中。为了满足这种需要,多功能DNA微阵列平台已经拥有导致应用方法中应用爆发性增长的显著名声。更重要的,世界事件的发展和主流社会中生物恐怖行动的出现已经引起科学团体增长的情绪并且^f吏人们必须发展用于鉴别和清除生物威胁的新颖、快速并准确的4i术。用于广"i普病原菌鉴别的嶺i阵列的扭无念对医疗实践和国家防御都具有相当大的和显而易见的吸引力。在这个构架中,本发明者已经做出了努力。迄今,通常依赖于微阵列表面上的固定"探针"DNA序列与互补基因组"靶点"的杂交能力来实现鉴别病原菌的目的,该互补基因组"耙点"独一无二鉴别特殊种类或特异性细菌病原菌。针对该目的已经发展了不同的^l阵列技术,这些寺支术在4笨针密度和试验完成需要的时间范围上有所不同。由于在获得具有足够量病原菌核酸样本中的困难,产生了用微阵列进行病原菌检测的技术挑战。因此,对于大部分样本类型,某些种类的耙点扩增将有可能需要提供用于经微阵列杂交进行检测的病原菌基因标记的足够拷贝。不幸的是,扩增的惯常方法与放置于微阵列芯片上的探针数量相比标度不好。然而,提供足够量的基因组把点纟企测杂交的更普遍采用的方式依赖于基因型鉴定方法,该基因型鉴定方法利用分子生物学技术,例如聚合酶链反应(PCR)。这些技术比惯常微生物学方法具有一些潜在优势。核酸扩增策略病原菌鉴定基于有机体内的基因信息的检测,例如不需要培养有才几体。尽管PCR测试灵敏、准确并且快速,这些方法也带来新的问题。成功的鉴定完全依赖于适当的选择引物,如PCR测试要求作i设乾点有机物固有的精确序列。因此,迫切需要先进的诊断体系以检测假定的和不可预料的病原菌序列。DNA孩i阵列能够查询l史千个遗传因素,处理该紧要的需求。术语"微阵列"统指一类在单个位点具有高度复制能力(102到106)的平面底物或固体资球,每一种核酸探针-没计用于选择性地捕获互补链的靶点(例如病原菌或宿主)核酸。然而,文库内描述的大部分病原菌鉴定微阵列采用寡核苷酸制备得到,该寡核普酸被机械设备控制点样于衍生的玻璃表面上(一般为3x1英寸载波片)。这种方法^f吏得寡核苷酸的尺寸具有最大的灵活度,该寡核苷酸被沉淀下来,范围从20-mers到几千个石成基对(bp)的cDNAPCR产物。无一例外,检测结果为在具有焚光团标记的靶点核酸的杂交之后污点产生的加强的荧光。Argonne国家实验室(DOE,USA)和Engelhard分子生物学研究所在AndreiMirzabekov领导下共同努力已经使固定在丙烯酰胺衬垫内的短寡核苷酸(14-25mer)广泛用于与病原菌鉴定中(参见Strizhkovetal.,2000;Vasiliskovetal.,1999)。此外,寸氐密度《鼓阵列(几百个3x1英寸栽波片)已经用于抗药物决定因素的确定(参见Volokhovetal.,2003)。该工作主要部分的一个不同方面是使用了探针固定的三维聚合物矩阵代替二维平面。目前,Cherkasova等人描述了玻璃固定短寡核芬酸点样微阵列,使用重叠14-25mer4笨针来描绘脊髓灰质炎病毒突变(Cherkasovaetal.,2003)。这种方法的两个改变已经进4于卩吏用(l)再测序孩£阵列和序列异质性(MARSH)试验,和(2)病毒重组的微阵列分析(MAVR)试验。MARSH使用了一组重叠的单个基因序列(半长度)核苦酸探针。杂交方式使得单点突变或取代或缺失成为半个4采针长(如,7-10bp)解决方法而不考虑位点的准确检测或不变的性质。因此,惯常的DNA测序技术后来一定被用于检测这些改变。MAVR〗吏用以150nt间3巨覆盖整个基因组的有^L体-特异性寡核香酸^果针并且用于4企测大规^莫遗传重组。UCSF的DeRisi组开拓了使用长(70-mer)寡核苷酸探针微阵列用于光谱病原菌鉴定(Wangetal"2002;Wangetal.,2003)的方法。长(70nt)寡核苷酸的4吏用具有绝对优势和劣势。一种优势是相对于较短^笨针(例如,7-10)而言通常能由70-mer探针得到更高程度的灵敏性。然而,因为70-mer把点/探针杂交一般对显著性数量的单碱基不匹配不灵敏而减少了特异性,然而,较短探针提供了更大的序列特异性。DeRisi's工作组描述^f吏用具有1,600个不同的70-mer寡核苷酸#>1十的点样微阵列来鉴定引发普通呼吸感染的多种病毒(Wangetal.,2002)。采用算法定位于已知病毒基因组列表中的鉴别序列,为每个病原菌选择的探针。先前描述的方法和后来PCR/Klenow片断基扩增的一系列组合^皮用于获得病毒KNA和DNA的无偏扩增,生成足够量的成功孩i阵列杂交的靶点扩增子并且经荧光标记检测。(N.B.这个草案纟皮置于DeRisi实-睑室网址的7>共领域中dittp:〃derisilab.ucsf.edu)')。为得到结果进行样本准备需要的时间约24个小时。因为确定序列信息从这个阵列得不到,病原菌鉴定是以杂交方式为基础的,杂交方式能凭经验确定每个或每一4朱病原菌。在同一研究组的相关报告中(Wangetal.,2003),采用高度保守序列制备类似微阵列努力从样本中捕获尽可能多的微生物种类。随后从微阵列中物理除去病原菌序列,克隆该序列并使用惯常DNA测序技术进行测序。在DeRisi研究组的工作中没有提供临床样本中病原菌4企测的分析/临床灵敏性或特异性的测量。相对于上面提到的使用点样孩i阵列的方法,Affymetrix,Inc.(SantaClara,CA)使用高度密度探针制备技术在被测序的每个核苷酸碱基的正义和反义方向采用4个探针来构建"拼接"微阵列。因此,单碱基取代通过杂交冲莫式直4妻#^企测出(额外4言息参见AffymetrixCustomSeqdesignmanual)。一些工作组描述可使用病原菌基因型拼接微阵列。(Kozaletal.,1996)利用这种类型的微阵列测量HIV内突变漂移,而Gingeras等人(Gingerasetal.,1998;Troeschetal.,1999yf吏用65,00(M氐聚物4笨针的tiled阵列进行再测序并精确鉴定27个分枝杆菌的70个临床分离物和15个耐利福平结核分枝杆菌抹。目前,Andersen等人(Wilsonetal.,2002b)描述了4吏用tiledAffymetrix微阵列鉴定生化战试剂。他们的方法完全依赖于实施特异性PCR反应的Y吏用同时生成孩i阵列杂交用的足够病原菌耙点DNA。在所有上述列出的情况中,特异性PCR引物用于在《敬阵列杂交之前扩增DNA*^点,通过使用保守引物位点,在多井格式中执行150个不同PCR反应并且共有扩增子。美国专矛j6,228,575Bl4笛述了4口Gingeras(Gingerasetal.,1998)禾口Troesch(Troeschetal.,1999)描述的相同的数据。在该专利中,耙点病原菌序列被拼接到阵列中。因为病原菌序列中的一些类型的变异(esp.插入/缺失或频繁多重取代)能扰动杂交模式,Gingeras等人使用特异性病原菌杂交模式的不同测量方法来鉴定单个分枝杆菌变异体。那就是说,鉴定需要杂交才莫式的先-验知识,该杂交才莫式在陆地实测试-验中^皮经-验确定出。如同上面阐述的,迫切需求先进的诊断系统来探测抑制和病原菌基因组序列以及这些序列的变异。更特殊的是,迫切需要快速可信的DNA微阵列4支术,而且此樣i阵列纟支术没有迄今已经净皮采用的PCR方法的系统偏差。生物学与工程和计算机科学的融合导致生物技术和生物信息学的出现,其目的之一在于迅速获得和分析疾病诊断用的基因组和蛋白质组序列信息。这种方法的实验活性和普遍可用性主要基于DNA微阵列的出现(Stengeretal.,2002)。一般来说,孩史阵列制备应用微处理器制造业的方法来制备能迅速可信鉴定生物样本中的DNA序列或蛋白质的"基因芯片"。术语"微阵列"统指任意类型的平面底物或可供选择的矩阵,在单个位点具有高度复制能力(102到106),每个存在的探针(固定核酸或抗体)被设计选择性捕获溶液中互补链的靶点(例如,基因或基因转录)分析物。经设计,DNA微阵列能同时审查几千个基因或基因转录因素。在使用再测序DNA微阵列进行遗传分析中,含有扩增和荧光标记遗传靶点的溶液经过微阵列,该微阵列由大量"拼接"格式的寡核苷酸探针组成(Kozaletal.,1996)。样本中的互补序列结合相应的孩i阵列上含有的探针。然后,使用如激光扫描仪分析微阵列,该激光扫描仪记录孩i阵列4笨针光发射强度。然后,采用用于生成"碱基响应"的阵列特异性软件分析被记录的强度,阵列特异性软件为描述鉴定生物样本中核酸(腺噪呤;A,胸腺嘧咬;T,胞核嘧啶;C,或鸟嘌呤;G)某种程度的概率确定性序列的计算方法。广泛IUPAC定义^码也用于描述了不准确地碱基响应(参见,2004年7月2日提出的美国临时申请序列号60/590,931题目为"再测序病原菌微阵歹寸",4卜充资泮+,AppendixJ"gdas一manual.pdfpage255)。力口果革巴点序列与再测序序列的适宜拼接区域充分一i丈(每25个碱基有小于1-2个碱基取代),那么靶点的全部再测序是有可能的。然而,当靶点序列包含插入、缺失或碱基取代在靶点序列每25个石威基大于2个取代次数时,拼接区域的杂交被中断。"无[碱基]。向应"的结果由微阵列拼接区域上的相应序列中得到。当溶液中把点核酸浓度^f氐或当存在千4尤水平的杂交溶液中竟争底物核酸时,也导致N响应。不完全生物序列信息也能由许多其他核酸或蛋白质序列技术产生。再测序的主要应用是为了检测低概率单核苦酸多态性(SN:Ps)或靶点序列限制范围内的突变。然而,尽管在工业中目前没有惯用的实施方法,孩t阵列序列输出也能与序列数据库对比来鉴定靶点序列。目前使用的序列数据的最普遍比对方法,或类似性搜索算法为基本的局部比对4臾索工具,普遍以"BLAST."箸称并且这里统称为"BLAST."。它存在许多变体,包括华盛顿大学BLAST(WU-BLAST)、NCBI-BLAST、FASTA、MPsrch、Scanps、和BestFit(Korf,Yandell&Bedell,2003)。依据测-武样本包4舌已知序列的匹配生物主体的确定性,一4殳这种比对产生许多可能匹配u既率性测量)。微阵列密度分析序列产量经常与包括生物主体的已知序列进行比对,该生物主体包括病原菌樣t生物。然而,本发明
技术领域
中的普通4支术人员不能从:规觉上确定拼接区域中的最好序列部分,该拼^接区域包含经过改变无响应(N)的凄t量介入和在一些情况下受支配的A、C、T和G石威基响应。用于遗传测序和鉴定用微阵列预期提高了一种研究者从生物样本中4是耳又大量序列lt据比^f大量先前测序的有4几体和生物质的能力。然而,研究者不能利用有效时间信息。对研究者因过度等待时间提交的比对样本序列,冲莫糊结果也是令人困惑的难题并且差结果与尝试匹配模糊结果相关。因此,对研究者来说从序列比对中获得更相关结果的广泛使用的方法是分析搜索子序列的序列输出,该子序列具有获得相关结果的较高概率。特别的,许多研究者经常发现自己手动并主观筛选,或^见觉分析某些子序列,与序列数据库中子序列比对。结果,研究者消耗了时间和资源提交的类似性搜索是相对緩慢并且主观优化的序列数据。因此,上面提到的资源利用问题的目前解决方案导致了研究者要求的额外时间和资源要求必备的条件。此外,如同目前解决方案具有主观性以及时间密集型的,促进基因组研究发展(或加速)的净收益至多是不确定的。然而,如同上面提到的,已知生物序列的巨大4诸存库通常包含在共享计算资源中。这些共享计算资源要求大量数据存储能力,以及具有与数据库中序列比对提交序列的强大工具。由于研究者生成的大量序列凄史据改善了一般研究使用的微阵列并增强了其可用性,主要任务在于利用宽带共享数据库(和相关系统)并且处理要求显著性提高了。换句话-沈,广泛使用微阵列可能得到的数据增加通常导致更难有效利用共享生物信息计算资源。例如,如果才是交的序列含有大百分比的不确定序列^t据,序列^t据库计算資源将设法找出与固有的不确定序列相匹配的序列,导致所有《氐确定性的可能类似性搜索结果。图lO(a)为说明目前可能釆用工业可用方法执行工艺的示范流程图。在这个实施例中,采用类似性搜索109,提交对应于主体序列的核苷酸或氨基酸序列凄t据103与已知序列l丈据库进4f比对。当与数据库i己录比对时^是交序列103,109可能或不可能获4导统计学显著或有意义结果。因此,经定义,4吏用大量确定类似性算法中的任何一种,采用"比对"方法对序列记录数据库执行查询序列的类似性搜索(例如BLAST)。上迷"可比"序列与至少数据库中的一种序列具有足够程度的类似得到至少一种统计学上显著性结果(使用者定义)。对终端用户来说,^L觉鉴定和选择连续性核苷酸^成基响应(仅由A、T、C、或G残基组成)或可比较的氨基酸。然而,由于含在靶点序列内的"Ns"的数量或百分比提高,对终端用户更加困难凭一见觉确定完整序列或其中的子序列的可比性。结果111包4舌高相克率匹配llla,4交《氐积克率匹配lllb,和有凌文量的乡先计学上无显著性结果Ulc,结果lllc导致与K据库偶然匹配。经类似性:捷索算法Ns处理为"aNy"(wildcard)^性,意味着当使用缺省参数时,N可为四个碱基残基中的任何一种或间隙。在再测序DNA输出中,Ni充明再测序算法不能解决响应并且能对应四个^成基残基(A、T、C或G)的任何一种或对应空腔(Korfetal.,2003)。在在提交序列中包括许多无响应(Ns)的情况下,类似姓搜索(如BLAST)将计算出E值比认可E值(如1.0e-9)高,说明偶然性更大,返回的序列不是独一无二的。类似:地,短序列可能具有较高E值,说明确定独一无二的DNA存在中,终端用户缺乏使用短序列。结果lll包4舌:i午多不确定结果11lc,那么剩下的结果111成为研究者分才斤的113。在图10(a)中,显示出其他用户将碱基响应序列提交给共享序列数据库109,处理这些局部4非列3叟索的附加要求。如上面描述的,多个用户4是交不确定序列给共享序列排列资源经常导致可用计算资源仅服务于一'!、部分序列提交。图lO(b)说明这个可供选择情况经常在工业实施中发现,研究者时间消耗是4吏人困惑的难题。相对于先前说明的情况,在研究者手动实施的119切割和粘贴才喿作中改变103序列凄t据。更特殊的是,研究者经常目测扫描原始数据输出并且主观拷贝和粘贴119原始数据输出子集,119原始数据明显包含專交少的"Ns"并JU是交这些主》见筛选121比5i十109。然而,如主3见实》包子集筛选并且重复大量原始数据,人篩选的4是交物121通常包括可比的121a和不可比的121b数据。因此,BLAST比对123的结果仍包括一系列可能匹配,范围从高概率匹配123a到低概率匹配123b,其经常由筛选引起,而筛选中存在许多无响应123c而不存在由无类似性的序列匹配引起的低概率匹配的预期结果。根据上面讨论的,图10(c)是在有线或无线网络128上,与计算机终端的序列数据库服务器作用的这个系统i殳计的示意图。在一些情况中,序列数据库(和相关服务器)127远离终端用户129。可供选择地,一些设备定制序列lt据库133,凄t据库133可进入局部终端131。然而,上面纟是到的时间和共享资源消耗的问题在时间消耗较大增加的公共数据库水平的设备配置中是显著性的。许多不同因素能导致再排序DNA嶺O车列不能产生确定碱基响应。在纯净把点样本中,碱基响应的杂交4莫式(Cutleretal.,2001;Kozaletal.,1996)被中断。一种靶点序列完全不同于探针序列,该探针序列拼接在微阵列表面上。这在再测序樣i阵列车lr出文档的阻断^立中引入了N响应。当才羊本不纯而含有不同量的其4fc核酸分子,发生了相同效应,该核酸分子能〗氐亲和力非特异性结合拼接探针,导致经探针装置较低信噪比的杂交(荧光)信号。为说明这些因素怎么能确定是否序列是可比4交的或不可比较的数据,图10(d)显示了当发生不完全杂交时发生了再测序DNA孩i:阵列输出文档的实施例。在该说明情况中,序列135是FASTA形式,然而可供选择的序列数据才备式同样适于,包括,但不卩艮于plain、EMBL、GCG、GenBank、和IG。在实施例中,序列136为序列子集140(子序列)。实施例子序列140包括具有大量无响应(Ns)137的子序列,子序列太4豆而不能/人类4以性:溲索j!口BLAST139中返回有效结果,并且子序列可能生成有效结果143。此外,由aliase产生多重序列,其位于序列标头138,涉及存在于微阵列表面上的探针拼接装置。总的来说,上面提到的目前工业实施的问题基本关于研究者时间消耗和共享资源分配。更特殊地,样本中得到的增加量的子序列数据导致共享资源,如序列比对数据库利用的迅速增加。这种迅速增加成为逐渐增加的群体(研究者和数据)效率使用的必要条件。为了更有效使用共享资源,现在研究者面临着需要耗费时间和资源来主观手动筛选比对序列子集。根据上面陈述的,迫切需要先进的诊断体系以迅速探测出已知和未预料到的序列。更特殊地,迫切需要:DNA微阵列技术,尤其在共享类似性搜索数据库和系统的利用中,该DNA樣i阵列技术减少了人工输出的需要并且提高了共享资源利用的效率。除了上面描述的工业中存在关于更有效率使用研究者和共享计算资源的问题,世界事件的发展和传染性疾病的出现以及主流社会中生化恐怖除威胁的新颖、迅速并且准确技术。用于广谦病原菌鉴别的微阵列的概念对医疗实践和国家防雄卩都具有相当大的和显而易见的吸引力。在这个构架中,本发明者已经在努力。此外,不管序列数据的来源,需要更有准备和强有力确定混合物和生物序列凄l据的生物样本中组合。
发明内容本发明的目的是提供下列优选实施方案:在本发明的一种实施方案中,多妾且寡4亥脊酸引物的再测序DNA孩吏阵列固定在固相支撑物上,该寡核普酸引物长度范围在13至70个核苷酸,其中每组寡核苷酸引物被选择跨参考序列的特殊区域,占用阵列(如,拼接)的不连续区,并且包括至少芯片上平行方式安排的四组引物l)第一组与参考序列互补;和2)三组额外引物,除了中心位置上的核苷酸之外,每一组与第一组引物一致,这三组的各自的中心位置上的核普酸也相互都不同,使得所有四个常M^核苦酸石威基出现在上述阵列中。a.在本实施方案的一个优选方面中,寡核普酸引物的长度为25个核苷酸。b.在本实施方案的一种优选方面中,寡核普酸引物3争越的参考序列区域经(n+l)个核苷酸穿过参考序列进行移动,参考序列的每个邻近拼4妄区域穿过微阵列表面。c.在本实施方案的一种优选方面中,再测序DNA樣i阵列包含18x18微米特点。d.在本实施方案的一种优选方面中,再测序DNA微阵列包含8x8^敬米特点。e.在本实施方案的一种优选方面中,篩选出用于4并接的序列为单基因或子序列,该子序列可能代表更广类型的有机物类、种类和亚种类。f.在本实施方案的一种优选方面中,筛选出用于拼接的序列为"原型",该原型代表病原菌家族的基因型。g-在本实施方案的一种优选方面中,筛选出用于樹-接的序列为"原型",该原型^^表^^病毒家族或&泉病毒组。h.在本实施方案的一种优选方面中,筛选出用于^H娄的序列为"原型",该原型代表流行感冒病毒家族或流行感冒病毒组。i.在本实施方案的一种优选方面中,筛选出用于拼、接的序列为单基因或子序列,该子序列对单个病原毒抹是独一无二的。j.在本实施方案的一种优选方面中,篩选出用于^H姿的序列编码耐药标记。k.在本实施方案的一种优选方面中,再测序DNA微阵列为呼吸病原菌微阵列版本l(RPMVl)。1.在本实施方案的一种优选方面中,再测序DNA孩t阵列为呼吸病原菌孩i阵列版本2(RPMV2)。m.在本实施方案的一种优选方面中,至少一种普通病原菌和至少一种生物恐怖药剂在同一芯片上。n.在本实施方案的一种优选方面中,再测序DNA孩i阵列包括前述方面的1"壬{可组合。在本发明的一种实施方案中,试剂盒包含(a)前述再测序DNA孩t阵列,和(b)适于靶标序列与上述再测序DNA微阵列上的4冢针序列进行特异性杂交的试剂。本发明的一种实施方案为检测微生物或属于特殊类型有机物种或亚种类的微生物中存在耐药标记的方法,其中该方法包括(l)提供了上面描述的再测序DNA纟效阵列;C2)4妻触上述再测序DNA孩t阵列未知样本;(3)在适宜条件下,将上述未知样本与固定在上迷再测序DNA4汰阵列的4笨针序列杂交适宜的时间;(4)检测微生物或属于特殊类型有机物种或亚种类的微生物中耐药标i己的存在和/或同源性,和(5)4全测足够量的病原菌序列/人而为病原菌可能来源进行法医学鉴定a.在本实施方案的一种4尤选方面中,本方法用于4全测特朱病原菌种类的存在。b.在本实施方案的一种优选方面中,本方法用于^全测耐药标i己的存在。c.在本实施方案的一种优选方面中,杂交时间范围在15分钟到24小时。d.在本实施方案的一种^f尤选方面中,未知样本为生物冲羊本,包4舌鼻腔冲洗液样本、喉咙4式子标本、血液样本、和唾液样本,或环境样本,包括-土》襄样本、空气样本和水样本。e.在本实施方案的一种优选方面中,杂交前,未知4羊本经过下列一种或一种以上步骤(l)分离,(2)富集主体靶点序列,(3)扩增,(4)标记,和(5)杂交(例如,消减杂交)。f.在本实施方案的一种优选方面中,杂交前,未知才羊本中主体的革巴点核酸经特异性反转录(RT)、PCR、多重PCR、和/或随机PCR进行扩增。g.在本实施方案的一种优选方面中,杂交主体耙点核酸之前,未知样本经随机扩增策略(例如,随机引物的、等温Klenow聚合酶、029DNA聚合酶、串联扩增、多重PCR、和全部扩增)。h.在本实施方案的一种优选方面中,对上述未知样本中的DNA进行西。i.在本实施方案的一种^尤选方面中,上述未知4羊本中主体輩巴点核酸经消減从上述未知样本中背景核酸进行富集。j.在本实施方案的一种优选方面中,通过/人包含核酸的未知才羊品>'昆合物中选择性除去革巴点核酸,从而富集未知冲羊品中的目标核酸。k.在本实施方案的一种^尤选方面中,上迷未知才羊本中主体革巴点4亥酸经具有完整或部分序列同源性的探针筛选性捕获进行富集,随即进行扩增和杂交到^:阵列上。1.在本实施方案的一种优选方面中,上述纟笨测存在和/或同源性是通过(a)才艮据上述未知样本的主体核酸和再测序DNA^f毁阵列上4冢针DNA之间的杂交反应进行碱基配对和(b)通过将杂交区序列和序列数据库内序列进行比4交确定相应全长基因或基因组片l爻的序列。i.在特别优选方面中,石咸基响应经AffymetrixGDAS软件在"许可"i殳置下生成。ii.在特别优选方面中,序列鉴定是经再测序病原菌辨识器(REPI)软件进行(参见2004年9月15日提出的美国临时申请序列第60/609,918号和2004年11月29日提出的美国临时申请序列第60/609,918号)。iii.在特别优选方面中,序列翁:据库为GenBank。本发明的一种实施方案为采用上面C方法常规/诊断普通呼,及病原菌和/或生物恐怖药剂的方法。本发明的一种实施方案为十三个在本发明日期时未知的腺病毒4朱的基因组序歹"),包括Ad3、Ad3FS—丽y、Ad4、Ad4vaccine、Ad4FS—navy、Ad4FS—AF、Ad5FS、Ad7、Ad7FS—丽y、Ad7vaccine、Adl6、Adl、和Ad21和其片l殳。—本发明的一种实施方案为采用上面C方法监视普通呼吸病原菌和/或生物恐怖药剂的方法。本发明的一种实施方案为评估生物样本中相对量的病原菌的方法,该生物样本包含提供上面描述的再测序DNA微阵列同一组成;(2)接触上述再测序DNA嶺t阵列生物样本;(3)在适宜的条件下,将上述未知样本与固定在上述再测序DNA微阵列上的纟莱针序列杂交适宜的时间;和(4)量化上述未知样本中;f鼓生物或属于特殊类型有机物种类或亚种类的《敖生物中的耐药标记的存在和/或同源性。a.在本实施方案的一种优选方面中,上述定量通过确定芯片上杂交信号的绝对强度进行。b.在本实施方案的一种优选方面中,通过确定碱基响应的百分比进4亍上述定量。所述碱基响应百分比即可以视作总拼接区域尺寸的百分比又可以视/f乍满足滑窗算法(例如,REPI)的筛选子序列内的碱基响应百分比。本发明的另一种方面提供了计算才凡实施生物序列辨识器(CIBSI)系统和依据至少一种筛选参数从生物序列数据中筛选子序列的方法。至少一种筛选参数对应于从类似性搜索返回有效结果的可能性。本发明的附加实施方案提供了自动筛选最佳序列或子序列的系统,该子序列用于比对一组预先确定的未知序列。选择性地,系统自动用Ns分布高度片段的序列,并且筛选可比对能从类似性搜索中返回有效结果的子序列。选择性地,该系统利用滑窗型算法筛选子序列。随后,该系统自动^人类似性4叟索返回输出全会终端用户,{吏得随4几分配对应预先确定序列的*合定碱基响应。在本发明的附加实施方案中,源自石威基响应算法的序列信息,如应用于微阵列杂交模式,用于鉴定测试样本中的单个生物体。选择性地,微阵列的再测序探针确定的靶点序列采用类似性搜索算法查询数据库。类似搜索算法包4舌,^f旦不限于,普遍4吏用的局部比对(例^口,Smith-Waterman,BLASTN)序列比对算法来统计学上确定i合定輩巴点序列对应凄t据库中特异性序列的概率。(Korfetal,2003)此外,本发明的另外实施方案》合用户提交了类似性搜索的结果关于是否样本中存在至少一种把点序列。在本发明的另一种实施方案中,信号强度数据(例如,从微阵列中得到的数据)由系统处理并且与序列数据相关。收集类似性搜索的结果或提炼给用户显示出生物体(包4舌,《旦不限于,病原菌)存在与否。此外,由于相对充足的生物体(包括,但不限于,病原菌),强度与上述结果相关。选择性地,系统提供给终端用户再测序微阵列试验中检测出的病原菌相关量的推测。本发明的另一种方面鉴定了序列的混合物和表示重组的序列。在一种实施方案中,系统自动检测出微阵列不同拼接区域上重叠或同源序列片段,推测序列的混合物。在另一种实施方案中,该系统确定了不同4并4妻区i或序列结果不重叠而对应于用于4,断遗传重组的连续序列。选择性地,该系统在不同序列间的不同遗传重组间进4亍鉴别。本发明的另一种方面提供了设计再测序DNA微阵列"原型"区域(参见,美国临时申请序列第60/590,931号)的方法。在这个情况中,一组相关耙点序列采用多重序列比对算法如ClustalW或Clustal—X(Thompsonetal.,1997;Thompson,Higgins&Gibson,1994)或搜索部分保守区域如HMMer(Eddy,1998)序列数据库的另一种方法进行比对,用于生成由比对柱给定残基位点的最常用核苷酸《且成的一致序列。一致序列由一致石威基响应和无响应(Ns)的混合物组成,比对柱内的每个残基位点不一致。选择性地,本发明的一种实施方案通过鉴定具有保守核*酸和变异核苦酸平衡的那些区域来搜索候选区,拼接到再测序DNA微阵列上,使靶点杂交到再测序微阵列拼接区域上,但还要考虑足够的序列可变性。这使得乾点序列的序列类似性搜索鉴定,包括用于生成一致的比对算法成为可能。在可供选4伞的实施方案中,核苷酸或氨基酸序列来自交替型序列发生器,包括(Shendureetal.,2004)中描迷的那些,并且局部氨基酸序列可组成蛋白质序列。该系统经选择的实施方案处理氨基酸或蛋白质序列,序列中相关位点为"f呆守型的。在其他经选4奪的实施方案中,核普酸序列包括蛋白质合成用编码的核糖核酸(RNA)转录。在鉴定抗扭点核酸重组的混合物的类似方法中,RNA转录混合物能被杂交并因此在拼接微阵列上再测序生成原始凄t据,才艮据与转录编辑和可供选4奪的剪接重组进行对比,该原始数据可采用本发明进行分才斤来鉴定相对量的不同RNA转录(Leipzig,Pevzner&Heber,2004)。本发明的附加实施方案可适用于核苷酸、转录产物、氨基酸、或其任何混合物。此外,本发明也适用于在本领i或中众所周知的程度上^f吏用不同类型的序列数据库和类似性搜索算法。而且,本发明的实施方案适合于或适应于大范围的方法和/或装置,这些方法和/或装置生成序列凄t据,包4舌但不限于人工或自动Sanger测序、常规J就阵列、再测序^設阵列、孩吏电泳测序、杂交测序(SBH)、Ednian降解和其变型、扩增分子上循环阵列测序、和非循玉不、单分子、实日于方〉'去:i口纟内米"L效'J序(Shendureetal.,2004)。上述目的强调了本发明的某一方面。后面的具体实时方式中描述了本发明的另外目标、方面和实施方案。经过下列附图i兌明和具体实施方式的描述,本发明的其他系统、方法、特^正和优势将对本4支术领i或中的^支术人员来说是显而易见的。所有附加系统、方法、特征、和优势都包括在本发明中,在本发明界定的范围内,并且受到所附权利要求的保护。经过参考下列附图和下面详细的描述,更容易获得本发明更完整评价和许多伊C势,同时,可以更好的理解本发明。图1是对版本1呼吸病原菌微阵列(RPMV1)的图形化描述。针对每个病原菌的所有拼接区域的几何分布由着色表示出(公正的)。Affymetrixspike-in对照在微阵列的顶部(白色的)。分布在拼接区域间的黑色区域不包含探针。图2显示出根据实施例1中描述的,将纯化的原型4腺病毒(登录号AY594253)DNA杂交到RPMV1上,随后使用(A)简并引物PCR(Linetal.,2004)或(B)GenomiPhi靶点DNA的全部扩增来分离和扩增核酸。简并引物PCR(A)导致保守引物位点覆盖的拼接区域内靶点的杂交。全部扩增(B)导致整个Ad4拼接区域的靶点杂交。两个方法均不产生显著性的孩i阵列交互杂交。在每个方案中,REPI鉴定了所有扩增子被杂交的Ad4拼接区域,除了在一种情况外(实施例1中进行描述的),正确的腺病毒4(AY594253)抹具有最高的BLAST("基本的局部比对搜索工具")的比值。图3显示根据实施例3中描述的,纯化的腺病毒5地方4朱(Ad5FS,登录号AY601635)(A,B)和原型腺病毒7(登录号AY594255)(C,D)DNA杂交:RPMV1,随后采用(A,C)简并引物PCR(Linetal.,2004)或如实施例3中描述的(B,D)GenomiPhi靶点DNA的全部扩增来分离和扩增核酸。筒并引物PCR(A,C)导致Ad5FS和原型Ad7内保守引物位点覆盖的拼接区;成内把点的杂交。全部扩增(B,D)导致整个Ad5和Ad7拼接区域的靶点杂交。两个方法均不产生显著性孩i阵列的交互杂交。在每个方案中,REP1:鉴定了所有拼接区域正确的腺病毒5(Ad5FS,登录号AY601635)林或腺病-眷7(登录号AY594255),扩增子被杂交。对于腺病毒7,原型Ad7被安排在Ad7疫苗拼、接区,正确区别于源自4丼接区的Ad7疫苗4朱(AY594256)。也值得4是到的是所有/^病毒扩增用的筒并引物;容液;波小量的Ad4和Ad7原型污染(由实时PCR反应产生的污染不i人为是阳性的)。污染物不引起容易辨别的杂交(如图3中显示的)但遗传数据分析软件(GDAS)生成碱基响应(配有微阵列阅读器形成Affymetrix,SantaClara,CA)和再测序病原菌辨别器(REPI)分配所有非故意A威基响应给正确的污染物。GenomiPhi溶液没;陂污染,各自试验中,在Ad5和Ad7拼接区外的腺病毒拼接区上无碱基响应。图4显示出如实施例4中描述的腺病毒4、5突破菌抹。患有发热性呼吸道疾病(以前4姿种过抗腺病毒疫苗)患者咽喉4式子培养物中的等量纯化核酸采用保守/筒并引物进行扩增,根据(:Linetal.,2004)的描述,另外依据AffymetrixCustomSeq标准策略实施。患者经血清分型抗体中和it断为Ad4阳性,并且经六邻体序列分析诊断为Ad5阳性。本发明者获得多重乾点杂交,导致所有腺病毒5和腺病毒7原型拼接区上的碱基响应。REPI分析揭示鉴别出了高置信度的&i病毒,例如Ad5(Ad5FS,登录号AY601635),而多重原型Ad7区域给出B亚群种类而非Ad7,即Ad21。再值得注意的是,如在图3中显示的情况,用于所有腺病毒扩增的筒并引物溶液无意间^皮小量的Ad4和Ad7原型污染。该污染物不引起在Ad4拼接(如图4中显示的)中的易辨识的杂交,但由GDAS和REPI引起的碱基响应被分配给正确的污染物(腺病毒4原型;登录号AY594253),不给基本军训地中传4番的地方林。此外,在Ad7拼接中获得的最高比值不是原型Ad7(不管低水平污染物)而是^泉病毒型21((Ad21;AY601633),Ad7原型(AY594255)代表B亚群腺病毒的另一种成员。采用Ad5常规DNA测序、Ad21扩增子测序、和点样微阵列结果证实了该样本中的Ad5和Ad21的混合物的观察(Linetal.,2004)。然而,经单个4并4娄区子序列中的高比4直检测出原型Ad7的低水平污染物并且对其进^f亍鉴別。因此,在该实施例中,意外受小量Ad4和原型Ad7(在;也方才羊本中没有发双L)污染,由Ad5和Ad21组成的意外混合的腺病毒样本被完全鉴别出。没有这类事件和探针设计成果,使用其他类型^t阵列(如,点样)不可能有这么详尽的辨别。图5显示根据实施例5描述的方法鉴定流4亍感冒A4朱的结果。等量流行感冒A抹发热性患者鼻腔沖洗物(经标准病毒细胞培养技术证实),在2003-2004流行感冒季节采用(A)通用的(Hoffmannetal.,2001)或(B)多^各(Offringaetal.,2000)RT/PCR进4亍免疫,并且4姿照冲示准AffymetrixCustomSeq策略进4亍处理。因为两个方案生成全部HA、NA、和M基因的扩增子,微阵列上各自拼接区域在两个方案中几乎完全杂交。两个方案的REPI输出显示出Fujian/411/2002流行感冒病毒株获得了HA3最高比^f直(ISDN38157—流4亍性感冒A/Fujian/4U/2002—红血球凝聚素—1042),该Fujian/411/2002流行感冒病毒抹在2003-2004流行感冒季节没^进行疫苗包括。用于定义HA34并接区的原型流行感冒AHA序列不在HA拼接石咸基响应的REPI输出中。因此,流行感冒A预期抹的原型区鉴定了未预期才朱。图6显示出依据实施例6中描述的减少杂交时间试-验的结果。在这个实施例中,鼻腔冲洗物被证实经箱t阵列:探试所有耙点为阴性,除了耐红霉素标记物SPYERMB、SPYE:RMTR、和SPYMEFAE每个都经过特异性多重PCR反应。然后,将扩增子杂交到分离的^t阵列上或者16个小时(A)或者15分钟(B),另外依照AffymetrixCustomSeq策略进行处理。相比较,15分钟杂交微阵列(B)信号强度低于对照组16小时微阵列(A)的信号强度(注意对(B)中微阵列顶部的Affymetrix对照组探针进行不完全杂交)。然而,三个拼接区的REPI输出显示了对于(A)和(B),每个区域的最高比值是相同的,尽管比值和预期值在较少杂交时间的情况下是较低的。30分钟和1小时杂交也获得类似结果,增加杂交时间得到的碱基响应的数量提高了。然而,这个实施例清晰地i兑明了具有不同杂交才莫式的靶点之间进4^f青密鉴别方法的稳健性。图7显示了实施例7中描述的消减杂交方法的功效。(A)显示了依照在LacklandAFB患有发热性呼吸疾病患者的等量鼻腔冲洗物中分离核酸的总扩增得到杂交模式。每微升104个遗传拷贝的估计效价,样本相对于Ad4为阳性的。高背景杂交穿微阵列抑制了GDAS生成碱基响应即使腺病毒4区显示的可分辨信号高于全部背景信号。如针对GDAS生成的无碱基响应,(A)中获得的同一组全部扩增子与COT-l部分人基因组DNA(B)共杂交4寻到小量提高。(C)显示了在全部扩增之前,单独使用磁性玻璃珠消减不导致足够量的碱基响应进行类似性搜索。然而,通过结合使用玻璃球基消减(链霉素涂覆玻璃珠结合生物素化COT-I人DNA)与液相COT-1人DNA(D)共杂交的联合使用,足够碱基响应可明确排列Ad4HEXON拼4妻区内辨别的三个序列的每个中的最高腺病毒4空军本地林(登录号AY599837)。此夕卜,实施用2微升起始样本材料代替1孩史升(E)的同一组组合步骤,碱基响应除了Ad4HEXON-l夕卜,深入到Ad4FIBER接区,4吏得在Ad4HEXON-l拼接和几个Ad4FIBER子序列中排序的Ad4本地抹有高的比值。图8显示了流行感冒病毒A靶点的杂交(Fujian411/2002),掺入到正常鼻腔冲洗物中,其次采用无偏差扩增RNA基因组革巴点方案(Wangetal.,2003)的最近描述的修改(Kessleretal"2004)进行扩增。图8(A-C)显示了105、103、和1(^个溶菌斑形成单位(pfu)剂量掺料的各自杂交才莫式(参见实施例9)。这些结果说明甚至在^吏用无偏差扩增方案时能获得本方法的功效。这应将全部方法延伸到未知RNA靶点的制备并且将特殊方案结合用于再测序孩i阵列的RNA和DNA病原菌革巴点的通用扩增。图9显示了本发明实施方案的流程图,其中RNA和DNA路径汇聚在一点。图10(a)为i兌明工业中目前4吏用方法的示范流#呈图。图10(b)说明了工业实施中通常存在的可供选择的方案。图10(c)为与比对彩:据库和月良务器相互作用的一《殳系统-没计的示意图。图10(d)显示了分析微阵列证实不良杂交的序列输出的实施例。图ll(a)为系统的一种实施例的示范示意图。图11(b)为再测序病原菌识别器(REPI)的一种实施例的示范示意图。图U(c)为ASP接触面的示范屏幕拍摄。图12为描述ASP—般功能性的流程图。图13为对照组4全查步骤地示范流#呈图。图14(a)为提取子序列步骤的流程图。图14(b)为依照系统的一种实施方案的滑窗实施例。图15为系统实施更详细剔除功能的示范流程图。图16显示了描述检验长度步骤中示范流程图。图17显示了计算百分比步骤地示范流程图。图18(a)为描述分析步骤中系统更详细活动的示范流程图。图18(b^兌明本发明的一种实施方案的示范输出。图19为描述系统的附加实施方案的示范流考呈图。图20为本发明的实施方案可被执行的计算机系统(或服务器)的方框图。图21为辨别混合物和再重组的实施方案的示范流程图。图22为合并数据给用户提供决策质量信息的实施方案的程式化示范示意图。图23为i兌明i殳计最优化再测序孩t阵列的方法的示范流寿呈图。图24为说明设计或最优化再测序微阵列的附加示范流程图。图25为系统树图的实施例。图26为多重比对的示范性图形表示。图27为多重比对生成的一致序列的实施例。图28为多重比对包括一致序列的另一种示范性图形表示。图29说明了修饰的一致序列的实施例。图30为本发明的一种实施方案的示范性结果。图31为依照本发明的实;^方案才莫拟杂交结果的实施例。图32i兌明了一致序列的另一种实施例。图33为依据本发明的实施方案格式化再测序阵列数据的示范流程图。附图中的各部分不一定是成比例的,主要是为了清晰地说明本发明的原理。此外,在附图中,同一凄t字指出了贯穿几个图形的对应部分。具体实施方式除非特殊定义,这里^f吏用的所有4支术和科学术语具有酶学、生物化学、细胞生物学、生物信息学、和医药科学中的技术人员普遍理li的相同含义。类似于或等同于这里描述的方法和原料能在本发明的实施或测试中使用,只要采用这里描迷的合适的方法和原料。在冲突的情况下,将以本it明书,包4舌定义部分为准。此外,原诗+、方法和实施例^又具有i兌明性,并不是限制性的,除非另外说明。众所周知,DNA微阵列可用于分析用于诊断或监视目的的病原菌中華巴点核酸的序列。寡核苦酸探针序列筛选、长度、表面上的位置、结合的生理化学性、和标记技术的影响是过去IO年中大少见模研究的主题。采用的方法几乎专有涉及单寡核苷酸探针(13-70mers)的使用,该单寡核苷酸特定设计与具有高度特异性单个可识别病原菌靶点序列(13-25mers)杂交或与具有较低特异性的较长病原菌扭点(70mers)杂交。这些微阵列以点样微阵列普遍周知,但相同内容的点样微阵列除了二维平面之外也能以其他形式具体化,一种实施例就是3皮璃3朱阵列(Ferguson,Steemers&Walt,2000)。已经有"i午多对4吏用Affymetrix再测序4效阵列鉴别和表征病原菌的简单描述。Kozal(Kozaletal.,1996)测量HIV中突变漂移并且采用再测序阵列,Gingeras(Gingerasetal"1998;Gingerasetal.,2001)、和Troesch(Troeschetal.,1999)鉴别了分枝杆菌种类并且单核苷酸多形性(SNPs)与耐抗生素有关。Wilsonetal.(Wilsonetal.,2002a)采用核糖体RNA,j吏用相同类型阵列鉴别细菌并且检测多重生物战药剂(Wilsonetal,,2002b)。使用再测序孩i阵列用于同时病原菌鉴别和监^L有超过单寡核苦酸方法的基础优势,因为详细把点序列信息作为原始微阵列数据的部分直4姿可用。经定义,具有io2到io4个寡核苷酸纟果^"的点样孩t阵列不能辨别细為i序列变异,大于10-1000碱基对的全部把点序列,即使采用拼接方案设计阵列。因此,点样寡核苷酸微阵列需要采用常规DNA测序技术进行鉴定,需要特殊的设备、操作人员、和几天的时间,该点样寡核苷酸微阵列方便了宽谱个体抹或SNP水平(Cherkasovaetal"2003;Wangetal"2002:Wangetal.,2003)病原菌的鉴别因此,本发明通常关于采用DNA微阵列技术检测和鉴別细菌、病毒和原生动物病原菌和毒性标记物。本发明也关于i殳计、测试和分4斤具有定义区的再测序农i阵列,该再测序樣i阵列可用于大量的特异性病原菌基因型和病原菌混合物分配lt字4全测扭克率。此外,它关于需要处理上述摆i阵列的简单和复杂(例如,临床的和环境的)样本的方法。更特别的,本发明关于使用高度多元再测序微阵列作为包括传染性疾病药剂诊断和病原菌4企测为目的的一类新设备。特殊的,它适合于DNA《就阵列,该DNA微阵列采用来自靶点基因组序列的大量筛选的"原型"核酸序列区域(每个典型具有250-2000碱基对)来检测和鉴别较大对数的无关和紧密相关的(菌种水平)微生物病原菌。更特别地,本发明关于设计制备翁i阵列采用"拼接,i笨针方法再测序乾点核酸。然而甚至更特别地,本发明关注采用拼接探针设计Affymetrix再测序微阵列,该拼接探针将能够分析等于105到106个碱基对的把点序列。在特殊的实施方案中,本发明^是供了经过4企测他们的核酸序列和橫_被才企测序列经自动类似性4臾索公共结构J成和专用凄t据库来同时分析大量病原菌的方法。经非明显调节商业技术(AffymetrixCustomSeqTM)实施该目标。设计采用该程序,CustomS叫TM,经再测序乾点DNA抬r测单核脊酸多形性(SNPs)该所谓的SNP检测要求(l)碱基响应误差率远低于突变自然发生率(人类中约每108碱基对中有一个),(2)在采用特异性PCR引物进行微阵列杂交之前,以每微升106基因组拷贝,扩增纯化起始原料,和(3)采用算法组合和处理复制样本的多重芯片,该算法限制了那些具有一定程度置信度的碱基响应,低频SNPs的存在能被推导出。本发明证实了在时间量程内和才羊本制备复杂性水平内,Affymetrix再测序4支术能适合于插入到高度多样性传染性疾病诊断和病原菌检测的完整系统,使床旁it断应用成为可能。该系统实质上不同于Affymetrix技术的具体用途,对于微阵列技术的典型技术人员不是显而易见的。目前,鉴别病原菌的Affymetrix再测序技术应用的相关文献描述4艮少。从这个;殳计.试-睑和分析^见点,采用再测序,本法明具有超过病原菌表4正的现有技术。Kozal(Kozaletal.,1996)测量了HIV中的突变漂移,并且Gingeras(Gingerasetal.,1998;Gingerasetal.,2001)和Troesch(Troeschetal.,1999)采用再测序阵列,鉴别了分枝杆菌种类并且单核普酸多形性(SNPs)与耐抗生素有关。在每个方案中,筛选最佳序列用于4并接,基于可能靶点序列的分析。设计特异性PCR引物扩增杂交耙点。未知临床分离鉴定采用以经^r确定不同杂交沖莫式的才莫式识别算法制成阵列。同样地,该方法依赖于全长靶点序列的扩增和杂交,不适合于(l)危险的非特异性结合导致丢失碱基响应,(2)由于低同源性引起的低耙点浓度或孔隙穿过靶点长度的不完全杂交,和(3)临床或环境样本的未知靶点序列的无偏差(全部)扩增诱导的降低了杂交完整性。本发明者优选的方法不存在现有釆用再测序4設阵列技术中公开的相同限制。此外,拥有至少一种用途的^支术方法,即同时4企测大量的多才羊病原菌种类,仅最近经引入CustomSeqRPMV1芯片用Affymetrix微阵列(18x18樣i米)和高密度(8x8微米)呼吸微阵列版本2(RPMV2)而产生,分别将29.7kb和300kb拼接再测序。然而,本发明提供的最重要改进为使用了具有序列长度无关类似性搜索的增加密度芯片(BLASTN),提供了在筛选拼接用序列之前产生的许多较小假定。此外,使用长度无关类似性搜索(BLASTN)去掉了特殊已知子序列完全被再测序的限制,4吏得该方法对革巴点浓度的变化和非特异性结合导致丢失碱基响应的影响具有抗性。因此,在本发明中,拼接用筛选的序列为"原型",这是在单个基因或子序列可代表更广类型的有机体种类和亚种类(可供选择的类型、菌林、变异体或突变体)的意义上而言。根据单个病原菌和菌林的基因型中的较小改变,该方法是稳健的,并且能在大量候补病原菌中进行;险测和鉴别,该候补病原菌不能在试—睑芯片设计中明确表示出。芯片设计也利用了部分过余拼接组(在设计过程中,受到厂商指导方针和厂商的阻止),单个病原菌抹,和多重类似或多样性病原菌类型间的基因内和基因间变异。然而,本发明者已经确定了冗余对提升结果置信度和最小化错误阳性结果和错误阴性结果的可能性是重要的。该设计/分析方法的优势将允许4参入基因组^呆守和超变区,便于鉴别组、类型和菌抹水平。仅存在很少的一些文献报道描述用于微生物病原菌微阵列分析的基因类扩增策略。Wangeta.(Wangetal.,2002)描述了在70mer寡核香酸阵歹'J上杂交之前,进行RNA病原菌乾点扩增,随即连续PCR反应和Klenow片段扩增的多重步骤方法。扩增要求的时间和/或技术步骤数量不是指定的但同一组的后续i仑文才良道约24个小时。也没详细i兌明扩增步骤导致4全测步丈率提高。我们研究组(Voraetal.,2004)的最近报道描述了许多单独使用和联合使用非特异性核酸扩增技术杂交到70mer寡核苷酸阵列上。没有任何已知的现有技术报道过纯化的或者在复杂混合物(例如,临床样本)中非特异性扩增DNA#巴点与再测序樣£阵列的杂交。本发明在几个方面领先于经孩£阵列进行病原菌4企测的基因扩增:技术(1)为得到高密度短(25mer)Affymetrix再测序微阵列,详细描述了经纯化或高度富集病原菌核酸的全部扩增的特未方法,既不是先前描述的也不显而易见,因为该方法很大程度偏离了规定的Affymetrix方案,和(2)描述了新颖并可供选择的使用酶处理、竟争性杂交、和磁性玻璃球基消减和富集步骤来减少背景和后续无偏差(如,全部)扩增和孩t阵列杂交的方法。本发明体现了一组特殊的设计和处理方法,该方法利用再测序微阵列大规^莫鉴别和表征病原菌。特别地,本发明允许在单阵列中精确、灵敏、和高置信度鉴别大量(成千的)多样性的病原菌。本发明的一种实施方案为多组寡核苷酸引物的再测序DNA箱1阵列,该寡核苷酸引物长度范围在13到70个核香酸之间(优选25个核苦酸,尽管可能和在本发明界定范围内使用相对于陈述范围内每个整数值长度引物)固定在固相支撑物上,其中每组寡核苦酸引物^t筛选扩越参考序列的特殊区,占据阵列的不连续区域(例如,拼接区),并且包括至少四组引物以平4亍方式安4非在芯片上l)第一组,与参考序列互补,和2)三个附加组引物,除了中心位置的核芬酸,每个组都与第一组引物同源,而这三组的每一组中的中心位置的核苷酸也各不相同,以至于所有四个常翔L核芬酸碱基存在于上述阵列上。本发明进一步提供了处理复杂临床样本(如,鼻腔沖洗液)的方法,要求最小限度核酸分离/扩增步骤。本发明区别于绝对多数的微阵列基病原菌检测方案,应为它使用高密度"拼接"微阵列来确定病原菌遗传乾点的实际序列。许多重要区域内的其他再测序病原菌鉴别策略,包括结合(l)高度多样性的异型病原菌"原型"紧密相关病原菌内较i序列冗余允1牛较口高置信度鉴别特异^朱(例如,腺(病)毒或流行感冒病毒),(3)—类病原菌典型的较大拼接片断的"原型"区域允许精确鉴别特异性病原菌才朱和j吏用特殊设计软件来分析和排列序列片殺^是呈给类似性搜索(例如,BLAST)算法,辨别病原菌混合物和病原菌之间的重组,代替更限制性拼接筛选和在最紧密相关现有技术(美国专利6,228,575)中描述的微分算法,(4)最低限度的偏性核酸扩增策略,在无显著性干护C或交互杂交情况下,允"M^青确、高置信度病原菌靶点再测序,和(5)样本处理方法学,允许再测序阵列联合复杂临床样本的最低限度偏性氨基酸扩增策略而^f吏用。这些方法的组合可以4吏一种合格的技术员在24小时内,优选在4小时内,更优选2小时,最优选在30分钟内同时检测和鉴别临床样本的高度多才羊性病原菌。因此,由于该实施方案,本发明支持(a)样本收集的几个小时内,临床传染病的常规r珍断,(b)同时查询冲羊本少见感染性疾病迹象(例》口,未预料的病原菌、耐抗生素模式或生物战争药剂),(c)常规分子病原菌监视,(d)疫苗质量控制和(e)自然遗传变异、药物治疗、故意操作、或其他情况引起的监测病原菌的遗传改变。高密度再测序纟鼓阵列经DNA低聚物的光导组合合成制备高密度微阵列(HDMs)(KozaletaL1996)。在这些位点上合成的DNA4氐聚物通常具有20-30石威基长度。采用高分辨率半导体光刻胶对该方法进行后续改进,Affymetrix证实了制备具有分辨率接近1|11112特性的HDMs,使探针特征密度比mat在RPMV1证实的大10-1.00倍。到此为止,关于病原菌鉴别的HDM设计以"拼接"策略为基础。因此,等长的四个4笨针被合成正义和反义方向的每个碱基,需要所有8个25-mer探针用作给定参考序列中的每个碱基对。每个方向上的一种4笨针确实互补参考序列而其j也三个单个石咸基在查询碱基位上《昔配。因此,拼接HDM能有效"再测序"把点核酸。以这种方式,未知輩巴点的》威基响应在四个可能^咸基位中的每一个都可以被查出(每四个可能石威基对中的一个在拼接25mer探针内的第13位处改变),直读阵列相应位点的靶点序列。在CustomSeq阵列中,GCOS(Versionl.l)软件被用于使原始图像(.DAT)文件为指定每个相应探针位密度的简化文件-格式(.CELfile)。最后,GDAS(Version2.0)1欠件用于运用嵌入式ABACUS(Cutleretal.,2001)算法来生成正确石威基响应评^介,比较正义和反义4笨4十组的密度。GDAS的可用I餘出文件类型之一为再测序阵列拼^妾区J或生成的FASTA形式石威基响应。在一系列采用培养的微生物,包括HIV(Kozaletal.,1996)的体外试验中,上述的HDMs类型用于鉴別病原菌种类和4金测耐药性-相关突变。Troesch等人(Troeschetal.,1999)设计HDMs在54之间分析不同于4全测分枝杆菌类和耐利福平的分枝杆菌肺结核。65,000个低聚物探针的拼接阵列用于4青确再测序70个临床隔离群的27^朱分枝杆菌类和154朱耐利福平结核分枝杆菌才朱。最近,特异性序列鉴别F.tularensis和Y.pestis采用拼4姿HDMs(Wilsonetal,,2002b)在环境样本中得到证实。这些通常方法依赖于特异性杂交模式,以野外实测(对照组)测量方法为基础。此外,作者没有4是供了指导定量比较怎样针对紧密相关或未预料有机物的起始浓度,该起始浓度可改变六个数量级。阵列类型本发明采用AffymetrixCustomSeq再测序微阵列形成。为了讨论再测序微阵列,技术人员可见U.S.6,228,575。然而,本发明不在概念上被限制于采用特殊制备方案生成孩i阵列。原则上,再测序能以任何技术描述的头见模实施,该技术能产生相当大密度的微阵列。理论上,能采用寡核苷酸打印:技术完成,i旦采用光学光刻法更可能完成。然而,Affymetrix再测序芯片以采用分离的光刻掩模后续步骤为基础,该光刻掩模对应于每一步骤,可供选4奪的方法可采用无掩模光刻4支术(Albertetal.,2003;Nuwaysiretal.,2002)或通过纳米光刻法(Ginger,Zhang&Mirkin,2004)。更普遍i也,任<可生成以确定可用靶点序列为目的的多^t寡核苷酸纟采针。甚至玻璃3朱"阵列"不是2维形式(Fergusonetal.,2000)。探针可由DNA变异体组成,即RNA或低聚物肽-核酸(PNA)。探针能制成对酶消化具有敏感性,然后接受后续处理。在优选实施方案中,探针将力o入dUTP代替dTTP,使它们对尿嘧咬-DNA-糖基化酶具有灵敏性。这将使它们用于选择性降解随后捕获靶点。此外,在本发明界定的范围内,也可能固定RNA并获得其互补序列识别。固定RNA将需要RNA的化学稳定性。在更普遍意义上,纟笨针能由化学修饰核酸制成,该化学修饰核酸4吏它们或多或少易受到后续4匕学处理步-骤的影响。阵列设计采用RPMV1微阵列,本发明举例说明拼接原型序列能在没有假定特异性病原菌鉴别需要特异性杂交模式的情况下鉴别更多种类的特异性病原菌株。在目前的设备中,拼接区域的原型,尤其腺病毒4、5和7,分别凭经验被选择代表腺病毒子群E、C、和B。该-没计的更优选和更系统的方法包4舌^f吏用多重序列分析来生成一致序列,一致序列定义为分析位上那些表示最常用石灰基。在优选实施方案中,分析算法将产生单个病原菌抹中靶点基因序列或病原菌家族群的等级系统发生树。釆用适当的算法,一致序列将首先形成每个树结点成员或树结点群成员,距离测量落在阈值范围之内(Lee,2003)。实际靶点序列将与一致序列单独比对,并且由一致序列定义杂交到拼接微阵列区域上的功效将一皮才莫拟。已知功效如碱基插入或缺失,以及寡核苷酸探针区域内多重碱基取代的功效将确定为模拟杂交的规则。生成杂交的后续分析和碱基响应模式将说明所提拼接适于作为给定范围病原菌的原型。这个过程将重复直到最合适组的原型区域^C确定覆盖给定组病原菌。在一种优选实施方案中,该过程将用于最大化芯片的空间利用率,导致最大减少再测序微阵列的实际尺寸,并且因此,最大减少每个箱t阵列上的产品费用。在一种优选实施方案中,再测序阵列将被设计联合另一种简单固相捕捉器(阵列、凝胶、或其他的),该固相捕捉器将最初用于排列再测序阵列。例如,由多样性较长寡核苷酸4冢针组成的阵列将最初用于通过识别病原菌家族内的保守序列来;f全测病原菌。再测序阵列能用于查询与初始阵列上寸呆守探针相关的可变区,提供了病源体上详细的序列信息。在非常优选实施方案中,样本制备普遍用于固相捕捉器和再测序微阵列。然而在另一种非常优选实施方案中,初始阵列将用于捕捉輩巴点,该耙点将^皮隔离并采用无偏扩增技术进行扩增提给再测序阵列。该用途的总体设计基本原理本发明利用从不同公共和/或私有资源的病原菌基因组信息来设计、制备、评估、验证和一体化先进诊断平台作为有效生物防御监视部分和操作医学系统。流行病爆发监控(EOS)程序生物防御才莫型是完整的,该系统经采用广泛分布^殳备将#:最有效激活,这些设备将发现传染性疾病的常^见诊断学中的效用,尤其在传染性呼吸疾病诊断中的效用(参见国防科学会2006夏季研究报告及健康科学生物防御系统(HSBS)筒报)。该设备(例如,微阵列)将提供可供选择的有成本效益的常规方法诊断、处理和监视传染性疾病,最显著的呼吸传染病是具有重要性的。采用设计和分析信息学支持设备并且确保来自那个i殳备的判定质量信息可遗传的并且可被许多就诊单位、公共卫生官员、和决策者解释。因此,也是本发明的重要目的,设备为由局部床旁诊断设备组成的完整系统的重要组成,该局部床旁断设备在就诊单位、公共卫生官员、和决策者之间提供了自动、双向数据共享(这或许交叉对照阵列中商业沖莫型专利)。这里描述的本发明可至少两个途径实施其作用(l)经減少阵列尺寸(例如,4史<氐费用),自动化处理,和利用处理再测序阵列^更携式硬件,本发明可为床旁设备的目标,和(2)如果存在低成本或易自动化〗殷阵列,再测序阵列可成为诊断/监视流水线中4交高梯队组成。在后面的方案中,低成本可供选择设备将提供初始样本处理、病原菌靶点富集、扩增、床旁判定信息,而必要时,再测序通过i"足进更详细查询样本提供了顺次测定性能。再测序4鼓阵列芯片设计的一般策略依据本发明,i殳计再测序农i阵列芯片的过程通过筛选病原菌基因组序列被执行,该病原菌基因组序列具有使它们对于少量(理^仑数量)病原菌是唯一的序列性质,或者是高度保守的,使它们检测许多类型的微生物种类家族或属级,或适度保守并筛选为"原型,,区域。原型区域将具有5争域一组微生物种类的中级序列同源性并且考虑有效杂交和独一无二鉴别大部分或所有亚类型病原菌。i殳计再测序4并4妾的策略包纟舌通过分一斤类似序列和应用一致探针序列拼接到芯片上产生巨大影响。一致序列可能不与任何筛选的病原菌同源,但将与许多类似病原菌基因组作用。真实病原菌基因组序列与一致的序列完美匹配和不完美匹配的模式将提供诊断的个体识别力。本发明的特别实施方案为:^殳计再测序樣t阵列芯片的一般方案,该再测序t阵列芯片可在样本(例如,部分纯化的样本,纯化的样本,富集的样本、生物样本,等等)中鉴别和标明病原菌。该设计和-睑证方案的多方面在随后的第6"阶段,,中进行了具体化。阶段1:病原菌鉴别a.病原菌列表(例如腺病毒;流行性感冒;化脓性链球菌)一由病原菌专家或公开领域提供b.属/种类(新病原菌例如.冠状病毒严重急性呼吸综合症变异)c.种类/亚种(流4亍病学追踪;取i正)d.病原菌独一无二片断(交互杂交结果)e.遗传漂移/漂变问题(例如.流行性感冒、HIV)f.耐药性标记物g.致病相关基因或毒性标记(有利于诊断和预后目的)h.基因工程特4i标记i.质粒DNA序歹'j(Bluescript,PUCetc.)i.多克隆位点ii.耐药标记物(氨比西林,卡那霉素,盘尼西林等)(或可列为Amp,Kan,PBP,等)iii.毒素(肉毒毒素;蓖麻毒素等)阶段2:关于样本来源的病原菌鉴别a.常见呼吸病原菌(和近纟彖病原菌)b.生物成胁药剂(经疾病控制中心鉴别)c.背景或寄生物考虑i.临床样本(鼻腔冲洗液、拭子、粪便标本,等)ii.载体(侈'J:i口.虫丈子)iii.环境(水、食物、土i裏)阶段3:基因鉴别(病原菌设计相关的最复杂问题)a.序列同源性(相对于病原菌鉴别)a.新颖的或未预期的高度保守鉴别(属/种鉴别)i.鉴别新颖的/未预期的有机物1.嵌合体(细菌基因交换)2.遗传漂移/漂变(例如.流行性感冒)3.人工的ii.辨别复杂病原菌家力美1.鼻病毒(许多完全不同变异体)b.较少保守超变量(种类/亚种)c.病原菌独一无二序列片断(交互杂交)i.全部扩增方法的潜在重要的b.功能序列(相对于致病性和患者管理)a.共生细菌中耐药基因b.致病性相关基因i.毒素基因H.传播(传染性)相关基因致病岛iv.毒力因素c.其他宿主-病原菌作用基因i.免疫反应ii.月中瘤形成iii.DNA修复阶4殳4:基因筛选(什么序列应置于芯片上)a.鉴别基因登录号a.完整基因b.侧翼序列病原菌基因组(对照组)c.最近/流行可用变异体i.快速培育病原菌尤其重要(流行性感冒)b.BLAST搜索(纳入/排除标准)a.人序列同源性(排除标准)b.才目关病原菌序列i.可能的排除/注#%标准ii.如果同源性>90%,序列仅需要发表一次1.使用一致序列鉴別和注释iii.鉴别病原菌特异性基因/序列c.实用问题a.细菌中水平基因转移问题b.病原菌中基因拷贝数量c.人序列的同源序列(交互杂交)d.4交少致病菌的序列同源性(例如.杆状菌;天花[痘])阶^炎5:RPM芯片优先处理a.确定芯片"有效面积,,(全部表达序列)a.靶点基因拼接尺寸i.4并4妄相关登录号ii.一致序列相关登录号b.参考优先顺序标准的主要目标。主要问题包括a.病原菌流4于耳又决于#巴点人群、地理<立置、季节、和其〗也疾病传播因素b.临床、操作、和公共卫生相关性c.芯片功能性问题i.混合病原菌ii.数据注释和提交给终端用户阶段6.微阵列验证a.-没计3寸照纟且a.套式引物组i.外引子组形成对照组ii.内引子症且测试阳性乂十照组iii.对照组和RPM序列应为100%的序列匹配b.形成对照组克隆c.用于匹配性-险证的对照组克隆序歹'jb.形成病原菌芯片注释图解a.较差杂交位点i.较差信号ii.错误信号b.交互杂交^f立点i.人交互杂交ii.其他病原菌(尤其生物恐怖行动药剂和毒素)c.序列特异性水平i.鉴别亚种/变异体的标记物1.形成耳又i正凄t据库基础ii.《又鉴别属和种的标^己物iii.鉴别发i见的新变异一示i己物c.芯片马全i正试-睑框架a.冲全测交互杂交区i或的人杂交b.质并立-验i正计划i.滴定质粒试-睑PCR灵每文性ii.滴定法测量RPM纟全测灵壽丈度Hi.改变浓度评估石威基响应津奮确性1.注释4壬何错"i吴C.培养验证技术i.滴定病毒1.核酸分离效率2.芯片杂交灵敏性/特异性a.总扩增灵敏性/特异性b.PCR比对3.滴定培养物的芯片杂交灵敏性4.培养菌序列的-睑i正d.将病原菌掺入到复杂介质中i.将病毒滴到溶液中ii.杂交到芯片上(背景干扰)iii.如果与培养病原菌比较不同验正病毒序列e.评估复合矩阵中靶点浓度i.鼻腔冲洗液ii.棉拭子1.鼻腔拭子2.咽喉拭子iii.溶液中病毒的稳定性1.鼻腔冲洗液2.拭子iv.病毒溶'液的冷冻/解冻影响v.輩巴点病原菌的序列验证下表(表1)代表一组优选(但非限制性)的病原菌(病毒和细菌),该病原菌可按照监测和诊断普通呼吸病原菌的设计在本发明的背景下使用表1樣i阵列病原菌病毒病原菌细菌病原菌腺病毒(血清分型/属极)化脓性链球菌(emm类型/抗性)流4亍性感冒A和B(4朱)冠状病毒/SARS副流感病毒1,2,3,4呼吸道合胞病毒偏肺病毒鼻病毒柯萨奇病毒伊科病毒西尼罗病毒水痘(HHV-3)汉坦病毒风渗1型和2型单纯疱渗肠道病毒(腮腺炎、脊髓灰质炎)纟田小病毒为了广泛分布内置监控生物恐怖药剂的呼吸诊断设备的用途,选4争病原菌列表加入到芯片上将也包括从美国疾病控制(CDC)中心筛选出的那些A、B、和C类生物恐怖药剂。这些是最周知的,^旦不限于此,包4舌CDCA类炭疽热细菌(把点:致命因素、保护性抗原)鼠疫杆菌天花(大天花)土4i弗朗西斯菌肺炎支原体百曰咳斥干菌肺炎衣原体肺炎链球菌军团菌(属级)卡他莫拉菌流感嗜血杆菌月亩月莫炎^U求菌结核分支杆菌金黄色葡萄球菌溶血隐秘杆菌鸚鵡热衣原体病毒性出血热(丝状病毒[例如.埃博拉病毒、马尔堡病毒]和沙状病毒[例3。.拉沙热、马丘;皮病毒]CDCB类流产布鲁氏杆菌(2308B37),羊布鲁氏杆菌(F6145),猪布鲁氏杆菌(A44)鼻疽假单胞菌(马鼻疽)类鼻疽伯克氏菌(类鼻疽)璎乌鵡热(f鸟鹅热衣原体)流行性斑渗伤寒(摩氏立克次氏体)病毒性脑炎(曱病毒[例如.,委内瑞^立马脑炎,东部马脑炎,西部马脑炎])CDCC类出现传染性疾病如尼帕病毒和汉他病毒这些药剂的完整和更新列表可在CDC网址Oittp:〃www.cdc.gov/)上j戈到。为了说明本发明,两个再测序孩i阵列芯片(RPMV1和RPMV2)将在下面进4亍4笛述。再测序呼吸病原菌农t阵列版本1(RPMV1芯片)采用高密度Affymetrix微阵列制备方法制得RPMV1,该RPMV1具有个体探针尺寸18x18孩£来。在这个密度下,29.7kb全部病原菌靶点序列进行拼接用于再测序。作为部分试制p试验Affymetrix商业产品(CustomSeq)进行制作,该Affymetrix商业产品用于随机收集序列中的SNP4全测。下列全面设计方案用于RPMV1:遵循AffymetrixCustomSeq设计方案。虽然在项目协作组内对于非特异性扩增微阵列分析靶点进行了许多努力,本发明者则努力在阵列上拼接序列,该阵列可查询常规(成对特异性引物)PCR扩增子。任何可能时,成对引物形成或适合于保守序列,该保守序列位于拼接纟毁阵列探针可进行查询的可变区的侧翼。这允许具有的能力(1)直4妄采用存在硬盘平台进行扩增(例如,RAPIDLightCycler、IdahoTechnologies),(2)才是供用种属或全部扩增策略比对的控制测量法,这些种属或全部扩增策略是立即见效的。一般来说,我们的策略是为了让杂交模式与特异性有机体匹配并且检测对应于致病性和耐药性的序列中存在细<鼓变4匕。4、5、和7型腺病毒(双链DNA病毒)各自指定为E、C和B的"原型"。特殊地,本发明者W1定了原型拼接区域上再测序将监测和鉴别亚群成员之间细微序列变化。三个靶点基因区域被筛选出,尤其从E1A、六邻体、和纤维基因中筛选出。然而,不能^叚i殳或不能预期的是^f壬何祸^秦的哪个区域或哪个部分将进行独一无二的鉴别。作为流4于病爆发监控程序的一部分,十三个腺病毒基因组进行完全测序。名称、登录号和来源记录在实施例部分的表6中。进行多重序列分析确定保守序列位于侧面的ElA、六邻体、和纤维基因可变区,该保守序列可被用于用单组简并引物扩增多重腺病毒(Linetal,2004)。ElA、六邻体、和纤维基因的共有区得到3个原型腺病毒中的每一种,该3个原型腺病毒与呼吸疾病有关7(B子群)、5(C子群)、和4(E子群)被提交给Affymetrix作为拼接在RPMV1樣i:阵列上的29.7kb全部病原菌乾点序列的一部分。A泉病毒分类B子群3、7、11、14、21、34、35和50C子群1、2、5、和6E子群4本发明者进行了假设,如果为了原型代表子群,7、5、和4型(分别为B、C、和E子群),^也们将三个基因(ElA、六邻体、和纤维基因)4并接到阵列上,将能够通过杂交模式的变异鉴别任何完全测序型(上面列出的),该杂交模型比对其序列差异。用红血球凝聚素(HA)神经氨酸酶(NA)和基质(M)的原型区域表示流行性感冒A和B病毒,该流行性感冒A和B病毒为负极性单链RNA病毒(ssRNA)。这些基因表示为三种类型的流行性感冒A(H1N1、H3N2和H5N1)和流行性感冒B。流行性感冒为原型才莫式系统最好的实施例之一,如凄t百个,要不然H千个流4亍性感冒菌一木至少部分测序,并且大多凄史已经测序红血球凝聚素和神经氨酸酶片断。原型流4亍性感冒HA、NA和M基因^人菌才木中选出,该菌才朱为<壬一等同于紧密相关的三个疫苗林,该三个疫苗抹经世界卫生组织推荐给北半球;A/NewCaledonia/20房/(H1N1)A/Moscow/10/99/(H3N2)B/HongKong/330/2001这些序列可乂人LosAlamos国家实验、室流4亍性感冒因特网凝:据库中将-到。本发明者布i定,如果耙点足够类似到可以进行类似性4叟索查询,原型拼接区域上未知流行性感冒A或B的序列响应将能鉴别輩巴点。RPMV1的残余物由多种普通呼吸病原菌拼4妄构成,第一组为病毒鼻病毒A(pos)SSRNA鼻病毒B(pos)SSRNA冠状病毒(pos)SSRNA;无DNA中间体副5充感病毒(neg)SSRNARSV(neg)SSRNA相对于腺病毒和流4于性感冒,这些病毒性病原菌具有相对小的可用序列,同时采用原型序列鉴别大量相关菌林的进行才莫拟试验。也选择常见细菌性病原菌化脓性链球菌肺炎支原体百日咳4干菌肺炎衣原体菌肺炎链球菌脑月莫炎双5求菌此外,下列质粒决定的耐抗生素基因在RPMV1芯片上净皮表示出eraiAerm.BermTR大环内酯类外排决定簇(mef)A下列生物威胁药物也包括在RPMV1芯片上炭疽热细菌(耙点致命性因素、保护性抗原)鼠疫耶尔辛氏才于菌天花(大天花)土拉弗朗西斯菌病毒性出血热(丝状病毒[例如.埃博拉病毒、马尔堡病]和沙状病毒[例如.-扭沙热、马丘波病毒])除了Affymetrix告见定的杂交对照组(参见CustomSeq方案),可"i人为包括内部加工对照来^^睑乾点分离、反转录(RT)和cDNA/DNA扩增。因此,我们包4舌含有才直物拟南芥基因插入物的专用载体(Yangetal.,2002)并且提供了阵列上拼接区域给载体的几个基因插入物。为了所有靶点除了腺病毒和流行性感冒,本发明者,人含有诊断区i或的基因公开文献资料(例如.,NCBIGenBank)中筛选出靶点并且拼接诊断区域或含有那个区域的4交大编码区域。所有耙点基因、PCR引物位点和RPMV1引物的全部列表在表8(在下面)和序列附表中显示出。提交给拼接和制备芯片的序列在表7(在下面)和序列附表中进行了总结然而,本发明并不局限于上面列出的特异性序列和/或孩么生物(细菌或病毒)。在技术人员能力范围内为满足指定领域试-验的特殊要求来定制"病原菌芯片"。这种剪裁可能按基因水平或按微生物水平。很明显地,技术人员将从上面通用方案中得到更大帮助。再测序微阵列芯片版本2(RPMV2芯片)RPMV2建立在具有指定尺寸8x8微米的高密度Affymetrix微阵列上。在这个密度下,约300kb靶点序列信息将拼接用于再测序。通用设计策略在表2-4(下面)中进行了描述。RPMV2设计使得RPMV2序列含量为RPMV1序列含量的约10倍,因此包含大量病原菌,包括延伸表示RPMV1上所有病原菌、许多其他呼吸病原菌、和整组的CDCA、B、和C类生物恐怖药剂。RPMV2内容的全部列表在实施例8中提供了。RPMV2设计经包括探针,如emm型化脓性链球菌,延伸了分子流行病学性能。这个特性将给流行病学专家/公共卫生专业人员提供了确定可能疾病病例和研究人群(监狱、宿舍、疗养院、部队兵营,等)带有病原菌的传4番的能力。这些探针也可预测病原菌毒性和人群中疾病的临床表现。被表示的病原菌的数量也能采用增加微阵列每单位面积上探针而#皮扩大。本发明的芯片利用了4交高密度同时4笨测和在可能存在于单个临床样本中的大量候补病原菌之间进行分析。也值得注意的是基因表达标记能概念上以同一种方式被4并接到阵列上成为基因组标记。因此,序列表达病原菌转录(RNA才莫+反编石马蛋白合成)能同时与那些再测序的基因组标记一起安置在阵列上。这将使微阵列不仅能够;险测病原菌的存在,也将能确定其生活力,因为转录标记将仅存在于完整的病原菌中。呼吸病原菌名称bt试剂名称(cm:」腺病毒亚群A亚群B1腺病毒3腺病毒7腺病毒16腺病毒21亚群B2腺病毒11腺病毒35亚群C腺病毒I腺病毒2腺病毒5腺病毒6亚群D亚群C腺病毒4亚群F流行性感冒流行性感冒A种类/亚种六邻体六邻体六邻体六邻体六邻体六邻体六邻体六邻体六邻体六邻体六邻体r邻体^邻体血球凝集素(全部)血球凝集素:流行性感冒B流行性感冒C血球凝集素3(全部)血球凝集素4血球凝集素5血球凝集素6血球凝集素7血球凝集素8血球凝集素9血球凝集素10血球凝集素1血球凝集素12血球凝集素13血球凝集素14血球凝集素15血球凝集素B血球凝集袭种类/亚种属/种RxResE1AE1AE1AE1AE1AtlAE1AE1AE1AE1AE1AE1AE1A神经氨酸酶1基体(H5N1)基体基体种类/亚种纤毛纤毛神经氨酸酶](全部)神经氨酸酶2(全部)神经氨酸酶3神经氨酸鲦4神经氨酸酶5神经氨酸酶6神经氨酸酶7神经氨酸酶8神经氨酸酶9神经-氛酸酶B200580029642.3势溫1被33/206^;毛毛毛毛毛毛毛毛毛毛毛千NJIIVI(千,41f>v(千干千千<image>imageseeoriginaldocumentpage47</image>副流行性感冒副流行性感冒1副流行性感冒2副流行性感冒3副流行性感冒4A肺炎链球菌属ponA(PbplA)金黄色葡萄球菌属entQ肺炎支原体属Pl基因百fl咳博德特氏菌百曰咳毒素衣原体属肺炎衣原体属OmpB鹦镇热衣原体OmpA脑膜炎奈瑟氏球菌MviN杆菌炭疽热细菌保护性抗原腊样芽胞杆菌苏云金杆菌cry枯草杆菌鼠疫耶尔森氏菌属OmpA天花(大天花)血球凝集素猴痘血球凝集素血球凝集素土拉弗朗西斯菌TUL4emm61emni62emm63cmm64ernm66emm67emm68emm69emm71emm72emm73emm74emm76emm77emiri78emm79emm81emni82emm86emm87emm91cinm92emni93ernm94emm%emm97emm99emm101emml02emm朗einm104emm106emml07emm108emml09U74320CsrR&CsrSsicSpeBentKtstsebPrnASigArpoB致命因素adema因素(Cya)rpoBrpoBrpoBrpoBcve2i55序列SODIA不同区域(则)emm65emm70emm75emm80emm85emm90emm95emm謂emml05emml10GyrAGyrB;ParCGyrAMSR(A);mecRl;VanA;BlaZ;dfrA;qacCGyrADNA促旋酶GyrAGyrAGyrA化学增活结合蛋白mdh丝状病毒埃博;li病毒马尔堡病毒沙状病毒拉沙热病毒马3大波病毒伯克霍尔德氏菌鼻疽假单胞菌(马鼻疽)类鼻疽伯克氏菌(类鼻疽)洋葱伯克霍尔德菌流行性斑渗伤寒(摩氏立克次氏体)曱型病毒委内瑞拉马脑炎东方型马脑炎西方型马脑炎布鲁氏菌流产布鲁氏菌(2308B37)马耳他布鲁氏杆菌(F6145)猪布鲁氏軒菌(A44)犬布鲁氏菌羊布氏杆菌鼠布鲁氏菌溶血隐秘杆菌L基因L基罔L基因L基四PenAPenArecAOmpl非结构性的多蛋白非结构性的多蛋白非结构性的多蛋白NP蛋白NP蛋白NP蛋白NP蛋白WaaFWaaFGyrAGyrAOmp2WBOA一IS7mINSERTGyrA16S濯Apld流感嗜血杆菌莫拉克斯氏菌属OmpP5(OmpA-家族)血球凝集素GyrAGyrA分支杆菌属癱病GyrA<table>tableseeoriginaldocumentpage50</column></row><table><table>tableseeoriginaldocumentpage51</column></row><table><table>tableseeoriginaldocumentpage52</column></row><table>流行性感冒c纖93473A臓6809副流行性感冒副流行性感冒1副流行性感冒2副流行性感冒3副流行'f生感冒4ANC003461NC003443E(12727NC—OO週NC—003443NC—001796E03809鼻病毒冠状病毒SARSOC43AF薩64AF108〗79AY323974M76373NC002645八F蘭8C1AF10SI83AY365036NC—005147X51325AF542420AFI08〗86AY4290了9L〗顿3AF542420AF鹏87AF腿84AY390556呼吸道合胞病毒1型(RSVA)2型(RSVB)AF035OO6AF013254AF035006ARU3254链球菌属化腺性链涑菌属cmmsourceST2267ST4亂ST6949emm11cmml6emrn21cnim31emm41emm46emm5cmm61cmm66cmm71en,m81emm86ST3輔U50338ST3365ST1歸emni2emm7emml2emm17emm27emm37emni42etnm47emm52emm62emm67emm77emm82emm87ST4532匿靴ST2卿ST135erm"3cvnm8emml3emtn23emm28emm38emm43emm53eram63emm68ST4264ST230匿2ST1161emmJ4einm19emm24cmm34emnrt39emm44emm54errmi59emm64emm69emm74emm84ST4547STCMUK16ST436ST1432emm10emml5emm20emm25emm30emm35emtn40emm45etrnn50emm55emm65emm70emm75emm80加m85加m90A腦6S57Erm(A)jAY"7120;Erm(TR);U70055;MefEprtFi;AE006513200580029642.3转溢*被40/206m<table>tableseeoriginaldocumentpage54</column></row><table>类鼻痘伯克氏菌(类鼻痖)洋葱伯克霍尔德菌斑齊伤寒(摩氏立免次氏体)甲型病毒委内瑞拉马脑炎东方型马脑炎西方型马脑炎布鲁氏菌流产布鲁氏菌(2308B37)马耳他布鲁氏杆蕭(F6I45)猪布鲁氏杆菌(A44)犬布鲁氏菌羊布氏杆菌鼠布鲁氏茵溶血隐秘杆菌AY(B2869AJ235270L04653NC0(),9NC003908一致歸03柳NC0039()S一致一致AF097748A.I235270(密码子250672)AE014411AJ235270U柳流感嗜血杆菌卡他莫4立菌分枝科菌痨病杆茴肉毒杆菌产气X膜梭菌破伤风杆菌贝氏考克斯菌小球隐孢子虫L20309AY077637BX842574YB630AP003J9)X04436AE016960AF5292S0Lf32806AF056196A咖6915AE0腦0E.coli0157:H7蓖麻子AE0055S2X52卿AB0S3044AB048837NC002655沙门氏菌属<table>tableseeoriginaldocumentpage56</column></row><table>诺沃克病毒NC—001474手足口病圣路易斯脑炎病毒立夫特谷热尤苏它病毒恙虫热金迪普拉病毒人造插入序列多重克隆位点耐Rx才示i己物NC—001959NC—001474NC—004004AY2S9618X53771AF452643AYI9I589J04350StratageneProvidedNC—001959NC—001474NC—004004AFO13416X53771AY283I80AF128868X06404X65312表4:RPMV2设计(尺寸)呼吸病原菌名称m,试剂名称(CDCA;B;C)腺病毒亚群A亚群B1腺病毒3腺病毒7腺病毒16腺病毒21亚群B2腺病毒n腺病毒35亚群C腺病毒1腺病毒2腺病毒5腺病毒6亚群D亚群E腺病毒4亚群F流行性感冒流行性感冒A流行性感冒B流4亍性感冒C副流行性感冒副流行性感胃种类/亚种68560567375962964166778968478564422818281692757104213233038397708495537276806卯8137157457374011649种类/亚种歸8298299066371025711802698826578783137565914591410804257865691795444种类/亚种575属/钟5978808808197897898708701055579616909734RxRes761715862910200580029642.3势溫1被45/206^;<table>tableseeoriginaldocumentpage59</column></row><table><table>tableseeoriginaldocumentpage60</column></row><table><table>tableseeoriginaldocumentpage61</column></row><table>水祖水痘HHV-6水痘HHV-3埃-巴二氏病毒89082297112367811317棒状杆菌属白喉杆菌913818肠病毒(属)柯萨基病毒(亚群)埃可病毒(亚群)骨髓灰质炎病毒(亚群)副粘病毒科副粘病毒岸牛麻珍病毒(Rubeola)新城病毒西尼罗河病毒黄热病偏肺病毒诺沃克病毒登革热病毒手足口病立夫特谷热175892012771226185417341504154711859613006336797389171035712498799103579810081232765200580029642.3转s齿被49/206H9756833248237289592545311469861999菌浆菌胞菌菌毒毒毒团织生菌弧病病病军组芽審乱帕坦名肺膜炎球霍尼汉未嗜荚皮板<table>tableseeoriginaldocumentpage63</column></row><table>提交给RPMV2拼接和芯片制备的序列是基于表5中总结的Affymetrix说明书文件,对应于如SEQIDNOs:50-421显示的序列。表5:RPMV2拼接和芯片制备的Affymetrix说明书文件<table>tableseeoriginaldocumentpage64</column></row><table><table>tableseeoriginaldocumentpage65</column></row><table>FluAHA5FluAHA51303112ATGCCCCATTTAACAAFluAHA6FluAHA61887113CCGTCACAGACTAAGAFluAHA7FluAHA71818114AAATCCTGTGGGAATTFluAHA8FluAHA81897115CTCTTGGCGCAAACCCFluAHA9FluAHA91601116ACTCCACACCAAGQCCFluAHAlOFluAHAlO1775117CCTGGAGCGTATGGTTFluAHAllFluAHAll1728118CTGCATTCAGAGGCAAFluAHA12FluAHA121738119CACTGTTCGGCCAAACFluAHA13FluAHA1311765120AGCAAAAGTTTCTACTFluAHA14FluAHA141763121CACAAATGCAAGAGGCFluAHA15FluAHA151793122ACGGAGACCCCTTTGCFluANAl-lFhiANAl-l11459123CAAAAGCATTTCTACTFluANAl-2FluANAl-21575124TGCCATGAATGATTTGFluANA2FluANA211062125TCATGCGATTTTAGAAFluANA3FluANA31852126GCCCTTTCTGAAGTCAFluANA4FluANA41257127AGCAAAAGCAGCCCCCFluANA5FkANA51913128CGGTGAGAGCGGGAAGFluANA6FluANA61739129AGAGGATGTTGCATTCFluANA7FluANA7994130AGCAGGGTACACCAGCFluANA8FluANA81843131CAATACAGATTAGCAGFluANA9FluANA91444132AACCTGAAGTCAATATFluAHlNlMATRIXFluAHlNlMATRIX1734133ATGGAATGTAAACACGFluAH5NlMATRIXFluAH5NlMATRIX1657134AGACCAATTTGCACTTFluBHAFluBHA1785135GGGAAGTCAGGTAATAFluBNAFluBNA1.809136GCCCTCATCTCGAACGFIuBMATRIXFIuBMATRIX1763137GGAGAAGGATGGCTTGFiuCHAFuCHA1柳138CTTCTTGCATGATCATFluCMATRIXFluCMATRIX1862139ATGTCCGATTATATAAPIV1HNPIV1HN11728140ATGQCTGACATCTTGA<table>tableseeoriginaldocumentpage67</column></row><table><table>tableseeoriginaldocumentpage68</column></row><table><table>tableseeoriginaldocumentpage69</column></row><table><table>tableseeoriginaldocumentpage70</column></row><table><table>tableseeoriginaldocumentpage71</column></row><table><table>tableseeoriginaldocumentpage72</column></row><table><table>tableseeoriginaldocumentpage73</column></row><table><table>tableseeoriginaldocumentpage74</column></row><table><table>tableseeoriginaldocumentpage75</column></row><table><table>tableseeoriginaldocumentpage76</column></row><table>样本制备在本发明的一些实施方案中,靶点核酸(DNA和/或RNA)可包含在生物样本中。这里^吏用的术语"生物样本"统指生物体或生物体组成(例如,细胞)中获得的样本。样本可为任何生物组织或液体。可供选择地,样本可为从环境(空气、土壤或水)中得到的样本。生物样本常常为源自患者的"临床样本"。这种样本包括,但不限于,唾液、鼻腔冲洗液、咽喉拭子、血液、血液细月包(例如,白细胞)、组织或4十刺切片样本、尿、腹水、内脏液体、和胸积液、或那里的细胞。在本发明的背景下,临床样本优选鼻腔冲洗液、鼻腔吸出物或咽喉拭子。在尤其优选的实施方案中,临床样本为鼻腔沖洗液。生物样本也可包括组织部分如组织学用途的冷冻切片,或来自非人类动物、植物,或环境资源如水、空气或土壤。为了采用微阵列进行检测,靶点核酸可能需要一定程度的处理。为了这个目的,将涉及一种或一种以上下列輩巴点处理步—骤(l)分离,(2)富集主体革巴点序列,(3)扩增,(4)标记,和(5)杂交。对应于每个处理策略的优选实施方案在下面进行了描述。然而,本发明目的不是被限制。为了这个目标,技术人员将容易评价出可供选择的方法对应于上述处理策略,这些处理策略都以普遍在使用的那些和按照U.S.6,638,717、U.S.6,376,1S>1、U.S.5,759,778、U.S.6,268,133、和U.S.6,613,516中4苗述的为基石出。靶点核酸分离在本发明的一种实施方案中,净皮测定的靶点核酸(DNA和/或RNA)在相同扩增之前^皮分离出。分离核酸的方法对技术人员是众所周知的。在一种优选实施方案中,耙点核酸分离将4吏用MasterPureDNA纯化^式剂盒(EpicentreTechnologies,Madison,WI)乙醇^是纯方法(4姿厂商用法i兑明书)来完成。在另一种优选实施方案中,靶点核酸将采用快速微量离心技术进4亍分离,如在《吏用XtraAmp试剂盒(XTRANA,Inc.Broomft'eld,CO)。然而在另一种优选实施方案中,核酸将采用自动化设备为上述目的进行分离,例如GeneXpert(Cepheid,Sunnyvale,CA)或采用i兹性3皮璃i朱分离的自动冲几才戒进4亍分离(例:i。Qiagen或Beckman)。许多其他商业产品可利用,这些产品面向从复合矩阵中纯化和浓缩核酸。除了上面描述的方法和在本发明中,备选方案包4舌QIAampDNA孩i型试剂盒(Qiagen)-(用于基因组、线粒体、细菌、寄生虫、或病毒DNA的^是纯)QIAampDNA微型试剂盒采用快速自旋柱或真空4支术乂人人組织才羊本中简化分离DNA。DNA特异性结合QIAamp娃凝胶膜然而污染物透过。PCR抑制剂如二1"介阳离子和蛋白在二个有效冲洗步-骤中完全一皮除去,剩下纯净DNA在用试剂盒盛着的水中获緩冲液中进行洗提。QIAampDNA技术从准备在PCR和印迹方法过程使用的人组织样本中生成基因组、线粒体、细菌、寄生虫、或病毒DNA。RNeasy微型试剂盒(Ambion)-RNeasy孩i型试剂盒从非常少量的组织或细胞中有效提纯全部RNA。全部RNA很容易从动物细胞或组织、革兰阳性菌或革兰阴性菌、或酵母中提纯出。RNeasy技术经结合严格的异硫氰酸胍水解,采用快速提纯硅凝胶膜纯化简化全部RNA分离。UltraCleanTM组织DNA试剂盒(MoBioLaboratories,Inc.)-新鲜或冷冻組织样本采用珠粒搅打(bead-beating)技术水解细胞被均化。溶解产物被负载到硅旋转过滤器上。在瞬时旋转期间,DNA选择性结合到硅膜上而污染物透过。剩余的污染物和酶抑制剂经沖洗步骤;敗除去。纯净的DNA被洗提到^皮鉴定的不含DNA的三羟甲基氨基曱烷緩沖液。UItraCleanTM纟且织RNAi式剂盒(MoBioLaboratories,Inc.)-制备的新鲜或冷冻组织,在水解液存在情况下,采用组织均〗匕器或研钵和研棒进行均化。RNA在娃膜旋转过滤器上被捕获而污染物经离心过滤透过过滤器。沖洗过滤器除去一些剩余污染物和盐。然后,RNA被洗提到-波鉴定的不含RNase的水中(被提供)。RNA具有4支高质量并且准备用于一些下面的应用中。Wizard基因组DNA净是纯试剂盒(Promega)隱Wizard基因组DNA4是纯试剂盒被设计用于从血液细胞、组织培养物和动物组织、植物组织、酵母、革兰阳性菌和革兰阴性菌中分离DNA。Wizard基因组DNA提纯试剂盒是以四步方法为基础的。提纯方法中的第一步水解细胞和核。为从血液白细胞中分离DNA,这步骤设计水解细胞水解液中的血液红细月包,随即水解血液白细月包和核水解液中的细月包核。RNase消解步骤可同时包4舌在内;它对一些应用是非必须的。然后,通过盐析步骤除去细胞蛋白,析出蛋白但在溶液中剩下高分子量的基因组DNA。最后,浓缩基因名且DNA并经异丙醇沉淀脱盐。SV全部RNA分离体系(Promega)-SV全部RNA分离体系提供了从组织、细胞培养物和血液白细J包中快速简单制备纯化的和完整的全部RNA。该体系加入直接在微型柱的膜上处理DNase的步-骤。提纯为没有〗吏用苯酚情况下进4于氯仿萃耳又或乙醇才斤出,并且在最终RNA制备中没有DNase携带(carryover)。RNAqueous技术(Ambion,Inc.)-RNAqueous试剂盒能被用于从许多不同组织和细胞中提纯全部RNA。细月包和组织在^5克氰酸胍溶液中^皮裂解;该裂解剂有效水解细"包和不活泼的内生核糖核酸酶。然后,用乙醇溶液稀释溶解产物并将其应用于RNA结合玻璃纤维过滤器。蛋白质、DNA和其他污染物在三个快速冲洗步骤中^皮除去,然后洗提浓缩形式的结合型RNA。核酸分离自动装置除了上面描述的那些方法,一些厂商(例如,PSSBIOInstruments,RocheDiagnsotics,Qiagen,Caliper)制造小的(benchtop)和/或高生产能力'液体处理自动装置和相关试剂,该试剂能代替上面描述的手工方法被采用。在一种优选实施方案中,一种或一种以上这种自动装置和其相关试剂将用于自动分离后续加工(背景排除和扩增)用的核酸。靶点扩增因为获得具有足够量的病原菌核酸的样本存在困难,出现了一组采用微阵列检测病原菌的技术挑战。因此,对于多数样本类型,一些类型的扩增将可能被要求提供病原菌基因标记的足够拷贝用于4敫阵列杂交4全测。作为微阵列准备步骤,多重PCR实际上被限制在十个不同引物对,不是凄史千个,引物对的数量增加导致假扩增子数量改变。然而,当标记扩增子^皮要求杂交到阵列表面的特异性探针上时进行分析,假扩增子经微阵列试验不負巨^^全须'J出(Chizhikovetal.,2001)。多重PCR-床守(简并)多重PCR减少特歹朱的PCR方案产生的系统偏差,该PCR方案{爻计一系列-故筛选出的引物以保守区为,巴点,4呆守区位于被4冢i式到的基因物种特异性可变区的侧翼。在本发明的实施例中,对E1A、纤毛、和六邻体基因已经进^f亍了说明;然而,技术人员可扩大这个策略以任V可基因为靶点,这些基因跨广谱物种为保守的,但仍具有物种特异性可变区。为了这个目标,候补基因和特异性区域(保守和可变区)能很容易经过全部或局部同源搜索净皮鉴定出(例如,序列分析)。申^青人描述了下面筛选革巴点的常用策略和31物i殳计如这里^f吏用的,术语"引物"(和通常在本4页i或中能^皮理解的)统指在催化合成多聚核苷酸互补引物扩张产物的条件下,能起到沿着互补链多聚核苷酸合成的起始点作用的寡核甘酸。典型的多聚核普酸合成条件包4舌在适当的緩沖溶液("緩冲溶液"包括取代物,这些取代物为辅助因素,或其它影响pH、离子强度的物质,等)中,适宜的温度下,存在四个不同核苷三磷酸或核甘酸类似物和催化聚合作用的一种或一种以上的酶(例如,DNA为了方便特异性PCR反应、扩增引物一般从13到25个核苷酸范围变化,优选从20到25个核普酸。为了〗更于杂交,引物的核苷酸序列一定与靶点有充分的序列互补性。尽管互补程度将很大部分取决于引物长度,互补程度一般至少为80%,优选至少90%,更优选至少95%。对于随机PCR方案,优选引物长度从6到10个核普酸。序列将包括六聚体(26置换)到十聚体(21()置换)的所有取代。对于"原型"区域设计,优选方案将具有保守引物,该引物位于靶点基因可变区的侧翼。这个是&泉病毒的RPMV1中的方案并JU皮本发明者用于流行性感冒A(采用流行性感冒A片段的保守3'和5'末端的血球凝集素(HA)、神经氨酸酶(NA)和间质(M)。这个扭无念能延伸到任何大量病原菌类型,因为高度保守区在实质上是普遍存在的并且能为那些序列设计筒并引物。当靶点不选作"原型"时,与原型区域对比,芯片上实际面积的量能;f艮大程度减少。这些方案的目标不一定是鉴定特殊抹物种或物种亚变种,而可以是允许足够的碱基响应来获得非4莫糊的统计学评估,从而证实序列对应于主体病原菌,但不对应于紧密相关的物种或无毒菌抹。对于这种多重、较小靶点的芯片设计,设计和最优化被需要的大量特异性PCR反应是不可行的,并且全部扩增变为最佳扩增策略。核普酸或氨基酸序列的同源性、序列类似性或序列鉴定可采用已4口的專欠件或计算才几程序如BestFit或Gappairwise比对程序GCGWisconsinPackage,GeneticsComputerGroup,575ScienceDrive,Madison,Wisconsin53711)进4亍常头见确定。BestFit采用局部同源性算法(SmithandWaterman,AdvancesinAppliedMathematics2:482-489(1981)),来发i见两个序歹'J之间的等同性或类似性的最好片IS:。Gap采用先前描述的方法(Needleman&Wunsch,1970)执行全局分析一种^列全部和另一种类似序列的全部。当采用序列分析程序如BestFit时,可采用缺省设置,或适宜的记分矩阵可被选择用于优化鉴别、类似性或同源性记录。类似地,当采用一种程序如BestFit来确定两个不同氨基酸序列之间的序列等同性、类似性或同源性时,可采用缺省设置,或适宜的记分矩阵,如blosum45或blosum80可4皮选择用于优化鉴别、类似性或同源性记录。采用联合特异性PCR试剂可对靶点进行扩增,这统称为"多重PCR"。在这个策略中,RPM上所有革巴点区i或的PCR引物对#:结合到一种反应;昆合物中。这是一种优选方法,一种或一种以上病原菌浓度很低以至于不能单独采用随机扩增策略检测出(下面描述的)。随机扩增策略不管与PCR扩增相关的灵敏性和特异性,固有偏差和该方法的限制高通量限制了下游微阵列应用的主要优势。如成功鉴别几乎完全依赖于适当的被选引物位,所有PCR测试需要关于污染有机体鉴别的先验知识。同样;也,也必需先进的i貪断系统,这个i貪断系统能快速筛选出无偏差特定予贞期序列的临床和环境样本。微阵列检测的优势在于它能联合无偏差核酸扩增策略与后续的微阵列分析性能,导致高灵敏性、特异性和通量性能。发明者已经通过使用可供选择的方法记录下上述问题并且观察到四个前端扩增策略随机引物的、等温Klenow聚合酶、029DNA聚合酶和多重PCR反应(Voraetal"2004)。Klenow扩增-DNA聚合酶I的Klenow片段能用于采用随机八聚体寡核苷酸引物对进行革巴点DNA未知序列的等温、随机扩增。对于本发明,能采用BioPrimeDNA标记系统(Invitrogen)进4亍实施。依据厂商提供的才示记方案进行较小改动制得生物素化扩增子。这个方法一般在37。C下反应4个小时。Klenow扩增生成了一些高分子量的扩增产物,但大部分扩增子长度为50-450碱基对。同样地,这些扩增子适用于直接杂交DNA微阵列。随机PCR扩增-随机PCR(rPCR)扩增子能釆用来自InvitrogenBioPrimeDNA标记系统的2.5X随机引物溶液和10XdNTP混合物制得。反应组成典型包括1XPCR緩冲液(Qiagen)、2.5mMMgCl2、1XdNTP混合物(含生物素-14-dCTP)、5^12.5X随才几八聚体和5UTaqDNA聚合酶(Qiagen)。采用下列条件94。C保持30秒、26°C保持2分钟、72°C保持1分钟,将扩增反应35轮。cp29扩增-用随才几六聚体采用TempliPhiTM100扩增试剂盒(AmershamBiosciencesCorp.,Piscataway,NJ)实施等温。29DNA聚合酶扩增。4安照厂商提供的方案进行较小改动生成生物素化扩增子(14.4pl扩增反应包含0.4^酶混合物和3pi350卜M生物素-14-dCTP并在30。C下培养16个小时)。大部分rPCR和029DNA聚合酶扩增产物太大以至于不能移进电泳凝胶(>1500bp)中。由于空间限制(Voraetal.,2004)较大扩增产物很难杂交到二維表面的固定^笨4十上。因此,rPCR和029DNA聚合酶扩增产物用DNaseI降解緩沖液酶切得到扩增子尺寸相当于Klenow和杂交前多重扩增子尺寸。串联扩增病原菌靶点的增强灵敏性能联合上面描述的随机扩增策略而得到。串耳关[Klenow+Klenow]和[cp29+Klenow〗串联随4几扩增策略能比多重PCR提供给富集病原菌把点更好的灵壽文性。相同的随^L扩增策略也能检测外加环境水样中的被诊断基因组靶点,该水样过量含有63倍的被污染DNA(Voraetal.,2004)。;彈到的结果加强了4吏用随才几扩增方法和开始系统记录/人环境资源中无偏差病原菌4全测方法多功能性的可行性。联合靶点富集和随才几扩增随机扩增方法导致非把点DNA以及靶点DNA的扩增。因此,发明者在这里描迷了在扩增之前富集病原菌i貪断乾点序列的多种方法。这》于于提高复合基质如临床(例如鼻腔沖洗液或咽喉拭子)或环境(例如,水、土壤、空气收集器)样本中分析物检测的灵敏性和/或特异性复合样本(临床和环境的)包含显著性、绝大多数未知基因组和非主体基因组(非特异性背景)。减少非特异性背景的一种方法是让核酸接触酶过程,该酶过程选择性酶切背景基因组序列。该方法在下面的实施例中进行了描迷。减少非病原菌基因组含量的另一种策略是使用已知对有机体呈阴性的复合体系的背景基因组序列并且使用它直接除去背景基因组序列。这种"消减"方法能包括(l)将背景基因组固定在固相表面如凝胶或玻璃珠上,随即用测试样本杂交来消减样本中的背景基因组。在杂交微阵列上輩巴点期间,也能采用未标记背景基因组来阻断非特异性结合功效。这种阻断方法具有一定4尤势因为它在i式-睑期间不需要附加步'紫。这两种方法在实施例部分中也进行了描述。也能可供选4奪地或同时在随机扩增之前使用选才奪性富集病原菌靶点核酸的策略。从样本中直接筛选的一种可能性(阳性筛选)是^f吏用固相輩巴点支撑物(石兹性玻璃珠或凝胶基质)上的固定探针来选择性富集主体基因组靶点。实际上,固相支撑物上的探针在阵列上不能;^测到的,因为它们将导致错误信号如果富集分子被运载出或无意被扩增。同样地,玻璃珠上的探针将通过邻接区域或稍微重叠分析物基因组区域来筛选微阵列上^皮查询的乾点基因組。如在揮:针序列和阵列上可被4企测的分析物序列之间稍#1重叠,那么被查询区域在电子分析期间应被遮蔽。如果预期富集探4十与孩i阵列上序列是同源的,那么那些t笨针应被构成以至于不经过后续扩增,或制成对扩增之前的选择性酶切具有敏感性。如果有必要时依据样本属性和主体应用,可^吏用上面组合和其他策略。可供选择的消减或富集方法免疫沉淀反应是另一种富集病原菌核酸的方法。主体病原菌4元体能与临床样本混合,然后用抗IgG沉淀来减少病原菌,从而除去背景基因组DNA。当希望得到单个病原菌的相关特异性基因组特征时,如抗生素抗性标记物或有意遗传操作的指示剂,这将具有特殊重要性。尺寸排除是另一种方法,通过该方法减少或富集病原菌DNA。示意尺寸排除法包括梯度离心、柱、或离心过滤器单元。梯度离心或柱分离方法是耗时并且需要在实验室内特殊组装。使用"离心过滤器单元"分离高到低分子量物种不一致和通常回收率低。这些方法每一种都需要大量起始原泮+。其〗也的尺寸4非除方法包^舌流式细月包术或电'泳方法,例如荧光;敫活细胞拣选法(FACS)或采用Agilent生物分析器中^f吏用的特殊电泳芯片。常规靶点富集和扩增策略本发明者已经描述了从鼻腔冲洗液中消减"正常,,人和微生物核酸的方法。这个相同原理也可应用于任何来源(临床的或环境的)的样本,核酸的代表性"正常,,混合物能被收集、集中,并且制成消减试剂。许多方法也能应用于富集病原菌或特殊靶点,该靶点在执行完全扩增策略之前被拼接到阵列上。这样一种方法将使用拼接在阵列上的固定变异体的序列。这些变异体将结合用于分离的固相成分(玻璃珠、基质,等)和在它们自己没有被扩增的情况下富集将被扩增靶点。制备对酶降解敏感的富集探针可以执4亍这个或它们可能由不可扩增的修饰核酸组成。一种更优选的实施方案将利用识别序列的探针,该序列邻接把点基因序列并且不在芯片的拼接区域上表示出。以这种方式,无偏差扩增策略中的扩增将不产生人为产物。依据常规DNA测序技术被认为基础研究中全部信息收集过程的一部分,因此被描述的再测序方法净皮认为全部病原菌4全测/表征方案的一种组成。Wangetal.(Wangetal,2003)描迷的方法采用点样DNA微阵列,这种点样DNA微阵列由识别保守序列的较长寡核苷酸(70-mers)组成,保守序列在病原菌家族内。结合这些位点的革巴点序列被分离并在常#见DNA测序方法中使用进一步进^于表^正。以类似的方式,一种非常优选实施方案将涉及《吏用再测序阵列取R与可供选择的DNA测序类型有关的步骤,因此用几个小时内代替几天内提供出特异性病原菌特征并且启动了有效生物防雄p系统。本发明的方法优选不使用特异性序列进行扩增(PCR)。本发明举例说明了富集病原菌核酸的供替换的方法,例如在采用降低偏差,和等温(例如,随机引物Klenow或链置换扩增)扩增之前,<吏用固相支撑物分离载体分离。在一种优选实施方案中,常^见实^r室安装的4支术人员采用一套最少自动化步骤执行微阵列试验,将能制备时间短和费用低廉的样本。在一种高度优选实施方案中,在本领域环境中的最低程度技术人员将能采用手持式4义器手动分离/富集病原菌乾点核酸并且用4艮少的试剂和技术步骤实施病原菌靶点的等温扩增。背景消减后的扩增和杂交除了随才几RT-PCR4吏用的引物D:GTTTCCCAGTCACGATCNNNNNNNNN(SEQIDNO:573),和引物E:GTTTCCCAGTCACGATC(SEQIDNO:574)(Kessleretal.,2004)之外,类似的,以前描述的引物(Wangetal.,2002),那些引物的变异体,和/或从RNA病毒(病原菌)合成第一种链的cDNA的随机引物(6-9mers)可被采用。可在第一种链cDNA合成后采用消减杂交方案,在复合样本(例如,临床或环境)样本经过一种或一种以上DNA扩增步骤之前,第一种链cDNA合成完全消减临床样本中背景DNA数量。一种方法采用COT-1人DNA直4娄消减杂交溶液中的扩增产物(第一种链cDNA合成,然后全部扩增)的背景基因组DNA(大量由快速退火重复单元构成)。另一种方法是第一种链cDNA合成之后和DNA扩增步骤之前,从临床样本中玻璃珠消减背景基因组DNA。第三个方法是4关合上述方法。第一种链cDNA合成之后和DNA扩增步骤之前,采用玻璃珠消减将复合样本中的人基因组背景DNA消减。随后,釆用设计用于选择性捕获人DNA和RNA的序列进一步消解杂交溶液中复合样本的背景DNA。DNA扩增可能针对在随机RT步骤中特定或非特定形成的扩增cDNA产物或经耳关合这些方法扩增两个特异性引物位标i己的RT-PCR产物以及病原菌基因组DNA靶点和其他不来自随斗几RT-PCR步骤的非cDNA靶点。这样做的方法将一种特异性引物序列结合病原菌DNA基因组靶点(这个可能为与被采用附着于cDNA产物相同或为个别的引物),l吏单一PCR步-骤扩增所有RNA和DNA病原菌革巴点。RNA消减在使用单独加工处理;洛径检测RNA和DNA病原菌的i也方可以Y吏用下面的方法。为了形成RNA加工处理路径,外加临床(鼻腔冲洗液和咽喉拭子)流行性感冒A阳性样本采用不同的方法(随机、全体的、和多重PCR)进行处理。然而,采用随机扩增方法获得的可接受水平灵敏性,人信^吏RNA和核泮唐体RNA应采用MICROBEnrichTM试剂盒(Ambion,Inc.,Austin,TX)依照厂商使用说明书进行消减。根据先前描述的方法改进的优选的随机扩增策略可能^皮采用(Wangetal"2002)。经本发明者发现,经过采用这个方法,在浓度低至0.45-3.75pfu/150pL的16/19的不同培养物阳性FluA鼻腔冲洗液和咽喉4式子样本中可进4亍H3N2检测和HINlFluA检测。可进一步确定的是,消减人RNA之后,低浓度范围内6/8的才羊本中可能4全测FluA。采用随机扩增方法,在没有背景消减的情况下,流感灵敏性在鼻腔沖洗物中为约0.25pfu/pl(1ng/pl)。在临床样本中,没有消减情况下的灵敏性估计约为l-10pfu/pl。DNA消減DNA才羊本的随才几扩增可采用抗菌素cp29DNA聚合酶或者以前^^开i仑文中改进的随机扩增方案(Wangetal.2002;Wangetal.2003)进行实施。简要地说,利用抗菌素cp29DNA聚合酶和随机六聚体的DNA扩增可依据GenomiPhiDNA扩增试剂盒(AmershamBiosciencesCorp.,Sunnyvale,CA)的使用说明书进行实施。然后,扩增产物依据厂商推荐方案用乙醇进行沉淀。利用改进的随才几扩增进4亍DNA扩增可能釆用SequenaseTMversion2.0DNA聚合酶(UnitedStatesBiochemical,ClevElAnd,OH),<吏用引物D,在第一轮DNA合成中进行实施,随即采用引物E进行PCR扩增。对于RNA扩增,病毒样本经改进版的随机PCR方案(Wangetal.2002;Wangetal.2003;Kessleretal.2004)进行扩增。筒要地说,10jil全部RNA能通过采用引净勿D和superscriptIII反4争录酶(InvitrogenCorp.Carlsbad,CA)进4亍反津争录,然后采用引物E经PCR反应进行扩增。RNA和DNA^各径的会聚RNA和DNA鴻^径的合并在图9中进行了描述。在本发明的一种实施方案中,RNA和DNA路径合并在一起。这个方案根据加利福尼亚旧金山大学JosephDeRisi实-睑室Oittp:〃derisilab.ucsf.edu/pdfs/RoundABC.pdf)进行改进并且随机将单一、固定序列PCR引物结合位点加入到所有病原菌DNA或cDNA分子中,采用常规PCR热循环方案^f吏它们都在随后步-骤中3皮扩增。凄t据获得和处理Affymetrix"鼓阵列i殳备总的来说,"微阵列"为优选分散区域的线性或二维阵列,每一种区域具有确定面积,在固体载体表面上形成。孩i阵列上分散区Jt或密度通过单一固相载体上被;f全测的不同耙点聚核苷酸的总数进行确定,优选至少约102/cm2,更优选至少约104/cm2,甚至更优选至少约106/cm2,仍更Y尤选约108/cm2。如这里j吏用的,DNA孩i阵列为置于芯片上或用于4全测和/或分离靶点聚核苷酸的其他表面上的寡核苷酸引物的阵列。因为阵列中引物的每个特殊基位点是已知的,靶点聚核苷酸的鉴别可基于它们结合微阵列中特歹未4立点来进4于确定。本发明的一种实施方案利用标准Affymetrix部件(AgilentGeneChipScanner(被淘汰的)和Affymetrix扫描仪3000workstation和FluidicsStation450。原则上,被描述的发明不需要这个设备。用于定量基因表达和高置信度SNP4企测的给定用途的GeneChip系统,现有的设备对于信号强度的动力学范围或本发明固有的背景干扰来说不是最佳的。因此,优选的实施方案加入了使用图像获取方法,包括使用空间频率过滤器和图像增强净支术,利用特征维数固有规律性加强过滤算法(例如,边缘增强、巻积,等)更好对比于噪声图像。AffymetrixCustomSeq方案在本发明的一种实施方案中,样本处理通过采用标准AffymetrixCustomSeqTM方案完成。一般来i兌,这个方法需要(a)扩增含DNA纟果针材料,(b)集中和测量扩增产物数量,(c)扩增产物片段法和标记,(d)靶点杂交,和(e)斗洗,着色和扫描被杂交輩巴点。AffymetrixCustomSeqTM方案的详细描述可在从厂商中得到的产物手册和方案指南中找到。在标准的AffymetrixCustomSeqTM方案中,步骤(a)需要长程PCR或者短程PCR,长程PCR为优选扩增策略。对于这些扩增策略的每一种,厂商推荐的PCRDNA聚合酶为Taq变异体,AmpliTaqGoldDNA聚合酶(短程PCR)和LATaqDNA聚合酶(长程PCR)。尽管厂商不特殊推荐,一些DNA聚合酶可用于步骤(a)只要被采用的DNA聚合酶为高保真DNA聚合酶。为了推动DNA扩增步骤(a),标准的AffymetrixCustomS叫TM方案采用特异性PCR引物。然而,特异性PCR引物的使用显著性限制了发明技术的广泛应用由于引入系统偏差,该系统偏差由迄今已经采用的特异性PCR方法产生。因此,在本发明步骤(a)的一种优选实施方案中,AffymetrixCustomSeqTM方案由可供选择的扩增策略取代,如多重PCR、全部扩增(GenomiPhi),或随机RT/PCR。这些可供选择的策略在上文中进行了描述。每个厂商推荐的PCR策略的最佳PCR扩增条件,以及本发明的优选策略,能通过技术人员进行的常^L试验进行确定。因为PCR反应之间存在可变性,AffymetrixCustomSeqTM方案陈述了试验性能可大大降低如果杂交中扩增子浓度改变大于两倍。因此,AffymetrixCustomSeqTM方案的步骤(b)需要集中PCR反应并且分光光度法定量确保等摩尔样本应用于孩t阵列然而,本发明得到了超过AffymetrixCustomSeqTM方法的SNP4全测定制的方案的一些优势,在本发明中使用具有序列长度无关类似性搜索(BLASTN)的高密度芯片提供了在筛选拼接用序列之前必须做出较少假设。此外,使用长度无关类似性搜索(BLASTN)除去了特殊的已知子序列成功再测序的限制,使该方法对靶点浓缩物中的变异体更具有抗性和非特异性结合的影响导致失去石咸基响应。因此,在本发明范围内,AffymetrixCustomSeqTM方案的步-骤(b)是非必须的并且可^皮省略。在DNA扩增之后,得到的DNA分子太长以至于不能与阵列表面的短探针进行杂交。因此,AffymetrixCustomSeqTM方案的步骤(c)涉及片#殳法和后续用荧光物质标记片段。该方法和片段法试剂和标记没有特木限制;然而标记必须与再测序樣t阵列的检测仪器兼容。为了这个目的,厂商4,荐的试剂和条件可能被采用。Affvmetrix方案的可供选择的改变荧光标记可能有利于这里描述的方法,因为这些为常规使用自动化使用仪器同时高通量分析多个样本,包括Cy焚光团,罗丹明焚光团TARAM、ROX、JOE、和FAM;BigDyeTM荧i^团(AppliedBiosystems,Inc.)、丹磺酰基、荧光素和取代荧光素衍生物、吖啶衍生物、香豆素衍生物、金色染料、四曱基若丹明、TexasRedTM、9-(羧乙基)-3-羟基-6-氧代-6H-氧杂蒽、DABCYL、BODIPYtm、和ALEXATM荧光素(分子4罙针,Eugene,Oregon)。此外,有许多标记而荧光团,荧光团将适合并且或许在许多情况中更优选。这些标记物包括,但不限于共振光散射(RLS)颗粒(InVitrogen,Carlsbad,CA)、量子点(QuantumDotCorp.)和其他具者预期光学性质的纳米级颗粒。乾点杂交(步骤(d))可能按照AffymetrixCustomSeqTM方案中描述的执行。这个步骤重点部分是含有片段和标记DNA的样本经高温(例如,85-100°C,优选95°C)培养变性,随即进行杂交温度(如,45°C)平衡。一旦含有DNA样本平衡,样本用于再测序阵列。厂商推荐实施杂交反应16个小时;然而,如上述陈述的,本发明的方法不使其性能依赖于提高灵敏性来产生适宜的碱基响应。因此,较短的培养时间适于輩巴点杂交。在本发明的背景中,靶点杂交培养时间可从15分钟的短时间到24小时的长时间范围内变化。很明显,希望这个范围时间包含每个间隔时间仿佛它们被明确^见定一样。^直得注意的优选时间为15分钟、30分4中、l个小时、2个小时、4个小时、12个小时、和16个小时。AffymetrixCustomSeqTM方案的最后步'骤需要^f吏用AffymetrixFluidicsStation斗洗被杂交的阵列并且采用AgilentGeneArrayTM扫描仪进行扫描。这个仪器简单自动化了将手动执行的标记和冲洗步骤。因此,将能够时控输送和收回毫升量的标记物和冲洗介质一些^义器将适合供选择。这里描述的本发明将用于一些Affymetrix提供的后续硬件改变。此外,从这里描述类型的再测序孩史阵列中获得凄t据可从一些制造商的微阵列处理i殳备中得到。关于病原菌4企测的生物4言息学问题依赖于用于病原菌微阵列检测的终点,生物信息学问题的重点是非常不同的。生物信息学工具对有效设计和筛选出孩i阵列形成的特异性互补核酸探针序列是不可缺少的。例如,靶点病原菌基因组核酸序列通常在樣史阵列分析之前被扩增并且生物信息学很明显在引物设计(评估Tm/Tn,二级结构,自身互补度,和特异性问题)用于分析试验对有机体和菌抹具有特异性基因中起作用(Kampke,Kieninger&Mecklenburg,2001)。这些相同分片斤测试也必须适合于孩t阵列挥:针设计。在实验设计的初始阶段期间,作ii殳与靶点病原菌相关的遗传信号的引物和探针对那个病原菌或病原菌家族具有特异性。应了解,扩增子的生成或使用特殊设计的引物或探针进行的阳性杂交反应将分别说明靶点病原菌的指定分子特征的检测;然而,这不必要是正确的。纟田菌和病毒遗传混乱,微生物倾向于交换遗传物质,造成单一物种或菌林特异性探针形成中的困难(Ochman,Lawrence&Groisman,2000)。因此,优选引物和4罙4十i更计方法学需要使用生物信息工具来(a)在不同有机体或菌抹之间执行多重序列分子并且i殳计适当的具有示意生物学性质的引物,(b)将这些序列与注册在序列数据库中那些序列进行比对来确定特殊序列的唯一'性和交叉反应的电位,和(c)推断出基于遗传保守水平的靶点特异性的概率和主要遗传序列仍没有被阐明的其他病原和非病原物种遗传相关性。公开发明的一种非常重要的生物信息学方面涉及组合、注释和输入到微阵列中数据库的病原菌诊断靶点的筛选,以及微阵列上相关探测这种数据库的伴随任务。本发明的一种优势为公共用数据库中的信息正在4是高,因此进一步提高了本发明的稳健性质。本发明描述了从公开发表的文库中(例J;n,GenBank)中自动筛选病原菌輩巴点序列的方法和/或确定^>开发表的文库中经验辨别的i貪断靶点序列的方法。描述的方法具有联合科学家们的优势,大量病原菌种中每一种类的的处理专家能提供相关病患菌诊断信息,将这些信息掺入到自动阵列设计方法中,不特殊考虑特异性探针、试剂、扩增、和一羊本制备方法。在一种非常优选的实施方案中,大量不相关病原菌中的每一种的必备领域知识将经网络门户数据库保持最新技术。因此,影响深远的团队,由特异性病原菌单个研究员构成,将能够通过"pathogenpage"格式网络门户提供最新注释革巴点序列j言息,类似于细月包信号传导耳关盟(AfCS)采用的"molecularpage"样式。AfCS凌t据库保持着包含在分子内信号转导体系中的数千个分子上的不可理解数量的特异性信息。以这种格式,没有单个信号转导分子特殊知识的单个研究者能使用详细的参数,这些参数能在信号转导数值模拟中使用。因此,在另一种非常优选的实施方案中,单个病原菌的注释靶点序列数据被安排在自动化数据管道内,其中将在病原菌数据库全部信息内容之上加强用户自定义设计限制(例如,探针特征数量、病原菌靶点数量、阵列实施要求的灵敏性和特异性水平,等),允许自动化,最优化fe点筛选,并且将这些靶点以微阵列制备必要格式提交给供应商。在又一种非常优选的实施方案中,由先前方法确定的#:筛选草巴点序列将与微阵列实际使用中收集的数据有关。使得概率和质量的度量将用于判定。实施这种自动化流水线数据和算法的两种优选方法为VIBE(可祸J匕集成生物信息学环i免)專欠件(Incogen,Inc.,Williamsburg,VA)和iNquiry(BioTeam,Boston,MA),这两种软件代表一类集成生物信息学环境,两种软件相对于该用途具有相同的效果。数据获得-再测序微阵列芯片的原始序列数据由与Affymetrix微阵列阅读器一起包装的遗传数据分析软件version2.0(GDAS)提供。Affymetrix再测序阵列包含规定数量的探针细胞或部件。在扫描期间,软件将每个部件分为亚单位方块或像素(3x3nm)。每个部件包含规定顺序的独一无二的25个碱基寡核苷酸揮:针的许多拷贝,然而一系列的八个部件查询已知参考序列中的特异性^立点。四个部件询问正义链并且包含一些探:针,这些探针除了中心碱基是A、C、G、或T之外是同源的,四个部件查询反义链并且包含一些探针,这些探针除了中心碱基是A、C、G、或T之外是同源的。GDAS使用细胞强度数据来生成再测序阵列上表示的每个碱基位的碱基响应。在GDAS的厂商设定下,算法采用多重样本中的强度数据来提高石成基响应的精确度并且为每个响应分配质量得分。GDAS碱基响应是基于先前描述的石咸基响应算法,ABACUS,在(Cutleretal.,2001))详细进行了描述。该模型假设,特征的像素灰度是独立的并且正常分布的。该算法计算出估计平均背景和正义链和反义链特征的改变。碱基响应算法也拟定样本(单倍体或多倍体)中存在或缺少的不同基因类型的模型。许多碱基响应算法参数能由用户(GDAS操作手册/用户指南,Affymetrix)确定而获4寻石威基响应百分比和4青确度之间的平衡。关于GDAS的算法和能被修改的参数的补充说明在GDAS用户手册中能够找到。参数的描述在GDAS2.0版手册中的第207-217中能找到。推荐(缺省)的GDAS设置是集中于最高水平精确度的"保守性"设置。相反,本发明的目标是为了提高石咸基响应的百分率。为了达到这个目标,本发明者调整了参数允许如下面列出的高度许可碱基响应(提高百分率)"许可"碱基响应算法设置--过滤器条件无信号阈^直=0.500(默认值=1.000000)"弱信号倍数阈值=20000.000(默认值=20.000000)大信噪比阈值=20.000000(默认值=20.000000)-算法参数*链质量阈值=o.ooo(默认值=o.oooooo;).总链质量阈值-25.0000(默认值=75.000000)'杂合子响应的最大值-0.99000(默认值=0.900000)模拟类型(0=杂合子,1=纯合子)-o完美响应质量阈值=0.500(默认值=2.000000)-最终可靠性^见则临近探针响应的最小值=1.0000(关闭过滤器)样本响应的最小值=1.0000(关闭过滤器)上述i殳置在本应用中是重要的,因为通过默认牺牲生成的碱基响应数量目的为了生成最4青确响应(例如,信噪比;f企测)建立起石咸基响应算法。在本发明的应用中,该技术很少关注于获得信噪比检测要求的相同程度的精确度而代替的是扩大生成响应的#:量<吏得经GDAS制备出最长段的邻才妻序列而保持必要特异性。可以理解的,在本发明界定的范围内,上述列出的许可设置能个别改变或按照执行者的需要全部改变来获得最佳灵敏性/特异性协定。此外,可以理解的,上述i殳置是示范性的并且在没有改变本发明预期结果的情况下,每个设置可改变10%或更多(随参数而定)。再测序病原菌辨识器(REPI)和备选、修改、研制也依据本发明,它为来自^咸基响应算法的序列信息,如应用于孩i阵列杂交模式,微阵列杂交模式用于鉴别单个病原菌。优选地,经再测序4笨针确定的靶点序列用于采用类似性:溲索算法查询数据库。更优选地,该算法通常采用已使用的局部分析(例如,Smith-Waterman,BLASTN)序列分析算法来统计学上确定给定靶点序列对应于凄之据库记录中的特异性序列的概率(Korf,YandellScBedell,2003)。甚至更《尤选i也,自定义算法确定了最适用于针对数据库记录产生有意义类似性搜索的子序列,数据库记录确定出自动提呈给类似性搜索的一套序列。然而,甚至更优选地,自动子序列分析算法为在本发明中描述的再测序病原菌辨识器(REPI)算法并且该序列凄史据库记录将存在于公众领域(例如,GenBank)和私人领域中。核酸序列类似性^_索算法的变化适合于在指定发明中<吏用,包括,〗旦不限于华盛顿大学BLASTCWU-BLAST)、NCBI-BLAST、FastA、MPsrch、Scanps、和BestFit(Korfetal"2003)。REPI备选和变异在描述的发明中,REPI(再测序病原菌辨识器)软件(参见,2004年9月15日4是出的美国申ffrSerialNo.60/609,918,和2004年11月29日才是出的美国申i奮SerialNo.60/631,460)被用于确定CustomSeq/GCOS/GDAS过程的碱基响应子序列将可能通过使用自定义滑窗算法返回显著性BLAST结果。随后,REPI自动返回BLAST输出给终端用户,随机安排对应于特殊微生物序列的给定石成基响应的可能性。低水平软件功能性类似于UNIX"核心"或UNIX计算机4喿作系统,因为所有4交高水平功能和用户界面必须通过它进4亍再测序芯片分牙斤。REPI提供的低水平功能性将成为许多较大生物信息学任务的中枢,较高生物信息学任务将利用核酸的分散片断,或甚至氨基酸序列。在下列实施例中,本发明者提供了显示序列片段能自动连接单个病原菌的数据。在一些更优选的实施方案中,这种方法能^皮精确至病原菌混合物之间和病原菌之间的遗传重组之间进行更好地分析。在一种非常优选的实施方案中,分析软件将考虑自动4企测在阵列的不同拼接区域上的重叠或同源序列片#殳,推断出病原菌的混合物。在一种甚至更精确的实施方案中,分析软件将确定不同拼接区域的序列输出,这些拼接区域不重叠但对应于可用于推断遗传重组发生的邻4姿序列。例如,两抹病毒的交叉传染可能产生基因重组,这个基因与病毒4朱除了5'端之外是同源的,所述5'端用另一种病毒株基因的对应部分取代。当这个新重组病毒基因组在再测序孩£阵列上#皮杂交,从相应的两个区J或的产生信号。将需要自组装算法来构建显示出所有部分结合在一起形成完成靶点的病原菌模型。如果两个具有显著性重叠部分,可断定可能存在混合物。但如果没有重叠部分,将存在重组的可能性。重叠的程度(或缺乏重叠)将受到低浓度靶点和相对较小量的被填充拼接的影响。同样的原理甚至更容易应用,并得到更大的影响,在病毒上重组稳定并重复发生,如在流行性感冒中,病毒片断之间的重组*见律性导致新病毒一朱的形成。事实上,这个4皮描述的REPI功能性将成为辨别病原菌混合物对重组的基础。在另一种非常优选的实施方案中,REPI算法将考虑分析转录标记物(例如,RNA),这种转录标记物采用目前描述的类型孩t阵列进4于再测序(经RNA杂交或互补cDNA)。在类似于上述描述的4,i仑基因重组发生的方法中,转录序列也可被组装来确定病原菌存活能力和能作为传染标记物的转录编辑结果。另一种REPI备选(估计样本中病原菌輩巴点数量)不仅是本发明的方法能够在病原菌混合物和给定病原菌(本文中的别处描述的)范围内重组之间区分,它也将很有价值地^是供给终端用户在再测序微阵列试验中被检测出的相对量病原菌的评价。尤其是,当病原菌基因组信号被检测出,临床医生(技师)指明原因和功效时,这将具有重大效用。两种类型的数据可用于这个目的。首先是芯片上杂交的绝对强度。溶液中靶点的量和实际杂交的量和生成的信号之间存在非线性关系。然而,样本中靶点核酸量的评估可能经比对空白条件下制备的标准曲线来得到。信号强度凄t据容易/人Affymetrix凄史据结构中的.CEL文件中得到,并且尽管.CEL文件内容在这个公开中没有使用,REPI的输出能容易修改包括.CEL文件的强度值。第二,碱基响应的百分率,如全部拼接区域尺寸的百分率和如筛选的满足滑窗算法的子序列范围内碱基响应的百分率,能用作浓度的测量。我们的结果显示出两种百分比度量随着耙点浓度降低而降低,尽管正确病原菌仍能^皮鉴别出。病原菌4全测的一般用途在一种优选实施方案中,这里描述的本发明将用于病床装置(床上或床旁)中常见呼吸病原菌的常规诊断和监4见。易于得到的样本(例如,鼻腔冲洗液、鼻腔」拭子、咽喉4式子、唾液、或血液)将以简单方式进4亍处理来生成核酸分离,采用吸附法分离核酸,富集病原菌特异性靶点,采用无偏差(或全部)扩增法或多重PCR方法进行扩增,并且在洗涤和成像之前,在再测序微阵列上杂交最少时间。全部过程足够简单使得技术人员(普通医学技术人员)将能够在没有重大中断情况下以常规工作模式执行该试验。碱基响应将采用自定义算法或采用开发商指定的步骤来生成。REPI或其一些变异,将用于自动分析由微阵列生成的碱基响应,并且提供终端用户(例如,医师、疗养院、公共卫生官员、或其它决策者)传染性病原菌管理质量信息决定(例如,诊断、处理、预见和爆发控制/污染测量),这些传染性病原菌成为疾病综合症和并发症的原因。这个分析将经使用嵌入式序列数据库而局部发生,嵌入式数据库经RE:PI被查询(例如,局部专有BLAST服务器)。除了提供常规^貪断动能之外,微阵列也将携带标记物给高度不可能(例如,生物恐怖行动)病原菌,这种高度不可能病原菌将成为连累其他如々V共健康官员的原因。然而,可以3里解的,鼻月空冲洗液或咽喉对式子不可能成为生物恐怖试剂诊断的最佳样本类型并且可能需要分离样本类型。同样在本发明界定的范围内,进一步证实了利用孩£阵列和本发明的方法,包括细节1:患者借助T>100.5医学器械并具有呼吸道病症。耳又出鼻腔冲洗液和/或咽喉拭子。能通过这种路线鉴别的病原菌包括常见发生的病原菌,列在表1中。发热已经发现成为经培养分离呼吸病原菌重要标准并且文献i正实在发热期间,病原菌浓度一4殳为峰值浓度。对于生物恐怖试剂,文献中可利用的关于生物试剂集中释放之后,在呼吸分泌物中传染性滴度的信息很少。令人怀疑的是,气雾释放生物恐怖试剂在接触后的第一个24小时内将导致可检测滴度的生物体。在接触后的第一个24小时内的个体中,微阵列将适合鉴别常见病原菌的目的,这些常见病原菌可能被错误的怀疑为来自BT/BW试剂。接触显著性气雾释放的一部分个体将迅速显示出症状并且将在鼻孔中保留检测用的BT/BW试剂。对于疾病,例如天花,症状发作的潜伏期是比净交长的,^旦病毒能乂人咽喉培养物分离出几天。细节2:个体已经病了几天并且最初不去门i貪部,而选择自己用药医治。患者可能最初没有注意到发烧,但现在已经发烧并且有呼吸病症,担心不退烧。保健医生(HCP)察看患者并且确定适当的临床样本。如果患者显示出更严重,那么可进行胸透X-ray观察。引发较低呼吸道传染的常规有机体包括,但不限于肺炎支原体、肺炎双球菌、肺炎衣原体、嗜肺军团菌、化脓性链球菌、流行性感冒A/B、RSV、副流感、金葡菌属、SARS。在关注的BT/BW试剂中,不正常的胸透x-ray能发现炭疽芽孢杆菌、天花、鼠疫杆菌、土拉热弗朗西斯菌。对于常见呼吸道生物体,鼻腔冲洗液/咽喉拭子仍是适宜的样本4支术,尽管一些从业者选择发送唾液样本。对于BT/BW试剂,唾液和血液是适宜的样本技术。细节3:正在爆发的已知试剂。微阵列能连续用于检测其他常见病原菌,但也可用于采用一些类型的适当才丰本筛选已知BT/BW试剂。其他的试-验可能iiE明很便宜,但微阵列在病原菌鉴别的同时能提供法医信息和抗生素抗性凝:据全面商业4莫式再测序DNA纟毁阵列和相关装置(包括其他类型的低容量蕃t阵列或可供选择的序列探测器)将仅为一类综合病原菌诊断/监视系统的元件。这个系统将由it断、信息学、流4亍病学成分构成。在i貪断7jc平上,RPM(和辅助设备)将提供快速费用低廉的方法来提供传染性呼吸疾病的诊断、患者特殊治疗信息和预后信息(基于毒力和抵抗力标记)。这将表现出临床猜测的相应病症的一种或一些病原菌(例如,肺炎支原体和其他具有"步行性肺炎"表象的病原菌将通过获得细菌培养物进行测定,存在那种病原菌抗体,等等)诊断重点的改变和通过多重DNA微阵列实施以症状和器官系统或受影响系统为基础的不同测试。单一高度多重DNA阵列将附加地4是供关于病原菌组群的诊断信息来治疗(例如,细菌,病毒,寄生虫,和真菌病原菌),通过减少因猜测因果剂而开出的药方的数量(例如,针对病毒性呼吸感染开出的抗生素将不起作用)产生丰富利润。附加的i貪断应用可包括影响器官或器官系统(例如,呼吸系统、泌尿生殖系统、中枢神经系统,等)的所有病原菌,综合征(例如,在没有鉴别原因来排除所有潜在传染性疾病诱因的情况下,医院内评估的4争续两周且原因不明的发烧),症状(例如,引发风疹或发痒皮渗,或咳嗽等的所有病原菌),四周收集地理位置存在的病原菌或威胁,或功能类别(例如,以耐抗菌剂的所有有4几体为基础分组或其^也受限定位Y象监《汰或疗养院)。高度多重不同"^断测试将通过确定传染病病因、药剂抗菌感受性、和关于药剂性质的J^因组序列特异性线索来实施,使得有大量机会被确定来提高临床治疗的功效和效率。然而,因为进行大量特异性分子查询,大量病原菌被发现,每种具有先前难以达到的详细水平。同样地,作为现在正在与i貪断同时执行的"监^L"活动的一部分,避免需要通常要求临床水平的繁重且花费大的任务用于监视支持,大量试-睑(培养、按血清分类,和PCR确认)被随后和偶尔实施。这将与以某种方式对RNA病毒(例如,流行性感冒和SARS)变异体诊断和监视密切相关,当取决于特异性寡核苷酸探针位点时,这种方式将相当复杂。在这里描述的特殊实施方案中,拥有诊断孩i阵列将高度有利,孩i阵列的制备将不取决于大量靶点序列的可利用性和采用它们制备阵列的方法。更重要地,不限制靶点序列是不变的假设是关键的。在没有要求重设计特异性寡核苷酸探针和阵列重新制作的情况下,DNA孩i阵列的诊断将鉴别特异性但非预期的模式病原菌基因组变异体。对于表征传染性疾病以时效性方式暴发的能力是关键性的。例如,在没有要求分离病原菌,进行培养,和采用常规方法测序的情况下,这种微阵列能用于快速4企测出流行性感冒或SARS病毒的新型变异;如果病原菌是容易培养的,这个过程将需要几个星期到几个月时间。本发明也包括监测病原菌混合物的应用,尤其当没有初步i正据il明提示该混合物可能通过特异性试剂(例如,PCR引物)进行问诊。因此,本发明提供了一种方法来影响确定疾病病原学中影响病原菌的互补作用的能力。然而,在应用中例如病毒或细菌原种质量控制和病毒疫苗生产的评《介,涉及本地林的内部混合物和生成重组的可培养病毒。从而,本发明能够提出疫苗功效的正确适宜表位。该系统的信息学组成将提供必要组成来实施局部(床旁诊断)、自动化微阵列数据分析以及协同多方向信息传递。"上游"流信息将从再测序芯片,优选以FASTA形式,和所有相关局部处理结果,转移特异性序列条义基响应到地方、区域、国家和国际水平。信息的"测流"将涉及特异性序列石咸!^响应地交换和其他局部床旁医疗i殳备的相关局部处理结果。"下游"流信息定义为区;或和J也方卫生部门的国家级凄史据集成。像临床样本,环境样本可包含少量的来源不明的高度基因组背景中的把点核酸。但不像给定类型的临床样本,环境样本(例如,土i裏,水,或气溶胶粒子收集器中收集到的)中发现的背景可能显示出取决于地理位置、季节、和环境条件的异质成分。因此,上述^l:到的扩增、富集和/或消减策略可用于获得可靠的;咸基响应。法医和环境应用RPM提供的详细序列信息的数量将能用于多种应用除了医疗诊断和监视。因此,该设备性能扩展到特异性病原菌林的法医指紋识别。这种性能实现了传染性疾病病因学的预先"i貪断,作为确定i貪断分析的可供选择的常规工作。在有意传染、投毒、或生物恐怖活动的事件中,再测序病原菌寺企测樣i阵列将考虑用于详细的菌林识别来确定事件的可能主因和通过实施公共卫生防范措施迅速緩解事件(例如,确定传染性能力,抗微生物抗性,或对有机体的基因工程改变),作为疾病发作研究过程的第一步,直接鉴别菌株病原菌。本发明进一步提出了自动化和最优化迭4、和自适应设计、制备和确i人阵列,包括派生的子阵列的方法和步骤。在一种非常优选的实施方案中,企业级、病原菌专家团队将操作支持webportal数据库。该团队将具有鉴别和毒力的病原菌靶点序列。本发明中描述的同一技术能用于非临床样本,包括从空气、水、土壤或表面拭子收集的样本。本发明中描述的进行必要的l务改对于核酸提取和背景核酸的除去是必要的,如果消减方法随后进行遗传扩增是理想的方法。人群中多重病原菌监—见本发明进一步提供了一种特殊执行,这种执行验证了其在现实操作设置中的能力。这个执行是关于急性呼吸疾病的流行性爆发,这种急性呼吸疾病包4舌常见和不常见病因学,而且同时评估在单独作用中恶意病原菌的可能表现(纵使有也是罕见的)。因此,发明提供了执行导致传染性发作的多数具有传染性病原菌的近实时监-见的方法。这种监-见可被验证并最终变成在"现实实验床"上进行操作。在一种优选实施方案中,现实实验床为人群,这种人群身见律性地遭遇许多呼吸病原菌。在一种优选实施方案中,人群由部队人员构成。在一种优选实施方案中,人群由现役军人构成。纟冬端用户具体应用微阵列设计和试验的综合过程将仅需要将序列提供给微阵列厂商,不涉及辅助试剂(例如,特异性PCR用的辅助试剂)。因此,终端用户不具备基因组的详细知识,将能够确定微阵列试验的定性作用,并且自动化生物信息学流水线将用于筛选提呈给再测序微阵列厂商的适宜靶点基因子序列。这将使用于特殊地理位置战区的新颖箱i阵列i殳计迅速发展。因ot匕,本发明综合的^:计/分析能力将普遍适用于除这里列出的其他想象到的应用。.腺病毒序列-本发明的另一种实施方案为十三4朱腺病毒的基因组序列,其在本发明曰期时未知,。十三林腺病毒为Ad3、Ad3FS一譜y、Ad4、Ad4vaccine、Ad4FS—謂y、Ad4FS—AF、Ad5FS、Ad7、Ad7FS—navy、Ad7vaccine、Adl6、Adl、;Ad21。这些i因组序列已经被指定了GenBank登录号,在实施例的表6中表示出。全部GenBank记录,包括部分注释,这些序列的每一种可在序列附表中找到。如这里使用的"多肽"可被理解为是指一些肽键结合的氨基酸残基的序列。这种氨基酸在本领域中是众所周知的并且包括未修饰和修饰的氨基酸。此外,一种或一种以上本领域中周知的修饰如糖基化、磷酸化等可修饰多肽。术语"分离的,,意指从其自然环境中被分离出。这个术语是为了也包括术语"纯化的"(100°/。纯净)和"大体上纯化的,,(至少卯%纯净)。术语"聚核普酸"一般统指多聚核糖核苷酸和多脱氧糖核核苷酸,并且能表示未小,饰RNA或DNA或小务饰的:RNA或DNA。如这里使用的术语"同源的"可理解为意指两个或多个聚核苷酸或同一物种或不同物种的蛋白之间的序列类似性。在这个术语的含义内,依据本发明,当候选序列的核普酸碱基(氨基酸)组成至少70%,优选至少80%,最优选至少90%对应于该序列时,上述两个或多个聚核苷酸(或蛋白质)是同源的。依据本发明,"同源蛋白质"可理解为保持至少50%,优选至少75%,更优选至少85%,最优选至少95%的本发明序列的活性。如这里佳_用的"对应"可理解为对应氨基酸或者是同样的或者是相互同源的氨基酸。表达为"同源氨基酸"表示具有相应性质,尤其关于其电荷、憎水性、位阻性质等。相同命名法能用于描述编码相应蛋白质的基因序列的DNA或RNA序列同源性。在这里使用的术语"同源片段"可理解为来自同一种类或不同种类的两个或多个聚核苷酸或蛋白质。在上下文中,可预期的是,当这个片段与具有至少50个氨基酸的片段至少40%同源,那么这个片^殳是同源的。更优选的,同源片,殳与具有至少50个氨基酸的片4爻至少60%同源,至少70%同源,至少80%同源,至少90%同源,或至少95%同源。因jt匕,同源片#殳包4舌在本发明的范围内。对于同源的聚核苷酸,可以理解的,相同同源性范围在本发明的预想之内4旦超过1000个核苷酸的范,包括所有整lt(例如,150、250、300、500、750,等)。同源性,核普酸或氨基酸序列的序列相似性或序列同一性可采用已知4欠件或计算才凡程序如BestFit或Gap成对比对程序(GCGWisconsinPackage,GeneticsComputerGroup,575ScienceDrive,Madison,Wisconsin5371l)常头见确定出。BestFit使用Smith和Waterman的局部同源性算法(AdvancesinAppliedMathematics2:482-489(1981))来4戈出两个序歹'J之间的同——'性或才目似性的最佳片断。Gap采用Needleman和Wunsch的方法(themethodofNeedlemanandWu認h,J.Mol.Biol.48:443-453(1970))执行全局分析一种序列的全部和另一种相似序列的全部。当采用序列分析4呈序如BestFit,确定序列同源性、相似性或同一性的时^夷,可采用缺省设置,或者适当的记分矩阵可筛选最佳同一性、相似性或同源性分凄t。相似性,当采用程序如BestFit确定两个氨基酸序列之间的序列同一.性、类似性或同源性时,可使用缺省设置,或者适当的记分矩阵,例如blosum45或blosum80,可筛选最佳同一'l"生、相似性或同源性分凄史。本发明也关于包含完整基因的聚核香酸,通过开放阅读框鉴别出该完整基因。在序列附表中可找到包括在本发明内的优选基因的实施例包括E1A、六邻体、和纤毛,以及本发明范围内的其他优选聚核香酸序列。本发明也包括上述基因片段和聚核苷酸和其片段,聚核普酸和其片段能通过用探针杂交相应基因库进行筛选而获得,该探针包含上述寡核苷酸或其片-度的序列,和上述DNA序列的分离物。本发明也关于编码DNA序列,该DNA序列由遗传密码的变性得到。此外,本领域中的技术人员也明白保守氨基酸取代如在蛋白质中丙胺酸取代甘氨酸或用谷氨酸取代天冬氨酸,如"同义突变"不导致蛋白质活性的任何基础改变,例如功能上中性的。也应知道,蛋白质N-和/或C-末端的改变大体上不削弱其功能,并且甚至可能稳定上述功能。依据本发明的寡核香酸序列适合作为RNA、cDNA和DNA的杂交冲采针,为了分离这些cDNAs或基因,cDNAs或基因显示出高度相似性探针序列。依据本发明的寡核苷酸序列适合作为聚合酶链反应(PCR)的引物用于生产编石马活〗生酶的DNA。寡核苷酸如那些作为探针或引物,能包含多于30个,优选等于30个,更优选等于20个,甚至更优选至少15个,最优选至少13个连续核苷酸。长度至少40个到50个核香酸的寡核普酸也适合。杂交方案在本4支术领i或中是周知的并且在如kvSambrooketal.,Molecu.larCloning:ALaboratoryManua〗,ColdSpringHarborLaboratory,NewYork(1989)中进行了公开。然而,如这里使用的,严格杂交条件是在聚核苷酸之间进行杂交的那些条件,采用常规同源性程序确定的这些寡核苷酸为75%、80%、85%、90%、95%或98%同源的,常*见同源寸生禾呈序的一种实施例为Wisconsin大学的UWGCG序列分析程序(Devereux,Haeberli&Smithies,1984)。通常地,严格条件为,pH值为7.0到8.3时,盐浓度小于约1.5MNa离子,通常约0.01到1.0MNa离子浓度(或其他盐)并且对于短纟果^"(例如,10到50个核苷酸),温度至少约30。C,并且对于长4果针(例如,大于50个核苷酸),温度至少约6(TC。严格条件也可外加^皮稳定剂如甲酰胺而得到。示范性低严谨条件包括在37。C下,采用30到35%曱酰胺緩冲溶液,lMNaCl,1%SDS(十二烷基硫酸钠)进行杂交,并且在50到55。C下,IX到2XSSC(20XSSC=3.0MNaCl/0.3M柠檬酸三钠)进行洗涤。示范性适度严i堇条件包4舌在37。C下,在40至'J45%甲酰胺,1MNaCl,1%SDS中进4亍杂交,并且在55到6(TC下,在0.5X到IXSSC中进4亍洗涤。示范性严谨条件包括在37。C下,在50%曱酰胺,1MNaCi,1%SDS中进行杂交,并且在60到65。C下,在0.1XSSC中进行洗涤。特异性通常为杂交后洗涤的功能,关键性因素为离子强度和最终洗涤溶液的温度。只f于DNA—DNA杂交,Tm能才妾近于Meinkoth和WaM方禾呈,(Meinkoth&WaM,1984):Tm=81.5。C+16.6(logM)+0.41(%GC)-0.61(%form)_500/L;M为单价阳离子摩尔浓度,%GC为DNA中鸟嘌呤核普和胞嘧,定核苷酸的百分比,%form为杂交遂液中甲酰胺的百分比,并且L为石成基对中杂交的长度。Tm为在50%的互补草巴点序列杂交到完美匹配的4果4十的温度(在失见定离子强度和pH下)。每1%的错配,Tm减少约1。C;因此,Tm,杂交和/或洗涤条件能调整来杂交预期同一性的序列。例如,如果约90%同一性的序列被查询,Tm能降低10。C。通常地,选择的严谨条件比特异性序列热熔点(Tm)低约5°C,并且它的补体在规定离子强度和pH值条件下。然而,严格的严谨条件能在比热熔点(Tm)低1、2、3、或4'C下,进行杂交和/或洗涤;适度的严谨条件能在比热熔点(Tm)低6、7、8、9、或10°C下,进行杂交和/或洗涤;低严谨条件能在比热熔点(Tm)低11、12、13、14、15、或20。C下,进4亍杂交和/或洗涤。采用这个方考呈式,杂交和洗涤组合物,并且预期的Tm,那些普通4支术人员将了解到,杂交和/或洗涤溶液的严谨条件的变化;故描述出。如果预期程度的4晉配导致小于45°C(水溶液)或32°C(甲酰胺溶液)的Tm,优选增加SSC浓度使得较高温度能^皮采用。核酸杂交的广泛性指南在分子生物学,第2章中的通用方案中找到,Ausubel,etal.,Eds.,GreenePublishingandWiley-Interscience,NewYork(2000)。本发明中的"引物"或"探针"意指合成或生物制备得到的聚核苷酸,尤其寡核芬酸,包括特异性核苷酸序列并且杂交到含有靶点核苷酸序列的片段。指定的引物或^l采针,以及所有其他的寡核苷酸和本发明的聚核苷酸,可通过任何一些众所周知的方法制备得到,这些方法包括釆用氰乙基-亚石粦酰胺引物的自动化固相化学合成。其他构建合成引物/寡核芬酸的众所周知的方法当,然可浮皮采用。J.Sambrook,E.F.FritschandT.Maniatis,MolecularCloningU(2ded.1989)。用于扩增样本核酸的引物可连接到可被检测的基团上。这种可祐j企测基团的一种优选实施例为荧光素,其为采用激光作为4会测体系,在核酸测序系统中使用的标准标记。其他可^皮;险测标记也能4皮采用,包括其他荧光团、放射性标记、化学耦联剂如能用链亲和素链接酶4企测的生物素,和表^立附加标i己如采用抗体^佥测的i也高辛素。引物可一皮〗务饰,通过加入另一种核苷酸,除去,或耳又4、寡核苦酸中至少一种核香酸。引入已知标记如放射性物质、酶、荧光物质,等。合成寡核苷酸也包括在内。相似地,4果针/寡核芬酸编码用于与编码本发明多肽的聚核芬酸杂交,例如,给了冲企测这种聚核苦酸,可连接可4全测基团。如在这里使用的,术语"增加"意指增加植物细胞和/或植物中的一种或一种以上酶的分子内活性,该才直物由相应的DNA编石马。增加能通过不同处理细菌细胞而获得。为了获得增加,尤其过渡表达,相应基因拷贝的数量能#皮增加,能l吏用强大的启动子,或启动子-和调-控区或核4唐体结合位点,该牙亥4唐体结合位点<立于可突变的结构基因上游。力口入到结构基因上游的表达框以同样的方式活动。此外,通过采用诱导启动子可能增加表达。编码具有高度活性的相应酶的基因也能被使用。也能通过扩大mRNA的生命力的措施提高表达。此外,阻止酶的变性总体上提高了酶活性。此外,这些4普施能选4奪性地以任何理想方式进4于组合。编码相应或具有高度活性的变异体的基因也能^t使用。优选地,相应的酶比天然形式的酶具有更大活性,更优选地至少在5%、10%、25%、或50%范围内的更大活性,最优选大于天然形式酶活性的两倍。本发明的上面描述提供了制备和使用它的方式和方法使得本
技术领域
中任何技术人员能够制备出和使用相同的,这个方法特别提供为附加权利要求的主旨,构成独创性描述的一部分。如在这里j吏用的,短语"选自由构成的组"、"选自"、和类似短语包括r指定材料的混合物。数字限制或范围在这里进行了陈述,端点包括在内,数字限制或范围内的所有值和子区明确包括在内,明确写出。上述^皮4是出的描述使本领域中的技术人员能获得和使用本发明,并且在特殊应用和其要求的背景中被给出。优选实施方案的不同修改将对本
技术领域
中的那些技术人员是显而易见的,并且在没有背离本发明界定的精神和范围的情况下,这里确定的遗传原理可用于其^f也实施方案和应用中。因此,本发明并不被实施例描述的限制,而是为了符合于这里公开的最宽范围一:i丈的原理和特;f正。#_据这里对本发明的描述,通过参考某些特异性实施例能进一步了解本发明,这里提供的特异性实施例仅为了举例说明,除非另外详细il明不是为了限制本发明。实施例原料和方法-表6(下面)列出了下面实施例中引用的腺病毒菌林。GenBank登录号统指分配给每个菌株的基因组序列号。这些序列在发明时间公众不能利用,并且这些序列形成了本发明的实施方案,以及相同的片^:。表6:<table>tableseeoriginaldocumentpage98</column></row><table><table>tableseeoriginaldocumentpage99</column></row><table>ATCC=美国典型培养物保藏中心(Manassas,VA)NHRC=海军健康研究中心(SanDiego,CA)NIH=国家健康研究所(Bethesda,MD)这些中每一种的全部GenBank记录,包括局部注释,在序列附录中找到。流行性感冒包含物由RPMV1上的4并4姿表示的原形流4亍性感冒类型为曱型流4亍性感冒病毒(A/NewCaledonia/20/99)血王求;疑集素1的HIHA基因,FluAHA3甲型流行性感冒病毒(A/Fujian/411/02)血球凝集素3的H3N2基因,FluAHA5曱型流行性感冒病毒(A/HongKong/156/97/H5N1),血球凝集素5F.IuANA.l流4亍性感冒(A/Chile/1/83),神经氨酸酶1FluANA2甲型流行性感冒病毒(A/Panama/2007/99/H3N2)神经氨酸酶2的NA基因,FluAMATRJX流行性感冒A/NWS/33/H1N1基体蛋白(M)FluBNA乙型流行性感冒病毒(B/Yamagata/16/88),神经氨酸酶糖蛋白基因FIuBNA乙型流行性感冒病毒(B/Yamanashi/166/98)血5求凝集素1亚单位(HA)FluBMATRIX乙型流行性感冒病毒(B/Yamagata/16/88)Ml基体蛋白(M)前述序列中每一种的登录号,以及存储的病原菌乾点序列,从公共领域和个人信息中得到,列在表9中。制备实施例1:RPM版本1芯片设计DNA序列^是呈给Affymetrix制备下列实施例中利用的再测序微阵列芯片(RPM版本1芯片)。DNA序列的提交和Affymetrix使用说明是依据厂商说明书CustomSeqTM阵列方案和产品参考文献。探针长度正常为25个核苷酸并且包含正义和反义方向的各自四个可能变异体(A、C、T或G)的可变(查询点)主要核普酸。上面列出的筛选给RPMV1病原菌的靶点基因在表8中显示出的版本1设计中进行了描述并且序列列表连同各自PCR引物用于相同的扩增。提呈给拼接和芯片制备的序列是以表7中总结的Affymetrix说明书为基础,对应于SEQIDNOs:1-58中出现的序列。相应"说明书"列出了每个4并接区域的其他指示符(e.g.FluAHA5)并且提供了"FASTA"形式的乾点基因序列(这能成为全长靶点基因的全部或部分)。<table>tableseeoriginaldocumentpage101</column></row><table><table>tableseeoriginaldocumentpage102</column></row><table><table>tableseeoriginaldocumentpage103</column></row><table><table>tableseeoriginaldocumentpage104</column></row><table>HI副流行性感冒病毒融合蛋白5'无206230214692138.146.3534204048ni编码区人鼻病毒5'无编码区388412224701656.244.95351656.243.8RSV(A,B)L-聚合酶355379234711936.843.95361936.842.9RSVW大壳包核酸,N82106244722638.557.35372147.654.3RSV(B)大壳包核酸,N104128254732638.5585383033.359.1西尼罗病毒西尼罗病毒西尼罗病毒人冠状病毒(229E)人冠状病毒(OC43)肺炎链球菌属肺炎链球菌属肺炎支原菌属脑膜炎奈瑟氏J泉菌脑膜炎奈瑟氏球菌百曰咳博德特氏菌百曰咳博德特氏菌肺炎衣原体属肺炎衣原体属C和prM自溶素,lytA肺松解术,ply细胞粘附素PI蛋白荚膜转移蛋白(ctrA)基因调控蛋白,crgA百曰咳毒素启动子区域百曰咳毒素SI亚单位ptxSl大外层膜蛋白(MOMP)VD4DNA定向RNA聚合酶(rpoB)408105753451112302811984322612531993236937135382543930540222411261504232234644474478479480481482483484485486254862.65392147.652.7544225056.35452458.363.85461957.953.2547256073.65482272.769.65491861.156.25501662.550.35512142.952552252123252024201925205664.942.953.243.5585260.84554.462.569.45559.163.258.63255.550的.2200580029642.3势溢齿被92/20635554-力54o235542o144555544-5524553455525677002345919o271oo954743白白9蛋蛋£g膜糖膜糖<table>tableseeoriginaldocumentpage106</column></row><table>说明书参考了相同的其他指示符,但进一步指定出实际子序列,该子序列实际上被拼接到阵列上。在最可能情况中,这个表示序列表中的整个序列但在其他情况中(例如,FluBMATRIX)仅全部序列的核苷酸1-362用于拼接。表9提供了在说明书中介绍的信息。表9(下面)RPMV1i殳计-沈明书的用法-沈明。其4也指示符为分配给每个不连续"拼接"区域(例如,微阵列含有所有探针组合得几何区域,该4罙针组合为一l史病原菌基因组序列再测序所必需的)的名称。病原菌,序列登录号,和每个4并接区域的拼接尺寸被列出。说明书,以Affyraetrix提交形式进行修改,在表7中列出。说明书参考了全部靶点基因的全部或部分序列,该全部靶点基因可在序列附表中显示的SEQIDNOs:1-58中找到。表9:RPMV1芯片表<table>tableseeoriginaldocumentpage107</column></row><table><table>tableseeoriginaldocumentpage108</column></row><table><table>tableseeoriginaldocumentpage109</column></row><table><table>tableseeoriginaldocumentpage110</column></row><table>Affymetrix芯片i殳计团队采用上述信息的组合和相应序列文件4言息来产生芯片设计。图1显示出芯片设计的纵览,一些给定病原菌的基因序列在下列实施例中采用的再测序芯片上密集生长(RPM版本1芯片),该图和芯片设计仅为了说明分配给RPMV1不同病原菌的有效面积,不是为了以任何方式进行限制。技术人员将容易理解专属于芯片上每个病原菌丛的相对顺序和序列数量可在对芯片的利用上没有本质上的有害作用的情况下进行改变。重点注意的,拼接策略指出每个不连续拼接区域的前端第12个和末端12个序列不通过拼接策略的再测序微阵列进行查询,因为他们被用作最初和最后的25-mer探针成分,该探针在第13位被改变。用于芯片的腺病毒区域(Ad4、Ad5、Ad7和Ad7疫苗)的序列都源自经本发明测序的基因组的早期4兆选。对应于用于辆j并接区域的基因组的GenBank在表6中列出。因为提呈给Affymetrix序列原型是以基因组的早期挑选为基础的,可观察到这些早期序列和提呈给Genbank的最终序列之间的差异。这些差异的列表在表10中给出。表10:RPMV1拼接序列和表6中提交给Genbank的最终序列之间观察到的不相符值ContigforAd4靶点长度序列M#E1A20045546586976988511460167517772002六邻体2813183191833018331183321838518451185231854718571185861861718640186591866218687187001884318889189011894018965189971901395序列AAGGGTGGGTCccccGCCGATCCA羼爲爲属cGAccc<,如CTTCTTTGATAATCGATG<formula>formulaseeoriginaldocumentpage112</formula>纤毛1386ContigforAd5_canjiE1A60六邻体60纤毛ContigforAd7E1A六邻体纤毛60606060ContigforAd7_NavyE1A60六邻体60纤毛60ContigforAd了V3ccinB206842068720690207132075320759207682081920864209392100821038316023161131616316523167231714317463179031798317993181631923319433200332047320513226032262322663247332475326183261932934无19020190231902419025无59018109无113AACCCCTACCCA辆CICIICISTITGTACTe額親丁G羼属属爲漏漏漏爲属TCTGTACTTTCG辆賴5gG,,#TcGT賴TGlATTc遗G<CcAcA无无无E1A60559CG586CT六邻体6018142AG纤毛60无这个相对少量的不一致不干4无芯片生成碱基响应的能力,石威基与正确的有机体相关,除了在4型腺病毒的特殊情况中,在实施例中进行了描述。全面地,本发明的再测序微阵列技术确证了关于碱基取代的拼接基因的精确的最终序列,确了我们方法的鲁4奉性。制备实施例2:PCR引物设计和扩增方案简并PCR引物i殳计-支持保守(简并)多重PCR的引物筛选的目标是设计引物,该引物是以位于E1A、纤毛和六邻体基因的特殊种类可变区翼侧的4呆守区域为輩巴点。总的来说,这个方法可用于任何有才几体,因为物种内的保守序列在自然中无处不在。这些靶点基因基于线性腺病毒基因组内功能和位置^皮筛选出。E1A位于腺病毒基因组5'端并且编码反式转录调节因子,该反式转录调节因子对早期基因的转录激活是必要的。位于腺病毒基因组中间和3'端的六耳关体和纤毛基因各自编码抗原决定簇£和Y,确定病毒血清型。因此,ARD诱发腺病毒的检测和按血清分型能通过耙标核酸决定簇来完成,把标核酸决定簇引发血清分型。从而,引物提供了腺病毒内的特异性扩增而可变区:提供了正确的物种鉴别的特异性血清型特征。下列实施例中用于保守(简并)多重PCR的引物分别基于E1A、纤毛和六林体基因序列的全局分析,从GenBank(GenBank登录号在圓括号内给出)ElA-AdB(NC—004001)、AdC(NC一001405)、Ad3(AF492352)、Ad4(M14918)、Ad7(X03000);纤毛—Ad2(AJ278921)、Ad5(M18369)、Ad3(X01998)、Ad4(X76547)、Ad7(M23696)、Adl6(U06106、Ad21(U06107);六联体-AcB(X76549)、Ad4(X84646)、Ad6(AF161560、X67710、Y17245)、Ad7(AF053087,X76551)、Adl6(X74662)、Ad21(AB053166)。E1A基因引物设计的全局序列分析使用了Ad3、Ad4、Ad7、Ad21、AdB、和AdC血清型的E1A基因序列。纤毛基因引物:没计的全局序列分析使用了Ad2、Ad3、Ad4、Ad5、Ad7、Adl6、和Ad21血清型的纤毛基因序列。六联体基因引物设计的全局序列分析4吏用了Ad3、Ad4、Ad6、Ad7、Adl6、和Ad21血清型的六耳关体基因序列。全局序列分析之后,引物对基于扩增血清型3、4、6、7、16和21的E1A、纤毛和六联体基因的能力被筛选出(无数据)。表ll显示出在下列实施例中采用的引物对。表11:<table>tableseeoriginaldocumentpage115</column></row><table>在本发明的情况中,GDAS的序列输出大部分通常为邻近序列响应(A、T、C或G)的分散混合物,邻近序列响应(A、T、C或G)点乡叕着不同量的无响应(n's),由于缺少扩增、芯片上的弱杂交信号和/或非特异性结合导致的高背景杂交,GDAS软件不产生碱基响应(Cutleretal.,2001)。Ad4FIBER拼接区域的原型4腺病毒样本的GDAS输出的一种实施例输出在下面显示出(SEQIDNO:429):〉Ad4FIBER:CustemSea-腺病毒4开始=12终点=1245nnnnnnnnnrmnniuicnnnciicngaccgngnnnttcannaaciictcccntcgnnctcttcsgatggnnnaaattannnnnaagctgngngagggggtrmrincttgacgactcgggaaaactcnttgcaancacagtaaacasggccattgcranctctcagnttttnccaacaacaccatttmmnttsiacatggaccimgcagtananttagnctcnccacttacatttgntgatsaagggsatanaaagattacccnaaanagnnnnttgcatgttanaacaggagixtgcaaittg站agcaacatcagttgggctaaaggtntaEigaaimaiinagrinannaaiigcttatccaatccaannimniinntgncnctggtctcagctttgacagcacaggagccataatgnctggcaataaagnctatgataaattaactttgtggacaacgcctgacccatcaccaaactgncaaatncttgcageiaaatgiitgcaaaactaacactttgnimnimrmaniigctggcacagtaagcagtgctcaagnttttcnncgntttgatgcaaatggtgnncntntnacagaacaatgctgttggttttatgccaaattcaacagcttntnnaaagacncaaagttctnctnctaaaaataatntagtgggtcaagtatacatgantnnagntgtttnaiiaiinncatgiittcttnctataactcttaatggtnctgatgacaccaccngtgcatnctcaatgncattttcatacacctggactaacgg类似搜索算法如BLAST(Korfetal.,2003)使用无石威基响应(类似于通配符)但含有太多无碱基响应导致无法4妻受的4莫糊程度。如果那样的话,将返回无意义BLAST结果。REPI软件被i殳计分析:FASTA文件筛选和编辑的输出结果,采用NCBIBLASTN算法,模型数据被编辑成适合于序列类似性搜索格式。为了完成这个目标,REPI运行一系列文件尽可能小地修改数据而提耳又可用的,FASTA文件的"BLASTable"数据。由于再测序微阵列的自身性质,序列经常包含大量的无》咸基响应(n's)。BLAST不能返回具有大量的无石威基响应的重要的类似性序列。因此,原始数据必须经过滤提取最可能返回显著类似性的那些片^:。预期序列遇到的第一种过滤器是控制检验。加入到微阵列中的对照序列^皮特异性i殳计为随才几序列;因此,将不返回显著类似性。下一步为"BLASTable"数据评估序列。采用滑窗算法,用户输入窗口尺寸参数,这些参凄t表示碱基响应数量。该算法将同时进行评估。从第一种石威基响应开始评估序列,窗口沿着序列滑动4叟索含有相关数据的第一种区域,采用记分方法进行评估,所有有效碱基给出一种分数并且所有无碱基响应给出0分。如果分数大于或等于预先确定的阈值(这里采用25%),程序在窗口的起始点作记号作为可用凄U居的开始。一旦可用数据起始点被确定出,程序对换其参数并从可用数据库的末端开始搜索。对于每个序列,REPI搜索最大连续列的可用#:据,将表示序列的初始子序列。这个子序列将#:修剪开始无碱基响应和尾部无碱基响应。进行修剪是必要的,因为先前过滤器使用起始窗口的起始位点作为子序列的起始点和末端窗口的最后〗立点,因此,尽管窗口i己分是可"l妄受的,可能存在无^成基响应超前子序列或尾部子序列。子序列经过的下一种过滤器评估长度。子序列长于50个核苷酸可以继续,子序列短于20个核脊酸被排除,并且子序列在20到50个核普酸之间按照如下再评估。由于这些子序列的长度,采用先前描述的相同积分系统把它们记录下来。具有大于60%无碱基响应的子序列是被排除掉的;所有其他的允许继续采用BLAST算法针对GenBank,或自己的1^饰婆史才居库^皮4叟索。一旦类似性算法是完整的REPI计算机计算许多子序列的统计量,这些统计量包4舌輩巴点序列的子序列百分比,子序列长度,子序列》咸基响应凄t量和子序列石咸基响应百分比。靶点序列的子序列百分比和子序列长度显示出靶点病原菌的哪个片短被鉴别出。子序列长度和子序列石威基响应的百分比寸吏我们能监控过滤算法过滤器以及GDAS阈^直参凄t。REPI〗果存了所有BLASTN算法返回的统计结果^吏用户操作那个结果被显示在图形用户界面上。在才是供的实施例中,REPI经CGI(:Perl)界面连接到局部BLAST(NCBIGenBank)lt据库(包含在具有4.5GB随才几存耳又存J诸器的苹果G5单一处理器(1.8Ghz)计算机上)。显示的结果包括所有预期值(E-值)阈值1.0e-9的凄t据库序列。E-值表示在随机给定搜索距离尺寸、记分矩阵、和空位罚分的预期分析数量;E-值越低数据库类似性搜索匹配越不可能进行随机鉴别。经确定e=2.71828182845904523536028747135。REP〖输出由(BLASTable)子序列命名、长度、E-值构成和比值以降序排列显示每个子序列。名称才艮告为GenBank记录FASTA定义列并且包括序列长度。得分为记分矩阵和空位罚分计算出的标准分数,分数越高类似性越高。上面列出的实施例的REPI输出在下面显示出。每个"BLASTable"子序列,REPI返回(以降序排列比值)所有具有预期值小于1.0e-9的GenBank数据记录。获得的最高比值是4型腺病毒(AY594253),穿过这个连续部分,4型腺病毒是遗传不可区分于Ad4疫苗抹(AY594254),而较低的比值适合区分来自空军和海军培训基地的本地抹(SEQIDNO:430)。〉Ad4FIBER:CustemSeq-腺病毒4开始=12终点.=1245子序列-cctgggggtgttgtccrniannnimnngccgaccctgtcncnnnaagaatgimnaaattannnniiaagctgngngagggggtnnnncttgacgactcgggaaaactcnttgcaancacagtaaacaaggccatnnnnnnnnnagcttttggntcaggtttnggactcagtnnnngcgcccnngcagtariaiittagnctcnccacttacatttgntgataaagggaatanaaagattacccnaaanagnniinttgcatgttanaacaggagntgcaattgaaagcaacatcagttgggctaaaggtntaaaattngaagatggtgccatagcjcagaaaatgntgcaaaactaacactttgnnnnnrmnanngnnacagncaaatactggccactgtanc:n3ctcaatgncattttcatacacctggactaacggaagctatatcggagcaacatttggagctaactcatacaccttctcntacatngcccanna子序列靶点百分率98%子序列长度1215子序列》威基响应H量1020子序列石威基响应百分率84%lcl|AY594254|血清4型人腺病毒,疫苗抹#I35,994bp;长度=35994Ad4FIBERevalue:0.0,score:751.806lcl|AY594253|血清4型人腺病毒|35,990bp;长度=359卯Ad4FIBERevalue:0.0,score:751.806gi|303967|gb|L19194.1|ADRFIBERX纤毛蛋白质h4哺乳动物腺病毒,完整编码序列;长度=1346Ad4FIBERevalue:0.0,score:743.877giI22796371|emb|AJ315930.1|HAD3159304型人腺病毒DNA;长度=12718Ad4FIBERevalue:O.O,score:735.947lcl|AY599837|血清4型人腺病毒,美国空军本地林|35,964bp;长度=35964Ad4FIBERevalue:0.0,score:704.23lcl|AY599835|血清4型人腺病毒,美国海军本地4朱|35,965bp;长度=35965Ad4FIBERevalue:0.0,score:696.3gi14349131embjX76547.11AV4FIB1纤毛蛋白质4型腺病毒基因;长度=1375Ad4FIBERevalue:2.32306E-154,score:553.571giI17105037|gb)AF394196.1|AF394196猴腺病毒25,全基因组;长度=36521Ad4FIBERevalue:6.5072E-53,score:216.57gi|33694802|tpg|BK000413.11TPA:猴腺病毒25,全基因组;长度=36519Ad4FIBERevalue:6.5072E-53,score:216.57依才居2004年9月15曰才是出的美国申i青SerialNo.60/609,918,禾口2004年11月29日提出的美国申请SerialNo.60/631,460中给出的描述生成和处理应用REPI程序Java归档(jar)文件。实施例l-碱基响应算法设置和采用保守(简并)PCR引物和GenomiPhi总扩增BLAST分析腺病毒4的石咸基响应再测序微阵列芯片的原始序列数据由包装有Affymetrix微阵列阅读器的遗传数据分析软件version2.0(GDAS)提供。GDAS碱基响应基于先前描述的i咸基响应算法,ABACUS,先前描述的(Cutleretal.,2001)。许多石咸基响应算法参数能通过用户(GDAS操作手册)确定来得到碱基响应百分比和精确度之间的协定。参数的描述可在GDAS手册第207-217页中找到。推荐的(缺省)GDAS设置是"保守,,设置,这种"保守"设置集中在高水平精确度上。相反,本发明的目标是提高名威基响应的百分率。为了达到这个目标,本发明者调整参数实现高度许可碱基响应(提高百分率),如列在下面"许可"碱基响应算法设置---过滤器条件无信号阈=0.500(默认值=1.000000)*弱信号倍数阈值=20000.000(默认值=20.000000)大信噪比阈值=20.000000C默认值20.000000)-算法参数*链质量阈值=0.000(默认值=0.000000)-总链质量阈值=25.0000(默认值=75.000000).杂合子响应的最大值=0.99000(默认值-0.900000)模拟类型(0=杂合子,1=纯合子)=0*完美响应质量阈值=0.500(默认值-2.000000)-最终可靠性M^'J临近探针响应的最小值=1.0000(关闭过滤器)样本响应的最小值-1.0000(关闭过滤器)上述i殳置在本应用中是重要的,因为通过默i人牺4生生成的石威基响应凝:量目的为了生成最4青确响应(例如,信、喿比检测)建立起;威基响应算法。在本发明的应用中,该^^术很少关注于获得信噪比4全测要求的相同程度的精确度而代替的是扩大生成响应的数量使得经GDAS制备出最长段的邻接序列而保持必要特异性。用适当的方法制备样本用于RPMVl微阵列分析,每微升106个基因组拷贝起始浓度的原型4腺病毒采用简并引物PCR(Linetal.,2004)或(B)GenomiPhi等温法进行扩增。对于总扩增试验,DNA从培养腺病毒中分离出并以每微升106个拷贝浓度分装。采用总扩增策略(GenomiPhi,Amersham)进ff扩增,然后依据标准AffyraetrixCustomSeqTM方案(从厂商处得到)进行处理。图2中显示出杂交微阵列的图像。对比于保守(简并)多重PCR生成的更限制区域,GenomiPhi总扩增再测序整个拼接区域(增强灵敏性)。由于GenomiPhi总扩增不取决于拼接片段内的特异性引物序列的事实,产生这个结果。然而,十分重要的是注意到不顾采用的哪个扩增策略,例如,200580029642.3说明书第108/206页保守(简并)多重PCR或GenomiPhi总扩增,生成4冢针Ad4响应。这些方法之间的一致性是重要的,在不需要选择性富集的情况下,当保守引物可能具有更直接应用,把复合样本中的同一家族的病原菌成员按血清类型分类。基于相应GDAS输出(采用"许可"设置),REPI确定出返回给V1RPM微阵列的E1A、纤毛和六联体-1拼接区域的保守PCR扩增策略的下列列表(注意从这个列表中省略的是几个4型^泉病毒GenBank记录,具有几乎同源序列如Ad4同源和Ad4疫苗4木)。<table>tableseeoriginaldocumentpage122</column></row><table>下面列出的为4型原型腺病毒的GenomiPhi扩增反应取代保守PCR反应的相应输出(注意不显示的为比值比空军和海军本地4朱高的几个紧密相关&泉病毒)表15:Ad4ElA:腺病毒4GenomiPhi3<table>tableseeoriginaldocumentpage123</column></row><table>200580029642.3说明书第lll/206页表17:Ad4HEXON-l:腺病毒4GenomiPhi3<table>tableseeoriginaldocumentpage124</column></row><table>基于图2中显示的结果,对比于保守(简并)多重PCR生成的更限制区域,GenomiPhi总扩增再测序整个拼接区域(增强灵敏性)。由于GenomiPhi总扩增不取决于拼接片段内的特异性引物序列的事实,产生这个结果。REPI列出了适当的腺病毒类型(AY594254或AY594253)作为最高得到返回给除了Ad4FIBER之外的每个拼接区域。通过观察到4型原型腺病毒的早期序列草图包含错误,随后分辨出该差异,该错误引起用于鉴定Ad4FIBER的序列和不同4型月泉病毒4朱(gilll693508lgbiAF065062.2IAF065062)的GenBank记录之间稍微较高同源性。就这一例外而言,十分重要的是注意到不论采用哪个扩增策略,例々n,保守(简并)多重PCR或GenomiPhi总扩增,生成了正确的4冢针Ad4响应(除了由于拼接序列错误,由GenomiPhi产生Ad4FIBER)。这些方法之间的一致性是重要的,在不需要选择性富集的情况下,当保守引物可能具有更直接应用,把复合样本中的同一家族的病原菌成员按血清类型分类。实施例2-Ad4稀释物系列在本实施例中,杂交和石威基响应作为保守(简并)多重PCR反应的革巴点子序列初始浓度的函凄史一皮测试。此外,该实施例也在GDAS库欠件内(a)"许可"(说明书中描述的)和(b)“保守"(缺省)设置内对两个不同碱基响应策略进行比4史。在这个实施例中采用的生物样本为4原型腺病毒。杂交和石威基响应作为保守(简并)多重PCR反应的乾点子序列初始;农度的函数被测试。4原型腺病毒(ATCC)—系列稀释液被制备成每微升具有105、103、和101个基因组拷贝。为了这个目的,遵循AffymetrixCustomSeq方案,除了乂人上述稀释液分装的样本采用E1A、纤毛和六l关体的保守(筒并)多重腺病毒引物策略进行扩增。表18-20证实RPMV1芯片釆用REPI分析来4佥测取决于无论"保守"(缺省GDAS)或"许可"(来自实施例1)碱基响应设置的适当4型病原菌覃巴点(对菌株无特异性)被采用的能力。当REPI返回一种或一种以上4型月泉病毒靶点的GenBank(或局部)数据库记录作为最高BLAST比值值时,计table>tableseeoriginaldocumentpage125</column></row><table>*表示降解才莫板;n/d表示由于碱基响应不充分而"不确定的表19:<table>tableseeoriginaldocumentpage126</column></row><table>表20:<table>tableseeoriginaldocumentpage127</column></row><table>*表示降解模板;n/d表示由于碱基响应不充分而"不确定的"跨稀释液的范围,"许可"石威基响应设置产生GDAS输出,GDAS输出经REPI采用始终如一地生成比信噪比检测的缺省GDAS碱基响应i殳置更高的子序列长度和比值。在几个情况中,"许可"碱基响应设置导致足够量的REPI碱基响应来检测乾点然而缺省设置不会这样。这个实施例证实通过GDAS降低碱基限制并将输出结合REPI算法,得到病原菌之间的较高灵敏性和辨识力(菌抹鉴别)。这里特别注意的是,在一些情况中,在图像、GDAS输出、和REPI分析中存在证据,具有痕量腺病毒7和腺病毒5的变性引物混合液的非故意污染物(由特异性实时PCR反应证实)。因为原型腺病毒的拼接区域之间没有显著性交互杂交,这个污染物不导致4尤乱;威基响应或导致&泉病毒4拼-接区域。证实了这里描述的执行定量分离紧密相关病原菌混合物的方法的鲁棒性。值得注意的,LawrenceLivermore国家实-睑室的Andersen团队描述了在特异性PCR扩增反应之后使用能4企测低浓度(1(V拷贝)的Affymetrix再测序芯片。然而,怎样确定灵敏性或这些结果受紧密相关微生物物种杂交影响的到什么程度没有被公开或提出。论文中的重点为能被使用的探针对的百分率,不是当他们通过芯片响应的实际序列。因此,4支术人员没有任何由公开所致的期望。技术人员将不能推断来自先前专利或相关公开(Gingerasetal.,1998)的可能性因为这些参考文献不能揭示或才是出指定方法的鲁棒性,该方法模式识别浓度差异、拼接区域序列定义中的误差,或其他形式干扰。实施例3-碱基响应算法设置和采用保守(简并)PCR引物和GenomiPhi总扩增对腺病毒5本地株(Ad5FS:AY6016351和腺病毒7原型抹(Ad7:AY594255")的碱基响应进行BLAST分析这个实施例与实施例1类似,除非用5型腺病毒本地林(Ad5FS;AY601635)或7型腺病毒原型(AY594255)采用或者(a)保守(简并)多重PCR或者(b)GenomiPhi总扩增(图3)探查制备实施例1中描述的上面再测序樣i阵列芯片(RPMVl)。基于(RPMV1)4命出(采用"许可"设置),REPI用Ad5原型和Ad7原型中的每一种来鉴别下列保守PCR反应和总扩增策略的3个最高"点击"。毫无例外,当5型S^病毒(Ad5FS;登录号AY601635)使用保守PCR反应或总(GenomiPhi)扩增的时候,5型腺病毒拼接区域(Ad5ElA、Ad5FIBER、Ad5FIBER、Ad5HEXON-l和Ad5HEXON-2)响应的每个序列列出最高"点击"(最高BLAST比^直)。也毫无例外,当采用PCR反应或总(GenomiPhi)扩增的时候,7型腙—病毒^H妻区域(Ad7ElA、Ad7FIBER、Ad5HEXON-l和Ad5HEXON-2)的这种序列列出最高"点击,,(最高BLAST比值)与7型腺病毒正确的原型菌才朱一才羊。此夕卜,GenomiPhi扩增导致Ad4E1A区i或和Ad7疫苗区i戈的石咸基响应,两者导致分配给正确Ad7原型菌4朱的最高比^直。4寻到的5型腺病毒和7型&,病毒原型的结果i正实4型腺病毒的结果。特殊地,在图3A-D中显示的结果显示出对比于保守(简并)多重PCR反应产生的更加限制区域。GenomiPhi总扩增使完全拼接区域(增加的灵敏性);故再测序。更重要地,这些结果证实不管采用什么扩增方案,例如保守(简并)i重PCR反应或GenomiPhi总扩增,生成正确的Ad5或Ad7响应。实施例4-Ad4-5突-皮4朱作为再测序孩i阵列可检测的混合传染病才莫型这个实施例的样本可由海军保健研究中心(SanDiego)提供。存档样本为初级新兵的鼻腔沖洗液,该新兵以前接受过腺病毒(采用Ad4/Ad7疫苗)免疫并且随后诊断为腺病毒传染和发热性呼吸疾病。不管先前接种过疫苗,传染相关菌4朱广泛统称为"突;皮4朱"。在这个病例中,布i设单一变异形式的腺病毒是病原。这里描述的才羊本净皮统称为Ad4-5突石皮因为非决定的;咅养和血清学试验显示出两种4型腺病毒的性质,而六联体基因(血清型腺病毒的抗原决定簇之一)的测序显示出5型腺病毒的性质。依据制备实施例1中描述的多重变性引物PCR方案处理该样本。这个方法i兑明(Linetal2004)成功扩增与发热性呼"及传染相关所有&i病毒的六联体和纤毛基因上超变区(以及相对E1A可变区域)。另外,标准AffymetrixCustomSeq方案被采用。得到的杂交模式显示在图4中。基于GDAS输出(采用"许可"设置)。REPI经多重PCR鉴别出下列所有扩增方案的3个最高"点击"。(参见表21-24)。表21:Ad5FIBER:Ad4陽5突石皮才朱<table>tableseeoriginaldocumentpage129</column></row><table>表22:Ad5HEXON-l:Ad4-5突破抹<table>tableseeoriginaldocumentpage129</column></row><table>表23:Ad7ElA:Ad4-5突石皮才朱<table>tableseeoriginaldocumentpage130</column></row><table>表24:Ad7HEXON-l:Ad4-5突破抹<table>tableseeoriginaldocumentpage130</column></row><table>筛选的REPI返回值给RPMV1上腺病毒4,5突破抹。这个"菌4朱,,由几个无关方法确定为5型&泉病毒和B子群成员的混合物,最可能为21型&泉病毒。这在联合的杂交结果和REPI分析中被证实,5型腺病毒被证实在所有腺病毒5拼接上,而B子群原型(腺病毒7;AY594255)拼接返回21型腺病毒的最高比值,21型腺病毒为B子群的不同成员。常规DNA测序揭示出全部腺病毒5基因组被重新得到并且不能被組合的其他序列存在因为腺病毒5才莫型假设要求的。然而,显著量的确证被收集来支持Ad5/Ad21交叉感染的结论,包括用70-mer寡核苷酸阵列(Linetal2004)实施的平行试验中得到的类似结论,该类似结论显示出Ad5/Ad21混合物或交叉感染的证据,和采用常^见方法测序扩增子都支持了Ad5和Ad21的存在。随后指导的腺病毒突破林的扩展研究显示出许多这种菌抹实际上由较少腺病毒的混合物构成(制备加工图)。有一些重要方面和优势隐含在这个发jE见中1.在没有特殊先验-没计或在样本中发现Ad21的预处理的情况下,原型区域(B子群的Ad7)能用于成功鉴定不同的B子群成员(Ad21)的实证。2.由于空间分辨力,微阵列辨别混合的病原菌的实证。该混合物使常头见DNA测序方法混乱,该常^见DNA测序方法取决于以单一有才几体的作支设为基础的连续片段的组装。实施例5-采用原型区域鉴别流行性感冒A抹未知血清型的流行性感冒A阳性临床样本在2002-2003和2003-2004流感季节由Dr.ElizabethWalter收集并提供纟合Dr.ZhengWang如冷冻的鼻腔冲洗液。才羊本^皮加工处理用于病原菌芯片分析如下EPICENTREMasterPureTM^是纯试剂盒(Madison,Wisconsin)用于在没有经过RNase处理情况下,/人50pi鼻腔冲洗液(样本NW20031114-05-02)中提耳又全部核酸。样本NW20031114-05-02于2003年11月14日在空军基地(SanAntonio,TX)被收集到。患者在2003年11月10接受疫苗接种。全部核酸悬浮在20^1核酸酶游离水中。两步RT-PCR被用于扩增每一种病毒基因片段。简要i也,4nl总核酸中的RNA采用SuperScriptTMin反转录酶(Invitrogen.Carlsbad,CA)依据厂商提供的方案和20|al100pmolUni3引物4皮转录到cDNA中。RT(逆转录)反应在42。C下实施1小时,然后在70。C下培养15分钟。2^1RT-反应^皮用于cDNA扩增。采用TaqPlusLongSystem(Stratagene,LaJolla,CA)依据4是供的方案扩增cDNA。两个不同的PCR反应条件用于扩增。^"于通用的PCR,通用的引物uni3和uni5#皮用于扩增红血5求凝聚素(HA)、神经氨酸苷酶(NA)和基质(M)所有的八个片段(参见Hoffmanetal,2001)。对于多重PCR,经过混合三个片l殳特异性引物对(Bm-HA-1/Bm-NS-890R,BA-Na-1/Ba-Na-1413R和Bm-M-1/Bm-M-1027R)扩增片段。Mg2+离子的最终浓度为2mM并且最终引物浓度为1(iM。通用扩增的PCR条件为94。C反应2分钟,随即94。C下进行29轮反应1分钟,在40°C反应2分钟,72t:反应3分钟,在72。C最后延伸10分钟。多重PCR反应条件基本相同除了退火温度才是升到58°C。PCR反应产物经QiagenPCFU是纯试剂盒进4亍才是纯。依据Affymetrix方案,500ng通用扩增PCR产物和1000ng多重PCR产物各自#皮用于两个VI病原菌芯片进4亍杂交引物(来自Hoffmanetal,2001)-<table>tableseeoriginaldocumentpage132</column></row><table>两种扩增方案的每一种的芯片扫描结果被显示出(a)通用引物PCR反应和(b)多重PCR反应(图5)。基于GDAS输出(采用"许可"设置),REPI鉴别出下列通用引物(Hoffmanetal.,2001)扩增方法的3个最高"点击,,和采用Ad5原型和特歹朱多重PCR方法中每一种的总扩增方案。为了这个试验,本发明者得到流感菌林HA基因的序列,这种流感菌才朱避免了2003-2004疫苗并引发了大范围疾病,即Fujian/411/2002(注意仅HA序列可用于Fujian/411/2002)并且4巴那个4参入到REPI搜索的数据库中。两种扩》會方法的每一种有效生成相同结果,尽管比值s稍微改变。特殊地,在REPI输出文件中,Fujian411/2002返回FluAHA3的最高比值。Moscow10/99,菌斗朱用于在2003年疫苗4姿种,不返回FluAHA3的REPI输出。表25:FluAHA3:NW20031114-05-02ACID04-B2<table>tableseeoriginaldocumentpage132</column></row><table><table>tableseeoriginaldocumentpage133</column></row><table>HA3最高BLAST比值是(流行性感冒A/Fujian/411/2002—红血球凝聚素一104),在美国2003-2004流行性感冒爆发的H3N2病原因"f,在美国没有k行接种疫苗保护。HA3不能辨别的病毒序列也得到相同的比值。超过500个GenBank记录^皮返回给HA3,所有具i预期值0.0和从上面显示的到993.636之间范围内变化的比值。疫苗才朱,(A/Panama/2007/99(H3N2)),不在^皮返回的HA3区i或内流4亍性感冒A抹的列表中。注意流4亍性感冒A/Fujian/411/2002—红血3求凝聚素—104仅对HA有用,因此这里的其他区域不进4亍比3于。尽管没有显示,本发明者已经能鉴别出2002-2003流感季节的H1N1发作菌抹。实施例6-減少的杂交时间AffymetrixCustomSeq方案指出杂交步骤至少需要16个小时促进最大化杂交。对于i貪断效能的目的,这是相当长的时间。因此,对本方法缩短杂交时间的适用性和功效进行评估。在本实施例中,采用样本实施杂交和碱基响应,该样本经特异性PCR反应试剂进行扩增,然后在制备实施例1中描述的再测序孩t阵列芯片(RPMV1)上杂交1个小时、30分4f、或15分钟。为了对比性研究,除了改变杂交时间之外,执行AffymetrixCustomSeq方案。在被显示的实施例凝据(图6)中,鼻月空冲洗液对用孩i阵列:探测的除了红霉素抗性标记物SPYERMB、SPYERMTR、和SPYMEFAE之外的所有靶点是阴性的,鼻腔冲洗液经过每一种标记物的特异性PCR反应。然后,将扩增子杂交来分离微阵列16个小时或者15分钟,然后另外4要Affymetrix方案^见定的进4亍处理。结果出现在图6A[16小时;ex-6a])和图6B[2小时;ex-6b]中。基于GDAS输出(采用"许可"设置),REP1鉴别出下列各自杂交16小时和杂交15分钟的最高"点击"。相应的GDAS和REP1分析显示出生成的碱基响应的数量在15分钟杂交中小于16个小时杂交中的碱基响应数量(参见表26-31)。例如,经16个小时杂交,SPYERMB拼接区域产生子序列长度219bp区域(拼接区域的98%,95%^威基响应在子序列中生成),而15分钟杂交的不连续杂交才莫式导致拼接片段(45%的拼接区域,99%碱基响应在子序列中生成)进入长度100bp和87bp(39%的拼接区域,99%碱基响应在子序列中生成)的两个子序列中。<table>tableseeoriginaldocumentpage134</column></row><table>上面的表显示出实施例6中,16小时杂交时间相对于15分钟杂交时间,净皮描述的三个不同抗生素抗性标记物的比專交性最高顺序。尽管SPYERMTR拼接区域不产生足够量的碱基响应进行15分钟杂交后的鉴别。SPYERMB和SPYMEFAE都返回给包括4并接区域的抗生素抗性标记物相同变异体较高比值(在表9中被鉴别出)。然而,三个拼接区域中每一种的REPI输出显示出每个区域中最高比值s是相同的(除了缺少15分钟杂交的足够碱基响应的SPYERMTR之外),尽管比值S和预期值在每个例子中是不同的。得到30分钟和1个小时杂交的类似结果,增加杂交时间生成的碱基响应数量得到增加。此外,这个实施例清楚地说明在不同杂交模式范围内的靶点之间做出精确辨别的方法的鲁棒性。实施例7—消减杂交当采用总扩增时,许多方法可用于减少临床样本中背景人DNA的数量。一种方法是采用COT-l片段人基因组DNAA/v杂交溶液中的扩增产物中直4妻消减背景基因组DNA,该COT-l片IS:人基因组DNA大量地由迅速退火重复单元组成。另一种方法为在从扩增之前从临床样本中玻璃珠消减背景基因组DNA。第三个方法为联合上述方法,在总扩增之间,使用玻璃球消减从临床样本中消减基因组背景DNA,随即背景DNA可进一步使用COT-1人DNA从杂交溶液中的临床样本中被消减。图7A和7B的方法从临床4羊本中收集鼻腔冲洗液并采用MasterPureDNA^是纯试剂盒(Epicentre)分离全部核酸。在37。C,采用McrBc(切割在一种或两个《连上含有甲基胞嘧啶:DNA的内切酶)将核酸简化1个小时,并且加热到65'C使酶变性。随后,样本被分为两组并采用GenomiPhiDNA扩增试剂盒(AmershamBiosciences)进行扩增。依#居AffymetrixCustomSeq方案,扩增产物^皮分割成片l殳并萍支沖示i己。^"于这个对比性研究,AffyraetrixCustomSeq方案祐j丸4亍除了下面改变之外。依据AffymetrixCustomSeq方案(图7A)使用标准杂交溶液或依据Affymetrix推荐的(图7B),采用含有12pg鯡精DNA和10|igCOT-l人DNA(Roche,Indianapolis,IN)的杂交混合物取代22jig绯精DNA将临床样本杂交到再测序微阵列芯片(RPMV1)上。图7C和7D的方法本实施例描述了当采用总扩增时,3皮璃5朱消减和3皮璃5朱消减和消减杂交方法联合提高病原菌特异性信噪比COT-l人DNA,大量由迅速退火重复单元组成,采用末端转移酶(Tdt)(NEB)在3'-端被生物素化生成生物素化消减探针(BSPs)。分组的~400ngBSPs在4xSSC和0.2%SDS中用临床鼻腔沖洗液(诊断为Ad4卩曰性临床样本)的核酸提取物于95。C下培养10分钟,该临床鼻腔冲洗液用McrBC于37t:下简化1个小时,然后緩慢冷却至65°C,用HMB交互杂交1个小时。杂交之后,BSP-HMB复合物在室温下于IXPBS、0.1%BSA中用BcMag链霉亲和素磁性玻璃珠(SMBs,Bioclone)培养30分钟。采用磁选器从上层清液中将玻璃珠分离出。然后,将悬浮液转移到新试管中并且采用IXPBS、(U。/。BSA将》兹性3皮璃J朱洗涤一次。将上层清液混合在一起并用乙醇进^亍沉淀。用核酸酶游离水(Ambkm)将DNA小珠再悬浮,然后分为两组并依据厂商推荐的方案,用GenomiPhiDNA扩增试剂盒(AmershamBiosciences)进行扩增。简要地,用9pl样本緩冲液于95。C下将lmlDNA模板变性处理3分钟,冷却至4°C。在分离的试管中,1pl酶与9nl反应緩冲液混合,然后将混合物加入到变性的DNA模板上。然后于30。C下在温度循环反应器-PTC225(MJResearchInc.,Reno,NV)中实施反应18个小时。对于这个对比性研究,依据AffymetrixCustomSeq方案(图7C)使用标准杂交溶液或依据Affymetrix推荐的(图7D),采用含有12鲱精DNA和10COT-1人DNA的杂交混合物取代22鲱精DNA将扩增样本杂交到再测序微阵列芯片(RPMV1)上。图7E的方法采用两倍用量的初始原料重复耳关合玻璃珠消减和消减杂交方法,图7E中的结果证明本发明者能从用于在制备实施例1中描述的再测序,效阵列芯片(RPMVersion1芯片)的临床样本中消减人背景来分辨临床样本中Ad4六联体和纤毛基因的存在和对其进行鉴别。消减杂交结果消减杂交方法的结果显示在图7中。如图7中显示的,分离核酸的总扩增导致对RPMV1微阵列的显箸性背景杂交。尽管4型腺病毒区域显示出比全部背景更高的可辨识信号,GDAS不能够生成足够石成基响应满足REPI中滑窗条件,因此,没有生成BLAST数据。用COT-1人基因组DNA交互杂交同一组的总扩增子没有提高这个(图7B)并且没有碱基响应生成。图7C显示出在总扩增之前,单独使用磁性玻璃珠消减不产生足够量的碱基响应进行类似性搜索。然而,经扩增之前联合使用玻璃珠消减和用COT-1人DNA进行交互杂交,生成足够的石咸基响应来養别和在Ad4HEXON-l拼接区域中三个,皮鉴别的序列中的每一种内,腺病毒4本地林(没有辨别的海军和空军)比疫苗和腺病毒4原型才朱排列更高(图7D和表32)。表32:Ad4HEXON-l:BL818141030503NW4<table>tableseeoriginaldocumentpage136</column></row><table>此外,通过使用2微升起始样本原料取代1微升(图7E)实施同一组组合步骤,碱基响应被延伸到Ad4FIBER拼接区域内(参见表33)除了Ad4HEXON-l(参见表34),在几个Ad4FIBER子序列中进行Ad4本地林(尽管在空军和海军本地林之间不进行辨别)对原型(AY594253)或疫苗菌才朱(AY594254)的高bit-score排序。然而,在Ad4HEXON-1拼、接中能乂人海军本地抹(AY599835)将Ad4空军本地林(登录号.AY599837)辨别出,因为才是高碱基响应的数量实现了更完整的序列比对并增强了比值辨别力。表33:Ad4FIBER:BL818141030503NW—9b登录号#名称E值比值AY599837血清型4人腺病毒,USAF本地林3.51948E-22111.505AY599835血清型4人腺病毒,美国海军本地抹3.51948E-22111.505AY594254血清型4人&泉病毒,疫苗林8.57976E-20103.575AY594253血清型4人腺病毒8.57976E-20103.575表34:Ad4HEXON-l:BL818141030503NW9b登录号弁名称E值比值AY599837血清型4人腺病毒,USAF本地林1.59752E-70274.058AY599835血清型4人&,病毒,美国海军本地林9.49375E-66258.199AY594254血清型4人l^病毒,疫苗株5.64196E-61242.34AY594253血清型4人腺病毒5.64196E-61242.34实施例8-RPMV2芯片和其i殳计RPMV2芯片的序列拼接列表在下面(表35)中被列出。这表示出RPMV1芯片的容量提高约10倍。表35:RPMV2芯片表<table>tableseeoriginaldocumentpage138</column></row><table>Ad6六邻体腺病毒6六邻体Ad6纤毛腺病毒6纤毛Ad4ElA腺病毒4EIAAd4六邻体腺病毒4六邻体Ad4纤毛腺病毒4纤毛緒AFE1A腺病毒4FSAFEIAAd4AF六邻体腺病毒4FSAF六邻体Ad4AF纤毛腺病毒4FSAF纤毛Adl2E1A腺病毒12EIAAdl2六邻体腺病毒12六邻体Adl2纤毛腺病毒12纤毛Adl7ElA腺病毒17EIAAdl7六邻体腺病毒17六邻体Adl7纤毛腺病毒17纤毛A柳E1A腺病毒邻EIAAd40六邻体腺病毒40六邻体Ad40纤毛腺病毒40纤毛FluAHAl甲型流行性感冒H1N1(NewCaledoniaLike)血球凝集素1FluAHA2甲型流行性感冒H2N2(berkley)血球凝集素2FluAHA3甲型流行性感冒H3N2(Fujian)血球凝集素3FluAHA4甲型流行性感冒H4N6(Swine:Ontario)血球凝集素4FluAHA5甲型流行性感冒H5N1(Vietnam)血球凝集素5FluAHA6曱型流行性感冒H6N2(Turkey;Germany)血球凝集素6FluAHA7曱型流行性感冒H7N7(Netherlands)血球凝集素7FluAHA8曱型流行性感冒H8N4(Duck;Alberta)血球凝集素8FiuAHA9曱型流行性感冒H9N2(Swine:China)血球凝集素9FluAHAlO曱型流行性感冒HIO(Shorebird)血球凝集素10FluAHAll曱型流行性感冒H11(Duck;Taiwan)血球凝集素11FluAHA121:±://iu'ij'i工qis曰in,、roauu》iuiimvjut;,u血球凝集素12FluAHA13;'型1£;性感冒H13N6(Gull;Astrakan)血球凝集素13FluAHA14曱型流行性感冒H14(mallard;Guijev)血球凝集素14FluAHAI5甲型流行性感冒H15N8(Duck;Australia)血球凝集素15FluANAl-l甲型流行性感冒H1N1(NewCaledoniaLike)神经氨酸酶1FluANAl-2曱型流行性感冒H5N1(Vietnam)神经氨酸酶1登录号SeqNum长度SEQIDNO:2005醫29642.3转溢*被126/20s<table>tableseeoriginaldocumentpage140</column></row><table>RSVAMATRJXRSVANCRSVBMATR1XRSVARSVARSVB基体壳包核酸基体登录号SeqNum长度SEQIDNO:RSVBNCHCV229ESP1KEHCV229EMEMHCV229ENCHCVOC43SPIKEHCVOC43MEMHCVOC43NCSARSSPIKESARSMEMSARSNCHCVNL63SPIKEHCVNL630RF3HCVNL63MEMHCVNL63NCMPVMATRIXMPVNCHHV1LRSVB冠状病毒229E冠状病毒229E冠状病毒229E冠状病毒OC43冠状病毒OC43冠状病毒OC43冠状病毒SARS(Urbani)冠状病毒SARS(Urbani)冠状病毒SARS(Urbani)冠状病毒NL63冠状病毒NL63冠状病毒NL63冠状病毒NL63偏肺病毒偏肺病毒人疱渗病毒1(Simplex)壳包核酸Spike膜蛋白壳包核酸Spike膜蛋白壳包核酸Spike膜糖蛋白壳包核酸SpikeORF3膜蛋白壳包核酸基体壳包核酸DNA聚合酶200580029642.3转溢齿被128/206到<table>tableseeoriginaldocumentpage142</column></row><table>S画OMBRENC夫名病真奈包核酸NORWALKL诺沃克病毒RNA无关的RNA聚合酶NORWALKCAPSIDi若沃克病毒壳蛋白DENGUECAPSID登革热病毒壳蛋白DENGUEM登革热病毒pre-M蛋白,利&g;HlDENGUE2NCR2型登革热3'NCRDENGUE3NCR3型登革热3'NCRDENGUE5NCR4型登革热3'NCRFMDVVP1手足和口疾病病毒VP1FMDV3D手足和口疾病病毒3DSLEVNS5圣路易斯脑炎病毒NS5SEEVPP圣路易斯脑炎病毒多蛋白前体RVFVN立夫特谷热病毒NRVFVNS立夫特谷热病毒NS尤苏它病毒PP尤苏它病毒病毒多蛋白前体JEVPP日本脑炎病毒多蛋白前体金迪普4i病毒MATRIX金迪普拉病毒基体金迪普拉病毒GP金迪普拉病毒糖蛋白ATTIM2Arabidopsisthaliana(2)磷酸丙糖异构酶(TIM)ATT1M3Arabidopsisthaliana(3)磷酸丙糖异构酶(TM)發最号SeaNum长度SEOIDNO:200580029642.3势s击被130/206:K<table>tableseeoriginaldocumentpage144</column></row><table><image>imageseeoriginaldocumentpage145</image>BCEPRECACPEGYPCCPETMPCCBUGYRACBUTOLCFTURD1AF丁URD1BFTUTUL4FTUMDHFTU13KDFTUFOPAOTSGROELOTSSTA56RPRGARAPAP0MP1YPEGYRAYPEOMPAYPECVEYPECAF1ACAHAGACAMAG洋葱伯克霍尔德菌产气荚膜梭菌产气荚膜梭菌贝氏考克斯菌贝氏考克斯菌土拉弗朗西斯菌亚种土拉菌抹土拉弗朗西斯菌亚种土拉菌抹土拉弗朗西斯菌土拉弗朗西斯菌土拉弗朗西斯菌土拉弗朗西斯菌惠虫病东方体恙虫病东方体普氏立克次体普氏立克次体鼠疫杆菌鼠疫杆菌鼠疫杆菌鼠疫杆菌荚膜阿杰罗菌属荚膜阿杰罗菌属RecAGyrATmpCGyrATolCRD1-ARD1-BTUL4mdhJ3-kDa蛋白外层膜蛋白FopAGroELsta56GyrAOmplGyrAOmpAcve2155序列caflH抗原M抗原登录号SeqNum长度SEQIDNO:200580029642.3势s1被133/206mVCHGYRAVCHOMPAMSRAMECR1MEFAERMTRERMBERMBGYRBPARCPAREPBP1PBP5MECABLAZDFRAVANA(JACC固TBSTRA霍乱弧菌霍乱弧菌金黄色链球菌金黄色链球菌化脓性链球菌化脓性链球菌化脓性链球菌普氏立克次体肺炎链球菌肺炎链球菌肺炎链球菌肺炎链J求菌屎肠球菌金黄色链球菌pUBllO金黄色链球菌质粒pLW04S金黄色链球菌质粒pLW043金黄色链球菌质粒pLW043金黄色链球菌质粒pLW043大肠杆菌大肠杆菌pMBSFl质粒GyrAOmpAMSR(A)mecRlMefAErm(TR)ErmBEmrBGyrBParCparEponA(PbplA)pbp5mccAblazdfrAvanAqacCrmtBstrA登录号SeqNum长度SEQIDNO:200580029642.3势溢1被134/206:a;TETGTETLTETBPTXBONTNTNHBOTEEPSILONTETANUSSTX1ASTX2ARICI而STOXINCTXABPBLUEVECPGEMVECPUCVECATT1M4假单胞菌属sp.质粒pPSTG2猪葡萄球菌(质粒pSTEl)转位子TnlO百曰咳博德特氏菌肉毒杆菌肉毒杆菌肉毒杆菌产气荚膜梭菌质粒体破伤风杆菌E.coli0157:H7E.coli0157:H7蓖麻子霍乱弧菌pBluescriptIIKS(+)pGEM-9Zf(-)pUC4KANArabidopsisthaliana(4)(tetG)tet(L)tet(B)百曰咳毒素bonTntnhbotEepsilon-toxin破伤风毒素stxlAStx2A蓖麻子toxinctxA+ctxB登录号SeqNum长度SEQIDNO:磷酸丙糖异构酶(TIM)AY599834:AY599834:AY599834:AY594255:AY594255:AY594255:AY601634:AY601634:AY601634:AY601636:AY601636:AY601636:AY601633:AY601633:AY601633:200580029642.3转s也被135/206M实施例9-采用随机RT-PCR方法鉴别流4亍性感冒A斗朱这个实施例是为了介绍新改进的随才几RT-PCR方案的应用,该達斤改进的随机RT-PCR方案是关于被加入到正常鼻腔沖洗液样本中的被分离的流行性感冒A(Fujan/411/2002strain)核酸。随机RT-PCR方案已经4皮DeRisi's研究室采用扩增病毒病原菌用于微阵列查询(Wangetal.,2003)。对该方案的改进被最近报道用于扩增培养流行性感冒病毒(Kessleretal.,2004)。然而。改进的方案没有被报道扩增临床样本中病毒靶点。流行性感冒A病毒培养物(H1N1&H3N2)由空军健康研究所(AFIOH)提供并送到Virapure,LLC在研究之前进行扩增和量化。依据化验证明书,在1吗/mlTPCK处理胰岛素存在下,病毒在早期传代MDCK细胞上被扩增两轮。在感染48小时后,收集病毒上层清液并调节含有含有3%蔗^瞎,20mMTris,pH值7.1和pH稳定剂。在输送之前,带有螺紋的瓶中装满200-300^1分装的上层清液。依据方法AMllO,滴定每个样本小瓶执行流行性感冒的病毒空斑形成试验。流行性感冒AH3N2、K0717SV5/SV40RMK的滴定量为1.2X107PFU/ml,流行性感冒A/California/2935/03/HlNl的滴定量为5X106PFU/ml。为了生成临床采集对照组,从LacklandAFB先进诊断实-睑室临床部的无症状成员得到鼻腔冲洗液(0.9%生理盐水)。从每个Virapure量化前滴定量,流行性感冒鼻腔吸出物的10倍/6组稀释液4皮生成以每个菌林的Virapure群开始并包^"每个菌4朱的Virapure群。采用EPICENTRE定量供给的MasterPure总核酸提取物,全部lOOpl的每个流行性感冒鼻腔吸出物从稀释液中被加工处理。在执行这个方案期间,150nl的2XT和含有蛋白酶K的C裂解液被加入到每100pl被掺入的鼻腔冲洗液的稀释液中,充分混合并于65'C下培养15分钟。下一步,将样本置于水上5分钟随即加入150(^1的MPC蛋白沉淀剂。将样本充分剧烈混合10秒。然后以10,000xg离心过滤10分钟将混合物沉淀并将上层清液转移至樣史量离心管内。为了重新获得上层清液,加入500nl异丙醇并颠倒(30-40)次。于4°C下将混合物离心10分钟并不移动小^U到出异丙醇。随后,用75%乙醇沖洗小球两次并在室温下干燥。一旦干燥,将核酸小球在35(ilTEBuffer中再悬浮。每个才羊本^皮正确标i己并且在装运到海军研究实马全室之前置于干冰上。三个lOOpl正常鼻腔冲洗液分组的每一种一皮加入的流行性感冒AH3N2病毒培养物的一系列稀释液(范围从105pfu到10'pfu)。依据被描述的(Kessleretal.,2004),采用如实施例5中的EPICENTREMasterPureDNA^是纯试剂盒(Madison,Wisconsin)提取总核酸,并且悬浮在40fxl中。随才几RT-PCR反应应用下采用1pi引物D(40pmol/nl;5'-GTTTCCCAGTCACGATCNNNNNNNNN;SEQIDNO:573)和20pi内含有1piSuperScriptTMin反转录酶(50units/|al;Invitrogen,Carlsbad,CA),将2pi总核酸反转录。于42°C下,RT(反转录)反应进行1小时,然后于7CTC下失活15分钟。然后用1pi引物E(lOOpmol/pl;5'隱GTTTCCCAGTCACGATC;SEQIDNO:574)和50pi内含有2.5单位的TaqPlus长聚合酶(5units/fxl,Stratagene,LaJolla,CA),扩增10piRT产物。PCR反应被执行35轮,94。C30秒,40°C30秒,和72°C160秒,随即在72°C下额外进行7分钟。依据AffymetrixCustoms叫方案,105、103和101pfu流感外加样本的PCR产物;故用于三个不同V1RPM病原菌微阵列进行杂交V1RPM芯片扫描三个外加样本,105、103、和10'pfu,经随机RT-PCR方法扩增,各自显示在图8A-C中。所有样本在至少少许流行性感冒A拼才奏区;或内生成清晰的序列响应,表明随才几RT-PCR方案甚至在^li人基因组DNA的干扰下成功地在峰值样本中扩增流感基因组。基于GDAS输出(采用"许可"设置),REPI鉴别出下列每个样本的4个最高"点击"(表36-38)。105(表36)和103pfu(表37)样本的最高4个点击对应于正确的Fujian/411/2002菌4i的最高排序并且与获得的Fujian/411/2002(+)临床样本NW20031114-05-02ACID04-B2的最高排序相同,经流行性感冒通用引物进行扩增(在表25中显示出)。这个结果表明随机RT-PCR具有扩增能力类似于样本中具有相对4交高滴定量病毒的流行性感冒A特异性PCR反应。專吏j氐滴定量的流感病毒(101pfu),杂交樹--接区i或的百分率和碱基响应的百分率降低了。这导致排序稍微偏移,使Fujian411/2002受限于第二高排列菌才未。然而,V1RPM仍能读出外力口病毒4口H3N2Pretoria菌抹,最初源自Fujian/411/2002菌才朱同源并几乎与Fujian/411/2002菌4朱同源。因为在这个试-验中成功实施了随机RT-PCR反应,应相信的,这个方案将运用在流感临床才羊本和其他病原菌病毒中。表36:FluAHA3:甲型流4亍性感冒H3N2加入才羊本(105pfu)<table>tableseeoriginaldocumentpage150</column></row><table><table>tableseeoriginaldocumentpage151</column></row><table>这个实施例是重要的,因为它显示出完全无偏差扩增方法,来自2001年6月公共领域方案,可用作再测序微阵列制备步骤,导致PCR-水平灵敏性(101輩巴点拷贝)。尽管这个扩增方案已经用于长j氐聚物(70-mer);徵阵列试-验的一些7>开实施例,它将满足再测序纟鼓阵列方法不是显而易见的。依据上述教导,本发明的许多改进和变化是可能的。因此,可理解的,在附属权利要求书界定的范围内,可按不同于这里明确描述的方法来实施本发明实施例10:其〗也病原菌测i式总的来说,下列病原菌在RPMV1上从实验室和/或临床样本中被;险测出/辨别出,(总表达>180测试芯片)鉴别和输入个体100%—致,除了表达类型变异菌林之间同源序列的序列拼接部分之外,无类型交互杂交人腺病毒群C人腺病毒群E人腺病毒群B流4亍性感冒A大天花或(天花)拉沙病毒埃博拉病毒肺炎链球菌化脓性链球菌肺炎衣原体肺炎支原体脑膜炎双球菌Ad5原型Ad4原型Ad4疫苗Ad3原型Ad7原型Ad7疫苗Adl6原型Ad21原型H1N1Ad5USA本地抹Ad4AF本地抹Ad4USN本地抹Ad3USN本地抹Ad7USN本地抹Ad21本地抹H3N2炭疽芽孢杆菌鼠疫耶尔辛氏杆菌弗朗西斯氏菌制备的非传染性大天花(天花)、埃博拉病毒、炭疽芽胞杆菌、鼠疫杆菌和土拉热弗朗西斯菌实验室样本的RPMV1微阵列结果的筛选实施例已经被实施,但在这里没有显示出。采用特异性PCR引物制备大天花(天花)、埃博拉病毒、和鼠疫杆菌样本。采用GenomiPhi试剂扩增炭疽芽胞杆菌和鼠疫杆菌样本(如实施例3中描述的)。实施例11:腺病毒序列的性质下列表列出序列特性和表6中出现的测序腺病毒的推定基因产物和SEQIDNOs:575-587。表39:Ad3(登录号NO.AY599834;SEQIDNO:575)序列特征和布I设性基因产物<table>tableseeoriginaldocumentpage153</column></row><table><table>tableseeoriginaldocumentpage154</column></row><table><table>tableseeoriginaldocumentpage155</column></row><table><table>tableseeoriginaldocumentpage156</column></row><table><table>tableseeoriginaldocumentpage157</column></row><table><table>tableseeoriginaldocumentpage158</column></row><table><table>tableseeoriginaldocumentpage159</column></row><table><table>tableseeoriginaldocumentpage160</column></row><table><table>tableseeoriginaldocumentpage161</column></row><table><table>tableseeoriginaldocumentpage162</column></row><table><table>tableseeoriginaldocumentpage163</column></row><table><table>tableseeoriginaldocumentpage164</column></row><table><table>tableseeoriginaldocumentpage165</column></row><table>表42:Ad4vaccine(登录号No.AY594254;SEQIDNO:578)序列4争^正和假设性基因产物<table>tableseeoriginaldocumentpage165</column></row><table><table>tableseeoriginaldocumentpage166</column></row><table><table>tableseeoriginaldocumentpage167</column></row><table><table>tableseeoriginaldocumentpage168</column></row><table><table>tableseeoriginaldocumentpage169</column></row><table><table>tableseeoriginaldocumentpage170</column></row><table><table>tableseeoriginaldocumentpage171</column></row><table><table>tableseeoriginaldocumentpage172</column></row><table>CDS17343..18074基因-"L3(pVI)""蛋白质VI(六邻体相关蛋白质)"CDS18181..20991基因-"L3(六邻体)""六邻体蛋白质(蛋白质II),,CDS21015..21635基因-"L3(23k)""23k蛋白酶类"多A-信号21661..21666":L3"多A-信号互补(21703..21708)"E2A"CDS互补(21710..23242)基因-"E2A(DBP)""早期E2ADNA结合蛋白"启动子互补(23345..23384)"E2A"启动子23211..23250"L4"CDS23271..25634基因-"L4(100k)""100k蛋白质"CDS25369..25884基因"L4(22k)""22k蛋白质,,CDS连接(25369..25674,25844..26158)基因-"L4(33k)""33k蛋白质"CDS26226..26909基因-"L4(pVIII)""L4蛋白质vin,,CDS26910..27230基因"E3""E312.1kDa蛋白质,,CDS27184..27816基因"E3""E323.3kDa蛋白质,,CDS27798.-28322基因-"E3""E319kDa蛋白质"CDS28352..28987基因"E3""E324.8kDa蛋白质,,CDS29296..30105基因-"E3""E329.7kDa蛋白质"CDS30114..30389基因"E3""E310.4kDa蛋白质,,CDS30395..30835基因"E3""E314.5kDa蛋白质"CDS30828..31229基因"E3""E314.7kDa蛋白质"多A-信号31279..31284"E3,'启动子31292..31331"L5"CDS31464..32741基因^"L5(纤毛),,"纤毛蛋白质"多A-信号32801..32806"L5"多A-信号互补(32817..32822)"E4,'<table>tableseeoriginaldocumentpage174</column></row><table>表44:Ad4FS一AF(登录号No.AY599837;SEQIDNO:580)序歹ll特征和假设性基因产&<table>tableseeoriginaldocumentpage174</column></row><table><table>tableseeoriginaldocumentpage175</column></row><table><table>tableseeoriginaldocumentpage176</column></row><table><table>tableseeoriginaldocumentpage177</column></row><table><table>tableseeoriginaldocumentpage178</column></row><table>表45:Ad5FS(登录号No.AY601635;SEQIDNO:581)序列特4正假设性基因产物<table>tableseeoriginaldocumentpage178</column></row><table>表46:Ad7(登录No.AY594255;SEQIDNO:582)序列特4正和假设性基因产物<table>tableseeoriginaldocumentpage179</column></row><table><table>tableseeoriginaldocumentpage180</column></row><table><table>tableseeoriginaldocumentpage181</column></row><table><table>tableseeoriginaldocumentpage182</column></row><table><table>tableseeoriginaldocumentpage183</column></row><table><table>tableseeoriginaldocumentpage184</column></row><table><table>tableseeoriginaldocumentpage185</column></row><table><table>tableseeoriginaldocumentpage186</column></row><table>CDS18388..21192基因"L3""六邻体"CDS21229..21858基因"L3""23K蛋白质酶,,多A-信号21878.21883多A-信号互补(21890..21895)CDS互补(21911..23464)"DNA结合蛋白质"CDS23531..26020基因"L4""六邻体蛋白质"CDS25722..26321基因"L4""33KD蛋白质,,CDS连接(25722..26070,26252..26595)基因"L4""33kD蛋白质,,CDS26665..27348基因"L4""pIII蛋白质"启动子27030..27035"E3的TATA才匡才寻,,CDS27348..27668基因一'E3""12.1kD糖蛋白,,CDS27622..28062基因="丑3""16.1kD蛋白,,CDS28047..28565基因"E3""18.3kD糖蛋白前体"CDS28595..29134基因="丑3""E320.1kD蛋白,,CDS29147..29716基因"E3""E320.6kD蛋白复制"CDS29731..29856基因"E3""E37.7kD蛋白,,CDS29969..30244基因^'E3""E310.3kD蛋白"CDS30249..30653基因"E3B""E3B14.9kD蛋白质前体,,CDS30646..31053基因"E3B""E3B14.7kD蛋白质,,多A"立点31059..31064CDS31251..32228基因"L5""L5纤毛蛋白"多A一立点互补(32247..32252)CDS互补(32263..32514)基因"E4""E4ORF6/7"多A-位点32764..32769CDS互补(33313..33681)基因-"E4""E413.6kD蛋白质,,<table>tableseeoriginaldocumentpage188</column></row><table><table>tableseeoriginaldocumentpage189</column></row><table><table>tableseeoriginaldocumentpage190</column></row><table><table>tableseeoriginaldocumentpage191</column></row><table><table>tableseeoriginaldocumentpage192</column></row><table><table>tableseeoriginaldocumentpage193</column></row><table><table>tableseeoriginaldocumentpage194</column></row><table><table>tableseeoriginaldocumentpage195</column></row><table><table>tableseeoriginaldocumentpage196</column></row><table>为了上面表39-51中指定的产物,本发明者注意到,普适遗传密码将"定位"柱中被鉴别的核酸序列导入相应的氨基酸序列中。同样地,"产物"柱中指定的氨基酸序列没有被明确列出。现在参照附图,其中相同数字指定贯穿几个图像中的相同或相应部分。在这里,"有意义"一般是关于预先确定水平的统计学显著性或结果的确定性。可供选择地,有意义表明对于用户得出关于存在特异性生物实体或一群实体结论的预先确定水平的有效性。例如,BLAST返回E值(相应概率),数据库内已知序列数量的E值对应于序列数据库记录的总数,该序列数据库记录返回被查询子序列的同样类似值(比值)。如果重排提交的测序序列返回相同的Eit,最初结果是无意义的。另外,这里4吏用的术i吾"可比4交的"一般统指包括足够量的有效碱基响应的数据,该数据从类似性搜索返回有意义结果。此外,关于4吏用该凄t据从类似性搜索返回给用户的有效性结果的术语"可比4交的"可^皮交换z使用。相反地,术语"无可比4史的"一^:统指包括足够量的无碱基响应(Ns)的数据,该数据导致类似性搜索的无意义或不确定结果。该体系,包括REPI(再测序病原菌鉴别器),通过篩选和编辑序列凝:据到更适于序列类似性^t索的子序列中,^皮-i殳计自动化和4姿算法分析不完整核苷酸或多肽序列的输出。为了完成这个目的,系统包括一些功能步骤,或过滤器,当从序列数据中提取可比较数据时尽可能小地修改数据。如上面描述的,由于再测序^1阵列的特性,序列通常包含大量的无^成基响应(Ns)。类似性4叟索如BLAST典型;也返回不确定结果或具有大量无石威基响应的序列。才莫糊结果的实施例包括,但不限于低比值或不预测唯一类似性控:索的预期(E)值。因此,本系统的实施方案提取原始序列的那些片段,或子序列,该原始序列最可能从类似性搜索中返回有意义结果。图ll(a)为本发明实施方案的示范性示意图。通过系统208的自动化子序列分析模块209首先处理序列数据203。ASP209过滤序列数据203并仅筛选可能导致预期确定概率匹配211a(例如,BLAST预期值<1.0E-9)的那些子集。然后,采用如类似性搜索算法将这些子集比对数据库109,结果返回给系统用于进一步分析和概述214。然后,将生成的搜索总结213提交给用户用于更深层分析215。因为分身不能返回统计学相关(例如,BLAST预期值<L.Oe-9)搜索结果的序列子集通过ASP排除掉,返回给用户的结果213通常包括比4是交未分析序列的常^见方法更高比例的显著性匹配213a。采用BLAST或BLAST类类似性4臾索算法的特殊实施方案中,1.0e-,至'J2之间的预期值是优选的。更优选地,涉及BLAST的实施方案包括执行唯一鉴别单一病原菌数据库记录的比值和预期值。选捧性地,系统208进一步过滤归纳出的结果<又显示出满足用户设定或系统预先确定标准的那些匹配子序列。这些标准包括但不限于比值、预期值(另一种序列能导致同样结果的偶然性),或来自子序列或用于生成碱基响应的微阵列信号强度的区域的另一种得分。图ll(a)也说明,提高共享序列数据库和比对资源109在网络连接217范围内提供结果给附加用户219的能力。图ll(b)为REPI的示范性实施方案,系统的一种实施方案。通过REPI208'的自动化子序列分析模块(ASP)209'首先序列数据库203'。ASP209'过滤序列数据203'并仅筛选可能导致预期确定概率匹配211a'的那些子集。然后,采用如类似性搜索算法将这些子集比对数据库109',结果返回给系统用于进一步分析和概述214'。然后,将生成的4叟索总结213'提交给用户用于更深层分析215'。因为分身不能返回统计学相关4臾索结果的序列子集通过ASP排除掉,返回给用户的结果213'通常包括比提交未分析序列的常规方法更高比例的显著性匹配213a'。选择性地,REPI208'进一步过滤归纳出的结果仅显示出满足用户定或系统预先确定标准的那些匹配子序列。图ll(b)也"i兑明,提高共享序列凄t据库和比对资源109'在网全各连"t姿217'范围内才是供结果^^附加用户219的能力。FIG.ll(c)为软件中一种系统实施方案界面的示范性筛选屏幕(这个例子中的图像用户)。这个特殊实施方案能连接网络和局部BLAST服务器(任一或两者),并能修改一些常用BLAST参数251。此夕卜,如下面细节中描述的,分析算法253特异性参数,如窗口尺寸,对用户可来说是非必须的。图12为描述CI:BSI,包括ASP的全面功能性的流程图。在开始CI:BSI操作S301,CIBSI得到"原始"序列。REPI可得到许多格式,包括但不限于FASTA、MSF、GCG、Clustal、BLC、PIR、MSP、PFAM、POSTAL、和JNET的序列数据。在常规和再策略微阵列中,序列数据典型性采取对应于微阵列多重拼接区域的碱基响应的FASTA形式多重序列。除了关于序列数据格式的灵活性,系统从多种不同来源类型接收数据。如上面描述的,这些类型包^舌,^旦不限于,手动或自动的Sanger测序法、shotgun测序法、常规J敛阵列、再测序存i阵列、」徵电泳测序法、杂交测序法(SBH)、Edman筒并和其变异、扩增分子上循环阵列测序法、单一分子上循环阵列测序法、和无循环、单分子、实时方法如纳米3L测序法。可供选择地,原是序列S301可由转录核酸(信使核糖核酸(mRNA)或用于病毒转录和翻译的中间相序列。例如,本发明的一种实施方案是关于RNA转录,RNA在其片段化(用Affymetrix基因表达阵列完成)后直接杂交到阵列上或使用反转录酶转变成DNA。该区域由基因组的外显子区构建而成并且再测序中,在图12中描述的方法对应于氨基酸序列,一组原始序列S301可描述氨基酸的直接读序或从氨.基酸组合中推断出的序列如高分辨质谱测定的。选择性地,原始氨基酸或蛋白质数据被分析出包括相对位置数据,其中相对位置不是保守的。在再测序孩i阵列中,经再测序^H妄的全部构成内的局部序列位置间4妄表明全部基因序列构成。例如,再测序阵列可能仅同时给出5-10个连续磁<基响应的读序,每个读序被连续无碱基响应隔开。图33描绘了这个概念的更普遍描述,这个概念^皮应用于局部序列读序的任何集合。因此,核苦酸碱基响应的任何集合或彼此无明显关联的氨基酸序列首先与"病毒序列"进行比较,针对可探测的较短序列进行比较。那么,连续碱基响应,或局部序列作为集合序列的个体部分是有关联的。因此,为了微阵列的局部序列凄史4居或更有效和通过CIBSI有效加工处理的任4可其<也序列生成平台,局部序列首先连接成集合安排、或组合序列。为了确定哪个局部序列应被结合和被取代,采用类似性搜索用存储器中存储的一群参考序列比对每个可4全测子序列。当与参考序列中的一种进行比对时得到符合条件匹配的局部序列作为组合序列部分被存储起来提交症会CIBSI用于分析。格式化/人再测序孩i阵列中提取的序列翁:据的方法在图33中显示的流程图中进行了描绘。从再测序微阵列或任何其他核苦酸或多肽测序平台S2403中提取的序列信息,并被加工处理来探测被连续无碱基响应S2405隔离的局部序列。4笨测局部序列的步-骤可通过窗口功能被批^亍,窗口功能一经检测到碱基响应就启动观察窗口并且当另一组无碱基响应被探测到就关闭^L察窗口。因此,在局部序列彩:据周围建立一种窗口,并且隔离局部序列读序无碱基响应被剔除。扫描操作也可在序列数据上执行,该扫描4喿作识别每个连续无石咸基响应,/人而指出对应于局部序列的一组石威基响应。然后,每个被鉴别的局部序列与存储参考序列S2409进行比对来确定是否局部序列符合存储的参考序列中的一种。这个比对将产生表明存储参考序列和局部序列之间类似性的统计值。然后,如果统计值在预先确定阈值之外,局部序列被存储为S2413与其他局部序列SS2415结合。可供选裤,地,如果统计值^氐于预先确定阈值,局部序列被排除掉。这个过程持续到所有局部序列都^皮比对,因此生成一组混合凄t据一皮^是交一给CIBSI,如下面被讨论的。然后,该系统在提取候选子序列S305之前执行对照组检-睑S303。在提取候选子序列之后,系统从候选子序列S307的前端和末端剔除无响应(Ns)。然后,该系统4企-睑^皮剔除的〗夷选子序列S309的长度来确定是否可供选择序列或自序列应被筛选出S311,候选子序列随时转到类似性搜索服务器上并被加到类似性搜索队列S315上,或者是否百分率或子序列中正确碱基响应的附加检验满足可接受的阈值而对其进行比4交(采用类似性4叟索)。可供选4爭的序列或子序列S311的筛选通过^吏用滑窗算法在一种实施例中完成。为了那些与S315比对的序列,系统聚集类似性搜索服务器返回的结果,对这些结果进行统计分析并且依据用户参数选择S317将其过滤》会用户。选择性地,该系统将类似性搜索结果完全地返回《会被提交的子序列。当生成更明显的下面描述的给定示范性实施方案时,在可供选4奪的实施方案中能重新安排或修改算法步骤。另外,也如下面更详细描述的,系统的行为经系统预先确定或经用户选择性地确定。下列段落更详细地描述了图12中显示的每个主要功能性步骤图13为执4亍对照检-睑步骤S303的对照抬、睑才莫块的示范性流程图。因此,序列首先被检验察看是否它是微阵列S403通常输出的对照组序列,微阵列S403不符合生物样本,但相反证实微阵列运行正常。被加入到孩史阵列的对照组序列^皮特定i殳计为无义,唯一可确认的,或非自然发生序列;因此,经缺省,对照组序列将不返回显著类似性。如果序列不是对照组,在继续下一步S409之前,系统可选择性地检验是否序列匹配可供选择的自定义参数标记S407。万一序列被识别当作对照组或匹配自定义参数,系统选择性地4丸行对应于自定义参数的辅助功能或移动指令到下一种序列S405上。图14为^是耳又子序列步骤S305的示范性流程图。初步筛选序列S501,该系统在窗口尺寸背景内检查序列S503,Z为对应于许多被返回的碱基响应的窗口尺寸参凄t。这个",见察窗口"一般小于典型序列尺寸并且可在序列的任4可点形成。然后,该系统计算窗口内存在实际碱基响应的百分率(无无响应)S505。在被i兌明的实施例中,通过将"l"设为有效碱基,"0'4殳为所有无响应,执4亍该计算。在一种实施方案中,窗口尺寸Z^人两个石威基响应之间优选范围和半个长度的最小靶点或输入序列中筛选出。当窗口尺寸增加时,篩选包4舌更多无-威基响应的《美选子序列的才莫块变得更^皮允许的。然后,将计算的百分率与最初的跳跃阈值参ltA(例如,25%)进行比对,最初的跳^夭阈值参数可被系统预先确定或被用户选择S507。如果窗口内的实际^成基响应的计算百分率不符合最初的浪W夭阈值参^:A确定的才示准,系统增加了碱基响应的窗口数量S509,依据最初窗口跳3夭参数,X,该最初窗口跳3夭参l史也可能由系统子页先确定或由用户选4奪,^f旦是优选在1和Z之间,Z为窗口尺寸参凄t。增加这点或任何其他点上窗口能在任何方向上发生(例如,向序列末端)。在窗口内的实际碱基响应的计算百分率符合由最初的跳跃阈值参数A确定的标准的情况下,系统在滑窗起始处的候选子序列的起点做标记S511。然后,依据第二个窗口跳跃参数,Y,该窗口被增量移动许多碱基响应S513,并且在每个滑动增量处,计算出窗口内实际碱基响应的百分率S515。如果,候选序列内实际石威基响应的百分率不能满足第二个窗口浪W夭阈^直Bi殳置的才示准,系统在》于应于窗口末端处磁<基响应的序列石威基响应处的候选子序列末端作标记,系统搜索连续的最大可用数据。当系统跳跃参凄tX和Y增加时,筛选具有更多无》威基响应的候选子序列的模块变得更被允许的。当跳跃阈值A和B增加,其他条件不变时,模块变得较少被许可。图14(b)为滑窗算法的一种实施例,依据本发明的实施方法。滑窗551的起始端和末端确定了〗美选序列553的长度和内容。这个子序列在下面描述的剔除功能中被剔除。图15为系统执行的剔除功能S307中更详细描述的示范性流程图。在这个特殊功能模块中,系统探测到候选子序列S603的起初Ns并且随后剔除了候选子序列S605的起始Ns。然后,该系统识别出候选子序列的实际起点已经改变S607并且调整了候选子序列的位置和内容。一组类似行为被#1^亍来除去候选子序列S613、S617末端的Ns。因为这里描述的滑窗方法允许序列以Ns为起始端并以Ns为末端,剔除提高了算法的最优性。可供选择地,滑窗功能能适合于或被替代探测和回避Ns和候选子序列的起始和/或末端,因此消除了对这个步骤的需求。该体系的下一种功能为长度评估S309。图16显示出详细设计执行检验长度步骤的方法的示范性流程图S309。候选子序列的长度为计算出来S703并且与最初长度阈值参数,E进行比较S705。如果候选子序列的长度不大于E(例如,20个核香酸),系统返回到提取子序列步骤S305。如果满足了最初长度阚值E,候选子序列的长度与第二个长度阈值参数,F(例如,50个核苷酸)进行比较S709。如果候选子序列长度超过F,候选子序列被4是交给类似性搜索(比对)服务器或^皮加到经服务器批处理被篩选子序列的队列上S711。在候选子序列超过E但没有超过F的情况中,系统移动指令到4企验中等长度(例如,长度在20个核普酸和50个核香酸之间的子序列)候选自序列内的实际石威基响应的百分率步骤上S713。最初和第二个长度阈值参数E和F能在与最大可供搜索的子序列一样宽的范围内改变。另外,由于E和F降低,模块变得更被允许的。图17显示出计算百分率功能的示范性流程图。在这个功能范围内,计算中等长度候选子序列的实际碱基响应百分率S803。这个被计算的百分率与中间百分率阈值H进行比较S805,中间百分率阈值H由用户选择或由系统预先确定。如果实际石威基响应的计算百分率小于中间百分率阈值H(例如,60%),系统返回到提取子序列步骤S807搜索可供选择的候选子序列。如果计算百分率超过H,中等长度候选序列被提交给批处理子序列的队列上或直接被提交到类似性搜索服务器上S809。由于中间百分率得分阈值参数增加,模块成为具有大量无名威基响应的子序列4交少被许可。除了被提交的子序列的类似性搜索中得到的结果之外,系统选择性地提供了被提交的子序列的进一步分析。图18(a)为更详细描述图12的模块S317内系统活动的示范性流禾呈图。这个4莫块在子序列或子序列群与S901进行比较后产生。在这点上,系统读出类似性搜索输出S903并分析该输出结果,运算关于净皮^是交子序列的附加描述统计,净皮才是交的子序列由用户选择或由系统预先确定S905。由系统执行并运行统计的分析包括,但不限于,被筛选的子序列长度如碱基响应内序列百分率和子序列长度,两者一起用于i兌明輩巴点生物实体基因的哪个部分被鉴定。这个子序列长度和子序列碱基响应的百分率<吏研究者监控系统算法和功能步骤。另外,在再测序《鼓阵列中,包括,但不限于GDAS的碱基响应分4斤的阈值参凄t一皮监控。在可供选择的实施方案中,系统收到并格式化类似性4臾索返回的统计结果,用户〗吏用图形用户界面擴:作和组织这些结果。图18(b)为才艮据本发明实施方案输出结果凄i:据的实施例。选才奪性地,系统能存储所有由类似性4叟索和上面描述的分析返回的输出结果,包括,例如BLAST结果。该系统也选择性地显示S卯9给用户由类似性搜索返回的和/或由该系统运算的所有结果或结果子集。本发明的某些实施方案将这些结果发送和保存用于存档或转移S911。下列表说明上面描述的一些示范性参数和阈值的示范性区间和优选子区间。优选子区间表52<table>tableseeoriginaldocumentpage201</column></row><table>在该系统的另一种实施方案中,搜索(比对)输出可被分析最优化参数,J,S913。如上面描述的,系统的参数和阈值,包括,但不限于A、B、X、Y、E、F、和H,由用户i殳置或由系统予贞先确定。可供选4奪:地,系统的一种实施方案能通过系统或通过使用互补功能模块最优化这些变量中的一种或几个。例如,最优化参凄t或阈值能依据已知的最优化方法(例如,SIMPLEX线性程序)或人工智能(包括状态空间搜索方法如随机搜索或启发式搜索)技术在多种应用系统操作或"传送"期间通过分析被记录的系统性能进行实施。相应的最优化参数,J,可一皮用于,例如,改变先前步骤中4吏用的多种参数和阈值并且再次使用这些新的最优化参数运行这个过程S917。可供选4奪地,代替再次/人原始数据文件开始,最优化参数J能^皮用于通过使用最优化参数J提炼被筛选出的子序列的输出S915而改变与参数相关的如与系统联合的类似性4叟索算法的4于为或功能。最优化参lt能由用户或系统调整来提高系统性能,如速度或相关/有意义的类似性搜索结果。图19为描述本发明的另一种实施方案的示范性流程图,本发明利用其延伸的核心本质。特朱地,系统分冲斤1017#皮用于最优化或改变对应于类似性搜索算法的4喿作或行为的参数1009。例如,这个改变可能与在分析结果中运算或插值的上面描述的最优化参数J相关1017。改变类似性搜索参数(例如,BLAST参数)改变该方法和典型用在类似性搜索中评分系统。特殊地,举例说明的迭代分析法可能导致提示测试序列与已知序列可能匹配的最高阈值或最低阈值,因此改变或最优化系统输出1019。本发明的描迷进一步由下列详细实施例支持。下列详细实施例对应于本发明的示范性实施方案并不是为了提出限制本发明的系统措作、参数设定、序列数据,等。REPI的一种实施方案用于确定CustomSeq/GCOS/GDAS方法中的明卩个碱基响应子序列通过使用自定义滑窗算法将可能返回显著性BLAST结果。随后地,REPI自动返回BLAST输出给终端用户,该终端用户概率性分配给定组碱基响应对应特殊生物序列的可能性。此夕卜,REPI自动将序列片段连接到个体病原菌上。再测序阵列芯片的原始序列数据由包装有Affymetrix微阵列阅读器的遗传分析软件version2.0(GDAS)来4是供。GDAS碱基响应基于先前描述的碱基响应算法(Cutleretal.,2001)。包含从GDAS软件得到的碱基响应的每一种FASTA输出文件采用专属软件(REPI)进行分析,该专属软件(REPI)是这里描述的本发明的一种示范性实施方案。在本发明的情况中,GDAS的序列输出大部分通常为邻近序列响应(A、T、C或G)的分散混合物,邻近序列响应(A、T、C或G)点缀着不同量的无响应(n's),由于缺少扩增、芯片上的弱杂交信号和/或非特异性结合导致的高背景杂交,GDAS软件不产生碱基响应(Cutleretal.,2001)。Ad4FIBER拼接区域的4(+)腺病毒临床样本的GDAS输出的一种实施例输出在下面显示出>Ad4FIBER:603124A2-8.7.03-2小时杂交开始=12终点.-1245caagaaaagcccctgggggtgttgnccntaggnnntimncgaccctgnciicriccangaatggggaaaiicaatttgnngnnaaagggaananaaagnttnnnntnnntlmnggnttgcatgttacaacaggaantgcaattgaaagcaacattagntgggctnaaggtnnaaaatttgaagatggtgccanagcnncaaacattggtaagnatctggncncagctttgncagcncaggagnnntaatgjictggcaataaagncnnngananattanctttgtnacnnagnnngnnagncaaatnctggccactgnancagntttggntgntagaagnggnancntaaacccaattnctggcacagnaagcagngctcaagnttttcrmcgntttgatgcaancngtgntcttttancngancactcnannnnnaaaaaatactggggctacnggnaaggagatagcatagatggcactncatacaccaatgmigncaagnatmiatgaatggngntgtttnaaaacccangcttcttnctatanctcttaatggnnctgntttggagctaactcatacaccttcncntacanngcccaimaanim在提供的实施例中,REPI经CGI(Perl)界面连接到局部BLAST(NCBInt)凄t据库(包含在具有4.5GB随4iL存耳又存4诸器的苹果G5单一处理器(1.8Ghz)计算机上)。显示的结果包括所有预期值(E-值)阈值1.0e-9的数据库序列。E-值表示在随4几主会定4臾索空间、记分矩阵、和空位罚分的预期分4斤数量;E-值越低数据库类似性搜索匹配越不可能进行随机鉴别。REPI输出由(可比4交)子序列命名、长度、E-值和每个匹配的bitsscores构成,以bitsscores的降序朝卜列显示每个子序列。名称才艮告为Gen:Bank记录FASTA定义列并且包括序列长度。得分为记分矩阵和空位罚分计算出的标准分数,分数越高类似性越高。上面列出的实施例的REPI丰lr出在下面显示出。只t于每个可比4交子序列,REPI返回(以比值等级的降序排列)所有具有预期值小于评估阈值,通常为1.0E-9的GenBank凄t据记录。获得的最高比<直是4型&隹病毒,而较低的比值s适合区分来自空军和海军培训基地的本地抹。>Ad4FIBER:S09l24A2-8.7.03-2小时杂交开始=12终点-1245子序列gnttccaagaaaagcccctgggggtgttgnccntaggnnntnnncgaccctgiiciicnccsingaatggggaaancacncnnantntggngnannnngtggaccttgacgnctcgggaaanctcrittgceiaiicncagrLcnnnaagnncattgrmnctnntagnt.tttnccancaacnccattnnnnnttaacatggnngmmnnnnnnt覃巴点子序列百分率27%子序列长度337子序列》咸基响应婆t量249子序列石威基响应百分率74%giI434913Iemb|X76547.1|AV4FIB1纤毛蛋白质4型&泉病毒基因;长度=1375Ad4FIBERevalue:3.35737E-33,score:149.17Icl|AY599837i血清4型人腺病毒,美国空军本地抹|35,964bp;长度=35964Ad4FIBERevalue:4.51313E-20,score:105.558IclIAY599835|血清4型人腺病毒,美国海军本地株l35:965bp;长度=35965Ad4FIBERevalue:4.51313E-20,score:105.558IclIAY594254|血清4型人&泉病毒,疫苗4朱#|35,994bp;长度=35994Ad4FIBERevalue:4.34733E-17,score:95.646lcl|AY594253|血清4型人腺病毒|35,990bp;长度=35990Ad4F[BERevalue:4.34733E-17,score:95.646giI17105037IgbIAF394196.1|AF394196猴腺病毒25,全基因组;长度=36521Ad4FIBERevalue:2.58354E-12,score:79.7872gi|33694802Itpg|BK000413.11TPA:浙吳月泉病毒25,全基因纟且长度=36519Ad4FIBERevalue:2.58354E-12,score:79.7872giI22796371|emb|AJ315930.1|HAD3159304型人l泉病毒DNA;长度=12718Ad4FlBERevalue:2.58354E-12,score:79.7872子序列timntniinctimncttttiigctcaggtttnggacngimimgnagngiitnngiicagtacagttagcctctncncttncatttgnngnnaaagggaananaaagnttnnnntnnntnnnggnttgcatgttacaacaggaantgcaattgaaagcaacattagntgggctnaaggtrinaaaatttgaagatggtgccanagcnncaaacattggtaagrmntnnnnnntnnnaaccagnagnncagaancaggagiitaanaangcttnnccaanccaagntaaanttgnatctggncncagctttgncagcncaggsignnntaatgnctggcaataaagncnnngananattanctttgtggacaacgcctgacccatcannaaactgncaactcaagnttttcimcgntttgatgcaancngtgntcttttanciigancactciiarin皿riaaaaaaatttggagctaactcatacaccttcncntacanngcccannaa耙点子序列百分率72%子序列长度888子序列-威基响应lt量701子序列》成基响应百分率79%giI434913Iemb|X76547.1|AV4FIB1纤毛蛋白质4型A,病毒基因;长度=1375Ad4FIBERevalue:3.29583E-171,score:609.077lcl|AY599837|血清4型人腺病毒,美国空军本地抹|35,964bp;长度=35964Ad4FIBERevalue:7.18119E-160,score:571.412lcl|AY599835|血清4型人腺病毒,美国海军本地抹|35,965bp;长度二35965Ad4FIBERevalue:1.75062E-157,score:563.482lcl|AY594254|血清4型人腺病毒,疫苗才朱#I35,994bp;长度=35994Ad4FIBERevalue:6.18269E-148,score:531.765lcl|AY594253|血清4型人腺病毒|35,990bp;长度=35990Ad4FIBERevalue:6.18269E-148,score:531.765gi|303967|gb|L19194.1|ADRFIBERX纤毛蛋白质h4哺乳动物&袈病毒,完整编石马序列;长度=1346Ad4FIBERevalue:1.50721E-145,score:523.835giI227963711emb|AJ315930.1|HAD3159304型人月泉病毒DNA;长度=12718Ad4FIBERevalue:3.67425E-143,score:515.906giI17105037|gb)AF394196.1|AF394196猴腺病毒25,全基因组;长度=36521Ad4FIBERevalue:2.91419E-51,score:210.623gi|33694802|tpg|BK000413.11TPA:猴腺病毒25,全基因组;长度=36519Ad4FIBERevalue:2.91419E-51,score:210.623在这个详细的实施例中,REPI参数设置如下表53<table>tableseeoriginaldocumentpage206</column></row><table>除了上面描述的实施方案,系统的可延伸性能允许随时调整许多较高生物信息学任务,该较高生物信息学任务利用核酸的分散片断,或氨基酸序列。这些辅助应用的一些实施例i下面进行了描述。在先前的实施例中,本发明者提供了显示出序列片段能自动连接单个病原菌的数据。在一些更优选的实施方案中,这种方法在垂直同源生物輩巴点序列组内混合物和重组之间进4亍分析。因此,直向同源基因通常净皮鉴别为不同物种内的相同基因,通常表示共同遗传起源。更特殊地,系统自动分析来自再测序微阵列的不同拼接区域的序列响应来探测阵列不同拼接区域上存在同源序列片段。选择性地,该系统进一步确定不同拼接区域的描述垂直同源基因的序列输出不是垂直同源基因的混合物而对应于邻接序列,该邻接序列由两个或多个垂直同源基因之间的发生的遗传重组引起产生。在一种这种附加实施方案中,该系统将考虑自动检测在阵列的不同拼接区域上的高度重叠或同源序列片段,推断出耙点序列的混合物。进一步,该系统将选择性地确定不同拼接区域的序列输出不高度重叠但对应于邻接序列,该邻4娄序列可能登录在已知革巴点序列的内来4,断遗传重组发生。FIG.21举例说明了依据本系统的实施方案,在测试样本中不同靶点混合物和覃巴点内重组之间进4亍辨別的方法的一种示范性实施方案。这些实施例方法能归并到或采用上面描述的关于图12方法进行补充,这些实施例方法也用于在蛋白混合物和杂交蛋白质之间进行辨别。在这个实施例中,系统确定了由编码蛋白质的完全核普酸序列的再测序微阵列(采用或不采用初始类似性搜索)探测的基因子序列的相对位置S1201。相对位置通常对应于全序列内子序列的位置。全序列在凄t据库中可用,该*:据库由7>共序列和/或专属序列记录组成。例如,子序列能被确定对应于全序列的前端(例如,5')、中部、或末端(例如,3')。此夕卜,这个确定位置由候选子序列或筛选子序列组成。其次,该系统扭J亍分析方法依据它们的4立置来比对和匹配子序列S1203。用于^U亍S1203算法可以为用于两个序列间局部序列两两比对算法(例如,BLASTN、BLASTP、或BLASTX),在多重序列间同时4丸4亍分才斤的算法(例嗦o,ClustalWorClustal_X(Thompsonetal.,1997;Thompsonetal.,1994)),或从公共结构域或经;属发展得到的可供选择的算法。在一种实施方案中,系统聚集对应于类似序列的前端、中部和末端的子序列。随后,系统评估聚集的子序列^皮此的拟合度S1205。子序列间的拟合度能被评估出,例如,通过探测序列间重叠的适当量。在一种实施方案中,相对于无重叠序列,拟合度是同源重叠区长度(或比值)内的定量关系,每一种与给定蛋白质的完整基因的全部序列的关系。除了评估重叠生物序列的传统方法之外,系统采用应用于类比及凄t卩立通i凡的同步探测方法选择性地分析序列重叠。此外,鉴别重叠序列的问题不像由数字通讯中初始同步引起的问题。因此,依据本发明,一种可能被采用的方法是使用滑移相关器。在滑移相关器中,两个序列(数据序列,和假设序列)对比两个序列彼此相关性。两个序列被移动到彼此相关的位置,仅当相关性结果被4笨测到具有上面预先确定的水平时停止移动。实际上,用于减少搜索范围如同步前导序列传递的一些其他方法之前加上滑移相关器。同样地,依照本发明,子序列间已经纟冢测到的重叠可以被用作前导序列目的为了限制同步过程需要的时间量。这个类型的同步已经进行了描述,参见Bhargva,etal."DigitalCommunicationsBySatellite"JohnWileyandSons,Chapter9,pages269-291。同样地,其他同步或捕获算法可被采用例如在§8.22ofSklar,B."DigitalCommunicationsFundamentalsandApplications",PrenticeHall,1988,pages453,460中进4亍4苗述的刃,些。基于i吴获耳又的最〗氐相克率,筛选出获取标准。既然这才羊,获取标准可能具有相无率10%的误探测,即使9%、8%、7%、6%也包括在内,降至0.1%可以被采用。如果子序列不超过预先确定的拟合度阈值,系统开始分析可供选择的序列S1207。就是说,如果两个或多个潜在同源性或垂直同源子序列不符合混合物或重组模型,该系统开始搜索其他子序列S1201。采用类似性搜索算法将收集的分组子序列与完整(靶点)序列进行比较1211。在这种情况中,被连接的子序列和靶点序列之间的类似性水平S1213提供了一些数据,这些数据指示是否被探测生物序列来自不同生物实体或者是否被-探测序列指示一种重组。可供选择地,系统采用检验点的方法来评估子序列片羊殳之间的重叠杂交。验点方法沿着子序列的多个点执4亍这种评估S1209。在这个方法中,抬,验点的数量与阈值S1215进行比丰交来提供在生物混合物和重组之间进行辨别的证据。例如,同类型的两个病毒的交叉感染可能在一种基因中产生重组,这个基因与一种病毒除了5'端之外是同源的,单个基因被同一蛋白质的第二个病毒基因的对应片^殳取代。当这个新的重组病毒基因组被杂交到再测序微阵烈上时,它可能产生来自再测序拼接区域对应部分的信号。本发明的一种实施方案包括构建靶点序列才莫型的组装算法,该靶点序列显示出哪个片,殳可能结合形成完整把点。如果这两个具有显著性重叠(例如,证实同源性大于某个阈值),可以得出可能存在混合物。但如果很少重叠或没有重叠,将没有存在重组的可能性。重叠的程度(或缺少)可能受到靶点低浓度影响,该靶点具有较少量的被填充的拼接区域。同样原理甚至能容易被采用,并且具有更大影响,在病毒上重组是稳定并重复发生,作为逆转录酶病毒,病毒间的重组导致形成新病毒抹。事实上,这种被描述的功能性对#巴点序列混合物对|巴点序列间重组是必需的。此外,这个附加功能性也可用于更快速纟罙测^皮;险测到的(可能地)新重组内共有区并且帮助"i殳计PCR引物来丰蕭助更广纟乏研究由系统^果测到的重组。不仅本发明方法能在生物实体的混合物和给定实体内(这里另外描述的)的重组之间进行辨别,系统的附加实施方案有利地提供给终端用户相对量靶点序列的定量评估,该靶点序列在再测序^f殷阵列中#^笨测到。当多种病原菌基因组信号^皮^笨测到时临床医师或临床试—睑室#支术员指出原因和影响的时候,这种决策质量信息具有增强的效用。另外,关于生物物质存在的补充数据提供了额外背景用于终端用户制定决策,该生物物质具有关于丰富生物物质的资料。另外,该系统的实施方案^皮设计自动分析和比对这种"存在"和"丰富"资料来提供决策质量信息给终端用户。该系统的实施方案被设计利用提供丰富信息的两种类型数据。第一种为芯片上杂交信号的绝对强度。溶液中靶点数量和实际杂交和生成信号的数量之间存在非线性关系。然而,样本中耙点核酸数量的评估通过用空白条件下制备的标准曲线进行比较而得到。例如,信号强度数据容易从Affymetrix数据结构中的.CEL文件中得到,并且典型用于基因表达改变的定量评估。该系统的一种实施方案提供了含有强度值的数据,输入、输出和操作。第二,碱基响应百分率,如全部拼接区域尺寸的百分率和被筛选子序列内的碱基百分率满足滑窗算法,被用作浓度测量。由发明者执行测试的结果显示出降低耙点浓度,这些百分率度量都降低,尽管正确靶点序列仍能^皮鉴别出。图22为CIBSI的一种实施方案的示范性说明,该CIBSI加入了类似性搜索结果的强度数据来提供决策质量信息给终端用户。强度数据1314由微阵列的光谱分析工具输入。在类似性搜索结果的背景中分析强度数据更鲁棒性分析1319辆j冢测到的序列并且从而提供给终端用户决策质量信息1321。决策质量4言息包4舌,如相对丰富的对应于相关生物实体的械j果测的序列或子序列的测量。另外的实施方案加入强度^据1314在先前描述的混合物和重组之间的辨别中。在这种情况中的强度凄史据1314将^是供额外方面的信息,当应用数字通讯方法翻译类似性搜索返回的序列数据。在另一种非常优选的实施方案中,系统分4斤转录标记物(例如,RNA),该转录标i己物采用目前描述类型的贫i阵列(经RNA或互补cDNA的杂交)对RNA进行再测序。在类似于上面描述的推断基因组重组的方法中,转录序列也可纟皮组合确定生物实体生存能力和能作为感染标记物的转录编辑活动。另外,系统^t必须的适应于^f吏用生物序列非核酸和它们的相关转录产物如蛋白质的氨基酸序列。通常,本发明的蛋白质组应用与处理生物序列数据和最优化与已知序列比对的这些数据的系统能力一致。基因表达和蛋白质进化研究导致规4莫相似的氨基酸序列库并且如同上面描述的遗传序列数据库一样可^皮访问。此外,测序蛋白质用的质i普方法返回的光谨资料分析有助于详细阐述本发明的实施方案。例如,蛋白质序列光谱-凄t才居包4舌类似于农t阵列分析中使用的强度lt据。如上面描述的关于其他类似序列,本发明的先进实施方案提供给终端用户处理和利用这种强度数据来提供更高质量信息。除了诊断应用中^f吏用该系统,系统的可供选4奪的实施方案促进设计系统^T断实施方案用的更有效和有效率的再测序孩i阵列。选择和设计嶺l阵列上才笨针的一种更有效方法不可避免的导致l会定微阵列上有效面积的更有效使用。随后,微阵列能被制成精确探测更多钟给定尺寸的生物序列,或者特异性应用定制的微阵列通过减少微阵列上探针的规定数量而被制成更便宜更易被访问,这提高了尺寸缩小和高产量的可能性。设计微阵列的一种重要动力是辨别率。通常,在这里描述的辨别力统指在生物实体紧密相关菌才朱之间进4亍区别的辨别率。例如,一些应用可能要求空军&泉病毒4朱和海军腺病毒抹之间进行区别的辨别力,而另一种应用仅要求辨别存在腺病毒。下面描述的实施方案说明使用该系统使设计者能更客观更系统第平衡辨别率和微阵列尺寸/密度。图23说明了使用系统加速设计和进行制备再测序樣i阵列或其他4笨针或阵列测试的方法的一种示范性实施方案。为了设计,筛选符合多种类型的生物序列(依次,对应于包括病原菌的生物实体)的测试序列,该生物序列目的是通过孩t阵列S1403^皮4采测到。多于一种已知或可估计的生物序列的优选的组合可为紧密相关或不为紧密相关的,被筛选的序列能经过多种方法包括但不限于,系统发生树和隐马尔可夫模型(Eddy,1998)被选出。这些#皮筛选的测试序列使用多种分析算法如CLUSTALWS14054妾受多种分析。执4亍多种分析导致4寻到一致序列S1407,典型对应于测序序列的共同区,公共性通过与某一类似性阈值(例如,CLUSTALW重量、CLUSTALW参数设置百分率开确定一致性)进行比4交而#皮确定。得到的一致性序列然后4皮输入到本发明的实施方案中生成一致序列的一种或一种以上子序列,该一致序列作为4艮可能生成类似性:溲索S1409的有意义结果而净皮确定。在一种方法中,一致序列的自叙列与最初被筛选的测试序列通过模拟进行杂交,模拟方法是模拟如Affymetrix再测序微阵列S1413的行为和限制性。杂交规律,包括,但不限于耐受性和插入、缺失、和全序列内不同量碱基对或不同位置上进行取代的^见律。然后,得到沖莫拟测试序列和一致序列间杂交模式的输出结果S1415,随后提高给系统采用类似性搜索进行自动化比对S1417。类似性搜索的结果与最初被筛选的测试序列进行比4支S1419。一般地,类似性搜索返回至少一种已知生物实体和相关可能性,该可能性为4皮提交的序列或子序列来自那个已知实体。因此,比对类似性:搜索结果能确定或否定基于一致序列相关部分的4笨针,该纟笨针在正确杂交,从而鉴别用户所关注的收集的测试序列。如果结果确定一致序列(或其子集)有效性,那个序列能在再测序微阵列S1421的一种区域内被实现。可供选择地,如果比对间接表明关注的测试序列将不会被充分探测到,那么该系统在新4笨4十S1423进一步的重新-没计中一皮4吏用。这种重新-i殳计过禾呈的一种实施方案包4舌重新估计几个最初-没计过考呈中的几个步-骤,一些在图23中进行了说明。例如,这些结果受到被筛选测试序列范围的多样性和依据环境中其流行程度的测试序列加权的影响S1427。此外,一致算法加权是可调整的S1427以及为系统相关的功能参数S1429。此外,在模拟杂交中执4亍的不同方法是可调整的,包括全面改变算法和信噪比阈值S1431。因此,与主观选择纟笨针的常规方法对比,系统的功能性^是供了加速或更有效的i史计再测序《敬阵列。上面关于设计的主题进一步通过下列发明者实施的实施例进行说明。在这个实施例中,方法被描述用于制备用作微阵列上靶点序列的一致序列,微阵列能鉴别那些用于制备它的测试序列。如24说明了下面描述方法的一种示范性实施方案。以15个病原菌六联体基因组序列开始,依据系统发生树图排列这些序列(例如,参见图25)。系统树图用于图形表示和评估被筛选测试序列间的遗传关系。尽管Adl和Ad5是关于其他序列的最大的局外点,所有15个被显示出的六联体基因序列在这个实施例中被筛选出作为初始组的测试序列S1503。初始组的测试序列S1503的筛选由预先确定的系统或用户指定参数选择性地自动化提供完成。例如,系统树图内序列间的距离提供了数字阔值组,该数字阈值组确定候选一致序列内结合序列要求的最小具体或最大3巨离。下一步,所有筛选的测试序列接受多序列排比分析S1505例如ClustalW(Thompsonetal.,1994),图26中显示出样本输出结果。然后,一致序列在这个序列排比S1507中计算出。实施例举例i兌明了图27中Cons(EMBOSS连接ClustalW)执行的这个步骤,Cons以低"多元"运4亍,参凄"吏Cons用户设置了低于无一致性的阳性匹配数量的切断。特殊地,较低多元^f吏车交少匹配建立一致性,因此建立起具有4交少空^f立和无响应;f寻一至丈性。一旦候选一致序列被运算出,将被输入到REPI内(或者,可供选拷,地,本发明的另一种实施方案)初始评估其作为乾点序列的潜在功效,采用返回予贞期匹配的一种子贞期阈^f直1e-9S1511。在这一点上,RE:PI与净刀始组的测试序列S1513进行比较如,初始组的测试序列百分率存在于REPI结果中。如果由REPI结果鉴别的初始测试序列的百分率大于阈值(系统预先确定或,可供选择地,由用户指定),候选一致序列为最可能有例的大范围耙点序列,并且该方法转向模拟杂交S1527。在被说明的实施例中,上面对比阈值为100%,对应条件为当超过预期阈值时所有初始测试序列必须由REPI返回。降低对比阈值导致系统更允许輩巴点序列识别错或不能鉴别某一数量或百分率的预期组测试序列。另外,如果初始组测试序列的每一种不是全部存在于REPI结果中,丟失的测试序列采用候选一致序列个别地进行评估。候选一致序列也联合先前步骤中建立的多重比对被评估来鉴别任何丟失的序列片革殳,这些丟失的序列片段对一致性内的鉴别是关键性的。在没有丢失初始序列共性的情况下,下一步的目标是增量式添加必要序列信息到初始候选一致序列内。因此,再次4丸行多重比对S1515。这时,多重比对包括目前的一致序列。随后,候选一致序列中的空位;故鉴别出S1517。候选一致序列与测试序列比对中的空隙是丢失序列数据的可能位置,将增量式序列信息添加到丟失测试信息的候选一致序列中可能是有利的。图28"i兌明了第二个多重比对结果中空^f立的实施例。在这个实施例中,存在两个位置,一致序列遗漏了Adl和Ad5的序列信息,先前注释为初始测试序列筛选过程(参见图25)中两个最大系统发生树局外点。对应于空位的丟失序列片l殳净皮添加、或"剪切"到初始一致序列代替空隙S1519而形成"拼接"一致序列。图29说明拼接候选一致序列内的剪切序列数据。依据本发明的实施方案,剪切由用户手动完成。选择性地,依据对应于空位鉴别和从剪切进空位的丢失测试信息中筛选序列信息的参数(由系统先前确定或由用户设置),该系统提供自动剪切。剪切S1519之后,拼接候选一致序列再次被提交给REPI评估上述操作的影响S1521。选4奪性地,系统或用户确定另外的可4妾受阈^直,另外的可4姿受阈值对应于现在正确鉴別S1523的丢失测试序列的数量(或百分率)或先前鉴别的而现在由REPI结果错误鉴别的测试序列S1525。这种阈值一4殳对应于改进或降^氐与初始候选一致序列相关的拼接一致序列功效的耐受性。在说明的实施例中,在没有失去任何先前鉴别的测试序列的情况下,添力口两种序列片l史是添力oAd1和Ad5到REPI点击列表上。在另一种方面,如果剪切搡作不能将丢失病原菌类型添加到被鉴别类型的列表上,或者其他序列hits在这个过程中丢失,新的一致序列将被放弃,Ad1和Ad5被分离出并且余下序列:故重评估S1524。可供选择地,如果剪切操作不能满足可接受阈值,重评估被执行。因此,初始组测试序列间的序列差异不能满足可接受阈值(例如,上面直接描述的那些),两个或多个候选一致序列可能对于提供耙点序列时必要的,该把点序列能鉴别预期百分率的初始组测试序列。选择性i也,系统并4亍i也考虑和评估这种附加4美选一致序列。如果所有初始序列已经在REPI结果(参见如30)中^皮鉴别,最终一致序列已经形成并且每个初始测试序列的杂交潜力能净皮确定。图31显示出杂交/结合模拟程序用于执行该步骤。每个初始序列与新的一致序列拼接。该模拟过程采用由bl2seq比对程序生成的输出比对文件,并评估每25mer最高记分比对中差异数量。选择性地,程序评估较长间隔的差异数量或4交短间隔差异数量。然后,系统建立生成序列(如Ad4的图31中显示)仅基于25mer's具有小于2个错配的位点。另外,4晉配耐受的分离阈值由系统选择性地《会出。图31中显示的序列为与目前一致序列杂交的测试序列的才莫拟表达。每个序列与最终一致序列的杂交潜力被评估出1527。在这个实施例中,禾呈序HybBind用于生成每个测试序列的杂交模拟序列S1529。一旦杂交模拟序列全部生成,它们每个经:REP:I运行,好像它们已获得实际芯片S1531。如果所有才莫拟序列高评分或高"点击"匹配其各自序列(基于比值和/或预期值的类似性评分),那么潜在一致序列通过评估过程,能用作覃巴点序列来通过类型鉴别那些用于制备它的序列S1535。可供选择地,如果所有模拟序列按照高评分S1535不匹配各自序列,或者高评分和E-值匹配多重序列S1533,潜在一致性错4吴评估,序列^皮分解成多组并送回进^f亍再评估S1534。不能正确鉴别其各自序歹'J(Adl、Ad50、Ad34、Ad3)的潜在序列被送回第一步进行重新评估一种或一种以上一致性S1534。按照高评分和E一直不能正确鉴别其各自序列潜在序列Ad4、Ad21、Adl6、Ad7、Ad5被聚集在一起并^t送回,经过上面描述的过程,以制备多重比对开始,在没有l吏用失败并不能正确鉴别S1536的那些序列的情况下,建立新的4美选一致序列。新的候选一致序列(例如,参见图32)经同样阈值和评估bl2seq、REPI、Hybbi力d和REPI进行运行。当Hybbind最终模拟序列经REPI被运行用于确认按照高评分和E-值,所有序列能依据类型鉴别其各自序列,因此,这个潜在一致序列已经通过所有;平估并能^皮用作Ad4、Ad21、Adl6、Ad7、和Ad5序列的革巴点。然而,在另一种实施方案中,系统为序列分析中时间趋势的追踪和分析作准备。通过随时间重复地或连续地^丸行和记录类似于上面描述的分析,遗传或蛋白质组进化和/或突变比采用常头见方法更容易净皮追踪到。在一种关于病原菌探测的特异性实施方案中,这里描述的本发明用于常头见诊断和常见呼吸病原菌的临床(在床旁或近床旁)监控。容易得到的样本(例如,鼻腔冲洗液、咽喉拭子、唾液、血液、食物、土壤、水或空气)以简单方式被处理来制备核酸分离物,该分离物采用吸附方法得到,富集病原菌特异性靶点,采用无偏差(如全部)或多重PCR扩增方法进行扩增,洗涤和影像之前在再测序微阵列上杂交一段规定时间。全部过程是非常简单使得技术人员(医药技术人员水平)常规模式中没有重要中断的情况下将能在实施该试验。采用常见算法或采用由供应商^见定的步骤生成石咸基响应。REPI或其一些改变^皮用于自动分析孩i阵列生成的碱基响应,并^是供给终端用户(例如,医师、疗养院、/>共卫生官员、或其它决策者)传染性病原菌管理质量信息决定(例如,诊断、处理、预见和夂暴发控制/污染测量),这些传染性病原菌成为疾病综合症和并发症的原因。这个分析将经使用嵌入式序列数据库而局部发生,嵌入式数据库经REPI被查询(例如,局部专有BLAST服务器)。除了提供常规诊断功能之外,微阵列也将携带标记物给高度不可能(例如,禽流感或生物恐怖行动)病原菌,这种高度不可能病原菌将成为包含的其他原因,如公共健康官员。在本发明的一些实施方案中,C旧SI输出^皮安排在多层中。在一种特殊实施方案中,CIBSI输出被安排以三层提供给用户或数据注释。输出的第一层提供了"物种水平"信息,输出第二层提供了"血清类型/菌抹水平"信息,第三层提供了"低水平"信息。物种的实施例包括,但不限于,流行性感冒A、流行性感冒B、腺病毒、化脓性链球菌、炭疽芽孢杆菌、和土拉热弗朗西斯菌。尽管物种水平层首先提交给用户或数据注释,用户或数据注释能筛选和通过如用户输入、预先确定显示设置、或指定方案观察其他层。可供选择的实施方案提供了4全索、组织、和提交对应于每个层内预先确定水平的凄t据的*见则和算法。在一种实施方案中,对于一级阳性的规定是如果一种物种多重拼接区域的任何一种产生具有预期值l.Oe力或小于1.0e力的阳性子序列或产生单一病原菌数据库记录的高比值),那么结果为那个物种级的阳性。这建立起完全自发的第一层细节。用户能制造更多信息,第一层信息经过如人为干预步骤进入第二层或第三层信息。包括"血清类型/菌株水平"信息的第二层输出使用户查看序列凄t据库(如,GenBank)记录名称和评分在预先确定阈值的辨识器来确定血清类型和/或菌林。选择性地,下一种搜索算法可被应用没有精确命名协定的序列数据库来自动给出血清类型/菌珠级信息(例如,经过搜索和分析GenBank资料)。可供选择地,通过选择显示领域后的选项,系统提供由用户或数据注释被制成第一层信息的附录(例如,腺病毒4、空军本地珠或流行性感冒A、H3N2、Fujian411)。第三层输出包括原始CIBSI输出。选择性地,算法可以被用于原始CIBSI输出。本发明的其他实施方案使附加信息移动到第一层输出中。图20为针对-执行本发明的一种实施方案的计算才几系统(或服务器)2001的结构图。然后,应注意到,本系统不需要以个人电脑(PC)配置为基础,但更适合自定义处理器系统,该自定义处理器系统不包括也可被-使用的普通用途计算机的特征。然而,因为用于支持本发明的实际石更件配置,不是为了限制,PC系统的一种实施例现在被给出。计算机系统2001包括bus2002或其他通讯信息的通讯才几制,处理器2003联合bus2002—起处理信息。计算机系统2001也包括主存储器2004,如随机存储器(RAM)或其他动态储存器(例如,动态RAM(DRAM)、静态RAM(SRAM)、和同步DRAM(SDRAM)),联合bus2002—起存储信息和由处理器2003执4亍的指令。此外,主存储器2004可用于存储临时变量或处理器2003执行指令期间的其他中间信息。计算机系统2004进一步包括只读存储器(ROM)2005或其他静态存储设备(例如,可编程ROM(P:ROM)、可擦除PROM(EPROM)、和电擦除PROM(EEPROM))联合bus2002—起存储静态信息和处理器2003的指令。计算机系统2001也包括磁盘控制器2006联合bus2002—起控制一种或一种以上存储设备来存储信息和指令,如石更磁盘2007、和可移动纟某体驱动机2008(如,软磁盘机、只读光盘驱动器、读/写光盘驱动器、光盘自动唱片点唱机、磁带驱动器、和只读磁光盘驱动器)。使用适当的驱动器接口(例如,小型计算机系统接口(SCSI)、集成设备电子部件(IDE)、加强型IDE(E-IDE)、直接内存存储(DMA)、或ultra-DMA)存储设备可被加入到计算机系统2001中。计算机系统2001也可包括特殊用途逻辑器件(例如,专用集成电^各(ASICs))或可配置逻辑设备(例如,筒单的可编成逻辑设备(SPLDs)、复杂可编成逻辑设备(CPLDs)、和现场可编程门阵列(FPGAs))。计算才几系统2001也可包括显示控制器2009联合bus2002—起管^里显示器2010,例如阴极射线管(CRT),显示信息给计算才几用户。计算才几系统包括输入设备,如键盘2011和定位设备2012,与计算机用户连接并提供信息给处理器2003。定位设备2012,例如,可为鼠标、追踪^求、或触控点用于与处理器2003交流方向信息和命令选择。此外,打印机提供了由计算机系统2001存储和/或产生的信息的打印列表。计算机2001执行本发明处理器2003执行存储器,例如主存储器2004中含有的一种或一种以上指令的一种或一种以上序列的部分或全部处理步骤。这种指令可^皮读入另一种计算机可读々某体如硬盘2007或可移动々某体驱动机2008的主存储器2004。多重处理安排的一种或一种以上处理器也可用于主存储器中执行指令序列。在可供选择的实施方案中,硬体线路可被使用取代或联合软件指令。因此,实施方案不被限制硬件电路或软件任何特殊耳关合。如上所述,计算机系统2001包括至少一种计算才几可读々某体或存储器依据本发明的教导支持程序指令并包含数据结构、工作台、记录、或其他这里描述的数据。计算机可读i某体的实施例为f兹盘、硬磁盘、软盘、磁带、》兹光盘、PROMs(EPROM、EEPROM、flashEPROM)、DRAM、SRAM、SDRAM、或任何其他》兹介质、光碟(例如,CD-ROM:)、或任《可其他光学介质、穿孔卡片、纸袋、或其他孔洞模式物理介质、载波(下面描述的)、或4壬<可其他计算才凡可读的介质。存储在任何一种或计算机可读媒体上,本发明包括操作计算机系统2001、驱动一种设备或执行本发明设备的软件,和使计算机系统2001支持个人用户(例如,打印人员)的软件。这种软件可包括,但不限于,设备驱动器、操作系统、开发工具、和应用软件。这种计算机可读+某体进一步包4舌实现本发明中执4亍处理的所有或部分(如果处理是分布式的)计算才几禾呈序产品。本发明的计算机编码器可以为任何能翻译的或可执行的码#:作才几制,包括但不限于译本、解释性程序、动态链接库(DLLs)、Java类、和完全可批^亍程序。此外,本发明部分处理可用于4是高性能、可靠性、和./或费用上。这里使用的术语"计算才几可读i某体,,统指任何参与提供指令给处理器2003用于执行的任何i某体。一种计算机可读媒体可以任何形式,包括但不限于,非易失性々某体、易失性-媒体、和传输々某介。非易失性的々某体包括,侈'J^口光盘、》兹盘、和》兹光盘,^口石更盘2007或可读i某体马区动器2008。易失寸生媒体包括动态存储器,如主存储器2004。传输々某介包括同轴电缆、铜丝和光导纤维,包括构成bus2002的金属丝。传输々某介也包括声波形式或光波形式,例如在电》兹波和红外翁:才居通ifl期间产生的。不同形式的计算机可读媒体可涉及处理器2003执行的执行一种多个序列的一种或一种以上指令。例如,该指令可以最初在远程计算机的^兹盘上执行。远程计算机可远程将执行本发明的全部或部分的指令输入到动态存储器中并通过电话线采用调制解调器发送指令。计算机程序2001的一种局部调制解调器可以收到通过电话线传送的数据并采用红外发射机将凄史据转换成红外信号。结合bus2002的红外探测器能收到红外信号传送的数据并将数据输入bus2002中。bus2002将数据传送到主存储器2004中,处理器20034企索并执行该指令。由主存储器2004收到的指令可^皮必须地在处理器2003执行前或执行后存储在存储设备2007或2008上。计算机系统2001也包括与bus2002连接的通讯接口2013。通讯接口2013提供双向数据通讯连接网络链接2014,例如被连接到如局域网(LAN)2015,或另一种通i凡网纟各2016浊口因净争网。例3口,通ifU妾口2013可为连4妻在任何包交换LAN的网路卡。如另一种实施例,通讯接口2013可为非对称数字用户线(ADSL)卡,综合业务数字网(ISDN)卡或提供数据通讯连接到相应类型的通信线;洛的调制解调器。无线电线路也可#:实现。在这种扭J亍中,通讯接口2013发送和接收运送代表不同类型信息的数字数据流电信号、电磁信号或光信号。网络链接2014典型地经一种或一种以上网络或其它数据i更备提供凄t据通讯。例如,网络链接2014可以经过局域网2015(例如,LAN)或经服务提供上l喿作的设备连接另一种计算才几,通过通讯网络2016提供通讯月良务。局域网2014和通讯网全各20164吏用,如运送凄t字凄t据流的电信号、电磁信号或光信号,和相关物理层(例如,CAT5电缆、同轴电缆、光导纤维,等)。经不同网络的信号和网络链4妻2014和经通讯接口2013的信号,将数字信号输送到计算机系统2001和输送来自计算机系统2001中的数字信号,或许在基带信号或载波信号中实现。基带信号传送数字信号如未调整的电脉沖,该未调整的电脉冲为描述的一串数字凄t据位,术语"位"广泛解释为普通符号,每个符号传达至少一种或一种以上信息位。数字数据也可用于如用振幅、在导电性媒质上传播的相和/或频率漂移键控信号调节载波。因此,数字数据可作为未调整的基带数据经"有线,,通讯电路被发送和/或在经调整载波不同于基带的预先确定的波段内被发送。计算机系统2001能通过网纟各2015和2016、网纟各链才妻2014、和通讯才妻口2013传送和接4欠凄t据,包括程序码。此外,网络链接2014可以经LAN2015连接到移动设备2017如个人数位助理(PDA)膝上型计算机,或移动电话。本发明的一些实施方案的系统能在硬件、软件、韧件,或其组合中4丸行。在优选的实施方案中,系统在软件中执行,该软件存储在存储器中并由适宜的指令执行系统执行。如果在硬件中执行,如在可供选择的实施方案中,该系统能采用一些本领域中周知的技术来执行。在流程图中描述的一些过程或草图应理解为代表模块、片段、或包括用于4丸行该过程中特朱逻辑功能或步-骤的一种或一种以上可^丸行指令的部分编码,并且交^,4丸行也包4舌在本发明优选的实施方案范围内,其中功能可以按显示的或讨i仑的非正常顺序批j亍,包括同时扭J亍或次序颠倒拍J亍,取决于设计的功能性,依据本发明领域中4支术人员可理解的。应强调的是,上面描述的本发明实施方案,尤其一些"优选,,实施方案,仅是执行的可能实施例,仅为清楚理解本发明的原理而被阐述。在没有背离本发明界定的^"神和原理的前l是下可以对上述描述的本发明实施方案进行一些变化和修改。所有这种修改和变化是为了包括在该公开和本发明的范围内并净皮下列一又利要求书描述。参考文献Albert,T丄,NortonJ"Ott^M"RichmoD4T"Wuwaysi^K;E.F.fStengele,Kl.P.,Gre叫R.D.2003.Light-directed5,~>3'synthesisofconplexoligonucleotidemicroairays.M/ctefcJa必及e31:e35Bohlander,S.K.,Espinosa,R.,3rd,LeBeau^M.M.,Rowley,J*D.,Diaz,M.0.1992.Amethodforrapidsequence-independentamplificationofmicrodissectedchromosomalmaterial.Geno挑fcs13:1322>4Cherkasova,E.,Laassri,M"Chidiikov,V"Koro汰ov^E"Dragunsky,E"Ago匸V.I"Chumakov,K.2003.MicroanayanalysisofevolutionofRNAviruses:evidenceofcirculationofvirulenthighlydivergentvaccine-derivedpolioviruses./Voc腺"ca"d100:9398403Chizhikov,V.,Rasooly,A.,Chumakov,K,,Levy,D,D.2001.Microarrayanalysisofmicrobialvirulencefactors,桐/McroWo/67:3258^63Cutler,D丄,Zwick,M.E,,Carrasquillo,M.M,,Yohn,CT"Tobin^Ki*"Kasiiu^C.,Mathews,D.J"Shah^N.A.,Eichler,B.E,,WaxringtoivJA"Chakravarti,A,2001.High-throughputvariationdetectionandgenotypingusingmicroarrays.C7《打o附e及es11:1913-25Cutler,D丄,ZwicKM.E.,Carrasquillo,M.M.,Yohn,C.T,,Tobin,Kashuk,C.,Mathews,D丄,ShahjN.A"Eichler,E.E.,WarringtoiijJ.A,,Chakravarti,A.2001.High-thxoughputvariationdetectionandgenotypingusingmicroarrays.G^7K彷e及ey11:1913-25Devere叫J.,Haeberli,P.,Smithies,O.1984.AcomprehensivesetofsequenceanalysisprogramsfortheVAX,W"c/efc及es12:387-95Eddy,S.R,1998,ProfileHiddenMarkovModels.所oi"/o/7naj^y14:755-763Ferguson^J.A.,Steemers,F.J.,Walt,D.R.2000,High-densityfiber-opticD"NArandommicrosplierearray.爿za/CA柳72:5618-24Ginger,D.S.,Zhang,H.,Mirkin,CA.2004.Theevolutionofdip-penn咖lithograpliy.JwgwC7!柳7i^五d43:30"45Gingeras,T.R.,Ghandour,G.,Wang,E.,Berno,A.,S咖ll,P,M,,Drobniewski,F.,Alland,D.,Desmond,E.,Holodniy,M.,Drenkow,J.1998.SimultaneousgenotypingandspeciesidentificationusinghybridizationpatternrecognitionanalysisofgenericMycobacteriumDNAarrays.Ce/柳!e及es8:43548Gingeras,T.R,,Mack,D.,Chee,M.S.,Berno,A丄,Small,P.M.,Drobniewski,F"Alland,D.,Desmond,R,Holodniy,M,,Drenkow,I.20Q1.Chip-BasedSpeciesIdentificationandPhe加typeCharacterizationofMicroorganisms.Affymetrix,Inc.,USHoffinann,E,,Stech,J,,Guan^Y.,Webster,H.G.,Perez,D.R.2001.Universalprimersetforthefiill-lengtha啤l迅cationofallinfluenzaAviruses.A'c/i146:2275-89Kan)ke,T,,Kieuinger,M.,Mecklenburg,M,2001,Efficientprimerdesignalgorithms.17:214-25Kessler,N"Ferraris,O"Palmer,K"MarshyW,,SteelA.2004.UseoftheDNAFlow-ThruCbip,aTbree-DimensionalBiochip,forTypingandSubtypingofInfluenzaViruses./C7fwAft'craZwoZ42:2173-2185Korf,I"YandelLM"Bedell,J.2003.BLAST.O'ReillyandAssociates,Sebastopol,CAKozaLMJ"S地N.,Sh叫N,,Yang,IL,Fucini,IL,MerigaiijT.C.,Richman^D.D"Morris,D"Hubbell,E.,Chee,M,,Gingeras,T.R.1996.ExtensivepolymorphismsobservedinHIV-1cladeBproteasegeneusinghigh-d咖ityoligonucleotidearrays.M^A/iscf2:753-9Lee,C.2003,Generatingconsensussequencesfirompartialordermultiplesequencealignmentgraphs.o纽^/b"mm'cs19:999-1008Leipzig,J,,Pevzner,P.,Heber,S.2004.TheAlternativeSplicingGallery(ASG):bridgingthegapbetweengenomeandtr咖criptome.Wwctoc32:3977-3983Lii^B.,Vora,GJ.,Thach,D"Walter,E"Metzgar,D.,Tibbetts,C.,Stenger,D.A.2004.Rapiddetectionandserotypingofacuterespiratorydisease-associatedadenoviruseswitholigonucleotidemicroarrays.u/bw"w/o/CK"/ca,Mcroto/ogyinpressMeinkotl^L,Wahl,G.1984.Hybridizationofnucleicacidsimmobilizedonsolidsupports,力朋/及'oc》e附138:267-84Needle咖rijS.B"W皿scli,C.D.1970.Ageneralmethodapplicabletothesearchforsimilaritiesintheaminoacidsequenceoftwoproteins.JAfo/5fo《48:443-53Nuwaysir,E.F.,Huang,W,,Albert,T.J"Singh^1,Nuwaysir,K,,Pitas,A.,Richmond,T.,Gorski,T"Berg,J.P,,Ballin,J"McCormick,M.,Norton,J,,Pollock^T.,Sumwalt,T.,Butcher,L.,Porter,D.,Molla,M.,Hall,C.,Bla加er,F.,Sussman,M.R,,"Wallace,R.L.,Cerrina,F.,Greer^R.D.2002.Genee叩ressionanalysisusingoligonucleotidearraysproducedbymasklessphotolithography.12:1749-55Ochman^H.,Lawrence,J.G.,Groisman,E.A.2000.Lateralgenetransferandthenatureofbacterialinnovation.405:299-304Offringa,D.P,,Tyson-Medlock,V.,Ye,Z',Levandowski,R.A.200CKAcoiripreliensivesystematicapproachtoidentificationofinfluenzaAvirusgenotypeusingRT-PCRandRFLR</K红oZMertotfe88:15-24Sliendure,J.,Mitra,R-D.,Vaima,C.,ChurchyGM.2004.Advancedsequencingtechnologies:methodsandgoals.GeH"S:33544Stenger,D,A.,Andreadis,LD.,Vora,G丄,Pancrazio,IJ.2002.PotentialapplicationsofDNAmicroarraysinbiodefense-relateddiagnostics.CwttC(pz力历0敏/w20/13:208-12Strizhkov,B.N"Drobyshev,A丄.,Mikhailovich^V.M,,Mixzabekov,A.D.2000,PCRamplificationonamicroarrayofgel-immobilizedoligonucleotides:detectionofbacterialtoxin-anddrug-resistantgenesandtheirmutations.5/0,ecA7w々was29:844-8,850-2,854passimThompsonJ.D.,Gibson,T.J.,Plewniak^F"Jeanmougii^F.,Higgins,D.G.1997.TheCLUSTAL一Xwindowsinterface:flexiblestrategiesformultiplesequencealignmentaidedbyqualityanalysistools.Wwdeic爿c/^y及幼25:4876-82Thompson'J.D.,Higgins,D,G,,GibsoiijT.J.1994.CLUSTALW:improvingthesensitivityofprogressivemultiplesequencealignmentthroughsequenceweighting,position-specificgappenaltiesandwightmatrixchoice,iVMc/ez'c/(c/cfc及ay22:4673-80Troesch^A"Ngixyen^H.,Miyada,C.G"Desvarenne,S,,Gingeras,T.R,,Kapl幼,P.M"Cros,P.,MabiHC.1999.Mycobacteriumspeciesidentificationandrifkmpinresistancetestingwithhigh-densityDNAprobearrays./a/"McroWo/37:49-55Vasiliskov,A.V.,Timofeev,E.N.,Surzhikov,S.A,,Drobyshev,A,L.,Shick^V.V.,Mirzabekov,A.D.1999.Fabricationofmicroarrayofgel-immobilizedcompoundsonachipbycopolymerizatioiL27:5924,596-8,600passimVolokhov,D,,Chizhikov,V.,Chumakov,K.,Rasooty,A.2003.Microarrayanalysisoferythromycinresistancedeterminants.J辆JMm)&'o/95:787-98Vora,G,J,,Meador,C.E.,Stenger,D.A.,Andreadis,J.D.2004.NucleicAcidamplificationstrategiesforDNAmicroairay-basedpathogendetection.J/p7五mv/,'o"JI^cto&o/70:3047-54Wang,D"Coscoy,L.,Zylberberg,M.,Avila,P.C.,Boushey,H.A.,GanemD.,DeRisi,J丄.2002.Microarray-baseddetection旭dge加typingofviralpathogens.iVocMzrf力cadiS"a'C/iSJ狄15687-92Wang,D"Urisman^A.,Liu^Y.T.,Springer,M.,Ksiazek,T.G"Brdman,D.D"Mardis,E.R"HickenbothamjM"MagrinijV.,Eldred,J"Latrdlle,J.P.,Wilson,R.K.,Ganem^D.,DeRisi,J丄.2003.ViraldiscoveryandsequencerecoveryusingDNAmicroarrays,尸丄OiS5z'o/1:E2Wilson,K,H.,Wilson^W丄,Radosevich,J,L.,DeSantis,T.Z.,Viswanathan^V.S,Kuczmarski,T.A.,Andersen,G丄.2002a.High-densitymicroarrayofs咖U-subunitribosomalDNAprobes.五打vi'ra打McroZno/68:2535-41Wilson,W丄,Strout,C丄,,DeSantis,T.Z,,Stibvell,J.L.,Carrano,A.V.,Andersen,G.L.2002b,Sequence-specificidentificationof18pathogenicmicroorganismsusingmicroarraytechnology.MZCWZZVoZas116:119-27Yang,I.V.,Chen,E.,Hasseman,LP.,Liang,W"Franl^B.C.,Wang'S.,Sharov,V.,Sa汰d,A,L,White,L,Li,J.,Lee,N.H.,Yeatman,T.J.,Quackenbush^J.2002.Withinthefold:assessingdifferentialexpressionmeasuresandreproducibilityinmicroarrayassays.Ge恥/we3:research006权利要求1.再测序DNA微阵列,包括多组固定在固相支撑体上长度范围在13到70个核苷酸的寡核苷酸引物,其中每组寡核苷酸引物为(a)被选择跨特定参考序列的特殊区域,(b)占用被称为拼接区阵列的不连续区,和(c)包括至少四组引物,在芯片上以平行方式安排在上述阵列的不连续区内,其中所述四组引物选自1)第一组引物与参考序列正确互补;和2)另外三组引物,除了中心位置上的核苷酸,每一组与第一组引物一致,且这三组引物中心位置的核苷酸都不相同,使得所有四个常规核苷酸碱基出现在上述阵列中。2.依据4又利要求1所述的再测序DNA樣丈阵列,其中寡核普酸引物的长度为25个核苷酸。3.依据权利要求1所述的再测序DNA微阵列,其中寡核苦酸引物跨越的参考序列的区域经(11+l)个核苷酸穿过参考序列进行移动,每个邻近拼接区域穿过微阵列表面。4.依据权利要求1所述的再测序DNA微阵列,其中再测序DNA微阵列包含18x18孩乏米部件。5.依据权利要求1所述的再测序DNA孩i阵列,其中再测序DNA微阵列包含8x8《敖朱部件。6.依据权利要求1所述的再测序DNA微阵列,其中筛选出用于拼接的序列为单基因或子序列,该子序列可能代表更广类型的有机物类、种和亚种。7.依据权利要求1所述的再测序DNA微阵列,其中筛选出用于拼接的序列为"原型",该原型代表病原菌家族的基因型。8.依据4又利要求1所述的再测序DNA微阵列,其中筛选出用于4并4妻的序列为"原型",该原型代表腺病毒家族或腺病毒组。9.依据权利要求1所述的再测序DNA孩i阵列,其中筛选出用于拼接的序列为"原型",该原型代表流行感冒病毒家族或流行感冒病毒组。10.依据4又利要求1所述的再测序DNA樣t阵列,其中筛选出用于4并才姿的序列为对单个病原菌抹是独一无二的单基因或子序列。11.依据权利要求1所述的再测序DNA微阵列,其中筛选出用于拼接的序列编码耐药标记。12.依据权利要求1所述的再测序DNA微阵列,其中再测序DNA微阵列为RPMV1。13.依据权利要求1所述的再测序DNA微阵列,其中再测序DNA微阵列为RPMV2。14.依据权利要求1所述的再测序DNA微阵列,其中上述再测序DNA箱t阵列包含至少一种常见病原菌的参考序列和至少一种生物恐怖药剂。15.—种试剂盒包4舌(a)依据权利要求1所述的再测序DNA微阵列,和(b)适于靶点序列与上述再测序DNA孩i:阵列上的纟果针序列进行特异性杂交的试剂。16.冲全测农i生物中存在耐药标记物的方法,其中该方法包4舌(a)提供了依据权利要求1所述的再测序DNA微阵列;(b)包4舌遗传材津十的未知才羊本4矣触上述再测序DNA孩吏阵列;(c)在适宜条件下,将上述未知样本与固定在上述再测序DNA樣吏阵列的4笨4十序列杂交适宜的时间;和(d)检测上述未知样本中孩i生物中存在耐药标记物。17.根据权利要求16所述的方法,其中上述方法进一步包括通过在由上述方法鉴别的耐药标记物的DNA序列和已知抗性标记物之间进行序列比对确定耐药标记物的同源性。18.根据权利要求16所述的方法,其中上述杂交时间范围在15分钟到24小时。19.根据权利要求16所述的方法,其中未知样本为生物样本。20.根据权利要求19所述的方法,其中上述生物样本为选自由鼻腔冲洗液样本、鼻腔抽取液样本、咽喉拭子标本、血液样本、唾液样本、血液细月包、组织样本、穿刺活4全样本、尿液标本、腹腔液样本、内脏积液才羊本和胸积、液才羊本或其细l包ia成的纟且。21.根据权利要求16所述的方法,其中上述未知才羊本为选自由土壎j羊本、空气才羊本和水才羊本所组成的组的环境才羊本。22.根据权利要求16所述的方法,其中上述杂交前,未知样本经过至少一种过程,该过程选自由下列过程所组成的组(i)上述样本中遗传材料的分离,(ii)富集上述样本中的主体靶点序列,(iii)扩增包含在上述样本中的遗传材料(iv)标记上述样本中的遗传材料,和(v)消减杂交。23.根据权利要求16所述的方法,其中上述杂交前,未知样本中一种或一种以上主体輩巴点核酸经至少选自由特异性反转录(RT)、PCR、多重pcr、和随一几PCRia成组的一种方法进ff扩增。24.根据权利要求16所述的方法,其中杂交未知才羊本中的一种或一种以上主体耙点核酸之前,未知样本经选自由随机引物的、等温Klenow聚合酶、029DNA聚合酶、串联:扩增、多重PCR和全部扩增组成组的至少一种随才几扩增策略进行扩增。25.根据权利要求16所述的方法,其中对上述未知样本中遗传材料进行富集。26.根据权利要求16所述的方法,其中上述未知样本中一种或一种以上主体靶点核酸经从上述样本中消减背景核酸进行富集。27.根据权利要求16所述的方法,其中上述未知样本中一种或一种以上主体靶点核酸经反转录酶>'肖减杂交进行富集。28.根据权利要求16所述的方法,其中上述未知样本中一种或一种以上主体萆巴点核酸通过选择性除去上述未知样本中的核酸混合物中上述輩巴点核酸被富集。29.根据权利要求16所述的方法,其中上述探测是通过(i)上述未知样本中主体核酸和再测序DNA微阵列上探针DNA之间的杂交反应生成》咸基响应,#口(ii)通过杂交区序列和序列数据库内序列进行比对确定相应全长基因序列或基因组片段序列。30.根据权利要求29所述的方法,在"许可"设置下生成。31.根据权利要求29所述的方法,(REPI)软件进行。32.根据权利要求29所述的方法,其中碱基响应经AffymetrixGDAS4大件其中序列鉴定是经再测序病原菌辨识器其中序列彰::梧库为GenBank。33.通过执^f于4又利要求16所述的方法进^f于常规》i貪断常见呼吸病原菌的方法,其中上述未知样本从需要进4亍常见呼吸病原菌常规/^断的患者中得到。34.根据权利要求33所述的方法,其中上迷未知样本在体检过程中得到。35.通过执行权利要求16所迷的方法监控常见呼吸病原菌的方法,其中上述未知样本从需要进行常见呼吸病原菌监控的患者中得到。36.根据权利要求35所述的方法,其中需要常见呼吸病原菌监控的上述患者具有呼吸病原菌感染的历史。37.通过执行权利要求16所述的方法监控一种或一种以上生物恐怖药剂的方法,其中上述未知样本从需要监控上述生物控制药剂的患者中得到。38.根据权利要求37所述的方法,其中需要监控生物恐怖药剂的上述患者怀It4妄触了上述生物恐怖药剂。39.险测存在属于未知才羊本中的特殊类型有机物种或亚种类的微生物的方法,其中该方法包括(a)提供了根据权利要求1所述的再测序DNA微阵列;(b)将包括遗传材料的未知样本接触上述再测序DNA微阵列;(c)在适宜条件下,将上述未知样本中物质与固定在上述再测序DNA孩i阵列的#笨4十序列杂交适宜的时间;和(d)检测存在属于未知样本中的特殊类型有4几物种或亚种类的孩乏生物。40.根据权利要求39所述的方法,其中上述方法进一步包括通过由上述方法鉴别DNA序列和基因组数据库中已知序列之间进行序列比对确定特歹未类型有4几物种或亚种类的同源性。41.根据4又利要求40所迷的方法,其中上述确定包括-探测足够量的病原菌序列目的为了评估病原菌的可能来源。42.根据权利要求39所述的方法,其中上杂交时间范围在15分钟到24小时。43.才艮据4又利要求39所述的方法,其中未知样本为生物样本。44.根据权利要求43所述的方法,其中上述生物样本为选自由包括鼻腔冲洗液样本、鼻月空抽耳又液样本、咽喉4式子标本、血-液样本、和唾液冲羊本、血液细胞、组织样本、穿刺活检样本、尿液标本、腹腔液样本、内脏积液样本和胸积液才羊本或其细月包组成的组。45.根据权利要求39所述的方法,其中上述未知样本为选自由土壤样本、空气样本和水样本的组成的组的环境样本。46.根据权利要求39所述的方法,其中上述杂交前,未知样本经过至少一种过程,该过程选自下列过程组成的组(i)上述才羊本中遗传材冲+的分离,(ii)富集上述样本中的主体革巴点序列,(iii)扩增包含在上述样本中的遗传材料(iv)标记上述样本中的遗传材料,和(v)消减杂交。47.根据权利要求39所述的方法,其中上述杂交前,未知样本中一种或一种以上主体靶点核酸经至少选自由特异性反转录(RT)、PCR、多重PCR、和随才几PCR组成组的一种方法进4亍扩增。48.4艮据3又利要求39所述的方法,其中杂交未知样本中的一种或一种以上主体耙点核酸之前,未知样本经选自由随机引物的、等温Klenow聚合酶、cD29DNA聚合酶、串联扩增、多重PCR、和全部扩增组成组的至少一种随才几扩增策略进^于扩增。49.才艮据4又利要求39所述的方法,其中对上述未知样本中遗传材料进^亍富集。50.根据权利要求39所述的方法,其中上述未知样本中一种或一种以上主体靶点核酸经从上述样本中消减背景核酸进^亍富集。51.根据权利要求39所述的方法,其中上述未知才羊本中一种或一种以上主体耙点核酸经反转录酶消减杂交进4于富集。52.才艮据4又利要求39所述的方法,其中上述未知才羊本中一种或一种以上主体輩巴点核酸通过选择性除去上述未知才羊本中的核酸混合物中上述覃巴点才亥酸^皮富集。53.根据权利要求39所述的方法,其中上述探测是通过(i)上述未知样本中主体核酸和再测序DNA微阵列上探针DNA之间的杂交反应生成碱基响应,和(ii)通过杂交区序列和序列数据库内序列进行比对确定相应全长基因序列或基因组片4爻序列。54.根据权利要求53所述的方法,其中碱基响应经AffymetrixGDAS库欠件在"许可"设置下生成。55.根据权利要求53所述的方法,其中序列筌定是经再测序病原菌辨识器(REPI:)软件进行。56.根据权利要求53所述的方法,其中序列数据库为GenBank。57.通过执行权利要求39所述的方法进行常规诊断常见呼吸病原菌的方法,其中上述未知样本从需要进4亍常见呼吸病原菌常规^t断的患者中得到。58.根据权利要求57所述的方法,其中上述未知样本在体格检查过程中得到。59.通过执行权利要求39所述的方法监控常见呼吸病原菌的方法,其中上述未知样本乂人需要进;f亍常见呼i及病原菌监控的患者中得到。60.根据权利要求59所述的方法,其中需要常见呼吸病原菌监控的上述患者具有呼吸病原菌感染的历史。61.通过执行权利要求39所述的方法监控一种或一种以上生物恐怖药剂的方法,其中上述未知样本从需要监控上述生物控制药剂的患者中得到。62.根据权利要求61所述的方法,其中需要监控生物恐怖药剂的上述患者怀疑^接触了上述生物恐怖药剂。63.-i平估含有相同病原菌的生物冲羊本中病原菌相对量的方法,该方法包凌舌(a)提供了根据权利要求1所述的再测序DNA微阵列;(b)将上述生物才羊本4妄触上述再测序DNA〗效阵列;(c)在适宜条件下,将上述未知样本中物质与固定在上述再测序DNA微阵列的探针序列杂交适宜的时间;和(d)量化上述未知样本中微生物或属于特殊类型有机物种类或亚种类的孩i生物中的耐药标记的存在和/或同源性。64.根据4又利要求63所述的方法,其中上迷定量通过确定上述再测序DNA微阵列上杂交信号的绝对强度进行。65.根据权利要求63所述的方法,其中依据总拼接区域尺寸的百分比和满足滑窗算法的筛选子序列内的碱基响应百分比,通过确定碱基响应的百分比进4于上述定量。66.根据权利要求65所述的方法,其中上述定量通过再测序病原菌辨识器(REPI)软件进行。67.A泉病毒才朱的基因纟且序歹'J,选自由Ad3、Ad3FS—navy、Ad4、Ad4vaccine、Ad4FS一謂y、Ad4FS—AF、Ad5FS、Ad7、Ad7FS—謂y、Ad7vaccine、Adl6、Adl、和Ad21和其片l殳纟且成的纟且。68.计算才几实施的方法,该方法用于筛选llr入查询的生物子序列来鉴别预先确定的生物水平序列,包括步-紫用处理器实施方法筛选来自存4诸器中存储的生物序列数据中的子序列;和提交子序列进行查询来鉴别具有最初预先确定置信水平的预先确定的生物序列,其中最初预先确定置信水平在筛选阈值之上。69.根据权利要求68所述的计算机实施的方法,进一步包括以FASTA、MSF、GCG、Clustal、BLC、PIR、MSP、PFAM、POSTAL和JNET才各式中的一种格式存储生物序列数据。70.根据权利要求69所述的计算机实施的方法,进一步包括确定生物序列数据是否符合生物序列或对照组序列中的一种。71.根据权利要求68所述的计算机实施的方法,其中筛选步骤包括筛选对应于生物序列数据中碱基响应数量的窗口尺寸参数;并计算出生物序列数据的观察窗口内有效碱基响应的百分率。对应于筛选步骤中筛选出的窗口尺寸参凄t的窗口尺寸。72.根据权利要求71所述的计算机实施的方法,其中筛选步骤包括当计算步骤中计算的百分率不满足预先确定的阈值时,滑动观察窗口到生物序列内的另一种数量的石威基响应;并且计算生物序列中含在另一种凄史量的碱基响应内的有效碱基响应的百分率。73.根据权利要求71所迷的计算机实施的方法,其中筛选步骤包括当计算的百分率满足预先确定的阈值时,4姿照提交给查询的子序列,在见察窗口内篩选石咸基响应的子序列。74.根据权利要求73所述的计算才几实施的方法,进一步包括在被篩选子序列在提交步骤中被提交之前,从碱基响应的被筛选子序列中剔除无效碱基响应。75.根据权利要求68所述的计算机实施的方法,进一步包括将子序列与大量的预先确定的序列比对;并且生成对应于至少一种上述预先确定序列的比对结果。76.根据权利要求75所述的计算机实施的方法,其中比对步骤的比对结果包4舌表明子序列和至少一种上述预先确定序列之间预先确定水平的一致的统计1直。77.根据权利要求68所述的计算机实施的方法,进一步包括将信号强度与生物序列数据结合在一起;并评估至少一种把点序列的浓度。78.根据权利要求77所述的计算机实施的方法,进一步包括依据至少一个筛选参数,探测来自生物序列数据的至少两个子序列;并且探测混合物和重组事件的至少一种。79.才艮据4又利要求78所述的计算4几实施的方法,其中至少两个序列对应于孩O车列的不同区i或。80.根据权利要求77所述的计算机实施的方法,进一步包括在类似性序列的混合物和不同序列之间的重组之间进行辨别;其中类似性序列具有预先确定水平的相似性。81.根据权利要求77所述的计算机实施的方法,进一步包括在混合物和重组之间进^f亍辨别,包括评估微阵列第一区域的第一信号和孩i阵列第二区域的第二信号,并且将第一信号与第二信号比对生成至少一种特征参数,至少一种特征参数对应于一种概率,第一信号和第二信号表明混合物和重组中的一种。82.根据权利要求68所述的计算机实施的方法,进一步包括鉴别至少一种一致序列对应于大量测试序列;筛选出至少一种一至丈序列中的子序列;将至少一种子序列与至少一种预先确定的序列比7于;生成比对结果;计算比对结果与大量测试序列之间的差异;并且生成至少一种^美选一致序列。83.才艮据4又利要求82所述的计算才几实施的方法,进一步包4舌依据至少一种候选一致序列制备微阵列纟果针。84.根据权利要求82所述的计算机实施的方法,进一步包括依据拼4妾参凄t,》务饰至少一种一致序列,4并-接参4t对应于至少大量测试序列中的至少一种测试序列的至少一种部分。85.根据权利要求82所述的计算机实施的方法,进一步包括依据至少一种杂交参数,模拟至少一种候选一致序列和大量测试序列之间的杂交。86.根据权利要求82所述的计算机实施的方法,其中生物序列数据包括至少核酸、转录单体、转录产物、DNA、和RNA中的一种。87.根据权利要求68所述的计算才几实施的方法,其中生物序列数据包括空位和不确定子序列中的至少一种。88.根据权利要求68所述的计算机实施的方法,进一步包括计算生物序列数据的相对位置,其中生物序列数据包括氨基酸和蛋白质中的至少一种。89.根据权利要求68所述的计算机实施的方法,进一步包括通过人工Sanger测序、自动Sanger测序、鸟枪法测序、常规樣吏阵列、再测序微阵列、微电泳测序、杂交测序(SBH)、Ednian降解、扩增分子上循环阵列测序、单分子上循环阵列测序和纳米孔测序中的至少一种获得生物序列数据。90.根据权利要求68所述的计算机实施的方法,其中生物序列数据为核苷酸序列和蛋白质序列中的至少一种。91.计算机可读存储4某体,为计算机上执行的存储计算机可读指令的配置,计算机可读指令,当由计算机执行时,设置执行鉴别预先确定生物序列的方法,该方法包4舌采用处理器实施方法从存储在存々者器中的生物数据中筛选出子序列;并且提交查询中的子序列来鉴别具有最初预先确定置信水平的生物序列,其中最初置信水平在篩选阈4直之上。92.—种设备,通过输入查询鉴别预先确定生物序列筛选生物子序列,该设备包括从存储在存储器中的生物序列数据中筛选子序列的装置;提交查询中的子序列鉴别具有最初预先确定置信水平的生物序列,其中最初置信水平在筛选阈值之上。93.—种计算才几实施方法,通过llr入查询鉴别预先确定生物序列,产生生物序列数据,该方法包括的步骤为采用处理器实施方法,鉴别存4诸在存储器中的生物序列数据的大量局部序列;用大量参考序列比对寺冢测步骤中被探测到的每个局部序列;将局部序列组合为混合组的序列数据,这些序列数据是以比对步骤结果为基础;筛选混合组序列^:寸居的被提交查询的子序列来鉴别预先确定置信水平内的预先确定生物序列。94.根据权利要求93所迷的计算机实施方法,其中探测步骤包括扫描生物序列翁:据一果测出位于连续系列无;咸基响应内的一系列》成基响应;并提取该序列碱基响应作为大量局部序列中的碱基响应。95.根据权利要求93所述的计算机实施方法,其中探测步骤包括在探测到有效碱响应位置开始查询窗口;延伸查询窗口尺寸来扩大连续序列的无石威基响应;并拔j又窗口系列的碱基响应作为大量局部序列中的一种石威基响应。96.根据权利要求93所述的计算机实施方法,其中局部序列包括大量有效和无效碱基响应。97.根据权利要求93所述的计算机实施方法,其中比对步骤包括在大量局部序列中每一种局部序列和大量参考序列中的至少一种参考序列之间确定统计水平的相似性,其中统计水平的相似性表明在大量局部序列中每一种局部序列和大量参考序列中的至少一种参考序列之间的一致水平。98.根据权利要求97所述的计算机实施方法,其中组合步骤包括提取大量局部序列中的每一种局部序列,这一种局部序列净皮确定出与f员先确定阈值上的大量参考序列中的至少一种参考序列具有统计水平的相似性;线性组合大量被提取序列中的一种来生成混合组的序列数据。99.根据权利要求93所述的计算机实施方法,其中筛选步骤进一步包括筛选出对应于混合组序列数据中碱基响应的窗口尺寸参数;计算包含在观察窗口的混合组序列数据内的有效碱基响应的百分率,窗口尺寸对应于在歸选步骤中筛选出的窗口尺寸参^t。100.根据权利要求99所述的计算机实施方法,其中筛选步骤进一步包括当计算步骤中计算的百分率不满足预先确定的阈值时,滑动观察窗口到混合组序列数据内的另一种数量的碱基响应;并且计算混合组序列凄t据中含在另一种凄史量的碱基响应内的有效碱基响应的百分率。101.根据权利要求99所述的计算机实施方法,其中篩选步骤进一步包括当计算百分率满足预先确定的阈^直时,子序列^皮^是交查询中时,在乂见察窗口内筛选子序列的碱基响应。102.根据权利要求101所述的计算机实施方法,进一步包括的步骤为在筛选子序列被提交查询中之前,从被筛选子序列中剔除无效碱基响应。103.根据4又利要求93所述的计算机实施方法,进一步包括用大量预先确定序列比对子序列;并且生成对应于上述预先确定序列中至少一种序列的比^"结果。104.根据权利要求103所述的计算机实施方法,其中比对步骤中的比对结果包括表示子序列和上述预先确定序列中至少一种序列之间的预先确定水平的一致性的统计值。105.计算才几可读存储4装体,为在计算才几上#1行的存储计算机可读指令而配置,计算机可读指令,当由计算机执行时,被设置执行输入查询生成的生物序列来鉴别预先确定生物序列的方法,该方法包括采用处理器实施方法,鉴別存储在存储器中的生物序列数据的大量局部序列;用大量参考序列比对4冢测步骤中一皮^笨测到的每个局部序列;以比对步骤结果为基础,将局部序列组合为混合组的序列凄史据;筛选被提交查询的混合组序列数据的子序列来鉴别预先确定置信水平内的预先确定生物序列。106.—种i殳备,通过^T入查询生成的生物序列数才居鉴别预先确定生物序列,该设备包括采用处理器实施方法,探测存储在存储器中的生物序列数据中的大部分局部序列的装置;比对由用大量参考序列进行探测的设备4罙测到的每个局部序列的设备;基于比对设备得到的结果,混合局部序列为混合组序列数据的设备;篩选混合组4皮提交查询的序列凄t据的子序列来鉴别子贞先确定置信水平内的预先确定生物序列的设备。全文摘要本发明是关于通过采用DNA再测序微阵列进行病原菌探测和鉴别的方法。本发明也提供了再测序微阵列芯片,用于生物样本中存在的病原菌的区分诊断和血清类型分类。本发明进一步提供了探测生物样本中存在病原菌和鉴别病原菌的方法。本发明也提供了计算机实施生物序列辨识器(CIBSI)系统和依据至少一种筛选参数从生物序列数据中筛选子序列的方法。至少一种筛选参数对应从类似的筛选中获得有意义结果的一种可能性。文档编号C12Q1/68GK101133164SQ200580029642公开日2008年2月27日申请日期2005年7月5日优先权日2004年7月2日发明者伊丽莎白·沃特,克拉克·蒂贝特斯,加里·沃拉,司徒登,埃里克·H·汉森,大卫·斯坦杰,布赖恩·艾格,德宗·撒奇,拉塞尔·P·克鲁泽洛克,林宝钏,征王,罗伯·罗利,詹尼弗·约翰逊申请人:海军秘书处代表的美国政府
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1