高通量多位点人类短片段串联重复序列检测试剂盒及其制备和应用的制作方法

文档序号:12645012阅读:443来源:国知局
本发明涉及法医学、刑侦及物证鉴定等领域,具体涉及一种人类短片段串联重复序列检测试剂盒及其制备和应用,所述试剂盒具有高分辨度、高准确性和高通量的特点。
背景技术
:在法医、刑侦及物证鉴定等工作中如何追踪、认定嫌疑人;在犯罪、灾害等事件中如何判定相关人员或遇难者;在亲属认定中如何确定亲缘关系等等是人类文明史中早就出现并不断探索的目标。当100多年前遗传学由于孟德尔(G.J.Mendel)的奠基性工作而成为一门学科以后,随着遗传学的每一个进展都使上述的工作有了更坚实的科学基础。1985年英国遗传学家杰弗瑞斯(A.Jeffreys)首次提出所谓“DNA指纹”,指出在人类基因组中的某些区域具有重复序列,而且这类重复序列有个体差异(多态性)并能够遗传。使用DNA来行使个体鉴定有许多优点:(1)DNA作为遗传信号的载体存在个体差异,表现为形状上的差异;(2)DNA作为遗传的载体又是稳定的、与亲缘关系的基础;(3)人体上任何有核的细胞都可以作为DNA分析的对象;(4)DNA样品的稳定性较好。最早用于检测遗传多态性的方法是使用限制性内切酶对人类基因组中可变数目串联重复(VNTR)做限制性片段长度多态性分析(RFLP),但是这个方法的缺点在于需要较为完整(分解的程度较低)并较为大量的样品,这对法医现场来说有时无法实现,同时,该方法的分辨度也较低。随着技术的发展,DNA聚合酶链式反应(PCR)的出现使对样品量的需求大大降低,将分析目标集中到VNTR中的短片段串联重复(STR)序列,又使得较短的核酸片段也能够用于分析,加上多重PCR技术的应用,迅速使STR基因座的分型检测在法医和刑侦中迅速推广,并使收集相关人群STR分析结果的数据库日益扩大。上述基因组中同一位点上的多态性表现为在这一位点上有两个或多个不同的核酸一级结构(核苷酸的种类或重复序列的个数等),被称为等位基因,分析等位基因的结构被称为基因分型。等位基因越多基因型就会越多,如等位基因的数目为n,就意味着有n种纯合子和n(n-1)/2种杂合子。例如在某一位点上有10个等位基因,就应该存在10种纯合子和45种杂合子,即在这一位点上存在55种等位基因。在个体鉴定中需要同时检测多个位点(基因座)上的多态性,如果它们都是不连锁的,其基因座的频率可以相乘,如果提高基因座的数目就有可能大大提高个体鉴定的可信度。上世纪90年代以来对STR通用的检测方法是以多重PCR检测约20个基因座的基因型,在检测中使用以荧光标记的引物并设计好扩增子的长度,使所产生的不同长短的具有荧光标记的针对每个基因座的扩增子在毛细管电泳中分离,并与标准物进行比对,从而实现对每个基因座中的等位基因进行分型。但是,这种方法也存在着由于技术上的限制而带来的缺陷,主要有:(1)由于荧光标记物的相互干扰和毛细管长度及成像技术等方面的限制,被分析基因座的数目已难以进一步大幅提升;(2)由于分析的对象是各个片段的长度大小,无法进一步检测到组成片段的核酸一级结构的微小差异,因此限制了检测的分辨度;(3)出峰宽度受电泳条件影响,导致碱基个数相差1-2bp时难易分辨;(4)Stutter峰(片段分析中时而出现于主峰前的小峰)的干扰,尤其是存在混合样品时。高通量测序法可以弥补以上缺陷,(1)检测位点数几乎不受平台限制;(2)核心重复数一致的情况下,测定出的序列微变异可以进一步区分不同个体,提高检测的分辨度;(3)序列信息直接反映核心重复数,更加准确。但同时高通量测序具有成本高,操作复杂的缺陷,只有提高样本检测通量至几百人份,并简化操作流程至1个工作日内,才有可能使该技术真正应用于STR的实际检测。各测序公司已经开展应用高通量测序法平台测定人类STR基因座的研究工作,包括罗氏的GSFLX、Illumina的GAIIx和LifeTechnology的PGM平台。现有研究成果的单次测序只达到5-10人份的10-13个STR的检测通量,并且需要进行DNA提取、单重PCR、单重PCR产物混合、连接建库等复杂操作,均未形成基于高通量测序方法的,可以真正用于STR实际检测中的商业化试剂盒。CN201210466090.4公开了高通量DNA测序法用于测定人类基因组中短片段串联重复基因座的方法及试剂盒,包括10组含有不同样本标签的融合引物池,每组融合引物池含有16对带有相同样本标签的融合引物,采用高通量测序法对10份样品共计16个位点进行分型。但由于现有STR商业检测试剂盒的常见检测位点约20个,CN201210466090.4未充分考虑位点选择和现有STR试剂盒的兼容性,以及样本数和位点数的平衡性关系,会影响比对的有效性,尤其是公安的个体识别。同时,由于样本数和位点数的增加,使得所需样本标签和引物对数大大增加,能否既保证其有效性,又实现每个位点对应目的序列的扩增均衡性,是高通量测序通量固定的前提下,满足多样本、多位点同时检测的关键。此外由于接头和样本标签的引入,融合引物相比普通引物长度增加30-40个碱基。CN201210466090.4未充分考虑融合引物增长导致的引物二聚体去除困难问题。本发明申请采用高选择性DNA纯化磁珠,并优化DNA纯化的操作流程,能够有效去除<60bpDNA片段并保留>80bpDNA片段,从而保证后期高通量测序结果的有效性。技术实现要素:本发明通过试剂盒组分和操作流程的设计和改良,形成全套的适用于高通量DNA测序平台,可实现多样本、多个STR基因座平行、稳定测试的试剂盒。本试剂盒分辨度达到核苷酸水平,免DNA提取,单次测定可在一个工作日内完成,一次测定实现几百人份的几十个STR基因座检测,测定成本和操作时间容许大批量的DNA数据库构建使用。本发明具体技术方案如下:第一方面,本发明涉及一种人类短片段串联重复序列检测试剂盒,包含由不同样本标签标记的人类短片段串联重复序列特异性的多重PCR引物池、免DNA提取PCR扩增酶、PCR反应缓冲液以及任选的对照DNA、DNA纯化磁珠。第二方面,本发明涉及由不同样本标签标记的人类短片段串联重复序列特异性的多重PCR引物池在制备用于检测人类短片段串联重复序列的试剂盒中的用途,其中所述试剂盒还包括免DNA提取PCR扩增酶、PCR反应缓冲液以及任选的对照DNA、DNA纯化磁珠。在本发明的优选实施方案中,所述多重PCR引物是融合引物,其包含目的片段特异性引物、测序接头、固定接头、样本标签,其中目的片段特异引物用于扩增含有STR核心重复区的目的片段,固定接头用于绑定捕获磁珠,测序接头用于以通用引物测序,样本标签用于区分不同样本。在本发明的另一优选实施方案中,所述目的片段特异性引物特异性针对一或多个STR基因座,优选针对至少10个、或至少15个、或至少20个、或至少50个或更多个STR基因座,更优选针对表2中的24个STR基因座,优选所述样本包括至少100份,更优选至少200份,更优选至少500份,更优选至少1000份或更多,最优选192份。。在本发明的另一优选实施方案中,所述PCR反应缓冲液包含Tris-HCl、Mg2+、(NH4)2SO4,优选Tris-HCl为20mM,Mg2+为50mM。在本发明的另一优选实施方案中,所述目的片段特异性引物的序列如序列表SEQIDNO:1-48所示,优选所述融合引物具有表5中所列比例。在本发明的另一优选实施方案中,所述DNA纯化磁珠可有效去除<60bpDNA片段并保留>80bpDNA片段。在本发明的另一优选实施方案中,所述固定接头和测序接头的序列如序列表SEQIDNO:49-50所示。在本发明的另一优选实施方案中,所述试剂盒进一步包括测序模板制备试剂盒和测序试剂盒。第三方面,本发明涉及本文所述试剂盒在检测人类短片段串联重复序列中的应用,包括以下步骤:1)建立免DNA提取、融合引物直扩的基因座文库;2)乳液DNA聚合酶链式反应(emulsionPCR,ePCR)获得测序模板,通过携带单一DNA片段的颗粒经乳液覆盖形成独立的PCR微反应池,实现整个片段文库的独立平行扩增;3)高通量DNA测序;4)数据分析及报告结果。本发明的成果形成基于高通量DNA测序的STR检测试剂盒,包含文库制备、油包水PCR测序模板制备和高通量测序流程的全部试剂。(1)分辨度达到核苷酸序列水平,提高试剂盒个体识别能力;(2)实现多样本、多STR基因座的平行测试,压缩检测成本,使其与传统荧光复合扩增试剂相当;(3)一次性检测位点数高达24个,位点选择兼顾与现有商品化试剂盒的兼容性和中国人群的适用性,即选取和现有常见商业试剂盒兼容的21个位点,并外加了3个中国人群多态性较好的位点;(4)免DNA提取的直扩法建库,文库构建时间压缩至2个小时,单次测定时间压缩至一个工作日。本发明与现有技术,尤其是CN201210466090.4的本质区别在于:1.设计并验证了192个样本标签的可用性,实现了一次性测序检测192个样本的目的。2.实施例通过合成、筛选获得了192组,共计4608对融合引物,并验证了这4608对融合引物的可用性。3.实施例调整并确定了各引物池内24对融合引物比例,实现24个位点对应目的序列的扩增均衡性,以保证高通量测序通量固定的前提下,能够满足192样本×24位点的同时检测。4.优化DNA纯化磁珠组分和纯化流程,提高DNA纯化的片段大小选择性,以保证有效去除<60bp的无效DNA片段并保留>80bp的有效DNA片段。附图说明图1示出本发明实施例中提供的用高通量DNA测序法试剂盒测定STR的流程图,具体包括以下步骤:1)设计并验证由目的片段特异性引物、样本标签和接头序列组成的融合引物;2)通过建立免DNA提取的PCR体系(由抗血液中PCR抑制成分的特殊扩增酶和相应缓冲液组成);3)建立免DNA提取、融合引物直扩的基因座文库构建流程;4)乳液DNA聚合酶链式反应(emulsionPCR,ePCR)获得测序模板,通过携带单一DNA片段的颗粒经乳液覆盖形成独立的PCR微反应池,实现整个片段文库的独立平行扩增;5)高通量DNA测序;6)数据分析及报告结果。图2示出融合引物结构示意图,其中A接头为测序引物区,P接头为捕获颗粒结合区,样本标签用以区分不同样本。图3示出免DNA提取PCR体系(10ml)下,不同模板类型对多重PCR扩增效率无影响(1、2:10ng基因组DNA模板;3、4:直径1mm血片模板;M:100bpmarker)。图4示出扩增子文库结构示意图。图5a、图5b、图5c示出STR基因座内序列微变异筛查(以样本1为例),图5a、图5b、图5c分别示出D13S317、D2S1338和D3S1338的分型结果。具体实施方式在详细描述本发明的示例性实施方案之前,对理解本发明很重要的术语给出定义。除非另有定义,否则本文所使用的所有技术和科学术语具有本发明所属
技术领域
普通技术人员通常所理解的相同的含义。如本文所用,术语“包含”、“包括”、“具有”或其任何其它变体,旨在涵盖非排他性的包括。如本文所用,术语“扩增”及其变体包括用于产生多核苷酸的至少某一部分的多个拷贝或互补物的任何过程,所述多核苷酸通常被称作“模板”。模板多核苷酸可以是单链或双链的。给定模板的扩增可导致多核苷酸扩增产物群的产生,所述多核苷酸扩增产物群共同地被称作“扩增子”。扩增子的多核苷酸可以是单链或双链或两种的混合物。通常地,模板将包含靶序列,并且所产生的扩增子将包含具有与靶序列基本上相同或基本上互补的序列的多核苷酸。在一些实施方案中,特定扩增子的多核苷酸彼此是基本上相同或基本上互补的;或者,在一些实施方案中,给定扩增子内的多核苷酸可具有彼此不同的核苷酸序列。扩增可以以线性或指数性的方式进行,并且可包括给定模板的重复和连续的复制以形成两个或更多个扩增产物。一些典型的扩增反应包括基于模板的核酸合成的连续和重复循环,导致多个子多核苷酸的形成,所述子多核苷酸包含模板的核苷酸序列的至少某一部分并且与模板享有至少某一程度的核苷酸序列同一性(或互补性)。在一些实施方案中,每一个核酸合成(其可被称作扩增的“循环”)包括引物退火和引物延伸步骤;任选地,还可包括其中模板被部分或完全变性的另外的变性步骤。在一些实施方案中,一个扩增回合包括单个扩增循环的给定的重复次数。例如,扩增回合可包括特定循环的5、10、15、20、25、30、35、40、50、75、100或更多次重复。在一个示例性实施方案中,扩增包括其中特定多核苷酸模板经历两个连续的核酸合成循环的任何反应。合成可包括模板依赖性核酸合成。核酸合成的每一个循环任选地包括单个引物退火步骤和单个延伸步骤。在一些实施方案中,扩增包括等温扩增。如本文所用,“多重扩增”是在普通PCR的基础上加以改进,于一个PCR反应体系中加入多对引物,针对多个DNA模板或同一模板的不同区域扩增多个目的片段的PCR技术。由于多重PCR同时扩增多个目的片段,具有节省时间、降低成本、提高效率的优点,特别是能够节省珍贵的待检样本。如本文所用,“扩增条件”及其衍生词,通常是指适合扩增一个或多个核酸序列的条件。这样的扩增可以是线性的或指数的。在一些实施方案中,所述扩增条件可以包括等温条件或备选地可以包括热循环条件或等温和热循环条件的组合。在一些实施方案中,适合扩增一个或多个核酸序列的条件包括聚合酶链式反应(PCR)条件。典型地,所述扩增条件是指足以扩增核酸(如一个或多个靶序列)或扩增被连接至一个或多个接头的扩增的靶序列(例如,接头连接的扩增的靶序列)的反应混合物。通常,所述扩增条件包括用于扩增或用于核酸合成的催化剂(例如,聚合酶)、与要被扩增的所述核酸具有某种程度的互补性的引物和促进一旦与所述核酸杂交的引物的延伸的核苷酸(如脱氧核糖核苷酸三磷酸(dNTPs))。所述扩增条件可以需要引物与核酸的杂交或退火、所述引物的延伸和其中所延伸的引物与经历扩增的核酸序列分离的变性步骤。典型地,但不是必须的,扩增条件可以包括热循环;在一些实施方案中,扩增条件包括多个循环,其中退火、延伸和分离步骤被重复。典型地,所述扩增条件包括阳离子(如Mg2+或Mn2+(例如,MgCl2等))并且还可以包括离子强度的各种改性剂。如本文所用,“靶序列”或“感兴趣的靶序列”或“目标序列”及其衍生词,通常是指可根据本公开内容被扩增或合成的任何单链或双链核酸序列,包括疑似或预期存在于样品中的任何核酸序列。在一些实施方案中,所述靶序列以双链形式存在并且在加入靶特异性引物或所附接头之前包括要被扩增或合成的特定核苷酸序列的至少部分或其互补序列。靶序列可包括在扩增或合成反应中有用的引物可以在延伸之前通过聚合酶与其杂交的核酸。如本文所用,“样品”或“样本”及其衍生词,以其最广泛的含义使用并包括疑似包括靶标的任意标本、培养物等。在一些实施方案中,所述样品包含DNA、RNA、PNA、LNA、嵌合、杂交或多元形式的核酸。所述样品可以包括含有一个或多个核酸的任何基于生物学的、临床的、外科的、农学的、大气的或水生的标本。该术语还包括任意分离的核酸样品,如基因组DNA、新鲜冷冻或福尔马林固定石蜡包埋的核酸标本。如本文所用,术语“引物”及其衍生词通常是指能够与感兴趣的靶序列杂交的任意多核苷酸。在一些实施方案中,所述引物也可以用来引发核酸合成。典型地,所述引物作为核苷酸可以通过聚合酶被聚合到其上的底物发挥功能。所述引物包括核苷酸或其类似物的任意组合,其可以任选地被连接形成任意合适长度的线性聚合物。所述引物任选天然存在的,如在纯化的限制性酶消化物中,或可以被合成产生。在一些实施方案中,所述引物可以包括一个或多个核苷酸类似物。所述靶特异性引物的确切长度和/或组成(包括序列)可以影响多个性质,包括解链温度(Tm)、GC含量、二级结构的形成、重复的核苷酸基序、所预测的引物延伸产物的长度、跨感兴趣的核酸分子的覆盖程度、在单个扩增或合成反应中存在的引物的数目、在所述引物内核苷酸类似物或修饰的核苷酸的存在等。所述引物池是由多条引物组成的混合物,引物池的使用可以实现在一个PCR体系中同时完成多个扩增,以便获得多个感兴趣的目的片段。如本文所用,“特异性引物”及其衍生词,通常是指单链或双链多核苷酸,典型地是寡核苷酸,其包括与包括靶序列的核酸分子的至少部分至少50%互补、典型地至少75%互补或至少85%互补、更典型地至少90%互补、更典型地至少95%互补、更典型地至少98%或99%互补或相同的至少一个序列。在这样的情况下,所述靶特异性引物和靶序列被描述为“相应”于彼此。在一些实施方案中,所述靶特异性引物能够与其相应的靶序列(或与所述靶序列的互补序列)的至少部分进行杂交;这样的杂交可以任选地在标准杂交条件下或在严格杂交条件下进行。如本文所用,“聚合酶”及其衍生词,通常是指能够催化核苷酸(包括其类似物)成为核酸链的聚合的任何酶。典型地但不是必须的,这样的核苷酸聚合可以模板依赖性的形式发生。这样的聚合酶可以包括但不限于天然存在的聚合酶及其保留催化这样的聚合的能力的任何亚基和截短形式、突变体聚合酶、变体聚合酶、重组体、融合或其它方式工程化的聚合酶、化学修饰的聚合酶、合成分子或组装体及其任何类似物、衍生物或片段。任选地,所述聚合酶可以是包含一个或多个突变的突变体聚合酶,所述突变涉及一个或多个氨基酸置换为其它氨基酸、聚合酶的一个或多个氨基酸的插入或缺失、或两个或更多个聚合酶的部分的连接。典型地,所述聚合酶包含一个或多个活性位点,其中核苷酸结合和/或核苷酸聚合的催化可以发生。一些示例性的聚合酶包括但不限于DNA聚合酶和RNA聚合酶。如本文所用,术语“聚合酶”及其变体,也是指包含互相连接的至少两部分的融合蛋白,其中第一部分包含可以催化核苷酸称为核酸链的聚合的肽并且与包括报告酶或增强持续合成能力的结构域的第二部分连接。任选地,所述聚合酶可以具有5'外切酶活性或末端转移酶活性。在一些实施方案中,所述聚合酶可以任选地被再活化,例如通过使用热、化学品或向反应混合物加入新的量的聚合酶。在一些实施方案中,所述聚合酶可以包括热启动聚合酶或基于适配体的聚合酶,其任选地可以被再活化。如本文所用,术语“核酸”是指天然核酸、人工核酸、其类似物或其组合,包括多核苷酸和寡核苷酸。如本文所用,术语“多核苷酸”和“寡核苷酸”在本文中互换使用并意味着核苷酸的单链和双链聚合物,包括但不限于由核苷酸间的磷酸二酯键(例如3'-5'和2'-5')、反向键(例如3'-3'和5'-5')、支链结构连接的2'-脱氧核糖核苷酸(核酸)和核糖核苷酸(RNA),或核酸类似物。多核苷酸具有相关联的抗衡离子,如H+、NH4+、三烷基铵、Mg2+、Na+等。寡核苷酸可以完全由脱氧核糖核苷酸、完全由核糖核苷酸或其嵌合混合物组成。寡核苷酸可以由核碱基和糖类似物组成。多核苷酸大小典型地在从几个单体单元(例如5-40个)(当它们在现有技术中被更普遍经常称为寡核苷酸)到几千个单体核苷酸单元(当它们在现有技术中被更普遍称为多核苷酸)的范围内;但是,对于本公开内容的目的来说,寡核苷酸和多核苷酸二者均可以是任何合适的长度。除非另外表示,否则每当表示寡核苷酸序列时,应理解的是所述核苷酸是以从左到右5'到3'的顺序,并且“A”表示脱氧腺苷,“C”表示脱氧胞苷,“G”表示脱氧鸟苷、“T”表示胸苷以及“U”表示脱氧尿苷。寡核苷酸之所以被认为具有“5'端”和“3'端”是因为单核苷酸典型地通过一个核苷酸的5'磷酸或等价基团被连接至它的相邻核苷酸的3'羟基或等价基团而反应形成寡核苷酸,任选地通过磷酸二酯键或其它合适的键。如本文所用,术语“部分”及其变体,当用于参考给定核酸分子时(例如,引物或模板核酸分子),在所述核酸分子长度内包含任意数量的连续核苷酸,包括所述核酸分子的部分或全长。如本文作用,术语“连接”及其衍生词通常是指用于将两个或更多个分子共价连接在一起的动作或过程,例如将两个或更多个核酸分子互相共价连接。如本文所用,术语“接头”或“接头及其互补序列”及其衍生词,在高通量测序技术中通常是指连接于测序目标片段两端,并能够通过序列互补被高通量测序平台识别并促使测序反应正常进行的单链或双链核酸序列。高通量测序文库构建通常依靠连接方法将其连接至测序目的片段两端,由于测序目的片段通常是双链结构,连接法所需的接头序列以双链为主。在一些实施方案中,为保证连接反应的有效性,双链接头序列由正向和反向两条链互补生成,并在其中的一条链的3'端带有突出的粘性末端,5'端进行磷酸化修饰。其中突出的粘性末端用于保证连接反应的方向正确,磷酸化修饰用于保证连接的效率。本发明实施方案中,接头序列作为融合引物的组成结构,以正向单链形式存在于融合引物5'端,并通过PCR扩增反应直接进入测序目的片段两端,因此不需要连接反应,也不需要粘性末端和磷酸化设计。如本文所用,“样本标签”及其衍生词通常是指独特的短(6-14个核苷酸)核酸序列,用于在测序过程中区分不同样本。本发明实施方案的样本标签序列共计192个,长度10-13个核苷酸,位于融合引物中A接头3'端,用于区分同时检测的192份样本。在通量足够的前提下,可以平行检测的样本数由可用的样本标签数决定,本发明同时检测了192个样本。理论上,本发明可以实现更多样本的同时检测,但鉴于增加样本标签会增加引物合成的成本(每增加100个样本标签,针对24个位点的引物合成费用增加80万元),并且目前192的样本通量比较适合公安用户的日常使用,因此本发明实施例采用192个样本通量。目前多重PCR最多可以实现2000个位点同时扩增,并且理论上甚至可以更多,但在测序通量固定的前提下,一次性可以检测的位点数和样本数是此消彼长的关系。现有STR商业检测试剂盒的常见检测位点约20个,本发明试剂盒用于公安个体识别,如果检测位点与现有商业试剂盒不能兼容,会影响比对的有效性。考虑到与现有试剂盒的兼容性(本发明24个STR位点和现有STR检测试剂盒的兼容性很好),本发明实施例选取和现有常见商业试剂盒兼容的21个位点作为检测对象,并另外添加了3个中国人群多态性较好的位点。此外为了平衡用户的使用成本(单次检测样本数越多,使用成本越低)和试剂盒研发成本(单次检测样本数越多,引物合成成本越高),选择192(96孔板×2)作为本试剂盒发明实施例的平行检测样本数。在现有测序通量和192样本数前提下,24位点是较理想的位点数。一、本发明并不限于本文所述的具体方法、方案、试剂等,因为这些可以变化。本文所用的术语仅用于描述具体实施方案的目的而不是为了限制本发明的范围。直扩法测序文库构建增殖子文库指两端连有不同接头的DNA片段(图4),其中,一侧为测序接头:可以含样本标签,以区分不同样本的测序结果;另外一侧为固定接头:用于连接捕获颗粒。应用由目的片段特异性引物,接头和样本标签组成的融合引物,具有血源扩增能力的PCR扩增酶和缓冲液,血液样本经多重PCR扩增即可直接获得由多个STR目的片段组成,并且两端连有不同接头序列,带有样本标签的DNA文库。节约了现有高通量DNA测序文库构建的DNA提取、单重PCR、PCR产物混合和接头连接多个步骤(参见表1)。表1.直扩法构建测序文库的PCR体系组成具体地,本发明实施例用高通量DNA测序法试剂盒测定STR的流程如附图1所示。1.融合引物设计融合引物是除了目的片段特异性引物外,还含有其他序列(包括测序接头、固定接头、样本标签)的长引物,其结构参见图2(以Iontorrent测序平台为例)。其中,目的片段特异引物用于扩增含有STR核心重复区的目的片段;接头序列包括固定接头和测序接头,分别用于绑定捕获磁珠及测序引物,以完成后续的油包水PCR和测序反应。样本标签序列用于区分不同样本。2.STR目的片段特异性引物设计及验证人类基因组中存在大量重复序列,本发明针对人类基因组中适合用于本发明应用目的的短片段串联重复(STR)序列进行测序。表2列出23个常染色体STR基因座及性别基因座Ame的特异引物设计,并采用琼脂糖电泳对扩增产物的特异性和含量进行检测,采用测序法对扩增产物序列的准确性进行检测,证明其可用性。表2.24个常用STR基因座的特异引物设计1)接头序列设计(高通量测序平台选择)不同的高通量测序平台均具有特定的接头序列,由于具有以下特点①基于离子半导体测序原理,测序成本低;②快速,上机测序只需2-3小时;③测序读长200-400碱基,可以满足STR测定的读长需要;④灵活性强,具有可以满足不同通量需求的多种芯片。本发明选择IonTorrent的PGM测序系统为检测平台,其对应的接头序列见表3。P接头即固定接头,用于绑定DNA捕获磁珠,A接头即测序接头用于以通用引物测序。表3.接头序列接头序列A接头CCATCTCATCCCTGCGTGTCTCCGACTCAGP接头CCTCTCTATGGGCAGTCGGTGAT2)样本标签序列设计及验证平行检测的每份样本均由唯一的样本标签加以区分,在通量足够的前提下,可以平行检测的样本数由可用的样本标签数决定。样本标签设计参照下列原则:标签长度10-13个碱基GC含量40-60%首尾碱基除G的另外3个碱基,A、T、C末尾碱基尽量避免与下游STR目的片段引物的首个碱基重叠特异性不干扰STR目的片段引物的特异性表4列出经过本发明验证的192个样本标签中的10个示例。样本标签包含在融合引物中,其可用性必须采用琼脂糖电泳对融合引物的扩增效率进行检测。表4.样本标签示例3.建立血源直扩的PCR扩增体系(包括PCR酶和缓冲液)TaqDNA聚合酶是从一种水生栖热菌(Thermusaquaticus)yT1株分离提取的。yT是一种嗜热真菌,能在70-75℃生长。该菌是1969年从美国黄石国家森林公园火山温泉中分离的。购买克隆有ThermusaquaticusYT1的Taq聚合酶基因大肠杆菌工程菌,进行克隆改造。筛选基因突变的Taq工程菌,由于N端含约10个氨基酸的缺失突变,该工程菌的Taq酶蛋白产物具有抗血液PCR抑制成分的功能。配合含有(NH4)2SO4等PCR增强剂、且具有较高的pH值的PCR缓冲液。性能验证结果显示,在含有抗血源PCR抑制成分的情况下,该PCR反应体系仍能保持理想的多重PCR扩增效率(图3)。4.建立平衡的多重PCR体系融合引物比例对本发明实施起关键作用,影响最终样本通量。例如测序总通量200万条,平均每个样本1万条,如果位点间均衡,每个位点可以分到400条测序通量,但如果某个位点扩增产物比例远低于4%的平均水平,可能就只能分到10条测序通量,结果会导致各扩增产物量的严重失衡,影响检测结果的准确性。通过调整多重PCR扩增体系中各引物对的比例,实现各STR目的扩增产物量的平衡。多重PCR体系的各引物池内24对融合引物比例见表5。表5.各引物池内24对融合引物比例表5.建立优化的DNA纯化体系DNA纯化也对本发明实施起关键作用,纯化效率影响最终高通量测序结果的有效性。例如,测序总通量200万条,如果纯化效率高,<60bp无效测序片段仅占10%,剩余90%即180万条可用于后期数据分析。如果DNA纯化未将<60bp引物二聚体有效去除,<60bp无效测序片段占90%,则仅剩余10%即20万条有效数据可以进入后期数据分析,相应的样本检测通量会大幅减少。通过向纯化磁珠加入适当比例碱性稀释液(1MNaOH,按照10%-50%体积掺入),制备高选择性DNA纯化磁珠。并对DNA纯化步骤做如下优化和规范,以实现DNA有效纯化,包括:1)调整待纯化DNA和纯化磁珠混合比例;2)优化70%乙醇清洗次数;3)优化DNA洗脱时间。二、油包水微反应器中的DNA聚合酶链式反应(emPCR)以获得测序模板1.上述多重PCR直接扩增生成的文库内容经P接头被固定在捕获磁珠上,使每个磁珠携带一个单一的DNA片段。2.将水相的PCR试剂与油相的试剂乳化,形成了乳液,携带模板的磁珠与乳液混合后进入液滴中,其中每个液滴为一个油包水的微反应池。3.整个片段文库的扩增在每个油包水微反应池中平行进行,形成测序模板。三、平行批量式DNA测序采用高通量DNA测序仪进行,例如IonTorrent的PGM,测序反应采用边合成边测序的方式进行。1.上述文库内容的emPCR产物经A接头与测序通用引物结合;2.4种脱氧核糖核苷三磷酸(dNTP,N为A、G、C、T)依次参入PCR合成体系;3.当加入的dNTP与测序模板配对时,发生DNA聚合反应。4.DNA聚合反应释放的H离子引发pH变化被识别,完成1个碱基的测序。5.重复步骤2-4,直至整条DNA片段的测序完成。四、数据分析及报告结果1.数据质控:根据测序长度和质量,对原始数据进行过滤;2.测序信息归类:根据测序结果中的样本标签序列和STR目的片段特异引物信息进行,测序结果能够被有效归类至不同样本、不同STR位点的文件夹中。3.数据格式转换:将高通量DNA测序结果转换成目前STR分型结果的标准格式,即以STR基因座核心重复序列的重复次数表示,该步骤通过制作某基因座的标准“阶梯比对参比序列”进行。4.根据与标准参考序列比对,发现的样本序列的微变异。为使本发明的技术方案和优点更加清楚,下面将对本发明实施方式作进一步地详细描述。应当理解实施例不应理解为限制性的。本领域技术人员能够清楚地设想本文列出的原理的进一步的修改。实施例:192份样品24个STR基因座平行检测一、实验材料试剂:高通量多位点人类短片段串联重复序列(STR)检测试剂盒(高通量测序法),包括:1)文库制备试剂盒,含192套由不同样本标签标记的多重PCR引物池,免DNA提取PCR扩增酶,PCR反应缓冲液,9947A对照DNA、DNA纯化磁珠(购自BeckmanAMpure);2)测序模板制备试剂盒(购自IonTorrent公司);3)测序试剂盒(购自IonTorrent公司)。样本:以点制于滤纸基质的全血为样本。二、实验步骤1、文库制备1)样本制备以直径1mm打孔器,按一定顺序将190份血片打入2个96孔PCR板,每个样本取血片1份,每个96孔板的最后1孔加入1ng9947A对照DNA(试剂盒附带,购自Promega公司)。2)多重PCR将保存于2个96孔板的192个多重PCR体系(多重PCR体系板1和板2,SeqTypR25试剂盒),以每孔10μl加入到对应的装有血片的PCR板中。10μl多重PCR体系包括如下组分:按照如下程序进行PCR:3)PCR产物纯化①每孔取5μlPCR产物混合,放入1.5ml的EP管中(混合后体积960μl),振荡混匀后取50μl用于纯化。②吸取50μlPCR混合产物到一个1.5mLEP管中,再加入60μl的纯化磁珠(磁珠需提前平衡至室温),将移液器调至150μl吸打10次混匀。③将步骤1中的混合液在室温下平衡5分钟以达到最高回收效果。④将混合物放在磁力架上,静置10分钟。⑤移除上清液后,将离心管从磁力架取下来。⑥吸取200μl70%乙醇到离心管中,吸打10次以充分清洗磁珠,然后将离心管放置磁力架上静置2分钟,并移除上清。⑦重复步骤5一遍。⑧磁力架静置10分钟以充分干燥磁珠。⑨将EP管从磁力架拿出,加入50μl无核酸酶水洗脱,吸打混匀,室温静置30分钟,期间吸打混匀2-3次。⑩EP管放回磁力架,静置2分钟。取48μl上清液转移到一个新的1.5mLEP管,-20℃保存备用。2、测序模板制备以纯化后PCR产物0.4ng为模板,通过油包水PCR和阳性产物富集,制备高通量DNA测序模板。所用试剂为IonTemplate400Kit(IonTorrent),实验步骤如下,也可参照IontemplateKit试剂盒操作说明。1)油包水PCR反应体系配制:水相充分涡旋混匀后,通过表面连有的与文库P接头互补的一段序列,捕获颗粒。与文库P接头连接,再以10:1比例掺入油相并充分混分,形成油包水PCR微反应池。2)PCR扩增条件完成上述油包水PCR反应体系配制后,按照如下程序进行PCR反应:3)阳性的油包水PCR产物回收采用带有生物素标记的MyOneC1磁珠(Invitrogen)和自动化ES设备回收阳性油包水PCR产物,具体操作如下:①依照下表在8孔槽中加入试剂:②点击ES设备的“Start”按钮开始操作,整个富集程序0.5h。③程序运行完成后,立刻将盛有ISPs的PCR管取出并盖好管盖,颠倒摇匀5次备用。3、高通量DNA测序将上述富集的PositiveISP和测序试剂盒提供的对照ISP(ControlTestFragmentISP)作为模板,与IonPGMSequencing400试剂盒(购于IonTorrent)提供组分构成扩增体系,上样至Ion316chip开始测序。实验步骤如下,具体也可参考参照IonSequencing400Kit试剂盒说明书。1)PGMTM仪器系统清洗:PGMTM系统的清洗为每天或进行1000flows后用新鲜的18MΩ水清洗一次,每周用次氯酸盐溶液清洗一次。2)PGMTM系统初始化①将dNTP试剂置于冰上融化,注意避免试剂之间的交叉污染;②检查氩气罐的气压,如果压力小于500pis,需要更换气罐。③注意观察洗瓶2(Wash2)上的刻度线,如果瓶身上出现两条刻度线则以靠下侧的刻度为准,并用记号笔标记刻度线。④Wash2(W2)试剂瓶准备:a.用约200mL新鲜的18MΩ的水清洗W2洗瓶(2L)三次;b.W2洗瓶接取新制备的18MΩ的水至标记的刻度线处,盖好瓶盖(水的体积约为2L)c.将一整瓶IonPGMTMSequencing400W2Solution倒入W2洗瓶中;d.向W2洗瓶中加入70μl新鲜配制100mMNaOH溶液;e.盖好瓶盖,将W2洗瓶颠倒混匀5次,立刻进行下一步。⑤Wash1(W1)和Wash3(W3)洗瓶准备:a.各用约50mL新鲜的18MΩ的水清洗W1和W3洗瓶(250ml)三次;b.向W1加入35μl稀释的1M的NaOH溶液,盖好瓶盖;c.向W3倒入IonPGMTMSequencing400μl×W3Solution至50mL的刻度线,盖好瓶盖。⑥初始化程序运行⑦dNTP准备、SipperTubes及试剂的安装⑧完成初始化3)ISPs模板上样①测序PCR体系自备:以回收的阳性油包水产物为模板,依次加入测序引物、测序酶、退火缓冲液和参比品(Sequnceing400bp试剂盒组分,购自IonTorrent)制备测序PCR体系。②上样至Ion316chip开始测序4、数据分析1)数据质控结果①测序实验质量验证Loading≥60%,finallibraryreads≥150W,无效测序数据(readslength≤60bp)比例≤20%,测序质量合格。②原始数据FASTQ文件(2,181,884条测序),经质量筛选(保留MeanScore≥16的测序结果)滤掉102条测序,长度筛选(保留长度≥60碱基的测序结果)滤掉249,958条测序,共得到1,931,824条符合质控要求的测序结果用于后续数据处理。2)测序信息归类上述1,931,824条测序根据样本标签序列信息进行,被有效归类至不同样本文件夹,结果如下:表6.样本标签归类结果3)序列比对根据与标准“阶梯比对参比序列”比对结果进行分型,结果如下(因篇幅有限,以样本1、2为例):表7.“阶梯比对参比序列”比对结果(样本1、2)4)分型结果转换根据等位基因的比对条带比例≥25%的条件,将上述序列比对结果转换为长度分型,并与已知的对照试剂(17+1荧光符合扩增)结果进行比对(表8)。表8.SeqTypR试剂盒与对照试剂长度分型结果比对5)序列微变异识别以突变比例≥50%,测序条数≥100作为筛选标准,对STR基因座内序列微变异进行筛查。以样本1为例:D13S317的分型结果为10,11杂合(表8),并且10型等位基因的84号位点发生单碱基突变(A→T)(图5a)。D2S1338的分型结果为20,22杂合(表8),并且20型等位基因的66号位点发生单碱基突变(G→A)(图5b)。D3S1338的分型结果为16,18杂合(表8),并且16型等位基因的95号位点发生单碱基突变(T→C)(图5c)。本发明具有如下优点:1.提高STR位点用于个体识别的分辨度(1)结果展示状态:现有检测技术以涵盖STR区段的PCR增值子的长度来推测短片段重复次数,PCR产物长度的检测不仅要添加系列alleleladder作为标准,降低了检测通量,而且存在一定误差,而通过DNA测序法得到的DNA序列信息不仅能够更加真实、直观的反映STR区段内的短片段重复次数,并且能够进一步检测到该区域的序列微变异。(2)检测位点数:受荧光标记和泳道长度的限制,现有检测技术一次性检测的STR位点数目一般在20个左右,而对于高通量DNA测序,一次性检测的位点数仅限于多重PCR可以囊括的反应数。本发明实施例一次性检测的位点涵盖所有常见商品化STR检测试剂盒和国标规定位点,另外包含在中国人群中多态性较好的非常见STR位点。基于以上两点,以本发明提供的基于高通量DNA测序检测人类STR的方法,使测定分辨度由片段大小提升到对每个核苷酸逐个检测的DNA测序,并可以增加一次性检测的STR位点数,将极大提高STR位点用于个体识别的分辨度。2.提高检测灵敏度现有STR检测基于荧光标记的PCR扩增技术及毛细管电泳的片段分析,对模板DNA的量有一定的要求,高通量测序可以实现痕迹量甚至单个DNA分子的检测,由此带来的灵敏度极大提高,对于特殊微量检材的测定有重大意义。3.操作简单本发明集合融合引物、样本标签、多重PCR和免提取PCR多项技术,实现PCR直扩法建库。相比于传统的高通量测序连接法建库,本发明不需要进行DNA提取、单重PCR、单重PCR产物混合、连接建库等复杂操作,实现高通量测序技术用于STR实际检测的操作可行性。4.提高样本通量受毛细管电泳仪检测通道的限制,现有STR检测技术一次性测定样本数目有限。而高通量DNA测序技术的样品容量仅取决于测序通量包括电子元件的集成度等因素,并且可以根据需要对不同来源的DNA分子加以标记区分,极大程度的提高了检测通量。本发明将高通量DNA测序法引入STR测定技术,形成新一代STR分析技术。新一代的STR测定技术建立在新近出现的高通量DNA测序平台上,使STR测定由片段(数十到数百个核苷酸的聚合物)提升到对每个核苷酸逐个检测的DNA测序水平,并且由于不再受荧光标记技术限制,可以同时测定的基因座数目更多,极大的提高了STR作为人类个体识别多态性DNA标记的分辨度。高通量DNA测序通过样本标签区分不同来源的DNA测序分子,以长度为10-12个碱基的样本标签为例,理论上可以组成的标签数目为410,只要测序通量足够大,一次性可以检测的样本通量远高于现有检测手段。这些改进使得STR分型检测在个体鉴定等应用领域中准确度和检测通量进一步提高。以上所述仅为本发明的较佳实施例,并不用以限制本发明的保护范围,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1