用于基因突变高深度测序的基因芯片及其制备方法和应用与流程

文档序号:20687044发布日期:2020-05-08 18:54阅读:412来源:国知局
本申请涉及核酸测序领域,特别是涉及一种用于基因突变高深度测序的基因芯片及其制备方法和应用。
背景技术
:肿瘤是严重威胁人类健康的疾病之一,而肿瘤具有高度的异质性,即不同部位肿瘤具有不同特征,即使同一部位的肿瘤,治疗效果也因人而异。为了提高临床肿瘤治疗的效果,考虑肿瘤个体的差异性和肿瘤细胞发展进化的特征,进行“因人因时”的肿瘤个体化治疗势在必行。随着癌症认知领域的发展和科学技术的进步,基因组测序技术逐渐进入到肿瘤临床应用,个体化的肿瘤基因检测已有很多惊人的成果出现。science、nature、thejournalofnewengland上刊登的多项研究成果也证明了个体化基因检测在临床治疗中的巨大前景。基于高通量测序技术的全基因组、全外显子组或目标区域捕获测序能够比较全面的反应体细胞变异情况。众所周知,对于肿瘤患者,癌组织的获取总是相对困难的,尤其是对于一些晚期不适合手术的患者来说,如果能够从外周血中检测得到来自肿瘤细胞的变异,将会对癌症的临床治疗和监测带来巨大的变革。于是,近年来肿瘤患者血液中循环dna的基因检测诊断已成为研究热点,研究显示血液中循环肿瘤dna有可能成为一种新的肿瘤诊断标志物。血液循环肿瘤dna含量会随着肿瘤病情的发展以及转移性肿瘤的发生而产生变化,但整体上血浆循环肿瘤dna的含量会较癌组织中获取到的dna含量低很多,尤其是对于早期筛查以及预后监控的样本来说,含量会更低,这使得血浆循环dna中的肿瘤标志物突变频率较癌组织频率低,这就需要对血浆循环dna进行超高深度的测序,才能更准确的检出早期发生的肿瘤标志物。但是,对血浆循环dna进行超高深度的测序,采用全基因组或者全外显子组测序将会大大提高成本。为了降低成本,亟需开发对微量血液循环dna进行目标区域芯片捕获测序的方案。技术实现要素:本申请的目的是提供一种新的用于基因突变高深度测序的基因芯片及其制备方法和应用。本申请采用了以下技术方案:本申请的一方面公开了一种用于基因突变高深度测序的基因芯片的制备方法,包括根据不同的突变类型,结合基因突变在线数据库和本地数据库的突变信息,构建捕获区间库;根据捕获区间库设计基因芯片,提高基因芯片的捕获质量和效率,实现高深度测序;突变类型包括单核苷酸变异、插入缺失突变、拷贝数突变和结构变异中的至少一种;捕获区间库根据不同的突变类型分为,单核苷酸变异和插入缺失突变捕获区间库、拷贝数突变捕获区间库、结构变异捕获区间库。本申请的基因芯片制备方法,提供了一种新的芯片设计算法,一方面,本申请的制备方法,综合考虑了不同突变类型对基因芯片设计的影响;另一方面,本申请的制备方法结合了基因突变在线数据库和本地数据库的突变信息,这对设计不同地区人群针对性的基因芯片具有重要意义,特别是目前基因突变大部分在线数据库都是针对西方人种的检测结果,因此,难以设计出更加适应于中国人群的基因芯片,而本申请的制备方法则很好的克服了该问题。优选的,单核苷酸变异和插入缺失突变捕获区间库的构建具体包括以下步骤,(1)统计cosmic数据库中所检测肿瘤的驱动基因的外显子区间的ri值,并将所有统计到的与所检测肿瘤相关的驱动基因的外显子区间,按照ri值降序排列;ri值等于(n×1000)÷l,其中n为cosmic数据库中外显子区间的患者数目、l为外显子区间的序列长度;也就是说,n的值为该外显子区间相对应的患者数目,即在cosmic数据库中有多少个患者是在该外显子区间发生的单核苷酸变异或插入缺失突变;(2)按照ri值降序排列后,以ri值最高的外显子区间,即第一个外显子区间,作为样本数据库,统计其它外显子区间与样本数据库的不同变异的个数,不同变异个数最多的作为第二个筛选外显子区间,将第二个筛选外显子区间加入到样本数据库中,继续统计其它外显子区间与加入第二个筛选外显子区间后的样本数据库的不同变异的个数,不同变异个数最多的作为第三个筛选外显子区间,将第三个筛选外显子区间也加入到样本数据库中,采用相同的方法得到第四个筛选外显子区间,再将第四个筛选外显子区间加入到样本数据库中,以此类推,直至所有统计到的与所检测肿瘤相关的驱动基因的外显子区间都被这样迭代筛选完,得到的样本数据库,即芯片区间;(3)统计tcga和icgc数据库中所检测肿瘤相关的驱动基因的外显子区间,去除与cosmic数据库相同的驱动基因的外显子区间,以包含热点变异并且患者数目大于或等于5的驱动基因外显子区间为候选区间,根据步骤(2)最终得到的样本数据库,按照步骤(2)相同的筛选方法,对候选区间进行筛选,并将筛选的外显子区间加入到步骤(2)的样本数据库中;也就是说,统计候选区间与步骤(2)最终获得的样本数据库的不同变异的个数,不同变异个数最多的作为第一筛选外显子区间,将第一筛选外显子区间加入到样本数据库中,继续统计其它候选区间与加入第一筛选外显子区间后的样本数据库的不同变异的个数,不同变异个数最多的作为第二筛选外显子区间,将第二筛选外显子区间也加入到样本数据库中,采用相同的方法得到第三筛选外显子区间,再将第三筛选外显子区间加入到样本数据库中,以此类推,直至所有候选区间都被这样迭代筛选完,得到的样本数据库;其中,患者数目大于或等于5,即5个或以上的样本,这是为了保障所加入区间是容易检测出突变的区间,也就是说,是为了保障该区间的阳性检出率;比如一个区间上,如果都没有样本变异,那么将这个区间设计到芯片上,其意义也不会很大;(4)统计步骤(3)最终得到的样本数据库中,只有一个snv或indel变异的样本,作为单突变样本数据库;(5)根据步骤(3)统计的tcga和icgc数据库中所检测肿瘤相关的驱动基因的外显子区间,去除已经被步骤(3)筛选入样本数据库的外显子区间,以ri≥30,包含热点变异并且患者数目大于或等于3的驱动基因外显子区间为候选区间,筛选候选区间中去除单突变样本数据库后样本数减少最多的外显子区间,作为第一外显子区间;从候选区间中去除被筛选的第一外显子区间及其单突变样本;然后,采用同样的方法筛选第二外显子区间;以此类推,直至去除单突变样本数据库后样本数不再减少;被筛选到的所有外显子区间,都加入步骤(3)得到的样本数据库中;其中,被筛选到的所有外显子区间,就是指第一外显子区间、第二外显子区间,直至最终获得的去除单突变样本数据库后样本数不再减少的外显子区间,这些外显子区间的总和;(6)根据步骤(3)统计的tcga和icgc数据库中所检测肿瘤相关的驱动基因的外显子区间,去除已经被步骤(3)和步骤(5)筛选入样本数据库的外显子区间,以ri≥20,包含热点变异并且患者数目大于或等于3的驱动基因外显子区间为候选区间,按照步骤(5)的筛选方法,筛选外显子区间,并将其加入步骤(5)得到的样本数据库中;即得到初步的单核苷酸变异和插入缺失突变捕获区间库;其中,按照步骤(5)的筛选方法筛选外显子区间,具体是指,同样的,筛选候选区间中去除单突变样本数据库后样本数减少最多的外显子区间,作为第一外显子区间;从候选区间中去除被筛选的第一外显子区间及其单突变样本;然后,采用同样的方法筛选第二外显子区间;以此类推,直至去除单突变样本数据库后样本数不再减少;被筛选到的所有外显子区间,都加入步骤(5)得到的样本数据库中;其中,被筛选到的所有外显子区间,同样是指第一外显子区间、第二外显子区间,直至最终获得的去除单突变样本数据库后样本数不再减少的外显子区间,这些外显子区间的总和;(7)统计本地数据库中的高频热点变异,将其中未被包含在步骤(6)得到的初步单核苷酸变异和插入缺失突变捕获区间库中的高频热点变异,沿其变异位点前后各延伸50bp的区间,加入到步骤(6)得到的样本数据库中,得到最终的单核苷酸变异和插入缺失突变捕获区间库。需要说明的是,在单核苷酸变异和插入缺失突变捕获区间库构建方法的步骤(2)之后,理论上来说,在经过步骤(1)和步骤(2)这两个步骤以后,理论上可以完成所有驱动基因区域的筛选;但是为了避免遗漏,需要进一步查看,是否存在某个驱动基因在步骤(1)和步骤(2)的筛选过程中都没有被筛选到任何外显子区域;如果存在这种情况,则需要把该驱动基因的所有外显子区域都添加到芯片区间中;这样做的目的是,防止某个长度较短,或者是发生突变频率不高的重要基因被遗漏。因此,在本申请优选的方案中,在步骤(2)之后,在步骤(3)之前,还包括将没有筛选到任何区间的基因的所有区间都加到芯片区间上。优选的,拷贝数突变捕获区间库由杂合snp位点前后各延伸100bp得到的捕获区间组成,杂合snp位点筛选自拷贝数突变相关的基因及其外显子区间;杂合snp位点采用以下方法筛选获得:(1)统计现有的拷贝数突变的基因列表,提取所有关于拷贝数突变的基因序列,及其外显子区间;(2)提取snp千人数据库中,步骤(1)所提取的基因序列的杂合snp位点,并将所提取的snp位点按变异人数降序排列;可以理解,将snp位点按照其对应的变异人数降序排列,目的是为了尽可能的选取突变人数较多的高频snp位点;(3)筛选变异人数大于或等于100的高频杂合snp位点,选取包含至少4至n个高频杂合snp位点的基因序列,以所选取的基因序列为分析对象,步长1000bp,筛选每个基因序列的杂合snp位点,杂合snp位点前后各延伸100bp用于组成拷贝数突变捕获区间库;其中,n的取值为所选基因序列长度的1/400,例如基因序列的长度为10k,则n值为25,即选取最多具有25个高频杂合snp位点的基因序列;(4)筛选变异人数大于或等于50的高频杂合snp位点,选取包含至少2至m个高频杂合snp位点的外显子区间,以所选取的外显子区间为分析对象,步长1000bp,筛选每个外显子区间的杂合snp位点,杂合snp位点前后各延伸100bp用于组成拷贝数突变捕获区间库;其中,m的取值为所选外显子区间长度的1/500,例如外显子区间的长度为10k,则n值为20,即选取最多具有20个高频杂合snp位点的外显子区间。需要说明的是,步长1000bp进行筛选是指在所选基因序列或外显子区间中,每1000bp筛选一个符合条件的杂合snp位点;可以理解,因为最终可能对芯片的最终区域大小有要求,所以对于前面选取好的snp位点,需要再根据实际的要求,选择适当的步长进一步筛选。优选的,结构变异捕获区间库的构建具体包括以下步骤,(1)统计现有的关于热点融合基因的热点断点,将热点断点前后各延伸100bp作为捕获区间;(2)统计本地数据库中,用药相关的融合基因的阳性融合热点断点,将热点断点前后各延伸100bp作为捕获区间;本地数据库的用药相关融合基因的阳性融合热点断点如表1所示表1(3)统计本地数据库中,高频的融合基因热点断点,将热点断点前后各延伸100bp作为捕获区间;本地数据库的高频的融合基因热点断点如表2所示,表2将步骤(1)、(2)和(3)的捕获区间合并,即得到结构变异捕获区间库。优选的,本申请的制备方法还包括在基因芯片中设计至少21个质控位点,每个质控位点前后各延伸50bp获得的序列作为杂交阳性质控品。优选的,本申请的制备方法还包括对设计的基因芯片进行初步评估,初步评估包括,分析基因芯片中各探针的gc含量、捕获区间长度、探针对数据库中突变人群的覆盖情况。优选的,各探针的gc含量为40%-60%,捕获区间长度不低于100bp;并且要求探针的捕获区间在数据库中的突变人数不为0,否则删除该探针。需要说明的是,通常情况下,本申请的基因芯片要求各个芯片区间的gc含量在40%-60%之间;要求每个捕获区间的长度不低于100bp,对于长度小于100bp的区间,需要将其左右延伸至100bp;同时,需要核查每个捕获区间上,数据库中的突变人数,删除无突变发生的区间。优选的,本申请的制备方法还包括对初步评估合格的基因芯片进行验证测试,验证测试包括,合成一批或两批所设计的基因芯片,采用模拟样本,对基因芯片进行检测,评估基因芯片的测序深度、捕获效率、dup率、比对率、覆盖度、变异检测下限、灵敏度、特异性。其中,dup率是指duplicationrate,也就是捕获区间上,去重以后的reads数/捕获区间上所有的reads数的比值,即dup率=去重以后的reads数÷捕获区间上所有的reads数;比对率是指测序过程中,比对到基因组上的reads数÷总的reads数;覆盖度指的是样本的深度覆盖情况,即捕获区间上,样本的整体覆盖情况,如100×的覆盖度为99%,表示在整个捕获区间上,深度>100×的碱基占所有碱基的99%;变异检测下限是指最低检测频率,比如检测0.5%的snv;灵敏度是指真阳性率,即检出的阳性÷实际的阳性;特异性是指真阴性率,即检出的阴性÷实际的阴性。本申请的另一面公开了本申请的制备方法制备的基因芯片。本申请的再一面公开了本申请的基因芯片在循环dna检测中的应用。本申请的再一面公开了本申请的基因芯片在制备癌症检测或预后监控的试剂盒或装置中的应用。需要说明的是,本申请的基因芯片及其制备方法,主要就是针对像循环dna这样含量极低的样品检测而研发设计的,因此特别适用于循环dna检测。而癌症的检测或监控,目前的研究热点就是循环肿瘤dna的检测,但是,由于循环肿瘤dna的含量极低,尤其是对于早期筛查或预后监控的样本来说,含量会更低;而本申请的高深度测序基因芯片能够对循环dna进行高深度测序,准确的检出极其微量的循环肿瘤dna,因此,可以用于癌症检测或预后监控。本申请的有益效果在于:本申请的基因芯片制备方法,根据不同的突变类型构建与之适应的捕获区间库,进而设计适用于不同突变类型检测的基因芯片,使得基因芯片能够最大程度的覆盖突变人群;并且,本申请的制备方法结合基因突变在线数据库和本地数据库,使得基因芯片能够最大程度的覆盖癌症及其相关基因,设计出更加适应于中国人群的基因芯片。本申请的基因芯片测序深度高,特别适用于血液中极其微量的循环dna的检测。具体实施方式本申请用于基因突变高深度测序的基因芯片的制备方法,实际上提供了一种新的基因芯片设计的方案;而目前国内外关于基因芯片设计方法的文献报道都很少,相关文献的观点基本上都是结合相关的数据库,如tcga、icgc、cosmic等数据库,在基因芯片设计的过程中,使得突变人群的覆盖度达到的最大化。现有方法的不足是:(1)没有考虑不同突变类型对于基因芯片的影响,这些突变类型包括单核苷酸变异(缩写snv)、插入缺失突变(缩写indel)、拷贝数突变(缩写cnv)、结构变异(缩写sv),事实上,不同的突变类型,在基因芯片设计过程中所考察的因素是不一样的,比如对于cnv,即拷贝数突变,在芯片的设计过程中,要考虑多设计进一些杂合snv位点,这样,有助于辅助判断样本是否真正发生了cnv,这是现有方法中没有涉及的。(2)在基因芯片的设计过程中,只是单纯的考虑tcga、icgc、cosmic等在线数据库;实际上,不同地区的人群突变频率是不同的,甚至突变的热点基因的排列顺序也会不一样;因此,现有的方法不能设计出特别针对某一地区人群突变检测的基因芯片,容易发生漏检。(3)在基因芯片设计过程中,忽略了非编码区的作用,事实上,有些非编码区对突变检出会起到很大的作用,尤其是对sv的检测。(4)在芯片设计完成后,没有对芯片做出初步的评估。本申请的用于基因突变高深度测序的基因芯片的制备方法,正是针对以上4点进行了补充优化,使得制备的基因芯片能够满足产品的个性化分析需求。具体优化如下:(1)本申请的制备方法,根据不同的突变类型构建与之适应的捕获区间库,进而设计出与不同突变类型相适应的基因芯片,比如,对于cnv的热点基因,本申请加入了这些热点基因的杂合snv位点,当然,杂合snv位点个数的选取与基因的大小有关,每个基因选取适当的杂合snv位点数,最终的捕获区间库为上述几种区间的并集,从而保障了对cnv的检测。(2)本申请的制备方法,不仅考虑了产品的个性化需求,还综合考虑了tcga、icgc、cosmic等数据库,使得基因芯片最大程度了覆盖了高发癌症的相关drivergene、高频突变基因、高频突变位点、癌症相关12条信号通路中重要基因、靶向药物及化疗药物敏感和耐药相关基因等。与此同时,还结合已有的临床数据,将本地数据库的突变信息加入基因芯片设计中,从而设计出更加适应于中国人群的基因芯片。(3)本申请的制备方法,在进一步的改进方案中,不仅考虑了相关基因的编码区,也考虑了非编码区,尤其考虑了sv的热点基因的非编码区。常见的比如:ros1基因的32,33,34,35号内含子,ret的9,10,11号内含子等。(4)本申请的制备方法,在进一步的改进方案中,还包括对所设计的基因芯片进行初步评估,考察其gc含量,捕获区间长度,数据库中突变人群的覆盖情况等;进一步的,还包括用阳性样本、标准品或模拟样本,评估芯片的基本qc情况和变异检出情况,基本qc情况的评估包括测序深度、捕获效率、dup率、比对率和覆盖度等的评估,变异检出情况的评估包括检测下限、灵敏度、特异性等的评估。下面通过具体实施例对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明,不应理解为对本申请的限制。实施例本例的基因突变高深度测序基因芯片的制备方法,包括根据单核苷酸变异、插入缺失突变、拷贝数突变和结构变异等不同的突变类型,结合基因突变在线数据库和本地数据库的突变信息,构建捕获区间库;根据捕获区间库设计基因芯片,提高基因芯片的捕获质量和效率,实现高深度测序。其中捕获区间库根据不同的突变类型分为,单核苷酸变异和插入缺失突变捕获区间库、拷贝数突变捕获区间库、结构变异捕获区间库。本例采用不同的样本分别对插入缺失突变捕获区间库的构建、拷贝数突变捕获区间库的构建,以及结构变异捕获区间库的构建进行了详细解释。具体如下:一、插入缺失突变捕获区间库的构建本例以肺癌小芯片snv/indel相关的基因芯片区间设计过程为例,对插入缺失突变捕获区间库的构建进行详细说明,具体的snv/indel相关基因的芯片设计方法如下:第一步:由cosmic数据库得到drivergene的芯片区间1、统计cosmic数据库中相关癌种的drivergene的每个外显子区间的变异样本数、变异样本、ri值以及所有的样本个数,并将其根据ri值降序排列。其中,相关癌种可以涉及多个癌种,也可以是某个具体癌种的个体化芯片。ri值等于(n×1000)÷l,其中n为cosmic数据库中外显子区间的患者数目,l为外显子区间的序列长度。本例具体对肺癌进行了统计,部分结果如表3所示。表3肺癌小芯片的驱动基因列表krasnraskeap1jak2retegfrstk11alkerbb4notch1tp53nfe2l2rb1kitros1brafctnnb1pdgfrasmad4fgfr3pik3cametkdrfgfr2fgfr4erbb2ptenfbxw7ddr2jak3cdkn2aakt1hrasatmapc按照ri值降序排列,其部分结果如表4所示。表4肺癌小芯片的驱动基因ri值降序排列结果2、迭代,得到cosmic数据库中drivergene的芯片区间。以ri值最高的外显子区间,即第一个外显子区间,作为样本数据库,统计其它外显子区间与所述样本数据库的不同变异的个数,不同变异个数最多的作为第二个筛选外显子区间,将第二个筛选外显子区间加入到所述样本数据库中,继续统计其它外显子区间与加入第二个筛选外显子区间后的样本数据库的不同变异的个数,不同变异个数最多的作为第三个筛选外显子区间,将第三个筛选外显子区间也加入到所述样本数据库中,采用相同的方法得到第四个筛选外显子区间,再将第四个筛选外显子区间加入到所述样本数据库中,以此类推,直至所有统计到的与所检测肿瘤相关的驱动基因的外显子区间都被这样迭代筛选完,得到的样本数据库,即芯片区间。本例对肺癌驱动基因筛选的部分结果如表5所示。表5肺癌驱动基因迭代获得的drivergene芯片区间对于没有筛选到任何区间的基因,为了避免遗漏,还需要将没有筛选到任何区间的基因所有区间都加到芯片区间上。但是,对于本例来说,本例的肺癌没有需要补充的驱动基因,所有的基因都筛选到了相应的区间。第二步:tcga和icgc数据库覆盖度最大统计tcga和icgc数据库中所检测肿瘤相关的驱动基因的外显子区间,去除与cosmic数据库相同的驱动基因的外显子区间,以包含热点变异并且患者数目大于或等于5的驱动基因外显子区间为候选区间,统计候选区间与步骤“2、迭代,得到cosmic数据库中drivergene的芯片区间”最终获得的样本数据库的不同变异的个数,不同变异个数最多的作为第一筛选外显子区间,将第一筛选外显子区间加入到样本数据库中,继续统计其它候选区间与加入第一筛选外显子区间后的样本数据库的不同变异的个数,不同变异个数最多的作为第二筛选外显子区间,将第二筛选外显子区间也加入到样本数据库中,采用相同的方法得到第三筛选外显子区间,再将第三筛选外显子区间加入到样本数据库中,以此类推,直至所有候选区间都被这样迭代筛选完,得到的样本数据库。第三步:选取ri>=30,snv>=3的区间1、在上面两个步骤的基础上,本例统计了tcga和icgc数据库中包括drivergene区间在内的筛选到的区间上只有一个变异的样本,将这些样本作为单样本数据库。肺癌的单样本数据库的统计结果如表6所示。表6单样本数据库统计结果2、根据“第一步”和“第二步”统计的tcga和icgc数据库中检测肿瘤相关的驱动基因的外显子区间,去除已经被筛选入样本数据库的外显子区间,以ri≥30,包含热点变异并且患者数目大于或等于3的驱动基因外显子区间为候选区间,筛选候选区间中去除“单样本数据库”后样本数减少最多的外显子区间,作为第一外显子区间;从候选区间中去除被筛选的第一外显子区间及其单突变样本;然后,采用同样的方法筛选第二外显子区间;以此类推,直至去除“单样本数据库”后样本数不再减少;被筛选到的所有外显子区间,都加入“第二步”得到的样本数据库中。本例对肺癌的驱动基因外显子区间筛选结果如表7所示。表7肺癌驱动基因外显子区间筛选结果第四步:选取ri>=20,snv>=3的区间根据“第一步”和“第二步”统计的tcga和icgc数据库中所检测肿瘤相关的驱动基因的外显子区间,去除已经被“第一步”、“第二步”和“第三步”筛选入样本数据库的外显子区间,以ri≥20,包含热点变异并且患者数目大于或等于3的驱动基因外显子区间为候选区间,按照“第三步”的筛选方法,筛选外显子区间,并将其加入“第三步”得到的样本数据库中;即得到初步的单核苷酸变异和插入缺失突变捕获区间库。本例对肺癌的驱动基因外显子区间筛选结果如表8所示。表8肺癌驱动基因外显子区间筛选结果第五步:补充本地数据库中的高频热点突变检查本地数据库中的高频热点变异是否都包含在以上得到的初步的单核苷酸变异和插入缺失突变捕获区间库中,如果包含,则停止;否则,将未包含在内的热点变异位点,前后各延伸50bp的区间加入到上述的初步的单核苷酸变异和插入缺失突变捕获区间库中。本例所说的本地数据库是组内累计的分析数据。主要核查常见的热点突变位点是否都包含在所设计的芯片区间上。本例肺癌小芯片无遗漏的热点变异,不需要补充。因此,“第四步”得到的初步的单核苷酸变异和插入缺失突变捕获区间库,即最终的单核苷酸变异和插入缺失突变捕获区间库。至此即完成了snv/indel相关基因的芯片区间的设计。本例统计的肺癌的热点突变数据如表9所示。表9肺癌热点突变数据列表表9中,所有的突变类型都是snv。二、拷贝数突变捕获区间库的构建对于本例“一、插入缺失突变捕获区间库的构建”中采用的肺癌小芯片而言,其不需要单独的cnv区域,因此本例以用药v3版cnv相关的芯片区间设计过程为例,对拷贝数突变捕获区间库的构建进行详细说明,具体的cnv相关基因的芯片设计方法如下:其思想是,对一些关注的基因提取了相应的杂合snp位点,然后在杂合位点的前后各延伸100bp得到cnv的捕获区间。本例关注的cnv基因包含21个基因。本例杂合snp位点的选取过程如下:1、通过文献或者数据库,确认出cnv变异所需要的gene_list;2、提取gene_list中基因的外显子区间;3、提取gene_list中基因的区间;4、提取snp千人数据库中,上述基因上的杂合snp位点,并将这些杂合snp位点按变异人数降序排列,部分排列结果如表10所示。表10杂合snp位点按变异人数降序排列结果表10为chr7染色体的met基因的排列结果,其中所有杂合snp位点都来自于chr7染色体met基因。5、筛选高频杂合snp位点,该位点满足变异人数大于或等于100,选取包含4至n个高频杂合snp位点的基因序列,以所选取的基因序列为分析对象,步长1000bp,筛选每个基因序列的杂合snp位点,杂合snp位点前后各延伸100bp用于组成拷贝数突变捕获区间库;其中,n的取值为基因序列长度的1/400。本例具体的,从21个基因中总计选取了2916个高频杂合snp位点,最终过滤后保留了1389个杂合snp位点用于组成拷贝数突变捕获区间库,部分结果如表11所示。表11杂合snp位点筛选结果表11为chr9染色体的abl1基因的筛选结果,其中所有杂合snp位点都来自于chr9染色体abl1基因。6、选取外显子区间上的高频杂合snp位点,该位点满足变异人数大于等于50,选取包含2至m个高频杂合snp位点的外显子区间,以所选取的外显子区间为分析对象,步长1000bp,筛选每个外显子区间的杂合snp位点,杂合snp位点前后各延伸100bp用于组成拷贝数突变捕获区间库;其中,m的取值为所选外显子区间长度的1/500。本例具体的,从21个基因中总计选取了834个高频杂合snp位点,最终过滤后保留了746个杂合snp位点用于组成拷贝数突变捕获区间库,部分结果如表12所示。表12杂合snp位点筛选结果以上这些位点均与的分布在各个基因上。根据以上选取的杂合snp位点得到用药v3版cnv相关的芯片区间。三、结构变异捕获区间库的构建本例同样以用药v3版sv相关的芯片区间设计过程为例,对结构变异捕获区间库的构建进行详细说明,具体的sv相关基因的芯片设计方法如下:1、统计现有文献中报导的关于热点融合基因的热点断点,将热点断点前后各延伸100bp作为捕获区间;本例具体统计获得了366个热点断点,详细如表13所示。表13统计获得的热点断点2、将snv/indel、cnv相关的芯片区间综合考虑,查找sv热点区域是否已经包含于芯片区间中,尤其是一些热点内含子区域,如alk的19号内含子,进一步补充sv热点基因的内含子区间;本例具体添加了56个区域的内含子,如表14所示。表14添加的内含子区域3、将天津华大临床样本整理出的tj-bgi本地数据库中热点的阳性融合断点前后各延伸100bp加入到捕获区间中;其中热点断点具体信息如表1所示;表1天津华大临床样本整理的tj-bgi本地数据库中热点的阳性融合断点断点名称所属染色体断点位置断点名称所属染色体断点位置kif5bchr1032302258eml4chr242526429kif5bchr1032313913eml4chr242527042kif5bchr1032315964eml4chr242528337kif5bchr1032315968eml4chr242528338kif5bchr1032316337eml4chr242543648kif5bchr1032316338eml4chr242543649ncoa4chr1051586356eml4chr242543650ncoa4chr1051586385ergchr2139811366atf1chr1251198447ergchr2139826501creb1chr2208435548ergchr2139826503creb1chr2208435549ergchr2139857904creb1chr2208438119ergchr2139870323creb1chr2208438120ergchr2139870324alkchr229431716ergchr2139914099alkchr229855131ergchr2139914100eml4chr242494621ergchr2139933668eml4chr242494623ergchr2139966359eml4chr242500189bcrchr2223629296eml4chr242503114cd74chr5149783628eml4chr242504603ros1chr6117686236eml4chr242504606ezrchr6159191325eml4chr242507391ezrchr6159191326eml4chr242526428ezrchr61592098804、将天津华大临床样本整理出的tj-bgi本地数据库中高频的融合断点前后各延伸100bp加入到捕获区间中;其中,融合断点信息如表2所示。表2天津华大临床样本整理的tj-bgi本地数据库中高频的融合断点断点名称所属染色体断点位置断点名称所属染色体断点位置tpm3chr1154130050ewsr1chr2229695626kif5bchr1032304401ewsr1chr2229695688kif5bchr1032304578ewsr1chr2229695743kif5bchr1032310072ewsr1chr2229695744kif5bchr1032317471ros1chr6117609844kif5bchr1032323692ros1chr6117650610kif5bchr1032327054ros1chr6117677962rufy4chr2218943564ros1chr6117681423alkchr229420577ros1chr6117681435alkchr229420609ros1chr6117681436alkchr229420610ros1chr6117681438alkchr229420617ros1chr6117681443alkchr229420621ros1chr6117708202alkchr229420625ros1chr6117710589eml4chr242488374ros1chr6117710593eml4chr242510083ros1chr6117710610ptgischr2048127396ros1chr6117725276ergchr2139755356ros1chr6117725400ergchr2139755361ros1chr6117746891ewsr1chr2229695597abl1chr9133759272一个完整的芯片,在设计完成突变检测相关的芯片区间以后,还要加入质控点区间。本例设计了21个质控点,在最终的芯片区间,加入这21个质控位点,每个质控点前后延伸50bp的区间,得到最终的芯片捕获区间。并将每个质控点前后各延伸50bp获得的序列作为杂交阳性质控品。本例的21个质控位点具体如表15所示。表15质控位点信息根据以上构建的单核苷酸变异和插入缺失突变捕获区间库、拷贝数突变捕获区间库、结构变异捕获区间库中的至少一种,以及21个质控位点的芯片区间,设计探针,并按照常规的方式制备基因芯片。本例进一步对设计的基因芯片进行初步评估,具体包括,分析基因芯片中各探针的gc含量、捕获区间长度、探针对数据库中突变人群的覆盖情况。要求各探针的gc含量为40%-60%,捕获区间长度为170bp左右;并且要求各探针的捕获区间在数据库中的突变人数不为0,否则删除该探针。初步评估合格后,本例进一步的用设计的基因芯片测试一批样本,评估样本的qc情况,包括测序深度、捕获效率、dup率、比对率、覆盖度等;以及变异检出情况,包括变异检测下限、灵敏性和特异性等。如果上述所有指标都满足要求,则说明芯片可以满足产品的个性化分析需求,芯片设计完成。需要说明的是,芯片合成之前不会有实际的样本,所以不会有针对该芯片区域评估的具体数据,通常可以先合成初版的芯片,然后选取组织、血浆样本10例左右进行小试,考察样本的qc结果。比如对于drug的芯片,要求组织样本深度500×,血浆样本的深度为1000×,捕获效率达到50%以上。组织样本平均深度500×的情况下,100×的覆盖度达到99%;血浆样本平均深度1000×的情况下,100×的覆盖度达到99%。按照本例方法制备的基因芯片,能够满足超过深度的测序,一般来说,针对ctdna样本而言,要求去重后1000×以上,但是对于个别的小芯片,比如肺癌小芯片,深度可以达到去重后3000×;本例的基因芯片对肺癌基因的测序深度可以达到3000×以上,能够满足使用需求。还需要说明的是,按照本例方法制备的基因芯片,第一,芯片区域不冗余;第二,对于不同的变异类型单独设计,对于不同产品的检测需求,可以做通用的测试,比如肺癌芯片的sv与drug芯片的sv考察的融合断点相同,在测试过程中可以通用。因此,本例的基因芯片及其制备方法能够降低成本。以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属
技术领域
的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1