含HPV整合位点的基因及其应用的制作方法

文档序号:19790913发布日期:2020-01-24 14:16阅读:1309来源:国知局

本发明涉及人乳头瘤病毒的新整合位点,具体地涉及hpv整合基因及其应用。



背景技术:

人乳头瘤病毒(hpv)是一种感染人体并可以引发宫颈癌的dna病毒,能引起人体皮肤黏膜的鳞状上皮增殖。人乳头瘤病毒(hpv)感染被认为是宫颈癌的主要危险因素。在对于hpv和宫颈癌变研究中,hpvdna与宿主dna的整合被认为是宫颈癌变的最大诱导因素,对于整合信息的检测传统的方法有荧光原位杂交(fish)和southern印迹杂交。除此之外,新兴的检测技术例如laurademarco等人通过连接-介导pcr技术(dips-pcr)对病毒在分子水平上整合到染色体上具体位置进行了检测[marcold,gillio-tosa,bonellol,etal.detectionofhumanpapillomavirustype16integrationinpre-neoplasticcervicallesionsandconfirmationbydips-pcrandsequencing[j].journalofclinicalvirology,2007,38(1):7-13.]。

随着二代测序技术的发展,研究发现了更多的hpv病毒在人基因组上的整合位点,但是目前获得的信息还远远不足以充分认识病毒的整合特征,因此需要更多的研究和数据对病毒的整合位点进行鉴定。



技术实现要素:

本发明针对宫颈癌筛查常用的宫颈涂片液基细胞学样品,采用探针捕获的二代测序技术,鉴定了多种未被报道的hpv病毒在人基因组的整合位置信息,这些整合位置包括被整合的基因,基因间区,lincrna等基因组上位置,以及病毒hpv上的断点位置信息,属于首次针对筛查样本进行的hpv整合位点的检出。至少部分地基于此完成了本发明。具体地,本发明包括以下内容。

本发明的第一方面,提供一种分离的整合基因,该整合基因包括来源于人乳头瘤病毒基因组的a序列和来源于人基因组的b序列,且所述a序列与所述b序列在整合位点进行融合。

在某些具体实施方案中,所述a序列为选自人乳头瘤病毒的下述基因的序列之一:e1、e1/e2、e1~e4、e2、e2~e4、e5、e6、e7、intergenic、l1、l2、lcr和urr

在某些具体实施方案中,所述b序列选自由下述基因的序列或基因间序列:spag17、(ankrd20a12p,loc102723769)、(lepr,pde4b)、pigk、(mir5694,fgfr2)、(mmp20,mmp27)、(loc102723895,casp12)、(tbx3,med13l)、ano2、loc101927284、(stxbp6,nova1)、(linc00648,rps29)、ppm1a、(loc101927079,loc727924)、(tekt5,nubp1)、fam234a、nlk、(insig2,loc101927709)、ccnt2-as1、gtdc1、mir5702、(ankrd30bp2,mir3156-3)、(mir548ab,mir548a3)、plcxd2、(il1rap,gmnc)、atxn7、(cntn3,mir4444-1)、(pitx2,c4orf32)、prdm5、(glrb,gria2)、pgm2、(gnpda2,gabrg1)、(slc4a4,gc)、(loc102546299,ctb-7e3.1)、(cdh12,prdm9、(linc01377,linc01019、plcxd3、(arhgef28,linc01335)、aldh5a1、slc26a8、dst、(atp6v0e2,actr3c)、(per4,ndufa4)、(gfra2,dok2)、(mir5681a,mir2052hg)、(melk,mir4475)、(linc01507,tle1)、sema4d、(hprt1,mir450b)、(grik3,mir4255)、agbl4、(col24a1,odf2l)、(celf2-as1,usp6nl)、linc00871、oca2、dhrs11、(cyb5d1,chd3)、ubr3、(loc101927619,satb2)、slc2a10、linc00160、linc00693、(linc00693,rbms3-as3)、(bbs12,fgf2)、(rest,noa1)、(rab9bp1,loc102467213)、slit3、arsb、bbs9、dennd1a、atp8b5p、dach2、(tsnax-disc1,sipa1l2)、pitrm1、(znf326,barhl2)、(dbx1,htatip2)、rcor1、(or4k1,or4k15)、znf48、(tcf4,linc01416)、(lrfn3,sdhaf1)、(loc101929413,loc339593)、(mkrn7p,znf334)、(fermt1,casc20)、(mir3648-1,mir3648-2)、tbc1d22a、clrn1、arhgef26、mcf2l2、lars2、gxylt2、(gypb,gypa)、sil1、(prdm9,c5orf17)、(cd180,loc101928858)、epm2a、(fam3c,ptprz1)、(cdc14c,vwc2)、egfr、hip1、col22a1、fut10、(dmd,fam47a)、(fam47b,mageb16)、shcbp1l、(arl14ep,mpped2)、(linc00376,linc00395)、tyk2、(loc101928851,mir548ag1)、(areg,btc、(linc01170,znf608)、(kctd16,prelid2)、prune2、(unq6494,loc101927847)、(tinagl1,hcrtr1)、plxdc2、loc221122、cryl1、megf11、(loc390705,tp53tg3)、spire1、hydin2、loc101929512、(vamp5,rnf181)、(none,loc654342)、loc100506470、plod2、(cadps,linc00698)、(gatb,loc100996286)、(loc285692,fam173b)、(trio,fam105a)、znf292、chchd3、(linc01603,sulf1)、elavl2、(linc00894,mir2114)、lmod1、wnt8b、(tcerg1l,linc01164)、(dnajc1,ebln1)、snx32、lrp5、znf84、ltbr、(kif26a,c14orf180)、itpk1、(lyrm9,nlk)、evpl、(rptor,chmp6)、(loc643542,tmx3)、ptprm、(slc1a5,snar-e)、bcl2l11、(mir5702,irs1)、adra2b、loc613266、myt1、(d21s2088e,loc101927869)、(loc101927123,linc01471)、(sorbs2,tlr3)、(ppp2r2b,stk32a)、atg10、(linc01554,ell2)、sirt5、sytl3、tox、(mir147a,cdk5rap2)、ddx31、(ndp,efhc2)、hdac8、(loc284632,grhl3)、(ajap1,mir4417)、(lrfn5,fscb)、taf1b、(gabrb2,gabra6)、ski、(rhbdl2,akirin1)、rnf214、loc643339、(lrrc28,mef2a)、slc39a11、sgsh、relb、aff3、iqca1、epb41l2、ptprn2、(npvf,mir148a)、(rapgef1,med27)、nelfb、(esx1,il1rapl2)、(slc9a6,fhl1)、(angptl1,ralgps2)、oit3、ppp6r3、rimbp2、ttc6、(trip4,znf609)、sin3b、ccdc8、mgat5、dusp2、(loc101927869,loc339622)、(loc100506403,mir802)、(cbs,u2af1)、(myo18b,sez6l)、trim71、arhgef3、asb14、loc285627、(none,none)、fam46c、(linc01364,pkn2-as1)、(lmf1,sox8)、trim16l、(ldb2,loc101929123)、(hcn1,none)、gsap、auts2、loc101928565、ccdc91、plekhh2、(ankh,loc101929454)、(erap1,erap2)、hsd17b14、lrrc4c、ccser1、(chsy3,hint1)、mef2c-as1、smc5、(aldh1a1,anxa1)、(loc101928880,znf469)、c20orf27、(casc6,epha7)、(none,brdtp1)、tp63、(olmalinc,wnt8b)、(cdk17,cfap54)、(zcwpw2,linc00693)、(chmp4b,raly-as1)、cage1、(loc100506207,tfap2a)、(rps6ka3,cnksr2)、ccdc150、(edn1,phactr1)、pdgfd、elp4、(loc101927070,kiaa1211l)、(loc102723376,rock1p1)、(skp1p2,linc02378)、rreb1、(linc00392,klf12)、loc102723376、kiaa1211l、rbl1、(ptprq,myf6)、traf1、(casc17,linc02095)、(dscr8,dscr10)、(maf,maftrr)、fmn2、helz、(linc01941,gypc)、(cxcr6,fyco1)和erc2。

在某些具体实施方案中,所述整合位点选自表1所示位点中的至少之一。

本发明的第二方面,提供一种试剂盒,其包括用于检测第一方面所述的整合基因的引物和/或探针。

本发明的第三方面,提供一种用于检测人乳头瘤病毒基因组是否为整合状态的方法,其包括检测第一方面所述的整合基因的步骤。

在某些具体实施方案中,所述的用于检测人乳头瘤病毒基因组是否为整合状态的方法,包括以下步骤:

(1)从来源于宿主的生物样品中提取得到宿主基因组dna;

(2)利用引物组或探针组检测所述宿主基因组dna是否存在所述整合基因或其片段。

在某些具体实施方案中,所述生物样品为来源于宫颈的组织或细胞。

在某些具体实施方案中,所述步骤(2)中的检测为二代基因组测序检测。

在某些具体实施方案中,上述整合基因作为检测靶标在宫颈癌监控和预后评估中的用途。

本发明中检出的hpv整合位点可作为对于hpv感染状态和宫颈癌发展状态的潜在分子标志物,未来可应用于宫颈癌的早期评估及个性化疾病监控和预后评估等方向,具有重要临床应用价值。

具体实施方式

现详细说明本发明的多种示例性实施方式,该详细说明不应认为是对本发明的限制,而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。

应理解本发明中所述的术语仅仅是为描述特别的实施方式,并非用于限制本发明。另外,对于本发明中的数值范围,应理解为具体公开了该范围的上限和下限以及它们之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。

除非另有说明,否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料,但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入,用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时,以本说明书的内容为准。

本发明中,术语“分离的”指核酸或基因等物质离开其原始环境(例如,如果是天然存在的,则离开其天然环境)。例如,存在于活的动物体内的天然存在的核酸或基因不是分离的,但从天然环境中的一些或全部共存物质中分离出的相同核酸或基因是分离的。需要说明的是,作为载体的一部分的此类核酸或基因;和/或作为人为得到的组合物的一部分的此类核酸或基因仍然是分离的,原因在于这些载体或组合物不是天然环境的一部分。

本发明中,术语“纯化的”是一个相对定义,其并不要求完全纯化。本发明的“纯化的”包括从人工得到的混合物、天然产物或其它环境中纯化至少一个数量级,优选纯化了两个或三个数量级,更优选地纯化了四个或五个数量级。

[分离的整合基因]

本发明的第一方面,提供一种分离的整合基因,其为hpv基因整合入宿主(特别是人)基因组后形成的不同物种来源的基因的融合基因片段。本发明中的整合基因为分离的状态或纯化的状态。

本发明的整合基因包括来源于人乳头瘤病毒基因组的a序列和来源于人基因组的b序列,且a序列与b序列在整合位点进行融合。a序列与b序列的位置不特别限定,从5’端至3’端可以依次是a序列-b序列,也可以依次是b序列-a序列。

本发明的a序列选自人乳头瘤病毒的下述基因的序列之一:e1、e1/e2、e1~e4、e2、e2~e4、e5、e6、e7、intergenic、l1、l2、lcr和rr。基于检出丰度,优选丰度较高的基因的序列,其实例包括但不限于l1、l2、e1~e4和urr的序列。进一步优选的实例包括但不限于l1、l2、e1~e4的序列。更优选的实例包括但不限于e1~e4的序列。

本发明的b序列选自下述基因的序列或基因间的序列:spag17、(ankrd20a12p,loc102723769)、(lepr,pde4b)、pigk、(mir5694,fgfr2)、(mmp20,mmp27)、(loc102723895,casp12)、(tbx3,med13l)、ano2、loc101927284、(stxbp6,nova1)、(linc00648,rps29)、ppm1a、(loc101927079,loc727924)、(tekt5,nubp1)、fam234a、nlk、(insig2,loc101927709)、ccnt2-as1、gtdc1、mir5702、(ankrd30bp2,mir3156-3)、(mir548ab,mir548a3)、plcxd2、(il1rap,gmnc)、atxn7、(cntn3,mir4444-1)、(pitx2,c4orf32)、prdm5、(glrb,gria2)、pgm2、(gnpda2,gabrg1)、(slc4a4,gc)、(loc102546299,ctb-7e3.1)、(cdh12,prdm9、(linc01377,linc01019、plcxd3、(arhgef28,linc01335)、aldh5a1、slc26a8、dst、(atp6v0e2,actr3c)、(per4,ndufa4)、(gfra2,dok2)、(mir5681a,mir2052hg)、(melk,mir4475)、(linc01507,tle1)、sema4d、(hprt1,mir450b)、(grik3,mir4255)、agbl4、(col24a1,odf2l)、(celf2-as1,usp6nl)、linc00871、oca2、dhrs11、(cyb5d1,chd3)、ubr3、(loc101927619,satb2)、slc2a10、linc00160、linc00693、(linc00693,rbms3-as3)、(bbs12,fgf2)、(rest,noa1)、(rab9bp1,loc102467213)、slit3、arsb、bbs9、dennd1a、atp8b5p、dach2、(tsnax-disc1,sipa1l2)、pitrm1、(znf326,barhl2)、(dbx1,htatip2)、rcor1、(or4k1,or4k15)、znf48、(tcf4,linc01416)、(lrfn3,sdhaf1)、(loc101929413,loc339593)、(mkrn7p,znf334)、(fermt1,casc20)、(mir3648-1,mir3648-2)、tbc1d22a、clrn1、arhgef26、mcf2l2、lars2、gxylt2、(gypb,gypa)、sil1、(prdm9,c5orf17)、(cd180,loc101928858)、epm2a、(fam3c,ptprz1)、(cdc14c,vwc2)、egfr、hip1、col22a1、fut10、(dmd,fam47a)、(fam47b,mageb16)、shcbp1l、(arl14ep,mpped2)、(linc00376,linc00395)、tyk2、(loc101928851,mir548ag1)、(areg,btc、(linc01170,znf608)、(kctd16,prelid2)、prune2、(unq6494,loc101927847)、(tinagl1,hcrtr1)、plxdc2、loc221122、cryl1、megf11、(loc390705,tp53tg3)、spire1、hydin2、loc101929512、(vamp5,rnf181)、(none,loc654342)、loc100506470、plod2、(cadps,linc00698)、(gatb,loc100996286)、(loc285692,fam173b)、(trio,fam105a)、znf292、chchd3、(linc01603,sulf1)、elavl2、(linc00894,mir2114)、lmod1、wnt8b、(tcerg1l,linc01164)、(dnajc1,ebln1)、snx32、lrp5、znf84、ltbr、(kif26a,c14orf180)、itpk1、(lyrm9,nlk)、evpl、(rptor,chmp6)、(loc643542,tmx3)、ptprm、(slc1a5,snar-e)、bcl2l11、(mir5702,irs1)、adra2b、loc613266、myt1、(d21s2088e,loc101927869)、(loc101927123,linc01471)、(sorbs2,tlr3)、(ppp2r2b,stk32a)、atg10、(linc01554,ell2)、sirt5、sytl3、tox、(mir147a,cdk5rap2)、ddx31、(ndp,efhc2)、hdac8、(loc284632,grhl3)、(ajap1,mir4417)、(lrfn5,fscb)、taf1b、(gabrb2,gabra6)、ski、(rhbdl2,akirin1)、rnf214、loc643339、(lrrc28,mef2a)、slc39a11、sgsh、relb、aff3、iqca1、epb41l2、ptprn2、(npvf,mir148a)、(rapgef1,med27)、nelfb、(esx1,il1rapl2)、(slc9a6,fhl1)、(angptl1,ralgps2)、oit3、ppp6r3、rimbp2、ttc6、(trip4,znf609)、sin3b、ccdc8、mgat5、dusp2、(loc101927869,loc339622)、(loc100506403,mir802)、(cbs,u2af1)、(myo18b,sez6l)、trim71、arhgef3、asb14、loc285627、(none,none)、fam46c、(linc01364,pkn2-as1)、(lmf1,sox8)、trim16l、(ldb2,loc101929123)、(hcn1,none)、gsap、auts2、loc101928565、ccdc91、plekhh2、(ankh,loc101929454)、(erap1,erap2)、hsd17b14、rreb1、lrrc4c、ccser1、(chsy3,hint1)、mef2c-as1、smc5、(aldh1a1,anxa1)、(loc101928880,znf469)、c20orf27、(casc6,epha7)、(none,brdtp1)、tp63、(olmalinc,wnt8b)、(cdk17,cfap54)、(zcwpw2,linc00693)、(chmp4b,raly-as1)、cage1、(loc100506207,tfap2a)、(rps6ka3,cnksr2)、ccdc150、(edn1,phactr1)、pdgfd、elp4、(loc101927070,kiaa1211l)、(loc102723376,rock1p1)、(skp1p2,linc02378)、(linc00392,klf12)、loc102723376、kiaa1211l、rbl1、(ptprq,myf6)、traf1、(casc17,linc02095)、(dscr8,dscr10)、(maf,maftrr)、fmn2、helz、(linc01941,gypc)、(cxcr6,fyco1)和erc2。需要说明的是,在这些基因中,“(基因名称,基因名称)”在这里指的是b序列是位于这两个基因的中间的序列,基因名称为“none”是指该基因在基因组上没有注释信息,例如,(none,none)是指位于分离的b序列两侧的这两个基因在基因组上无注释信息。基于检出丰度,优选丰度较高的基因的序列,其实例包括但不限于pigk、loc101927284、plcxd3、auts2、slit3、(loc101929413,loc339593)、(mir3648-1,mir3648-2)、(gatb,loc100996286)、tp63、plxdc2、loc221122、megf11、loc100506470、elavl2、znf84、(kif26a,c14orf180)、(mir5702,irs1)、loc613266、(loc101927123,linc01471)、sirt5、sytl3、ddx31、slc39a11、(npvf,mir148a)、ppp6r3、ccdc8、arhgef3、(ankh,loc101929454)、(loc101928880,znf469)、(chmp4b,raly-as1)、cage1、(loc100506207,tfap2a)、(rps6ka3,cnksr2)、(edn1,phactr1)、pdgfd、elp4、(loc101927070,kiaa1211l)、(loc102723376,rock1p1)、(skp1p2,linc02378)、rreb1、(linc00392,klf12)、rbl1、(ptprq,myf6)。更优选的实例包括但不限于(mir3648-1,mir3648-2)、sytl3、(ankh,loc101929454)、(chmp4b,raly-as1)、cage1、(loc100506207,tfap2a、(rps6ka3,cnksr2)、(edn1,phactr1、pdgfd、elp4、(loc101927070,kiaa1211l)、(loc102723376,rock1p1)、(skp1p2,linc02378)、rreb1、(linc00392,klf12)、rbl1、(ptprq,myf6)。

在某些实施方案中,b序列选自spag17、(ankrd20a12p,loc102723769)、(lepr,pde4b)、pigk、(mir5694,fgfr2)、(mmp20,mmp27)、(loc102723895,casp12)、(tbx3,med13l)、ano2、loc101927284、(stxbp6,nova1)、(linc00648,rps29)、ppm1a、(loc101927079,loc727924)、(tekt5,nubp1)、fam234a、nlk、(insig2,loc101927709)、ccnt2-as1、mir5702、(ankrd30bp2,mir3156-3)、(mir548ab,mir548a3)、(il1rap,gmnc)、atxn7、(cntn3,mir4444-1)、(pitx2,c4orf32)、prdm5、(glrb,gria2)、pgm2、(gnpda2,gabrg1)、(slc4a4,gc)、(cdh12,prdm9、(linc01377,linc01019、(arhgef28,linc01335)、aldh5a1、slc26a8、(atp6v0e2,actr3c)、(per4,ndufa4)、(gfra2,dok2)、(mir5681a,mir2052hg)、(melk,mir4475)、(linc01507,tle1)、sema4d、(hprt1,mir450b)、(grik3,mir4255)、(col24a1,odf2l)、linc00871、oca2、dhrs11、(cyb5d1,chd3)、ubr3、(loc101927619,satb2)、linc00160、linc00693、(linc00693,rbms3-as3)、(bbs12,fgf2)、(rest,noa1)、(rab9bp1,loc102467213)、arsb、atp8b5p、(tsnax-disc1,sipa1l2)、pitrm1、(znf326,barhl2)、(dbx1,htatip2)、rcor1、(or4k1,or4k15)、znf48、(tcf4,linc01416)、(lrfn3,sdhaf1)、(mkrn7p,znf334)、(fermt1,casc20)、(mir3648-1,mir3648-2)、tbc1d22a、clrn1、arhgef26、mcf2l2、lars2、gxylt2、(gypb,gypa)、(prdm9,c5orf17)、(cd180,loc101928858)、epm2a、(fam3c,ptprz1)、(cdc14c,vwc2)、egfr、hip1、col22a1、fut10、(dmd,fam47a)、(fam47b,mageb16)、shcbp1l、(arl14ep,mpped2)、(linc00376,linc00395)、tyk2、(loc101928851,mir548ag1)、(areg,btc、(linc01170,znf608)、(kctd16,prelid2)、prune2、(unq6494,loc101927847)、(tinagl1,hcrtr1)、plxdc2、loc221122、megf11、(loc390705,tp53tg3)、spire1、hydin2、loc101929512、(vamp5,rnf181)、(none,loc654342)、loc100506470、plod2、(cadps,linc00698)、(gatb,loc100996286)、(loc285692,fam173b)、(trio,fam105a)、chchd3、(linc01603,sulf1)、(linc00894,mir2114)、lmod1、wnt8b、(tcerg1l,linc01164)、(dnajc1,ebln1)、snx32、lrp5、znf84、(kif26a,c14orf180)、itpk1、(lyrm9,nlk)、evpl、(rptor,chmp6)、(loc643542,tmx3)、(slc1a5,snar-e)、bcl2l11、(mir5702,irs1)、adra2b、loc613266、myt1、(d21s2088e,loc101927869)、(loc101927123,linc01471)、(sorbs2,tlr3)、(ppp2r2b,stk32a)、atg10、(linc01554,ell2)、sirt5、sytl3、(mir147a,cdk5rap2)、ddx31、(ndp,efhc2)、hdac8、(loc284632,grhl3)、(ajap1,mir4417)、(lrfn5,fscb)、(gabrb2,gabra6)、ski、(rhbdl2,akirin1)、rnf214、loc643339、(lrrc28,mef2a)、sgsh、relb、iqca1、(npvf,mir148a)、(rapgef1,med27)、nelfb、(esx1,il1rapl2)、(slc9a6,fhl1)、(angptl1,ralgps2)、oit3、ppp6r3、ttc6、sin3b、ccdc8、mgat5、dusp2、(loc101927869,loc339622)、(loc100506403,mir802)、(cbs,u2af1)、(myo18b,sez6l)、trim71、arhgef3、asb14、loc285627、(none,none)、fam46c、(linc01364,pkn2-as1)、(lmf1,sox8)、trim16l、(ldb2,loc101929123)、(hcn1,none)、gsap、loc101928565、ccdc91、plekhh2、(ankh,loc101929454)、(erap1,erap2)、hsd17b14、rreb1、lrrc4c、ccser1、(chsy3,hint1)、mef2c-as1、smc5、(aldh1a1,anxa1)、(loc101928880,znf469)、c20orf27、(casc6,epha7)、(none,brdtp1)、(olmalinc,wnt8b)、(cdk17,cfap54)、(zcwpw2,linc00693)、ccdc150、elp4、(loc101927070,kiaa1211l)、(chmp4b,raly-as1)、(rps6ka3,cnksr2)、rbl1、(ptprq,myf6)、traf1、(casc17,linc02095)、(dscr8,dscr10)、(maf,maftrr)、fmn2、helz、(linc01941,gypc)、(cxcr6,fyco1)、erc2。

在某些实施方案中,b序列选自ccdc150、(chmp4b,raly-as1)、cage1、elp4、(edn1,phactr1)、(loc102723376,rock1p1)、kiaa1211l、(linc00392,klf12)、(loc101927070,kiaa1211l)、(loc100506207,tfap2a)、pdgfd、(skp1p2,linc02378)、loc102723376、(rps6ka3,cnksr2)、rreb1的序列。

在某些实施方案中,b序列选自ccdc150、elp4、(loc101927070,kiaa1211l)、(chmp4b,raly-as1)、(rps6ka3,cnksr2)、rreb1、(linc00392,klf12)、loc102723376、kiaa1211l的序列。

本发明中整合位点一般选自下表1所示的位点。

[整合基因的应用]

本发明的另一方面,提供整合基因的应用。即,用于检测人乳头瘤病毒基因组是否为整合状态,进而作为检测靶标用于宫颈癌监控和预后评估。

本发明中,检测人乳头瘤病毒基因组是否为整合状态的方法,包括以下步骤:

(1)从来源于宿主的生物样品中提取得到宿主基因组dna;

(2)利用引物组或探针组检测所述宿主基因组dna是否存在所述整合基因或其片段。

在具体实施方案中,选择来源于宫颈的组织或细胞作为检测生物样本,提取得到基因组dna,dna提取方式可采用已知方法。这些方法可参考已知的教科书,例如冷泉港的《分子克隆实验指南》第四版等公开出版物,可选地,采用dneasyblood&tissuekit(qiagen,hilden,germany)试剂盒进行提取。

测序方式可采用二代测序、三代测序进行。在具体实施方案中,文库构建采用产品型号为e7370l的ultraiitmdnalibraryprepkitfor试剂盒和产品型号为e6609l的nebmultiplexoligosfor试剂盒进行文库的构建。具体地,文库构建步骤包括:1)片段化处理:通过covarism220(covaris,massachusetts,usa)对基因组dna打断处理;2)末端修复、加a尾和接头连接:采用ultraiitm试剂盒中的试剂进行处理;3)纯化:采用ampurexp(beckman-coulter,usa)进行磁珠纯化;4)扩增:连接有接头的dna采用ultraiitmq5mastermix进行pcr;4)文库检测:使用thermofisherscientific的qubitdsdnahsassaykit在qubit3.0fluorometer(invitrogen)上进行定量,使用qsep1tm(bioptic,ntc,taiwan)进行定量和片段大小分析。

文库检测合格后进行杂交捕获、富集和测序过程,其中:杂交捕获的探针采用integrateddnatechnologies公司设计的hpv16型全长基因组探针,杂交捕获采用integrateddnatechnologies公司的hybridizationcaptureofdnalibraries试剂盒,富集过程使用integrateddnatechnologies公司的xgenhybridizationandwashkit试剂盒。经富集后的杂交文库使用illumina公司的nextseqplatform进行测序步骤。

三代测序则采用具有天然条形码扩增(exp-nbd103,ont)的连接测序试剂盒(sqk-lsk108,oxfordnanoporetechnologies)制备文库,将制备后的文库与测序运行缓冲液(rbf)、上样颗粒(llb,ont)混合后加载到纳米孔测序平台的spoton样品端口进行三代测序过程。在具体实施方案中,还包括使用sanger测序进行整合位点的验证,使用primer5.0设计引物,基于hpv序列设计正向引物,并基于人类基因组序列设计反向引物。

测序后的数据分析步骤包括:a.测序数据质控:采用trimgaloreprogram进行数据过滤得到cleanreads;b.基因组比对:采用bwaprogram将cleanreads比对到人类参考基因组和hpv参考基因组上,其中人类基因组数据库选择grch37/hg19,hpv参考基因组包括17种hpv基因组数据(hpv6、11、16、18、31、33、35、39、45、52、56、58、59,66、68、69和82);c.使用gatk软件包以参考序列进行重新校准质量分数;d.整合位点的判定:对于双端测序数据结果,一个末端比对到人类基因组上,另一个末端比对到hpv参考基因组上,这样会判定为一个不一致的读取对drp(discordantreadpair)。如果一个特定的位置有一个或多个不一致的drp,它将被视为潜在的hpv整合位点,然后使用breakdancerprogram识别其断点。整合位点根据ucsc数据库中的人类基因组(grch37/hg19)和hpv基因组进行注释。当平均测序深度大于10且病毒基因组总长度的50%以上被至少4×覆盖时,该样本被认为是hpv-dna阳性。

实施例

本实施例用于示例性说明本发明的整合基因的鉴定过程。

一、样本信息

选择来源于受试者宫颈上皮细胞作为样本。

二、实验步骤

1、基因组dna提取

采用dneasyblood&tissuekit(qiagen,hilden,germany)试剂盒进行基因组dna的提取。

提取后的dna使用nanodrop2000和qubitdsdnahs检测试剂盒(均来自thermofisherscientific,inc.,waltham,ma,usa)进行定量。片段大小则采用bio-radchefdrii系统测定dna的平均片段大小(>5kbp),电泳环境:1×tae缓冲液、1.0%agarosegel、dl2000plusdnaladder(lifetechnologies,carlsbad,ca,usa)。

2、测序文库的构建

文库构建采用产品型号为e7370l的ultraiitmdnalibraryprepkitfor试剂盒和产品型号为e6609l的nebmultiplexoligosfor试剂盒进行文库的构建。

文库构建步骤包括:1)片段化处理:200ngdna置于50μl离心管使用covarism220(covaris,massachusetts,usa)进行打断处理,打断条件为time:340s、dutycycle:10%、cyclesperburst:200、peakpower:75。

2)末端修复、加a尾和接头连接:采用ultraiitm试剂盒中的mix和buffer试剂进行处理,接头连接使用ultraiitm的ligationmastermix和enhancer试剂。

3)纯化:采用0.9×的ampurexp(beckman-coulter,usa)进行磁珠纯化。

4)扩增:连接有接头的dna采用ultraiitmq5mastermix进行pcr,6个循环;

4)文库检测:使用thermofisherscientific的qubitdsdnahsassaykit在qubit3.0fluorometer(invitrogen)上进行定量,使用qsep1tm(bioptic,ntc,taiwan)进行定量和片段大小分析,片段大小在320bp为合格。

5)文库的杂交捕获:杂交捕获的探针采用integrateddnatechnologies公司设计的hpv16型全长基因组探针,杂交捕获采用integrateddnatechnologies公司的hybridizationcaptureofdnalibraries试剂盒,富集过程使用integrateddnatechnologies公司的xgenhybridizationandwashkit试剂盒。pcr进行15个循环,经富集后的杂交文库使用qubit3.0和qubitdsdnahsassaykit(thermofisherscientific,inc.,waltham,ma,usa)进行文库的定量,agilent2100tapestation(agilenttechnologies,santaclara,ca,usa)对文库质量进行质控。质控合格的文库使用illumina公司的nextseqplatform进行双端末端(2×150bp)测序。

三代测序则采用具有天然条形码扩增(exp-nbd103,ont)的连接测序试剂盒(sqk-lsk108,oxfordnanoporetechnologies)制备文库,将制备后的12μl文库与35μl测序运行缓冲液(rbf)、25.5μl上样颗粒(llb,ont)混合后加载到纳米孔测序平台的spoton样品端口进行三代测序过程。

3、sanger测序的验证

使用primer5.0设计引物,基于hpv序列设计正向引物,并基于人类基因组序列设计反向引物。反应体系总体积20μl,包括:0.2μl的phoenixtmhotstarttaqdnapolymerase(500u)、4μl的5×phoenixhotstarttaq反应缓冲液、2μl的dntp(2.5μm)、各0.5μl正向和反向引物(10μm)的pcr反应混合物中扩增序列、1μl模板dna(10ng)和12.3μl无核酸酶水(未经depc处理)。pcr扩增条件如下:95℃,5min、94℃,30s,35个循环、60℃,60s、72℃,60s和72℃,1min。通过琼脂糖凝胶电泳观察pcr产物,并使用ampurexp磁珠(beckmancoulter,miami,fl,usa)进行纯化。

三、数据分析

测序后的数据分析步骤包括:a.测序数据质控:采用trimgaloreprogram进行数据过滤得到cleanreads,cleanreads的质量分数在20以上且reads长度在80bp以上;b.基因组比对:采用bwaprogram将cleanreads比对到人类参考基因组和hpv参考基因组上,其中人类基因组数据库选择grch37/hg19,hpv参考基因组包括17种hpv基因组数据(hpv6、11、16、18、31、33、35、39、45、52、56、58、59,66、68、69和82);c.使用gatk软件包以参考序列进行重新校准质量分数;d.整合位点的判定:对于双端测序数据结果,一个末端比对到人类基因组上,另一个末端比对到hpv参考基因组上,这样会判定为一个不一致的读取对drp(discordantreadpair)。如果一个特定的位置有一个或多个不一致的drp,它将被视为潜在的hpv整合位点,然后使用breakdancerprogram识别其断点。整合位点根据ucsc数据库中的人类基因组(grch37/hg19)和hpv基因组进行注释。当平均测序深度大于10且病毒基因组总长度的50%以上被至少4×覆盖时,该样本被认为是hpv-dna阳性,本发明的分离的整合位点见表1所示。

表1-整合位点

接下来针对这些整合位点信息,进行了sanger验证。下表2示例性示出了一部分整合位点在sanger验证时所采用的引物序列。

表2

尽管本发明已经参考示例性实施方案进行了描述,但应理解本发明不限于公开的示例性实施方案。在不背离本发明的范围或精神的情况下,可对本发明说明书的示例性实施方案做多种调整或变化。权利要求的范围应基于最宽的解释以涵盖所有修改和等同结构与功能。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1