染色体异常判断方法与流程

文档序号:15575465发布日期:2018-09-29 05:25阅读:2648来源:国知局

本发明涉及染色体异常判断方法,尤其涉及不管下一代测序平台,通过从经排序的序列数据提取唯一解读(uniqueread)判断男女,利用线性判别分析方法(lda,lineardiscriminantanalysis)通过对现有数据的学习设定阈值线,从而可随着诊断次数的增加可提高准确度及敏感度,同时适用于常染色体和性染色体的新的染色体异常判断方法。



背景技术:

“产前诊断”是指胎儿出生之前判断及诊断胎儿的患病与否的过程。根据最近一次统计资料,先天性畸形儿占全部新生儿的约3%,而在先天性畸形儿中约20%为染色体异常导致的。尤其是,属于广为人知的唐氏综合症的畸形儿占先天性畸形儿的约26%。

随着上述畸形儿出生率的增加和各种产前诊断设备的开发,对产前诊断的关心逐渐增多。尤其是,35周岁以上的高龄孕产妇、有曾分娩拥有染色体异常的孩子的经历的孕产妇、父母当中的一名拥有染色体结构异常的情况、有遗传疾病家族史的情况、有神经管缺损风险的情况、在母体血清筛选检查和超声波检查中怀疑存在胎儿畸形的情况等有必要接受产前诊断。

产前诊断方法大致可分为侵入式诊断方法和非侵入式诊断方法。侵入式诊断方法例如有在妊娠10~12周之间进行的绒膜绒毛取样(chorionicvillisampling,cvs)、在妊娠15~20周之间,利用免疫分析法测量羊水内的afp的浓度,以分析胎儿的染色体的羊膜穿刺术(amniocentesis)、在妊娠18~20周之间,通过在超声波的引导下从脐带直接提取胎儿的血液的方法进行的期待穿刺术(cordocentesis)等。

但是,上述侵入式诊断方法在检查过程中给胎儿带来冲击,有可能引起流产、疾病或畸形等。通过羊膜穿刺术或绒膜绒毛取样的基于确保胎儿物质的方法侵入性的,甚至熟练的临床医生也有可能对妊娠造成不能忽视的危险。现在,在实际操作中,上述侵入式诊断方法大体上只在因母体的年龄高或通过生物化学测试或超声波检查的事先筛选发现唐氏综合症胎儿妊娠可能性增加标志时进行。

为了克服上述侵入式诊断方法中存在的问题,开发出非侵入式诊断方法。例如,在胚胎着床前遗传诊断方法是利用用于体外受精的分子遗传学或细胞遗传学技术,选择子宫内着床前无遗传缺陷的胚胎的技术。另外,用于快速诊断染色体非整倍性(aneuploidy)的qf-pcr(quantitative-fluorescentpcr)荧光定量法是通过在每个染色体上特异存在的dna的短串联重复序列(shorttandemrepeats,str)上添加荧光并利用多重(multiplex)pcr发进行放大之后,利用dna碱基序列自动分析仪测量添加荧光的经放大的dna的量进行分析的快速筛选检查方法。另外,还有为找到复制数改变(copynumberchange),直接检查在玻璃载玻片上排列的dna序列(mappeddnasequence)的染色体微阵列(chromosomalmicroarray,cma)方法等。

另外,因测序技术的发展解读大规模遗传体信息变得可能,而基于上述下一代测序(next-generationsequencing,ngs)技术的遗传体分析方法应用到产前诊断领域。尤其是,公开有妊娠女性血浆内的脱细胞dna包含来自胎儿的成分的事实(loetal.,1997,lancet350,485-487),脱细胞血浆dna(下称“血浆dna”)大概5%-20%为来自胎儿的,而其余主要由来自母亲的短dna分子(80-200bp)构成(birchetal.,2005,clinchem51,312-320;fanetal.,2010,clinchem56,1279-1286)。

公开有利用上述事实,将胎儿的细胞从母体的血液分离,分析其染色体的产前诊断方法。一般而言,因额外染色体或染色体缺乏导致的存在胎儿的非整倍性的病态,生成可检测的母体的细胞脱细胞血浆dna内的胎儿dna分子簇的不均衡,从而开发出利用上述原理分析染色体异常的方法。

原则上,若血浆内的脱细胞胎儿dna不被母体成分稀释,则较之正常妊娠,引起t21的特征的额外染色体预计将生成来自该染色体的超过50%的dna分子。但是,在考虑对来自胎儿的脱细胞血浆dna成分的10%的典型的值时,所产生的不均衡只是5%或较之正常妊娠的1.00的1.05的值,预计是来自21号染色体片段的数量的相对增加。在血浆dna的胎儿成分小于或大于10%de情况下,母体血浆内的分子簇内的来自21号染色体的分子数量的不均均衡相应变小或变大。

因此,上述非侵入式诊断测试的挤出为从母体血浆获得对dna分子的核苷酸序列数据(“dna序列分析”)。首先从个别dna分子获得部分或完全的核苷酸序列信息之后,最简单的是为通过与参考人类基因进行比较,将个别分子排列在其所发生的染色体,应用生物信息工程技术。

考虑到可对足够多数量的血浆dna获得部分核苷酸序列数据,可为将足够的数量排列在其发生染色体可信赖地应用生物信息工程方法,可在保持统计学上的可靠性的同时,可为决定血浆dna分子簇内的染色体不均衡的存在与否使用统计方法。

目前为止,在上述诊断方法中,为获得足够排列于其发生染色体长度的序列,利用了可生成比较没有错误的高质量序列数据的大规模并列型dna序列分析技术(由被称为下一代序列分析或第二代序列分析)。

上述特定自动化序列分析装置大体上生成实际上逊色于通常的基因组序列分析所需的序列数据。这样生产的序列数据的特征是频繁产生错误。这样的错误种类繁多,但最常见的是“插入缺失(indel)”,而这是由传递不准确的额外碱基(插入)或缺损的碱基的序列分析装置所导致的错误。另外,难以有效分序列分析析短的同聚体运行(run)(即几个相同碱基的运行)。另外,序列分析错误还有可能包括碱基不准确排列的“错配”,实际上包括各种错误。

另外,上述大规模并列型序列分析还存在所进行的序列分析在所需时间较长,需要昂贵的生物信息工程的,生成大型数据的全服务基因组序列分析仪(主要是illuminahiseq)上高质量地完成。而且,根据全服务基因组序列分析仪的种类,不仅进行具体分析的方法不同,而且进行时间及分析过程整体上需要数周。



技术实现要素:

发明要解决的问题

本发明的目的在于为克服现有技术之不足,可在不受现有技术的通过特定自动化序列分析装置的序列排序方法及其正规化方法的限制的情况下利用所生成的序列信息,同时适用于常染色体和性染色体的判断染色体非整倍性的新的方法。

解决问题的方法

为达到上述目的,本发明提供一种染色体异常判断方法,包括:

第1步骤,从目标染色体的经测序的序列数据提取唯一解读;

第2步骤,对于正常和非整倍性,区分已验证的染色体数据的正常和非整倍性进行标记,利用线性判别分析方法(lda)设定用于判断染色体非整倍性的阈值线;

第3步骤,根据在上述第2步骤中设定的阈值线,判断在上述第1步骤中提取的唯一解读目标染色体基因的非整倍性存在与否。

在本发明的染色体异常判断方法中,在设定用于判断非整倍性的阈值线的第2步骤中,对于正常和非整倍性,区分已验证的染色体数据的正常和非整倍性进行标记,利用线性判别分析方法(lda)进行初始学习,将已验证的染色体数据中的非整倍性染色体数据的最小值设定为阈值。

在本发明的染色体异常判断方法中,上述线性判别分析方法是指lineardiscriminantanalysis方法,指通过分析已验证的染色体数据设定初始阈值,追加分析累计的样本,从而将非整倍性染色体数据的最小值设定为阈值线的方法。

在本发明的染色体异常判断方法中,根据上述线性判别分析方法(lda),在根据设定的标准判断新的目标染色体基因的非整倍性存在与否的步骤中,从已验证的染色体数据设定正常样本的范围,以非整倍性数据的最小值作为阈值线判断染色体异常与否。

在本发明的染色体异常判断方法中,在从上述目标染色体提取唯一解读的步骤中,分为90kbbin区域并提取gc含量为0.35~0.55的解读。

本发明的染色体异常判断方法,还包括从ur(x)%及ur(y)%判断性别的步骤,包括:第1-1步骤,在上述第1步骤之后,从上述提取的唯一解读计算以下述式表示的ur(x)%(唯一匹配于染色体x的解读的百分比)及ur(y)%(唯一匹配于染色体y的百分比);

ur(x)%=染色体x(chrx)解读数量/(常染色体)解读总数量x100

ur(y)%=染色体ychry)解读数量/(常染色体)解读总数量x100

第1-2步骤,从上述u(rx)%及ur(y)%区分性别;及

第1-3步骤,在从上述u(rx)%及ur(y)%区分性别的步骤中,从映射至y-specifi区域的区域的解读数量区分性别。

在本发明的染色体异常判断方法中,在从上述u(rx)%及ur(y)%区分性别的步骤中,从映射至比较chrx和chry选择pseudoautosomalregion并去除chrx的区域,从而只选择纯粹的chry区域的y-specifi区域的区域(表1)的解读数量区分性别。

在本发明的染色体异常判断方法中,上述染色体为从由13号染色体、18号染色体、21号染色体、3号染色体、7号染色体、12号染色体构成的组中选择的一个以上,或x染色体或y染色体。

本发明的染色体异常判断方法,在以常染色体作为对象时,可扩展至整个常染色体,而在本发明的染色体异常判断方法中,可检测出的染色体异常例如包括如下:

唐氏综合症(21号三体综合征)、爱华氏(edward)综合症(18号三体综合征)、巴特氏(patau)综合证(13号三体综合征)、9号三体综合征、warkany综合证(8号三体综合征)、猫眼(cateye)综合证(22号染色体的4拷贝)、22号三体综合征及16号三体综合征;

追加或替代性地,基因、染色体或染色体的一部分异常、拷贝数的检测可包括对包括下述各项的组中选择的病态的检测及/或诊断:贺许宏氏(wolf-hirschhorn)综合证(4p-)、猫叫(criduchat)综合证(5p-)、威廉氏(williams-beuren)综合证(7-)、jacobsen综合证(11-)、miller-dieker综合证(17-)、马吉利氏(smith-magenis)综合证(17-)、22qll.2缺失综合证(又被公开为心瓣面(velocardiofacial)综合证、迪乔治(digeorge)综合证、面部异常(conotruncalanomalyface)综合证、先天性胸腺发育不全及strong综合证)、天使人(angelman)综合证(15-)及帕-魏二氏(prader-willi)综合证(15-);

追加或替代性地,染色体拷贝数异常的检测可包括对包括如下各项的组中选择病态的检测及/或诊断:特纳氏(turner)综合证(乌尔里希—特纳(ullrich-turner)综合证或单染色体x)、柯林菲特(klinefelter)综合证、47,xxy或xxy综合证、48,xxyy综合证、49,xxxxy综合证、三重x综合证、xxxx综合证(又被称为四染色体x、四重x或48,xxxx)、xxxxx综合证(又被称为五染色体x或49,xxxxx)及xyy综合证。

本发明的染色体异常判断方法,因为从现有的经测序的数据利用线性判别分析方法(lda)用于判断染色体非整倍性的阈值线,所使用的测序数据的量越多判断的准确度和敏感度变得越高,因此,在持续累积数据的同时进行多次,可持续提高判断的的敏感度和准确度。

即本发明的染色体异常判断方法,可在持续添加经测序的数据序列的同时,重复进行用于判断染色体异常的上述第一步骤至第三步骤,当将上述第n-1次判断时所使用的染色体数据设为dn-1,将上述第n次判断时所使用的染色体数据设为dn时,则对第n次判断时所使用的染色体数据dn的非整倍性判断为从第n-1次判断时所使用的染色体数据dn-1导出的阈值。

阈值受特定算法的影响,但可将接近非整倍性的值设定为一个值,或设阈值两个阈值以使判断变得更有灵活性。

在本发明的染色体异常判断方法中,上述经测序的序列数据是通过下一代序列分析平台获取的。本领域技术人员应当理解,本发明的用于获取序列数据的方法不限定为任意特定技术。

上述序列分析平台是文献[lomanetal.(2012)naturebiotechnology30(5),434-439];[quailetal.(2012)bmcgenomics13,341];[liuetal.(2012)journalofbiomedicineandbiotechnology2012,1-11];及[meldrumetal.(2011)clinbiochemrev.32(4):177-195]中被讨论及验证;而在上述文献中验证过的序列分析平台作为参考包含在本文中。

在本发明的染色体异常判断方法中,上述洗衣袋序列分析平台选自罗氏(roche)454(即罗氏454gsflx)、应用生物系统公司(appliedbiosystems)的solid系统(即solidv4)、依诺米那(illumina)的gaiix、hiseq2500及miseq序列分析仪、生命技术公司(lifetechnologies)的作为离子激流(iontorrent)半导体序列分析平台的proton及s5序列分析仪、太平洋生物科学公司(pacificbiosciences)的pacbiors及桑格(sanger)的3730xl。

在本发明的染色体异常判断方法中,上述经测序的序列数据是通过包括利用聚合酶连锁反应的序列分析平台获取的。

在本发明的染色体异常判断方法中,上述经测序的序列数据是通过包括利用通过合成的序列分析的序列分析平台获取的。

在本发明的染色体异常判断方法中,上述经测序的序列数据是通过包括利用离子,例如氢离子释放的序列分析平台获取的。

在本发明的染色体异常判断方法中,上述经测序的序列数据是通过包括利用基于半导体的序列分析方法的序列分析平台获取的。基于半导体的序列分析方法的优点是仪器、芯片及试剂的制造费用低,序列分析过程快(即使存在有empcr引起的偏移),可扩展系统,但这有可能受用于empcr的珠子大小的限制。

在本发明的染色体异常判断方法中,上述经测序的序列数据是通过包括利用基于纳米孔的序列分析方法的序列分析平台获取的。基于纳米孔的方法例如像牛津纳米孔公司(oxfordnanoporetechnologies)所使用的技术那样,包括利用模仿活体细胞的细胞膜及蛋白质通道的情况的有机类型的纳米孔(例如,文献[brantond,bayleyh,etal.(2008).naturebiotechnology26(10),1146-1153])。

在本发明的染色体异常判断方法中,上述经测序的序列数据是通过生命技术公司离子激流平台或依诺米那的miseq获取的。依诺米那的通过合成的序列分析(sbs)技术现在很成功,是世界上广泛使用的下一代序列分析平台。truseq技术支持当单碱基包含于成长的dna片段内时,使用可进行检测的基于独立可逆终止者的方法的大规模并列型序列分析。用荧光标记的终止者在添加各自的dntp并影像化之后被切断已插入下一个碱基。因四个所有可逆终止者结合dntp存在于各自的序列分析循环期间,天然竞争最大限度地减少插入偏斜。

在本发明的染色体异常判断方法中,上述经测序的序列数据是通过生命技术公司离子激流个人基因组检测仪(personalgenomemachine)(离子激流pgm)获取的。

在本发明的染色体异常判断方法中,上述经测序的序列数据是通过生命技术公司离子激流平台,例如具有pi或pii芯片的ionproton和s5,及基于其追加衍生装置及部件的多重能力重复(multiplexcapableiteration)获取的。

在追加的实施例中,下一代序列分析平台是作为生命技术公司的离子激流个人基因组检测仪(personalgenomemachine)的个人基因组检测仪(pgm)。离子激流装置使用与通过合成的序列分析(sbs)类似的战略,但在导入核苷酸期间,检测通过根据dna聚合酶的活性的氢离子的释放的信号。本质上,离子激流芯片是非常敏感的ph测量仪。各粒子芯片包括允许多个序列分析反应的同时检测的数百万个离子敏感性场效应晶体管(isfet)传感器。isfet装置的使用对本领域技术人员而言是公知的,可在获取本发明所需序列数据的技术范围内石宏(prodromakisetal.(2010)ieeeelectrondeviceletters31(9),1053-1055;purushothamanetal.(2006)sensorsandactuatorsb114,964-968;toumazouandcass(2007)phil.trans.r.soc.b,362,1321-1328;wo2008/107014(dna(dnaelectronicsltd));wo2003/073088(toumazou);us2010/0159461(dnaelectronicsltd);各序列分析方法作为参考包含在本申请中。

在本发明的染色体异常判断方法中,上述经测序的序列数据是正规化的或非正规化的。即本发明的染色体异常判断方法,不仅不受测序方法的限制,而且在进行或不进行经测序的序列数据的标准化、正规化的情况下也可以判断染色体异常。

发明效果

本发明的染色体异常判断方法,可在不受现有技术的通过特定自动化序列分析装置的序列排序方法及其正规化方法的限制的情况下利用所生成的序列信息,同时适用于常染色体和性染色体,可随着诊断次数的增加可提高准确度及敏感度,从而可成为非侵入式方法的商业挤出,有效应用于可早期判断因胎儿的常染色体和性染色体数异常引起的畸形与否的产前诊断。

本发明的方法,当积累很多测序数据及对其的异常判断数据累积起来,则可通过线性判别分析方法(lda)设置精确的阈值线,从而可获得较之现有技术显著提高的敏感度。

附图概述

图1为表示利用本发明的诊断方法对100个样本通过proton利用y-specific区域判断性别的曲线图;

图2为表示利用本发明的诊断方法对30个样本通过依诺米那(illumina)公司的hiseq平台判断性别的曲线图;

图3为表示利用本发明的诊断方法通过qdnaseq进行正规化进行学习之后,预测新的样本的结果的曲线图;

图4为表示利用本发明的诊断方法通过hmmcopy进行正规化进行学习之后,预测新的样本的结果的曲线图;

图5为表示不进行正规化而只利用x和y的百分比进行学习之后,预测新的样本的结果的曲线图;

图6表示利用本发明的诊断方法通过利用gcbias的deeptools进行正规化进行学习之后,预测新的样本的结果的曲线图;

图7为表示利用本发明的诊断方法区分21号染色体的正常和非整倍性的结果的曲线图,其中,n为正常样本,t为非整倍性样本,而红色t为位于阈值线的样本;

图8为表示利用本发明的诊断方法区分18号染色体的正常和非整倍性的结果的曲线图,其中,n为正常样本,r为非整倍性样本,而红色r为位于阈值线的样本;

图9为表示利用本发明的诊断方法区分13号染色体的正常和非整倍性的结果的曲线图,其中,n为正常样本,m为非整倍性样本,而红色m为位于阈值线的样本;

图10为表示利用本发明的诊断方法同时表示21号和18号染色体的判断的曲线图,其中,横轴表示chr21,竖轴表示chr18,n表示正常,白色表示18号非整数性,粉红色为表示21号非整数性;

图11为表示利用本发明的诊断方法判断3号染色体的非整数性存在与否的结果的曲线图,其中,在qdnaseq中,正常样本的平均为7.551,非整数性样本的平均为7.615;

图12为利用本发明的诊断方法表示的7号染色体的非整数性样本的曲线图;

图13为利用本发明的诊断方法表示的12号染色体的非整数性样本的曲线图;

图14至图16为为利用本发明的诊断方法判断性染色体非整数性而表示正常样本和xxy、xyy、xxx、xo样本的曲线图;

图15为区分xxy和xyy的曲线图;

图16为区分xxx和xo的曲线图。

最佳实施方式

下面,通过实施例对本发明进行详细说明。这些实施例只是本发明的示例,而本发明所属技术领域的技术人员应当清楚本发明的范围不受这些实施例的限制。

除非有另外的定义,用于本说明书的所有技术及科学术语的意思与本发明所属技术领域的技术人员通常所理解的意思一样。一般而言,用于本说明书的命名法及下面技术的实验方法是本技术领域公知的和通常被使用的。

具体实施方式

<实施例1>通过提取唯一解读区分男女的步骤

从来自产妇的血液提取血浆,提取30ng以上的cfdna制作信息库,给lifetech和依诺米那(illumina)都结合adapter。之后,利用lifetech设备通过e-gelsizeselection进行pooling,使用依诺米那(illumina)进行beadsizeselection和pooling完成测序。

对经测序的fastq文件进行序列整理,去除pcrduplication提取唯一解读。只整理完全匹配(perfectmatch)的解读,在经整理的序列中将所有区域分为90kbbin区域,提取gc含量为0.35~0.55的解读。

计算以如下式表示的唯一匹配于染色体x的解读的百分比ur(x)%及唯一匹配于染色体y的百分比ur(y)%。

-ur(x)%=染色体x(chrx)解读数量/(常染色体)解读总数量x100

-ur(y)%=染色体ychry)解读数量/(常染色体)解读总数量x100

如下表1所示设定y-specific区域,以y-specific区域为准计算解读数量,当小于2时判定为女,大于2时判定为男。

在下表1中,y-specific区域定义为比较chrx和chry去除pseudoautosomalregion之后,去除chrx的区域的纯粹的chry,并进行如下选择。本发明可利用计算映射至y-specific区域的区域的解读数的方法容易区分男女。

[表1]

在表示利用本发明的诊断方法对100个样本通过proton利用y-specific区域判断性别的情况的图1,及表示利用本发明的诊断方法对30个样本通过依诺米那(illumina)公司的hiseq平台判断性别的情况的图2中,在各自的情况下,虽然通过lda决定的阈值不同,但可通过相互类似的值区分男女。

<实施例2>利用现有的测序数据的lda学习

本发明利用线性判别分析(lda)方法初始学习经标准方法确认的数据,讲非整倍性数据的最小值提取为阈值,由此判断目标染色体的正常、非整倍性、阈值。

现有技术中代表性地使用z-score和依诺米那(illumina)的ncv等方法,公开有利用low-depth数据正规化全部数据的各种正规化算法(qdnaseq、hmmcopy、deeptools等)。

在表示通过利用loess的qdnaseq程序正规化测序数据并计算z-score的结果的图3中,可看到5个红色t(trisomy)样本,因可在1.268区分正常和非整倍性样本,从而可通过lda方法自动将1.268设定为阈值线。

在表示通过hmmcopy进行正规化并计算z-score的结果的图4中,也能看到5个红色t(trisomy),虽然存在两个n(normal),但因可以1.44为准明确区分正常和非整倍性样本,从而可通过lda方法自动将1.44设定为阈值线。

在表示只正规化gcbias的结果的图6中,也可以5为准明确区分正常和非整倍性样本,从而可通过lda方法自动将5设定为阈值线。

另外,在本发明的染色体异常判断方法的情况下,不管具体的平台,即使不对测序数据进行另外的正规化过程也能判断染色体异常。

在图5中,在进行基本的序列整理之后,不进行正规化,只以ur.x和ur.y的百分比作为数据进行学习,之后即使插入新样本的值(红色的v),黑色的作为正常样本的n和黑色的作为非整倍性样本t也能以1.4为准明确区分。

在图5中,因包含于阈值线的红色t只有2个,通过本发明的线性判别分析方法(lda),在染色体异常判断方法的情况下,只进行单纯的序列整理也能足以明确区分正常样本和非整倍性样本。

由此可知,在本发明的利用lda方法的染色体异常判断方法的情况下,即使不使用现有技术的已公开的正规化算法或z-score,也能获得相同的结果。

<实施例3>常染色体非整倍性判断

<实施例3-1>21、18、13号染色体非整倍性判断

在通过上述实施例2的标准方法确认的数据中区分chr21、chr18、chr13的情况,对上述chr21、chr18、chr13的各数据,利用lda方法将非整倍性数据的最小值提取为阈值,由此预测判断正常、非整倍性、阈值。

图7、图8及图9各表示本发明的染色体异常判断方法,即利用现有数据进行序列整理并进行正规化之后,利用lda方法将所选定的非整倍性数据的最小值设定为阈值,并以上述阈值为准判断chr21、chr18、chr13号染色体非整倍性的结果。

在图7中,在chr21的情况下,可以作为阈值的4为准明确判断非整倍性,可以红色t(非整倍性)样本为准明确区分阈值线和正常(n)和非整倍性(t)样本。

在图8中,在chr18的情况下,可以作为阈值的2.5为准明确判断非整倍性,可以红色r(非整倍性)样本为准明确区分阈值线和正常(n)和非整倍性(t)样本。

在图9中,在chr13的情况下,可以作为阈值的1.5为准明确判断非整倍性,可以红色m(非整倍性)样本为准明确区分阈值线和正常(n)和非整倍性(t)样本。

另外,如图10所示,在本发明的染色体异常判断方法中,容易区分chr21和chr18同时表现出非整倍性的样本。

<实施例3-2>常染色体范围扩展可能性

确认本发明的染色体异常判断方法不仅适用于现有技术中最广为人知的chr13、chr18、chr21,还适用于其他常染色体异常的检测。

首先,从chr3、chr7、chr12三个染色体测序数据,通过现有使用的方法进行正规化,利用解读数计算z-score,并将其结果示于图11至图13中。

在图11至图13中,分析chr13、chr18、chr21的非整倍性样本和正常样本定义最少解读数,则可确认是相同的比率,利用此最少解读数对随机选择的chr3、chr7、chr12染色体,利用本发明的lda判断染色体异常,则如chr3(图11)、chr7(图12)、chr12(图13)所示,可明确区分正常和非整倍性。

在图11中,利用qdnaseq提供的loess算法确认chr3的正常样本的平均值为7.55,最大值为7.58,从而与作为非整倍性样本的最小值的7.62相比可区分明确的阈值。

在图12中,可利用hmmcopy确认chr7的正常样本的平均值为7.29,非整倍性样本的平均值为7.36。即使在利用最小值的情况下,5个样本都能与正常进行明确区分,因此,本发明的染色体异常判断方法的对象染色体可扩展至所有染色体。

在图13中,即使在chr12的情况下,当利用qdnaseq时,正常样本的平均为4.97,非整倍性样本为4.995,可以明确区分,与正常样本的最大值也以较大的值相区分。即使在hmmcopy的情况下,正常样本的平均值为4.82,非整倍性样本的平均值为4.868,存在差异,存在明确的阈值线。

在22个常染色体中,在3个染色体(chr13、chr18、chr21)和chr3、chr7、chr12的共6个示例中能够明确区分正常和非整倍性,从而可知本发明的染色体异常判断方法可扩展至所有染色体。

<实施例4>性染色体异常判断

对246个样本取得如下式表示的ur.x和ur.y并将其结果示于图14至图16中。

ur(x)%=染色体x(chrx)解读数量/(常染色体)解读总数量x100

ur(y)%=染色体ychry)解读数量/(常染色体)解读总数量x100

在图14中,将蓝色和粉红色部分设定为阈值线以区分正常和非整倍性样本,在男样本的情况下,如图15所示,ur.x的值大于5.5时判定为xxy,小于5.5时判定为xyy,在女样本的情况下,如图16所示,白色部分表示xo,而大于5.75的数据(红色a)判定为xxx。

在男样本的情况下,也如图15所示,在xo的情况下,将ur.x小于5.35且ur.y小于0.06的值设定为xo,xo的基准是沿蓝色线设定阈值线。

当积累较多数据,则因进行学习能够设定更精确的阈值线,而且因可设定适合于数据类型的阈值线,较之现有技术能够获得很高的准确度。

利用本发明的染色体异常判断方法判断常染色体及性染色体异常与否的结果示于表2中。可以看到通过已公开的标准试验方法验证的结果和利用本发明的染色体异常判断方法判断结果相同。

[表2]

工业实用性

本发明的染色体异常判断方法,可在不受现有技术的通过特定自动化序列分析装置的序列排序方法及其正规化方法的限制的情况下利用所生成的序列信息,同时适用于常染色体和性染色体,可随着诊断次数的增加可提高准确度及敏感度,从而可成为非侵入式方法的商业挤出,有效应用于可早期判断因胎儿的常染色体和性染色体数异常引起的畸形与否的产前诊断。

本发明的方法,当积累很多测序数据及对其的异常判断数据累积起来,则可通过线性判别分析方法(lda)设置精确的阈值线,从而可获得较之现有技术显著提高的敏感度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1