一种识别异源低频基因组信号唯一性的方法及其应用与流程

文档序号:17544491发布日期:2019-04-29 15:11阅读:332来源:国知局
一种识别异源低频基因组信号唯一性的方法及其应用与流程

本发明涉及生物学领域,尤其涉及一种识别异源低频基因组信号唯一性的方法及其应用。



背景技术:

nipt(无创产前诊断)和肿瘤液态活检技术,都是基于识别外周血游离dna的异源信号。nipt一般需要孕妇外周血游离dna中来自胎儿的信号超过百分之四,肿瘤液态活检可以检测到低于千分之一的来自于肿瘤组织的dna。然而实际生产过程中,会面临异源信号来源大于一个的问题。nipt中4%的小信号可能含有采样或者生产过程中引入的其他污染信号,造成假阴性的结果,这些都是本领域技术人员所不期望看到。

近年来,随着芯片技术和第二代高通量测序技术的发展,生物信息研究人员已针对这两种不同的技术开发了许多相对应的软件用于检测基因组的结构性变异。然而如何利用生物信息学来发明一种识别异源低频基因组信号唯一性的方法至今还未报道过。



技术实现要素:

本发明通过将生命科学和计算机科学相结合,发明了一种新的识别异源低频基因组信号唯一性的方法,该方法准确率高,可重复性且成本低,解决了现有技术中nipt等技术中出现的假阴性问题。

本发明的具体方案如下:

本发明一方面公开了一种识别异源低频基因组信号唯一性的方法,包括以下步骤:

s1、样本选择:获得一组含异源信号的样本组t、一组随机不含异源信号的对照样本组c、待检样本x和对照样本组c';

s2、获得特征值:得到样本组t、对照样本组c、对照样本组c'、待检样本x中所有样本的每个特征点w的值;

s3、计算h:不依赖对照样本组c',采用最大似然估计计算低频异源基因组总浓度p1;依赖对照样本组c',采用最大似然估计计算低频信号浓度p2,h=p2/p1;

s4、计算k、δk:对样本组t和对照样本组c进行抽样,获得一一对应的样本对{ti,ci},计算对应的p1和p2;其中,

k=∑i(p2,i/p1,i)/100;

计算获得的所有k,求其标准差为sk,δk=2sk;

s5、判定异源信号的唯一性:异源信号的个数为n,

优选的,所述特征点w包括snp、indel和甲基化位点中的一种或者其任意组合。

优选的,在s2中,所述特征值采用二代测序技术测得;

优选的,在s2中,所述特征值采用芯片技术、数字pcr或者一代测序技术测得。

优选的,若所述样本组t、对照样本组c、对照样本组c'均只有一个样本,则采取反复抽样的方法。

若样本组c和c’难以获得,可以根据已有的特征位点在人群中的频率,使用哈迪-温伯格定律进行模拟生成样本。

优选的,每次抽取其中75%-85%的特征值位点。更优选的,每次抽取其中80%的特征值位点。

优选的,所述特征点的值通过实验数据检测获得。

优选的,所述特征点的值通过计算模拟得到。

本发明第二个方面公开了上述的方法在生物学领域中的应用。

优选的,对于正常样本来说,所述方法可用于区分样本的数据是否被污染。

优选的,对于孕妇来说,所述方法可用于判断怀孕为单胎还是异卵双胎。

优选的,对于肿瘤患者来说,所述方法可用于判断肿瘤信号是一个来源还是多个来源。

本发明具有如下优点或者有益效果:

通过将生命科学和计算机科学相结合,本发明公开了一种新的识别异源低频基因组信号唯一性的方法,该方法准确率高,可重复性且成本低,可用于识别基因组样品中,除真实的低频信号之外是否含有外源污染,从而提高检测结果的准确率。

附图说明

利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制。

图1为本发明实施例1中p2值的分布示意图;

图2为本发明实施例1中p1和p2的分布示意图;

图3是本发明实施例2中p1和p2的分布示意图,其中点o代表了样本组t的结果,点*代表待检样本x的结果。

具体实施方式

下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于本发明而不用于限制本发明的范围。

实施例1

本实施例公开了一种识别异源低频基因组信号唯一性的方法,包括以下步骤:

s1、样本选择:样本组t只有一个样本,编号2018110747s,样本为孕妇血浆游离dna样本,单胎,孕周为18周。样本组c只有一个样本,编号2018110747f,样本为血液dna样本,为胎儿生父。待检样本x为异卵双胎孕妇血浆游离dna样本,编2018042088s,孕周13周。对照样本组c'中只有一个样本,编号2018042088f,样本为毛发dna样本,为胎儿生父。

s2、获得特征值:使用二代测序技术测得样本组t、对照样本组c、对照样本组c'和待检样本x这4个样本的6000个snp位点上各个等位基因的出现次数;

s3、计算h:不依赖对照样本组c',采用最大似然估计计算p1,计算胎儿dna在孕妇血浆游离dna中的比例p1=0.487;依赖对照样本组c',采用最大似然估计计算p2,,采用抽样方法获得足够样本数。每次抽取其中80%的snp位点,共抽取100次,获得100个样本。p2=∑w∈c′p2(w)/100=0.051。通过r语言数据处理,100个抽样的p2图形如图1所示;

h=p2/p1=0.51/0.487=1.047;

s4、计算k、δk:样本组t只有一个样本,对照样本组c也只有一个样本,对t和c进行反复抽样,每次抽取80%个特征点,共100次,获得一一对应的样本对{ti,ci},计算对应的p1和p2;通过r语言数据处理,结果如图2所示,

k=∑i(p2,i/p1,i)/100=0.985;

计算获得的所有k,求其标准差为sk,δk=2sk=0.0215x2=0.04;

s5、判定异源信号的唯一性:h=1.047>k+δk=0.985+0.04=1.025,结果表明待检样本中含有超过一个异源信号。

本实施例公开了一种新的识别异源低频基因组信号唯一性的方法,该方法准确率高,可重复性且成本低。

实施例2

本实施例公开了一种识别异源低频基因组信号唯一性的方法,包括以下步骤:

s1、样本选择:选取p1∈(0.064;0.068)的孕妇血浆游离dna样本10个,构成样本组t,选取97个男性血液样本构成样本组c,选择c'=c,选择编号2018052905样本为待检样本x;

s2、特征值获得:使用二代测序技术测得t、c、x这些样本的6000个snp位点上各个等位基因的出现次数;

s3、计算h;通过r语言数据处理,样本组t和待测样本x的计算结果如图3所示:

样本x的p1=0.0644;p2=(∑w∈c′p2(w))/97=0.0369;

h=p2/p1=0.0369/0.0644=0.573;

s4、计算k、δk;

k=∑i(p2,i/p1,i)/970=0.489;

δk=0.015×2=0.03;

其中p2,i表示第i个t样本组中样本和c样本组计算所得p2。

s5、判定异源信号的唯一性:h=0.573>k+δk=0.489+0.03=0.519;

说明待检样本x中含有超过一个异源信号。

以上对本发明的具体实施例进行了详细描述,但其只是作为范例,本发明并不限制于以上描述的具体实施例。对于本领域技术人员而言,任何对本发明进行的等同修改和替代也都在本发明的范畴之中。因此,在不脱离本发明的精神和范围下所作的均等变换和修改,都应涵盖在本发明的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1