一种确认生命体的方法与流程

文档序号:14983893发布日期:2018-07-20 20:44阅读:227来源:国知局

本发明涉及核酸测序领域,具体涉及一种确认生命体的方法以及在医学和科研方面的应用。



背景技术:

dna序列是生命的蓝图,蕴含着整个生物体的遗传信息。快速准确地解读这些遗传信息也就是测序技术,对生命科学的进步和生物环境的发展具有重要的意义。测序技术经历着第一代测序技术的双脱氧链终止法和化学降解法到鸟枪法测序再到边合成边测序的第二代测序法以及新型纳米孔测序法。

新型纳米孔测序法是采用电泳技术,借助电泳驱动单个dna或rna分子逐一通过纳米孔来实现测序的。纳米孔技术准确度高、无需进行扩增和标记就可以进行检测且检测持续性好,这使得低成本并快速的进行dna测序成为可能。纳米孔技术正在不断的发展和完善,向成为第三代测序技术进攻。

专利cn104694649a公开了一种核酸分子低穿孔速度的纳米孔测序方法及其专用的纳米孔器件,该发明在不影响测量信号信噪比的前提下,有效减慢了核酸分子在纳米孔中的运动速度、提高时间分辨率、方法简单、易于操作。

专利cn106596645a公开了一种单分子操纵的石墨烯纳米孔dna测序仪,包括纳米操纵系统、纳米孔测序系统、数据采集分析系统和中央控制系统,该dna测序仪将纳米孔测序的基本原理与单分子纳米操纵技术有机结合,具备超长读写长度、可以进行单分子dna实时控制,能够实现单碱基识别的超高分辨率。

专利cn106255551a公开了一种用于长阅读、无标记、光学纳米孔长链分子测序的方法和设备,使用简单胶状纳米颗粒的新颖、定向自组装纳米制造方案用于在纳米通道顶上形成纳米孔阵列,从而使长链分子展开,允许单一碱基解析。

专利cn102313769a公开了一种fet纳米孔感测器,使用包含嵌入在纳米孔中的场效应晶体管感测器,检测感测器中的相应于生物分子和脱氧核糖核酸dna中的至少之一穿过纳米孔的漏极电流变化,提高纳米孔测序的灵敏度。

现阶段纳米孔测序主要是从控制通过纳米孔的速率、展开dna长链、解析单一碱基等方面的改进,而对于后续信号的处理及比对没有得到重视。目前所有的测序技术基因组分析均是将测序得到的电波信号转化为a、t、c、g后再进行序列比对,确定生物体。然而多次的转化过程中会放大误差,使得比对结果精确度不够。因此,本发明提供了一种生命体确认的方法,将核酸通过纳米孔得到的电信号波形直接与预先构建好的序列的电信号波形库进行比对,序列的电信号波形完全包含了所测核酸序列的碱基排列信息,因此可以将序列的电信号波形代替碱基序列应用到其他实验。



技术实现要素:

本发明提供了一种生命体确认的方法利用核酸测定信号代表核酸序列与已知核酸测定信号进行比对搜索分析,排除了由信号到波形再到a、t、c、g序列转换过程中所产生的算法错误、有效节约时间,提高效率与正确率;本发明还提供了一种核酸测定信号库的构建方法。

本发明的第一方面,涉及一种确认生命体的方法,通过比对生命体的核酸测定信号确认生命体。

优选的,所述的生命体选自古菌域、细菌域、真核生物域、病毒和类病毒。

优选的,所述生命体的核酸测定信号为电信号波形,进一步优选的,所述电信号波形由核酸序列通过纳米孔传感器形成。

在本发明的一个具体实施方式中,所述的确认生命体的方法,包括测定待测生命体的电信号波形,将待测生命体的电信号波形与已有的电信号波形进行波形比对。

本发明所述的已有的电信号波形优选为电信号波形库中的已有电信号波形,所述的电信号波形库中包含至少一种来源于已知生命体的电信号波形。所述的已知生命体选自古菌域、细菌域、真核生物域、病毒和类病毒。本领域技术人员可理解,本发明所述的已有电信号波形或来源于已知生命体的电信号波形可以通过测定获得,也可以通过模拟获得。本发明所述的已有电信号波形或已知生命体的电信号波形为全基因组序列的电信号波形和/或部分基因组序列的电信号波形和/或rna序列。

本发明所述的待测生命体选自古菌域、细菌域、真核生物域、病毒和类病毒,所述测定待测生命体的电信号波形的方法为将待测生命体的核酸通过纳米孔传感器,所述的待测生命体的电信号波形为全基因组序列的电信号波形和/或部分基因组序列的电信号波形和/或rna序列的电信号波形。

本发明所述的波形比对可以将待测生命体的整个电信号波形与已有的电信号波形比对,也可以将待测生命体的部分电信号波形与已有的电信号波形比对。

本发明所述的比对生命体的核酸测定信号优选为比对生命体的核酸测定信号的相似度,更优选的,本发明所述的比对生命体的核酸测定信号包括将序列的电信号波形基于时间尺度的收缩和拉伸处理,计算欧式距离,来确定序列电信号波形之间的相似度。

在本发明的具体实施方式中,所述的生命体的核酸测定信号的相似度比对方法选自editdistance、ann、lsh、dynamictimewarp或smithwaterman;进一步优选为dynamictimewarp。

本发明所述的测定待测生命体的电信号波形的方法优选为将待测生命体的核酸通过纳米孔传感器获得电信号波形。

本发明的第二方面,涉及一种待测生命体的核酸测定电信号波形的方法,包括如下步骤:

1)从待测生命体中,提取、纯化核酸;

2)为步骤1)中获得的核酸加纳米孔文库接头,获得带有接头的核酸;

3)将步骤2)中获得的带有接头的核酸与含有纳米孔测序所需缓冲液混合,获得混合液;

4)在步骤3)中获得的混合液中加入含有纳米孔的检测芯片,接入测序电路,使得待测生命体核酸通过纳米孔;

5)读取纳米孔电流信号,获得待测生命体序列的电信号波形。

优选的,所述步骤1)中提取、纯化核酸通过酶溶解、表面活性剂和/或机械力的方式破碎细胞,然后通过亲和柱沉析或有机溶剂析出的方式提取纯化;更优选的,通过现有技术中dna或rna的提取试剂盒直接进行提取。细菌、植物、动物在细胞破碎中难度不尽相同。

优选的,所述步骤2)中为核酸加纳米孔文库接头的方法为末端修复-链接酶法、转座酶法、通用引物序列pcr扩增法或rna通过逆转录成rna-dna复合体并加接头。

优选的,所述步骤3)中所述缓冲液为电解质溶液。

优选的,所述步骤4)中所述纳米孔为金黄色葡萄球菌α-溶血素纳米孔、mspa纳米孔、csgg纳米孔、phi29纳米孔或固态纳米孔;进一步优选为mspa纳米孔和csgg纳米孔。

优选的,所述步骤4)中所述检测芯片为生物纳米孔芯片、固态纳米孔芯片、遂穿电流检测系统、场效应晶体管系统或微流体系统;进一步优选为生物纳米孔芯片。

在本发明的一个实施例中,所述步骤4)中所述检测芯片与所述测序电路为一套连用的系统,所述连用的系统可以为一个整体,也可以为分立的个体。

本发明的第三方面,涉及一种核酸测定信号库的构建方法,特别是一种核酸测定电信号波形库的构建方法,将已知的核酸序列通过纳米孔传感器,收集电信号,获得序列的电信号波形。

优选的,所述已知的核酸序列选自已知生命体的全基因组序列和/或部分基因组序列和/或rna序列的电信号波形。

优选的,所述已知的核酸序列通过ncbi查询得到,并通过化学合成、链接和pcr扩增,或通过提取已知生命体的核酸。

在本发明的一个具体实施例中,将ncbi查询得到的所有生命体核酸序列通过纳米孔传感器,分别储存各自的电信号波形。

优选的,对所述获得的电信号波形进行预处理,所述预处理包括低通滤波器滤波、中值滤波器滤波、下采样、leveling和/或归一化。

本发明的第四方面,涉及一种序列的电信号波形库的构建方法,包括将核酸序列通过纳米孔传感器,获得电信号波形,利用测得的电信号波形高度参数,通过计算机模拟程序,模拟获得多条数据波形,作为序列的电信号波形库。

本发明的第五方面,涉及生命体的核酸测定信号在医学及科研方面关于序列比对和搜索中的应用,优选的,所述的生命体的核酸测定信号为生命体的核酸测定电信号波形。

本发明的第六方面,涉及序列的波形比对在病原体鉴定、核酸突变检测和配型匹配中的应用。

本发明所述的生命体确认的方法利用核酸通过纳米孔得到的电信号波形代表核酸序列,将待测生命体核酸通过纳米孔传感器获得的生命体的电信号波形序列与预先构建好的序列的电信号波形库进行直接比对搜索分析,排除了由波形到a、t、c、g序列转换过程中所产生的算法错误;同时纳米孔传感器获得的序列电信号波形完全包含了所测核酸序列的碱基排列信息,因此直接在电信号波形上完成数据分析可以有效节约时间,提高效率与正确率。

本发明所述的生命体选自古菌域、细菌域、真核生物域、病毒和类病毒;其中所述的古菌域包括嗜盐菌、嗜酸菌、嗜热菌,所述的细菌域包括放线菌、衣原体、支原体、立克次氏体,所述的真核生物域包括动物、植物、真菌、原生生物、真核藻类,所述的病毒包括单股dna病毒、双股dna病毒、rna反转录病毒、双股rna病毒、单链、单股rna病毒、裸露rna病毒及阮病毒,所述的类病毒包括马铃薯纺锤形块茎类病毒属、啤酒花矮化类病毒属、椰子死亡类病毒属、苹果锈果类病毒属、锦紫苏类病毒属、鳄梨日斑类病毒属、桃潜花叶类病毒属。进一步优选的,所述嗜盐菌包括嗜盐杆菌属、嗜盐小盒菌属、嗜盐富饶菌属、嗜盐球菌属、嗜盐嗜碱杆菌属、嗜盐嗜碱球菌属,所述嗜酸菌包括乳酸菌,所述嗜热菌包括兼性嗜热菌、专性嗜热菌、极端嗜热菌,所述放线菌包括链霉菌属、诺卡氏菌属、放线菌属、小单孢菌属、链孢囊菌属、游动放线菌属,所述衣原体包括鹦鹉热衣原体、沙眼衣原体和肺炎衣原体,所述支原体包括肺炎支原体、人型支原体、生殖器支原体,所述立克次氏体包括普氏立克次氏体、莫氏立克次氏体、立克次氏立克次氏体、恙虫病立克次氏体,所述动物包括鱼类、爬行类、鸟类,所述植物包括种子植物、苔藓植物、蕨类植物和拟蕨类植物,所述原生生物包括藻类、原生生物类、原生菌类,所述真核藻类包括绿藻门、轮藻门、裸藻门、硅藻门、金藻门、甲藻门、隐藻门、黄藻门、褐藻门、红藻门。

本发明所述的核酸包括dna和rna。

本发明所述的核酸测定信号是指在核酸通过纳米孔传感器时获得的碱基信号,所述的碱基信号可以为组成dna或rna的碱基信号,也可以为经过修饰的组成dna或rna的碱基信号。

附图说明

以下,结合附图来详细说明本发明的实施例,其中:

图1:两个电信号波形通过扭曲方式在时间上相似程度的对齐方式;

图2:电信号波形数据序列化;

图3:序列的电信号波形与数据比对的电信号波形库的匹配结果;

图4:实测数据的处理结果,其中,第一行为膜片钳实测数据波形,第二行为经低通滤波器滤波后结果,第三行为经中值滤波器进行处理后结果;

图5:在波形数据中截取的一段波形待匹配波形;

图6:滤波处理流程图,其中通过matlab进行数据处理,根据实际波形数据采样率fs生成低通滤波器和中值滤波器。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的部分实施例,而不是全部。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1模拟波形并比对

1、比对原理(dynamictimewarp)

dtw可以通过非线性的扭曲,通过拉伸和收缩,延时间轴找到两个波形的最佳对齐模式,这种扭曲可以用来寻找两个时间波形的匹配区域和两个时间波形的相似度。

衡量两个波形相似程度的最佳方式是计算欧氏距离,通过计算其中一个波形n个点到另一个波形n个点的距离来进行数值衡量,同时dtw还解决了两个时间序列在时间长度上不一致的问题,两个波形可以在时间长度上存在全局和局部伸缩或拉伸,克服了传统信号匹配算法在时间序列不匹配问题上的缺陷,图1为两个波形通过扭曲方式在时间上相似程度的对齐方式。

动态时间规整dtw是用满足一定条件的时间规整函数w(n)描述测试模板和参考模板的时间对应关系,求解两模板匹配时累计距离最小所对应的规整函数。

假设有两个时间序列q和c,长度分别是n和m:(实际语音匹配运用中,一个序列为参考模板,一个序列为测试模板,序列中的每个点的值为语音序列中每一帧的特征值。例如语音序列q共有n帧,第i帧的特征值(一个数或者一个向量)是qi。

q=q1,q2,…,qi,…,qn;

c=c1,c2,…,cj,…,cm;

如果n=m,直接计算两个序列的距离。但如果n不等于m进行线性缩放对齐。把短的序列线性放大到和长序列一样的长度再比较,或者把长的线性缩短到和短序列一样的长度再比较。

为了对齐这两个序列,需要构造一个nxm的矩阵网格,矩阵元素(i,j)表示qi和cj两个点的距离d(qi,cj)(也就是序列q的每一个点和c的每一个点之间的相似度,距离越小则相似度越高。这里先不管顺序),一般采用欧式距离,d(qi,cj)=(qi-cj)2(也可以理解为失真度)。每一个矩阵元素(i,j)表示点qi和cj的对齐。dp算法可以归结为寻找一条通过此网格中若干格点的路径,路径通过的格点即为两个序列进行计算的对齐的点。

把这条路径定义为warpingpath规整路径,并用w来表示,w的第k个元素定义为wk=(i,j)k,定义了序列q和c的映射。

w=w1,w2,...,wk,...wkmax(m,n)≤k<m+n-1

首先,路径需要满足以下几个约束:

1)边界条件:w1=(1,1)和wk=(m,n)。任何一种语音的发音快慢都有可能变化,但是其各部分的先后次序不可能改变,因此所选的路径必定是从左下角出发,在右上角结束。

2)连续性:如果wk-1=(a’,b’),那么对于路径的下一个点wk=(a,b)需要满足(a-a’)<=1和(b-b’)<=1。也就是不可能跨过某个点去匹配,只能和自己相邻的点对齐。这样可以保证q和c中的每个坐标都在w中出现。

3)单调性:如果wk-1=(a’,b’),那么对于路径的下一个点wk=(a,b)需要满足0<=(a-a’)和0<=(b-b’)。这限制w上面的点必须是随着时间单调进行的。

结合连续性和单调性约束,每一个格点的路径就只有三个方向了。如果路径已经通过了格点(i,j),那么下一个通过的格点只可能是下列三种情况之一:(i+1,j),(i,j+1)或者(i+1,j+1)。

满足上面这些约束条件的路径可以有指数个,然后选择使得下面的规整代价最小的路径:

其中,k表示对不同的长度的规整路径的补偿。

这里定义一个累加距离(cumulativedistances)。从(0,0)点开始匹配这两个序列q和c,每到一个点,之前所有的点计算的距离都会累加。到达终点(n,m)后,这个累积距离就是上面说的最后的总的距离,也就是序列q和c的相似度。

累积距离γ(i,j)可以按下面的方式表示,累积距离γ(i,j)为当前格点距离d(i,j),也就是点qi和cj的欧式距离(相似性)与可以到达该点的最小的邻近元素的累积距离之和:

γ(i,j)=d(qi,cj)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)}

2、实验方法

通过模拟程序模拟出多条数据波形,形成数据序列化,作为待检测波形的数据比对库。由于波形模拟是针对dtw处理,没有考虑实际中噪声的影响,所以没有进行滤波处理。

通过随机截取一段数据波形作为待匹配数据波形,然后逐个对数据序列化的波形进行比对。

3、实验结果

图2为波形数据序列化,将波形序列与数据比对库的匹配结果见图3,每一条波形都会得到一个匹配最大值点,对每个波形的匹配最大值点进行比对,找到其中最大值即得到相似度最高的目标波形。

实施例2实测波形并比对

1、实验方法

1)从待测生命体中,通过试剂盒直接提取、纯化dna;

2)通过末端修复-链接酶法为纯化后的dna加纳米孔文库接头;

3)将带有接头的核酸与含有mspa纳米孔测序所需电解质溶液混合,获得混合液;

4)将混合液中加入含有mspa纳米孔的微流体系统检测芯片,接入测序电路,使得待测生命体核酸通过纳米孔;

5)读取纳米孔电流信号,获得待测生命体膜片钳实测数据波形。

2、实验结果

膜片钳实测数据波形见图4第一行所示,可以看出,膜片钳实测的数据信号抖动很大,高频分量噪声对整个信号带宽的信噪比产生了很大的影响,将实测数据波形进行低通滤波器(见图4第二行)、中值滤波器进行处理(见图4第三行)。可以看出经过低通滤波器后波形数据的高频抖动被滤掉了很大一部分,在很大程度上提高了整个信号带宽上有用信号的带内信噪比,但此时在局部上还是存在一些阶跃性较大的尖峰和毛刺干扰信号,然后再经过中值滤波得到第三行所示的波形,可以看出经过中值滤波器后跃性较大的尖峰和毛刺干扰信号基本可以滤掉,且通过两级滤波后信号的原始信号没有被破坏,边缘的跳变也基本保留完整。

如图5所示,在波形数据中截取一段波形作为待匹配波形,然后通过图6中介绍的方法进行处理,可以看到通过dtw处理后能找到该信号相似点。

以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。

此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1