一种高通量基因测序的有效数据分类寻优目标检测系统及检测方法

文档序号:6519809阅读:398来源:国知局
一种高通量基因测序的有效数据分类寻优目标检测系统及检测方法
【专利摘要】本发明提供的是高通量基因测序的有效数据分类寻优目标检测系统及检测方法。包括依次相连的测序仪、数据库模块和数据处理模块。测序仪对所需测序基因进行测序并将测序数据存储到所述数据库模块中;数据处理模块包括数据归类模块、目标检测模块、有效数据模块、操作单元分类模块、相似度寻优模块、结果显示模块和无效数据模块。本发明针对高通量基因测序数据序列庞杂的特性,对所测数据序列进行归类参数的选取和效值的赋值或定义,经过数据归类子模块的循环递近归类,配合目标检测模块,判断是否进行数据归类优化,获得有效数据;并进行不同相似度下的操作单元优化分类,计算分类单元出现的频率,从而实现庞杂高通量基因序列的最优有效序列目标检测。
【专利说明】一种高通量基因测序的有效数据分类寻优目标检测系统及检测方法
【技术领域】
[0001]本发明涉及的是一种基因测序数据处理装置,特别涉及一种高通量基因测序分类寻优目标检测系统。本发明也涉及一种高通量基因测序分类寻优目标检测方法。
【背景技术】
[0002]基因是遗传物质的基础,是DNA或RNA分子上具有遗传信息的特定核苷酸序列,由
A、T、C、G四种碱基组成。基因测序方法有很多种,常见的有荧光标记的sanger法、循环阵列合成测序法、直接测序法、高通量测序法等。高通量基因测序是一次进行几十万到几百万条DNA分子的序列测定,又称为深度测序。高通量测序仪目前有罗氏公司(Roche)的454FLX 焦憐酸测序平台(454 FLX pyrosequencing platform),美国 Illumina 公司的 Solexa基因组分析平台(Genome Analyzer platform)和ABI公司的SOLiD测序仪(ABI SOLiDsequencer)。
[0003]高通量基因测序有效数据分类目标检测技术具有重要的地位,提供准确可用的测序序列是对基因测序工作进行分析的首要任务之一。如何从大量、繁杂的数据中,快速而又有效地找到可用序列,不仅具有重要的理论和实际意义,也是国内外基因测序数据分类目标检测的难点和热点。
[0004]公开(公告)号为CN101680872A,名称为序列比较分析方法和系统的专利文件中,公开了一种通过比较样本核酸序列信息与参考核酸序列信息或从参考样本获得的信息来快速鉴别或确定样本核酸中的序列信息的方法,还提供进行序列比较分析的自动化系统。
[0005]公开(公告)号为CN101918590A,名称为核酸测序的专利文件中,涉及核酸序列分析,高通量平行DNA序列的方法与设备。同时提供了一种筛选分析样品序列的方法,用于富集靶序列或去除特定分子,尤其是测序样品中不需要的序列模版。
[0006]公开(公告)号为CN102477460A,名称为对宏基因组16S高可变区V6进行测序聚类分析的方法的专利文件中,公开了一种对宏基因组16S高可变区V6进行测序聚类分析的方法,该方法包括:提取微生物DNA ;通过引物对宏基因组16S rDNA的高可变区V6进行PCR,并为每个样品加上标签序列;把不同样品的PCR产物进行混合;对混合后的PCR产物进行Solexa建库法建库;使用Solexa测序工具对高可变区V6的文库进行双末端pair_end测序,得到原始的测序数据;对测序数据进行筛选,以过滤掉低质量的数据;利用重叠群的关系对高可变区V6的全长序列进行组装;通过标签序列把reads分配到对应的样品上;通过对reads进行分类分析,以实现使用高可变区的测序对微生物群体进行高通量和精准的分类。
【发明内容】

[0007]本发明的目的在于提供一种速度快、精度高的高通量基因测序的有效数据分类寻优目标检测系统。本发明的目的还在于提供一种基于本发明的高通量基因测序的有效数据分类寻优目标检测系统的检测方法。
[0008]本发明的高通量基因测序的有效数据分类寻优目标检测系统包括依次相连的测序仪、数据库模块和数据处理模块,所述测序仪对所需测序基因进行测序并将测序数据存储到所述数据库模块中;所述的数据处理模块包括数据归类模块、目标检测模块、有效数据模块、操作单元分类模块、相似度寻优模块、结果显示模块和无效数据模块,数据归类模块对所测数据序列进行归类处理,即所测数据序列若具有归类参数R所述性质,则进行读取归类,所测数据序列若不具有归类参数R所述性质,则该数据序列进入无效数据模块;目标检测模块对经过数据归类模块的循环递近归类后的数据序列进行同时满足所选归类参数有效值或有效定义的检测,通过同时满足所选归类参数有效值或有效定义的检测的数据序列,若是多于或者少于预定的实验分析数据序列数则进行数据优化;有效数据模块用以对满足循环递近归类的数据序列进行处理;操作单元分类模块用以对有效数据模块中的所有数据序列根据设定的相似度进行操作单元分类,并计算分类单元出现的频率;相似度寻优模块按照相似度的不同,设定相似度间隔百分点,将有效数据模块中的所有数据序列重新进行操作单元分类,输出操作单元分类结果及计算分类单元出现的频率;结果显示模块将目标检测模块的检测结果、有效数据的结果、操作单元分类模块的结果和计算分类单元出现的频率在结果显示模块上显示;无效数据模块存储数据归类模块和目标检测模块中的不符合要求的数据。是将权利要求书改过的部分复制到此
[0009]本发明的高通量基因测序的有效数据分类寻优目标检测系统还可以包括:
[0010]1、所述数据归类模块对测序数据进行归类处理具体包括:
[0011]从数据库中读取所测数据序列作为样本用S表示,样本总数为n,所测数据序列若具有归类参数R所述性质,则按以下步骤进行读取归类,所测数据序列若不具有归类参数R所述性质,则该序列进入无效模块;
[0012]( I)归类参数R,若有i个,则每个参数计为H……、民,归类子模块个数为也为i个,计为:R1、R2、……、RI,归类循环级数为1-Ι级;所述归类参数R可以包括序列长度、碱基有效序列、启动子序列、标签序列和控制序列等;
[0013](2)根据归类参数的个数i,将所测数据序列总样本η分为i份,每份序列计为S1、S2、……、Si,每份序列中对应的序列个数相近,SI中的序列则计为S1-US1-2、……、
Sl-j1,S2 则计为 S2-l、S2-2、......、S2_j2,Si 则计为 Si_l、Si_2、S1......、Sl-Ji,其中,j1、
j2、......、j1分别为每份样本中的序列个数,且满足f+j2+......+jm总和为样本总数η ;
[0014](3) I级循环归类子模块的归类过程如下:
[0015]所测数据序列对应的I级归类子模块个数为i个,计为RU R2、......、RI,总样本
η也分为i份,每份数据序列计为S1、S2、……、Si,则I级归类对应关系为:
[0016]Sl-Rl、S2_R2、......、S1-RI ;
[0017]输出的对应数据序列计为1S1、1S2、……、lSi;
[0018](4) 2级循环归类子模块的归类过程如下:
[0019]对应的2级归类子模块个数仍为i个,计为RU R2、……、RI,经由I级归类子模块输出的对应数据序列计为1S1、1S2、……、lSi,则2级归类对应关系为:
[0020]1S1-R2、1S2-R3、......US1-Rl ;
[0021]则输出的对应数据序列计为2S1、2S2、……、2Si ;
[0022](5)依此类推,1-Ι级循环归类子模块的归类过程如下:
[0023]对应的1-Ι级归类子模块个数仍为i个,计为RU R2、……、RI,经由i_2级归类子模块输出的对应数据序列计为(i_2)Sl、(1-2)S2、……、(1-2) Si,则1-Ι级归类对应关系为:
[0024](1-2) Sl-R1、(1-2) S2-R1、......, (1-2) S1-R (1-1);
[0025]则输出的对应数据序列计为(1-l)Sl、(i_l)S2、……、(1-l)Si ;
[0026](6)确定归类参数的参考值域或评判值域,如当归类参数R1是序列长度时,有效数据序列长度值域计为X,则数据序列长度值满足X时,进入归类参数R1子模块,若数据序列长度值不满足X时,则该数据序列进入无效模块;
[0027](7)确定归类参数的参考值域或评判值域,如当归类参数R2是碱基误读时,单一数据序列所含碱基字母除A、T、C、G外,其余字母出现频度总和计为P,则序列出现频度值小于等于P值,进入归类参数R2子模块,若数据序列出现频度值大于P值,则该数据序列进入无效模块;
[0028](8)确定归类参数的参考值域或评判值域,如当归类参数R3是启动子时,则数据序列中含有启动子序列的,进入归类参数R3子模块,若数据序列中不含有启动子序列的,则该数据序列进入无效模块;
[0029](9)确定归类参数的参考值域或评判值域,如当归类参数R4是标签序列时,则数据序列中有标签序列的,进入归类参数R4子模块,若数据序列中不含有标签序列的,则该数据序列进入无效|吴块;
[0030](10)确定归类参数的参考值域或评判值域,如当归类参数Ri是控制序列时,则数据序列中有控制序列的,进入归类参数Ri子模块,若数据序列中不含有控制序列的,则该数据序列进入无效模块。2、所述有效数据模块用以进行有效数据的处理具体包括:
[0031](I)对通过目标检测模块的数据序列进行有效的截取;
[0032](2)去掉数据序列中的启动子序列;
[0033](3)去掉数据序列中的标签序列;
[0034](4)去掉数据序列中的控制序列。
[0035]3、操作单元分类模块对有效数据模块中的所有数据序列进行单元分类具体包括:
[0036]( I)选择一个相似度值,对有效数据序列进行操作单元分类;
[0037](2)判断操作单元分类可否满足要求,若满足,则进入结果显示模块,计算分类单元出现的频率,输出;若不满足,则进入相似度寻优模块。
[0038]4、所述数据优化是对归类参数的有效值进行重新赋值或者重新定义,重新开始数据归类模块的工作过程,直至归类数据满足预定的数据数为止。
[0039]基于本发明的高通量基因测序的有效数据分类寻优目标检测系统的检测方法为:
[0040]测序仪对所需测序基因进行测序并将测出的数据序列存储到数据库模块中,数据处理模块包括数据归类模块、目标检测模块、有效数据模块、操作单元分类模块、相似度寻优模块、结果显示模块和无效数据模块,数据处理模块按照如下步骤进行检测:
[0041](I)从数据库模块中读取所测数据序列作为样本用S表示,样本总数计为n,所测数据序列若具有归类参数R所述性质,则按以下步骤进行读取归类,所测数据序列若不具有归类参数R所述性质,则`该序列无效;[0042]1.1)归类参数R,若有i个,则每个参数计为Rp R2>……、Ri,归类子模块个数也为为i个,计为:R1、R2、......、RI,归类循环级数为1-Ι级;
[0043]1.2)根据归类参数的个数i,将所测数据序列总样本η分为i份,每份数据序列计为S1、S2、……、Si,每份序列中对应的序列个数相近;
[0044]1.3) I级循环归类子模块的归类过程如下:
[0045]所测数据序列总样本η分为i份,每份数据序列计为S1、S2、......、Si,对应的I
级归类子模块个数也为i个,计为R1、R2、……、RI,则I级归类对应关系为:
[0046]S1-R1、S2-R2、......,S1-RI ;
[0047]输出的对应数据序列计为1S1、1S2、……、lSi;
[0048]1.4) 2级循环归类子模块的归类过程如下:
[0049]对应的2级归类子模块个数仍为i个,计为RU R2、……、RI,经由I级归类子模块输出的对应数据序列计为1S1、1S2、……、lSi,则2级归类对应关系为:
[0050]1S1-R2、1S2-R3、......US1-Rl ;
[0051]则输出的对应数据序列计为2S1、2S2、……、2Si ;
[0052]1.5)依此类推,1-Ι级循环归类子模块的归类过程如下:
[0053]对应的1-Ι级归类子模块个数仍为i个,计为RU R2、……、RI,经由i_2级归类子模块输出的对应数据序列计为(i_2)Sl、(1-2)S2、……、(1-2) Si,则1-Ι级归类对应关系为:
[0054](1-2) Sl-R1、(1-2) S2-R1、......, (1-2) S1-R (1-1);
[0055]则输出的对应数据序列计为(1-l)Sl、(i_l)S2、……、(1-l)Si ;
[0056]1.6)确定归类参数的参考值域或评判值域,如当归类参数R1是序列长度时,有效数据序列长度值域计为X,则数据序列长度值满足X时,进入归类参数R1子模块,若数据序列长度值不满足X时,则该数据序列进入无效模块;
[0057]1.7)确定归类参数的参考值域或评判值域,如当归类参数R2是碱基误读时,单一数据序列所含碱基字母除A、T、C、G外,其余字母出现频度总和计为P,则序列出现频度值小于等于P值,进入归类参数R2子模块,若数据序列出现频度值大于P值,则该数据序列进入无效模块;
[0058]1.8)确定归类参数的参考值域或评判值域,如当归类参数R3是启动子时,则数据序列中含有启动子序列的,进入归类参数R3子模块,若数据序列中不含有启动子序列的,则该数据序列进入无效模块;
[0059]1.9)确定归类参数的参考值域或评判值域,如当归类参数R4是标签序列时,则数据序列中有标签序列的,进入归类参数R4子模块,若数据序列中不含有标签序列的,则该数据序列进入无效模块;
[0060]1.10)确定归类参数的参考值域或评判值域,如当归类参数Ri是控制序列时,则数据序列中有控制序列的,进入归类参数Ri子模块,若数据序列中不含有控制序列的,则该数据序列进入无效模块;
[0061](2)经过各级子模块循环递近归类后的数据序列,用以下方法进行有效数据检测:
[0062]测序数据经过数据归类子模块的循环递近归类后,要同时满足所有归类参数有效值或有效定义的检测;通过检测的序列,若是多于或者少于预定的实验分析数据序列数,则进行数据优化;所述数据优化是采用对归类参数的有效值进行重新赋值或者重新定义,重新开始数据归类模块的工作过程,直至归类数据满足预定的实验分析数据序列数为止;
[0063]( 3 )对有效数据进行处理:
[0064]3.1)进行数据序列的截取;
[0065]3.2)去掉数据序列中的启动子序列;
[0066]3.3)去掉数据序列中的标签序列;
[0067]3.4)去掉数据序列中的控制序列;
[0068](4)对处理后的有效数据进行操作单元分类:
[0069]4.1)选择一个相似度值,对有效数据序列进行操作单元分类;
[0070]4.2)操作单元分类可否满足实验分析要求,若满足则计算分类单元出现的频率并输出;
[0071]4.3)操作单元分类可否满足实验分析要求,若不满足则进行相似度寻优;
[0072](5)相似度寻优:按照相似度的不同,设定相似度间隔百分点,将处理后获得的有效数据序列进行重新分类,输出操作单元分类结果及计算分类单元出现的频率。
[0073]本发明的检测方法还可以包括:
[0074]1、将目标检测结果、有效数据结果、操作单元分类结果和计算分类单元出现频率的结果通过显示模块显示。
[0075]2、步骤(I) (2)中的无效数据归入无效数据模块。
[0076]本发明的技术构思为:本发明针对高通量基因测序数据庞杂的特性,对所测数据进行归类参数的选取和参数有效值的赋值或是定义,然后经过数据归类子模块的循环递近归类,配合目标检测模块,判断是否进行数据归类优化,获得有效数据;并对有效数据进行不同相似度下的操作单元优化分类,计算分类单元出现的频率,从而实现庞杂高通量基因序列的最优有效序列目标检测。
[0077]本发明基于高通量测序所得到的大量繁杂数据,力求通过模块寻优的方法对数据进行分析处理。与已公开的技术方案不同,本发明侧重提供一种高通量基因测序的有效数据分类寻优目标检测系统的检测,可以对不同测序工具的数据结果进行寻优检测,有效避免了人为干扰。
[0078]本发明的有益效果主要表现在:1、可以从大量的无序数据中检测出符合要求的有效数据;2、所用的检测方法可以实现平行递近交叉;3、精度高,避免人为影响。
【专利附图】

【附图说明】
[0079]图1是本发明的检测系统的结构图;
[0080]图2是本的数据处理模块的构成示意图。
【具体实施方式】
[0081]下面结合附图对本发明作进一步描述。本发明实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。[0082]实施例1
[0083]以高通量454基因测序技术为例,在进行emPCR扩增时需要设计的PCR引物,引物是成对设计的,在其中I个引物的一端要加上2段完全自由设计的碱基序列,第I段是标签序列(barcode),这个是根据实验所测样品的数目决定的,进行分类用,通常是5_8个碱基组成,至少可以选4个碱基,测序前,所有的样品都在一个小管里;第2段是测序引物用于控制识别序列,一般由8-25个碱基组成,以保证测序后机器可以识别正确的序列,通过程序设定的控制程序来进行序列质量控制,使后续分析软件可以确定从哪里开始读取序列。其它的高通量测序技术,根据平台实际要求选取归类参数。 [0084]参照图1、图2,一种高通量454基因测序有效数据分类寻优目标检测系统,包括测序仪1、数据库2及数据处理模块3,测序仪1、数据库2及数据处理模块3依次相连,所述测序仪I对所测序基因进行测序,并将测序数据储存到所述的数据库2,所述的数据处理模块3包括:
[0085]数据归类模块4,用以进行高通量基因所测数据序列处理,采用如下过程完成:
[0086]从数据库中读取所测数据序列作为样本用S表示,样本总数为n,所测数据序列若具有归类参数R所述性质,则按以下步骤进行读取归类,所测数据序列若不具有归类参数R所述性质,则该序列进入无效模块;
[0087](I)归类参数R,若有i个,则每个参数计为H......、民,归类子模块个数为也
为i个,计为:R1、R2、……、RI,归类循环级数为1-Ι级;所述归类参数R可以包括序列长度、碱基有效序列、启动子序列、标签序列和控制序列等;
[0088](2)根据归类参数的个数i,将所测数据序列总样本η分为i份,每份序列计为S1、S2、……、Si,每份序列中对应的序列个数相近,SI中的序列则计为S1-US1-2、……、
Sl-j1, S2 则计为 S2-l、S2-2、......、S2_j2,Si 则计为 Si_l、Si_2、S1......、Sl-Ji,其中,j1、
j2、......、j1分别为每份样本中的序列个数,且满足f+j2+......+jm总和为样本总数η ;
[0089](3) I级循环归类子模块的归类过程如下:
[0090]所测数据序列对应的I级归类子模块个数为i个,计为RU R2、......、RI,总样本
η也分为i份,每份数据序列计为S1、S2、……、Si,则I级归类对应关系为:
[0091]Sl-Rl、S2_R2、......、S1-RI ;
[0092]输出的对应数据序列计为1S1、1S2、……、lSi;
[0093](4) 2级循环归类子模块的归类过程如下:
[0094]对应的2级归类子模块个数仍为i个,计为RU R2、……、RI,经由I级归类子模块输出的对应数据序列计为1S1、1S2、……、lSi,则2级归类对应关系为:
[0095]1S1-R2、1S2-R3、......US1-Rl ;
[0096]则输出的对应数据序列计为2S1、2S2、……、2Si ;
[0097](5)依此类推,1-Ι级循环归类子模块的归类过程如下:
[0098]对应的1-Ι级归类子模块个数仍为i个,计为RU R2、……、RI,经由i_2级归类子模块输出的对应数据序列计为(i_2)Sl、(1-2)S2、……、(1-2) Si,则1-Ι级归类对应关系为:
[0099](1-2) Sl-R1、(1-2) S2-R1、......, (1-2) S1-R (1-1);
[0100]则输出的对应数据序列计为(1-l)Sl、(i_l)S2、……、(1-l)Si ;[0101](6)确定归类参数的参考值域或评判值域,如当归类参数R1是序列长度时,有效数据序列长度值域计为X,则数据序列长度值满足X时,进入归类参数R1子模块,若数据序列长度值不满足X时,则该数据序列进入无效模块;
[0102](7)确定归类参数的参考值域或评判值域,如当归类参数R2是碱基误读时,单一数据序列所含碱基字母除a、t、c、g外,其余字母出现频度总和计为P,则序列出现频度值小于等于P值,进入归类参数R2子模块,若数据序列出现频度值大于P值,则该数据序列进入无效模块;
[0103](8)确定归类参数的参考值域或评判值域,如当归类参数R3是启动子时,则数据序列中含有启动子序列的,进入归类参数R3子模块,若数据序列中不含有启动子序列的,则该数据序列进入无效模块;
[0104](9)确定归类参数的参考值域或评判值域,如当归类参数R4是标签序列时,则数据序列中有标签序列的,进入归类参数R4子模块,若数据序列中不含有标签序列的,则该数据序列进入无效|吴块;
[0105](10)确定归类参数的参考值域或评判值域,如当归类参数Ri是控制序列时,则数据序列中有控制序列的,进入归类参数Ri子模块,若数据序列中不含有控制序列的,则该数据序列进入无效模块。
[0106]目标检测模块,用以进行有效数据序列检测,采用如下过程完成:
[0107]( I)所测数据序列经过数据归类子模块的循环递近归类后,需要进行同时满足所选归类参数有效值或有效定义的检测;
[0108](2)通过同时满足所选归类参数有效值或有效定义的检测的数据序列,若是多于或者少于预定的实验分析数据序列数,则需要进行数据序列归类优化;
[0109]数据归类优化模块,是对归类参数的有效值进行重新赋值或者重新定义,重新开始数据序列归类模块的工作过程,直至归类数据序列数满足预定的实验分析序列数为止。
[0110]有效数据模块,用以进行有效数据的处理,采用如下过程完成:
[0111](I)对通过目标检测模块的数据序列进行有效的截取;
[0112](2)去掉数据序列中的启动子序列;
[0113](3)去掉数据序列中的标签序列;
[0114](4)去掉数据序列中的控制序列。
[0115]操作单元分类模块,用以对有效数据模块中的所有数据序列进行操作单元分类,采用如下过程完成:
[0116](I)选择一个相似度值,对有效数据序列进行操作单元分类;
[0117](2)判断操作单元分类可否满足要求,若满足,则进入结果显示模块,计算分类单元出现的频率,输出;若不满足,则进入相似度寻优模块。
[0118]相似度寻优模块,按照相似度的不同,设定相似度间隔百分点,将有效数据模块中的数据序列进行重新分类,输出操作单元分类结果,并计算分类单元出现的频率;
[0119]无效数据模块,存储数据归类模块和有效数据序列模块中的不符合要求的数据。
[0120]所述数据处理模块3的硬件部分还还包括:1/0元件,用于数据序列的采集和信息的传递;数据存储器,存储运行所需的数据序列样本和运行参数等等;程序存储器,存储实现功能的软件程序;运算器,执行程序,实现指定功能;显示模块,显示设置的参数和检测结果。
[0121]实施例2
[0122]参照图1、图2,一种高通量基因测序有效数据分类寻优目标检测方法,所述的方法包括以下步骤:
[0123]测序仪对实验所需基因进行测序并将测出的数据序列存储到数据库模块中,数据处理模块包括数据归类模块、目标检测模块、有效数据模块、操作单元分类模块、相似度寻优模块、结果显示模块和无效数据模块,数据处理模块按照如下步骤进行检测:
[0124](I)从数据库模块中读取所测数据序列作为样本用S表示,样本总数计为n,所测数据序列若具有归类参数R所述性质,则按以下步骤进行读取归类,所测数据序列若不具有归类参数R所述性质,则该序列无效;
[0125]1.1)归类参数R,若有i个,则每个参数计为%、R2、……、Ri,归类子模块个数也为为i个,计为:R1、R2、......、RI,归类循环级数为1-Ι级;
[0126]1.2)根据归类参数的个数i,将所测数据序列总样本η分为i份,每份数据序列计为S1、S2、……、Si,每份序列中对应的序列个数相近;
[0127]1.3) I级循环归类子模块的归类过程如下:
[0128]所测数据序列总样本η分为i份,每份数据序列计为S1、S2、......、Si,对应的I
级归类子模块个数也为i个,计为R1、R2、……、RI,则I级归类对应关系为:
[0129]Sl-Rl、S2_R2、......,S1-RI ;
[0130]输出的对应数据序列计为1S1、1S2、……、lSi;
[0131]1.4) 2级循环归类子模块的归类过程如下:
[0132]对应的2级归类子模块个数仍为i个,计为RU R2、……、RI,经由I级归类子模块输出的对应数据序列计为1S1、1S2、……、lSi,则2级归类对应关系为:
[0133]1S1-R2、1S2-R3、......US1-Rl ;
[0134]则输出的对应数据序列计为2S1、2S2、……、2Si ;
[0135]1.5)依此类推,1-Ι级循环归类子模块的归类过程如下:
[0136]对应的1-Ι级归类子模块个数仍为i个,计为RU R2、……、RI,经由1-2级归类子模块输出的对应数据序列计为(i_2)Sl、(1-2)S2、……、(1-2) Si,则1-Ι级归类对应关系为:
[0137](1-2) Sl-R1、(1-2) S2-R1、......, (1-2) S1-R (1-1);
[0138]则输出的对应数据序列计为(1-l)Sl、(i_l)S2、……、(1-l)Si ;
[0139]1.6)确定归类参数的参考值域或评判值域,如当归类参数R1是序列长度时,有效数据序列长度值域计为X,则数据序列长度值满足X时,进入归类参数R1子模块,若数据序列长度值不满足X时,则该数据序列进入无效模块;
[0140]1.7)确定归类参数的参考值域或评判值域,如当归类参数R2是碱基误读时,单一数据序列所含碱基字母除a、t、c、g外,其余字母出现频度总和计为P,则序列出现频度值小于等于P值,进入归类参数R2子模块,若数据序列出现频度值大于P值,则该数据序列进入无效模块;
[0141]1.8)确定归类参`数的参考值域或评判值域,如当归类参数R3是启动子时,则数据序列中含有启动子序列的,进入归类参数R3子模块,若数据序列中不含有启动子序列的,则该数据序列进入无效模块;
[0142]1.9)确定归类参数的参考值域或评判值域,如当归类参数R4是标签序列时,则数据序列中有标签序列的,进入归类参数R4子模块,若数据序列中不含有标签序列的,则该数据序列进入无效模块;
[0143]1.10)确定归类参数的参考值域或评判值域,如当归类参数Ri是控制序列时,则数据序列中有控制序列的,进入归类参数Ri子模块,若数据序列中不含有控制序列的,则该数据序列进入无效模块;
[0144](2)经过各级子模块循环递近归类后的数据序列,用以下方法进行有效数据检测:
[0145]测序数据经过数据归类子模块的循环递近归类后,要同时满足所有归类参数有效值或有效定义的检测;通过检测的序列,若是多于或者少于预定的实验分析数据序列数,则进行数据优化;所述数据优化是采用对归类参数的有效值进行重新赋值或者重新定义,重新开始数据归类模块的工作过程,直至归类数据满足预定的实验分析数据序列数为止;
[0146](3)对有效数据进行处理:
[0147]3.1)进行数据序列的截取;
[0148]3.2)去掉数据序列中的启动子序列;
[0149]3.3)去掉数据序列中的标签序列;
[0150]3.4)去掉数据序列中的控制序列;
[0151](4)对处理后的有效数据进行操作单元分类:
[0152]4.1)选择一个相似度值,对有效数据序列进行操作单元分类;
[0153]4.2)操作单元分类可否满足实验分析要求,若满足则计算分类单元出现的频率并输出;
[0154]4.3)操作单元分类可否满足实验分析要求,若不满足则进行相似度寻优;
[0155](5)相似度寻优:按照相似度的不同,设定相似度间隔百分点,将处理后获得的有效数据序列进行重新分类,输出操作单元分类结果及计算分类单元出现的频率。
[0156](6)将目标检测结果、有效数据结果、操作单元分类结果和计算分类单元出现频率的结果通过结果显示模块显示。
[0157](7)步骤(I) (2)中的无效数据归入无效数据模块。
【权利要求】
1.一种高通量基因测序的有效数据分类寻优目标检测系统,包括依次相连的测序仪、 数据库模块和数据处理模块,其特征是:所述测序仪对所需测序基因进行测序并将测序数据存储到所述数据库模块中;所述的数据处理模块包括数据归类模块、目标检测模块、有效数据模块、操作单元分类模块、相似度寻优模块、结果显示模块和无效数据模块,数据归类模块对所测数据序列进行归类处理,即所测数据序列若具有归类参数R所述性质,则进行读取归类,所测数据序列若不具有归类参数R所述性质,则该数据序列进入无效数据模块; 目标检测模块对经过数据归类模块的循环递近归类后的数据序列进行同时满足所选归类参数有效值或有效定义的检测,通过同时满足所选归类参数有效值或有效定义的检测的数据序列,若是多于或者少于预定的实验分析数据序列数则进行数据优化;有效数据模块用以对满足循环递近归类的数据序列进行处理;操作单元分类模块用以对有效数据模块中的所有数据序列根据设定的相似度进行操作单元分类,并计算分类单元出现的频 率;相似度寻优模块按照相似度的不同,设定相似度间隔百分点,将有效数据模块中的所有数据序列重新进行操作单元分类,输出操作单元分类结果及计算分类单元出现的频率;结果显示模块将目标检测模块的检测结果、有效数据的结果、操作单元分类模块的结果和计算分类单元出现的频率在结果显示模块上显示;无效数据模块存储数据归类模块和目标检测模块中的不符合要求的数据。
2.根据权利要求1所述的高通量基因测序的有效数据分类寻优目标检测系统,其特征是所述数据归类模块对所测数据序列进行归类处理具体包括:从数据库中读取所测数据序列作为样本用S表示,样本总数为n,所测数据序列若具有归类参数R所述性质,则按以下步骤进行读取归类,所测数据序列若不具有归类参数R所述性质,则该序列进入无效模块;(1)归类参数R,若有i个,则每个参数计为凡、R2、......、Ri,归类子模块个数为也为i个,计为:R1、R2、......、RI,归类循环级数为i_l级;所述归类参数R括序列长度、碱基有效序列、启动子序列、标签序列和控制序列等;(2)根据归类参数的个数i,将所测数据序列总样本n分为i份,每份序列计为S1、 S2、……、Si,每份序列中对应的序列个数相近,SI中的序列则计为Sl-1、S1-2、……、Sl-j1,S2 则计为 S2-l、S2-2、......、S2-j2,Si 则计为 Si_l、Si_2、S1......、Sl-jS其中,j1、j2、......、j1分别为每份样本中的序列个数,且满足f+j2+......+jm总和为样本总数n ;(3)I级循环归类子模块的归类过程如下:所测数据序列对应的I级归类子模块个数为i个,计为Rl、R2、......、RI,总样本n也分为i份,每份数据序列计为S1、S2、……、Si,则I级归类对应关系为:Sl-Rl、S2-R2、......、S1-RI;输出的对应数据序列计为1S1、1S2、……、lSi;(4)2级循环归类子模块的归类过程如下:对应的2级归类子模块个数仍为i个,计为Rl、R2、……、RI,经由I级归类子模块输出的对应数据序列计为1S1、1S2、……、lSi,则2级归类对应关系为:1S1-R2、1S2-R3、......US1-Rl;则输出的对应数据序列计为2S1、2S2、……、2Si ;(5)依此类推,1-1级循环归类子模块的归类过程如下:对应的i_l级归类子模块个数仍为i个,计为Rl、R2、……、RI,经由i_2级归类子模块输出的对应数据序列计为(i_2)Sl、(1-2)S2、……、(1-2)Si,则1-1级归类对应关系为:(1-2) Sl-R1、(1-2) S2-R1、......、(i_2)Si_R (1-1);则输出的对应数据序列计为(1-1) S1、(1-l)S2、……、(1-1) Si ;(6)确定归类参数的参考值域或评判值域,如当归类参数R1是序列长度时,有效数据序列长度值域计为X,则数据序列长度值满足X时,进入归类参数R1子模块,若数据序列长度值不满足X时,则该数据序列进入无效模块;(7)确定归类参数的参考值域或评判值域,如当归类参数R2是碱基误读时,单一数据序列所含碱基字母除A、T、C、G外,其余字母出现频度总和计为P,则序列出现频度值小于等于 P值,进入归类参数R2子模块,若数据序列出现频度值大于P值,则该数据序列进入无效模块;(8)确定归类参数的参考值域或评判值域,如当归类参数R3是启动子时,则数据序列中含有启动子序列的,进入归类参数R3子模块,若数据序列中不含有启动子序列的,则该数据序列进入无效|吴块;(9)确定归类参数的参考值域或评判值域,如当归类参数R4是标签序列时,则数据序列中有标签序列的,进入归类参数R4子模块,若数据序列中不含有标签序列的,则该数据序列进入无效模块;(10)确定归类参数的参考值域或评判值域,如当归类参数Ri是控制序列时,则数据序列中有控制序列的,进入归类参数Ri子模块,若数据序列中不含有控制序列的,则该数据序列进入无效模块。
3.根据权利要求2所述的高通量基因测序的有效数据分类寻优目标检测系统,其特征是所述有效数据模块用以进行有效数据的处理具体包括:(1)对通过目标检测模块的数据序列进行有效的截取;`(2)去掉数据序列中的启动子序列;(3)去掉数据序列中的标签序列;(4)去掉数据序列中的控制序列。
4.根据权利要求3所述的高通量基因测序的有效数据分类寻优目标检测系统,其特征是操作单元分类模块对有效数据模块中的所有数据序列进行单元分类具体包括:(1)选择一个相似度值,对有效数据序列进行操作单元分类;(2)判断操作单元分类可否满足要求,若满足,则进入结果显示模块,计算分类单元出现的频率,输出;若不满足,则进入相似度寻优模块。
5.根据权利要求4所述的高通量基因测序的有效数据分类寻优目标检测系统,其特征是所述数据优化是对归类参数的有效值进行重新赋值或者重新定义,重新开始数据归类模块的工作过程,直至归类数据满足预定的数据数为止。
6.一种基于权利要求1所述的高通量基因测序的有效数据分类寻优目标检测系统的检测方法,其特征是:测序仪对所需测序基因进行测序并将测出的数据序列存储到数据库模块中,数据处理模块包括数据归类模块、目标检测模块、有效数据模块、操作单元分类模块、相似度寻优模块、结果显示模块和无效数据模块,数据处理模块按照如下步骤进行检测:(O从数据库模块中读取所测数据序列作为样本用S表示,样本总数计为n,所测数据序列若具有归类参数R所述性质,则按以下步骤进行读取归类,所测数据序列若不具有归类参数R所述性质,则该序列无效; .1.1)归类参数R,若有i个,则每个参数计为札為、......、民,归类子模块个数也为为i个,计为:R1、R2、......、RI,归类循环级数为1-Ι级; .1.2)根据归类参数的个数i,将所测数据序列总样本η分为i份,每份数据序列计为S1、S2、……、Si,每份序列中对应的序列个数相近; .1.3) I级循环归类子模块的归类过程如下: 所测数据序列总样本η分为i份,每份数据序列计为S1、S2、......、Si,对应的I级归类子模块个数也为i个,计为R1、R2、……、RI,则I级归类对应关系为: Sl-Rl、S2-R2、......、S1-RI; 输出的对应数据序列计为1S1、1S2、……、lSi; .1.4) 2级循环归类子模块的归类过程如下: 对应的2级归类子模块个数仍为i个,计为Rl、R2、……、RI,经由I级归类子模块输出的对应数据序列计为1S1、1S2、……、lSi,则2级归类对应关系为: .1S1-R2、1S2-R3、......、lSi_Rl; 则输出的对应数据序列计为2S1、2S2、……、2Si ; .1.5)依此类推,1-Ι级循环归类子模块的归类过程如下: 对应的i_l级归类子模块个数仍为i个,计为Rl、R2、……、RI,经由i_2级归类子模块输出的对应数据序列计为(i_2)Sl、(1-2)S2、……、(1-2)Si,则i_l级归类对应关系为: (1-2) Sl-R1、(1-2) S2-R1、......、(i_2)Si_R (1-1); 则输出的对应数据序列计为(1-l)Sl、(1-l)S2、……、(1-l)Si ; .1.6)确定归类参数的参考值域或评判值域,如当归类参数R1是序列长度时,有效数据序列长度值域计为X,则数据序列长度值满足X时,进入归类参数R1子模块,若数据序列长度值不满足X时,则该数据序列进入无效模块; .1.7)确定归类参数的参考值域或评判值域,如当归类参数R2是碱基误读时,单一数据序列所含碱基字母除a、t、c、g外,其余字母出现频度总和计为P,则序列出现频度值小于等于P值,进入归类参数R2子模块,若数据序列出现频度值大于P值,则该数据序列进入无效模块; .1.8)确定归类参数的参考值域或评判值域,如当归类参数R3是启动子时,则数据序列中含有启动子序列的,进入归类参数R3子模块,若数据序列中不含有启动子序列的,则该数据序列进入无效模块; .1.9)确定归类参数的参考值域或评判值域,如当归类参数R4是标签序列时,则数据序列中有标签序列的,进入归类参数R4子模块,若数据序列中不含有标签序列的,则该数据序列进入无效模块; .1.10)确定归类参数的参考值域或评判值域,如当归类参数Ri是控制序列时,则数据序列中有控制序列的,进入归类参数Ri子模块,若数据序列中不含有控制序列的,则该数据序列进入无效模块; (2)经过各级子模块循环递近归类后的数据序列,用以下方法进行有效数据检测:测序数据经过数据归类子模块的循环递近归类后,要同时满足所有归类参数有效值或有效定义的检测;通过检测的序列,若是多于或者少于预定的实验分析数据序列数,则进行数据优化;所述数据优化是采用对归类参数的有效值进行重新赋值或者重新定义,重新开始数据归类模块的工作过程,直至归类数据满足预定的实验分析数据序列数为止; (3)对有效数据进行处理: ·3.1)进行数据序列的截取; ·3.2)去掉数据序列中的启动子序列; ·3.3)去掉数据序列中的标签序列; ·3.4)去掉数据序列中的控制序列; (4)对处理后的有效数据进行操作单元分类: ·4.1)选择一个相似度值,对有效数据序列进行操作单元分类; ·4.2)操作单元分类可否满足实验分析要求,若满足则计算分类单元出现的频率并输出; ·4.3)操作单元分类可否满足实验分析要求,若不满足则进行相似度寻优; (5)相似度寻优:按照相似度的不同,设定相似度间隔百分点,将处理后获得的有效数据序列进行重新分类,输出 操作单元分类结果及计算分类单元出现的频率。
7.根据权利要求6所述的基于高通量基因测序的有效数据分类寻优目标检测系统的检测方法,其特征是:将目标检测结果、有效数据结果、操作单元分类结果和计算分类单元出现频率的结果通过显示模块显示。
8.根据权利要求6或7所述的基于高通量基因测序的有效数据分类寻优目标检测系统的检测方法,其特征是:步骤(1) (2)中的无效数据归入无效数据模块。
【文档编号】G06F19/22GK103559425SQ201310585089
【公开日】2014年2月5日 申请日期:2013年11月19日 优先权日:2013年11月19日
【发明者】梁素钰, 刘滨凡, 田松岩, 刘延坤, 李琳, 孙清芳, 刘广菊, 刘长乐, 李云红, 贾丹, 杜倩, 邵英男, 王文帆, 陈瑶, 李东玫, 刘玉龙, 王刚 申请人:黑龙江省森林工程与环境研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1