基于微藻蛋白质特征序列标签匹配的蛋白质快速检测方法及系统与流程

文档序号：12064121阅读：来源：国知局

技术特征：

1.微藻蛋白质特征序列标签匹配的快速检测方法，其特征在于包括以下步骤：

步骤1：采集微藻样品，对样品进行RNA提取，样品纯度要求：OD值应在1.8至2.2之间；电泳检测28S：18S至少大于1.8，样品浓度：总RNA浓度不低于400ng/μg，用①Oligo(dT)富集mRNA，去除rRNA，将RNA随机打断，用随机引物和逆转录酶从RNA片段合成cDNA片段，cDNA片段末端修复，连接测序接头；②对于small RNA，进行3’和5’端接头连接，逆转录合成cDNA片段，最终将①和②的cDNA片段制备测序文库并进行测序，获得转录组测序的基因序列，之后翻译为蛋白质序列集；

或者根据所采集微藻的种类同时从美国国家生物技术信息中心(NBCI)下载对应的蛋白质序列集，并与上述蛋白质序列集合并；

步骤2：对步骤1得到的蛋白质序列集进行预处理，得到标准蛋白质序列集；

所述蛋白质序列集中的蛋白质序列有几百万条，得到标准蛋白质序列之后，该标准蛋白质序列中的每一条可以由几个、几百个甚至更多氨基酸组成，每一个氨基酸以20个字母G、S、A、T、V、D、N、L、I、E、Q、Y、F、H、P、M、W、K、C、R中的其中一个来表示；

步骤3：对该标准蛋白质序列集进行拆分配置处理，将其转换为对于一个给定序列片段的键/值对列表；

(1)选择需要进行匹配检测的蛋白质Pr，该Pr作为目标蛋白质；

(2)基于已有的文献确定(1)中Pr的氨基酸序列特征值，该特征值由多个氨基酸组构成，每个氨基酸组中有多个氨基酸；以i表示组数，将特征值的每组氨基酸记为PCF1、PCF2...PCFi；

(3)根据特征值将步骤2的标准蛋白质特征序列集进行排列：

排列后的数据记作以下形式：

<PCF1,PLT1>；…….<>……<PCF1,PLTj>

…….

<PCFi,PLT1>；…….<>……<PCFi,PLTj>

其中，PCF1-PCFi表示(2)中的特征值，i表示组数，PLT1-PLTj表示步骤2的蛋白质序列集中的每一条蛋白质序列数据，j表示步骤2中标准蛋白质序列集所含蛋白质序列数据的数量；从而得到一个对列表；

(4)检测(3)中对列表的每一行PLT1-PLTj是否含有该行之前所标注的PCFk，k属于1-i，将该行包含有PCFk的那些PLT1-PLTj中的元素检测出来，记作

<PCF1,PL1-1>；…….<>……<PCF1,PL1-j>

…….

<PCFi,PL i-1>；…….<>……<PCFi,PLi-j>

并将记作上述格式的数据作为键/值对列表，

其中，PL1-1至PL1-j表示第一行PLT1-PLTj中含有PCF1的标准蛋白质序列，PL1-1表示PLT1-PLTj中第一个含有该PCF1的标准蛋白质序列，PL1-j表示PLT1-PLTj中最后一个含有该PCF1的标准蛋白质序列；PLi-1至PLi-j表示第i行PLT1-PLTj中含有PCFi的标准蛋白质序列，PLi-1表示PLT1-PLTj中第一个含有该PCFi的标准蛋白质序列，PLi-j表示PLT1-PLTj中最后一个含有该PCFi的标准蛋白质序列；

步骤4：对上述键/值对列表，进行汇总；

接受上一步骤生成的键/值对列表，合并含有相同特征值的蛋白质序列，得到了分别包含第1至第i个蛋白质特征值的蛋白质序列，记作

<PCF1,PL[1-1….1-j]>

…

<PCFi,PL[i-1….i-j]>

其中，<PCF1,PL[1-1….1-j]>＝<PCF1,PL1-1，….PL 1-j>

…

<PCFi,PL[i-1….i-j]>＝<PCF1,PLi-1，….PL i-j>

并将记作上述格式的数据作为减化后的键/值对列表；

步骤5：对上一步得到的减化后的键/值对列表进行交集运算，以得出步骤1的蛋白质序列集中是否含有步骤3中指定的目标蛋白质；

[PCF1,...,PCFi]＝PL[1-1...1-j]∩…∩PL[i-1...i-j],

即以交集PL[1-1...1-j]∩…∩PL[i-1...i-j]表示上述PL[1-1…1-j]—PL[i-1…i-j]中，同时含有PCF1-PCFi的那些蛋白质序列；

当结果非空，则确定该数据集某条数据含有特征蛋白质序列。

2.如权利要求1所述的微藻蛋白质特征序列标签匹配的快速检测方法，其特征在于上述步骤3在其步骤(3)之后如下：

(4A)对所得的上述对列表进行分解：将对列表分解为若干个64M的文件，每个文件是上述对列表的一个子集，即子对列表；

(5A)设置多个检测节点(采用物理计算机)，将得到的子对列表分配至每个检测节点进行进一步检测；

(6A)每个检测节点检测其所分配的各个64M文件进行检测，以检测每一个子对列表中的每一行是否是否含有该行之前所标注的PCFk，k属于1-i；

所有检测节点完成检测时，即完成对(3)中对列表的每一行PLT1-PLTj是否含有该行之前所标注的PCFk，k属于1-i，将该行包含有PCFk的那些PLT1-PLTj中的元素检测出来，记作

<PCF1,PL1-1>；…….<>……<PCF1,PL1-j>

…….

<PCFi,PL i-1>；…….<>……<PCFi,PLi-j>

并将记作上述格式的数据作为键/值对列表，

3.如权利要求1所述的微藻蛋白质特征序列标签匹配的快速检测方法，其特征在于上述步骤3-5中；

当有n个检测节点，分别为1-n，假设分别分配了S₁，...，S_n个任务，且1-n个检测节点有一个完成任务，即剩余任务为0，并且各个节点当前完成任务数分别为s₁，....，s_n；

各个节点的剩余任务数为S₁-s₁，...，S_n-s_n，在非零的剩余任务中选取值最大者，动态调配一个任务给已完成任务的节点，更新完成任务节点的任务分配数加一，更剩余任务最大节点的任务分配数减一，每次当有节点出现分配任务全部完成时，重复上述分配方式，直到所有计算任务完成。

4.如权利要求1所述的微藻蛋白质特征序列标签匹配的快速检测方法，其特征在于上述步骤3-5中，所述的检测是选取PCF1，且PCF1的长度为L；在PLTn，n∈1-i中依次检索PCF1，含有PCF1片段的PLTn，与PCF1组成一个对应值<KEYPCF1,VALUEPLTn>；

对PCF2-PCFi依次重复上述步骤，并在步骤4中将所有获得的对应值进行整理获得键/值对列表。

5.微藻蛋白质特征序列标签匹配的快速检测系统，其特征在于该系统包括：

权限识别模块(1)，该权限识别模块(1)通过验证所输入的操作员代码及其密码以判断该操作员是否有权限使用本系统；

与上述权限识别模块(1)相连的检测数据输入模块(2)，包括目标蛋白质输入子模块(21)、特征值输入子模块(22)、蛋白质序列集输入模块(23)、NBCI蛋白质序列集输入子模块(24)；

其中，所述目标蛋白质输入子模块(21)与特征值输入子模块(22)相连，在向目标蛋白质输入子模块(21)输入目标蛋白质的名称之后，向所述的特征值输入子模块(22)输入目标蛋白质的特征值参数，参数包括特征值所含氨基酸组的个数i以及每个氨基酸组所包含的氨基酸片段；所输入的氨基酸片段表示为多个连续的字母，且每个字母为20个字母G、S、A、T、V、D、N、L、I、E、Q、Y、F、H、P、M、W、K、C、R中的其中一个；

所述的蛋白质序列集输入模块(22)，该模块应于输入翻译为蛋白质序列集的微藻基因序列；所述的NBCI蛋白质序列集输入子模块(24)用于输入从美国国家生物技术信息中心数据库对外开放接口获得的待检测蛋白质序列数据；

所述的检测数据输入模块(2)与蛋白质序列集汇总模块(3)相连，所述的蛋白质序列集汇总模块(3)将所述蛋白质序列集输入模块(23)与NBCI蛋白质序列集输入子模块(24)进行汇总，将蛋白质序列集的数量记为j，并将目标蛋白质特征值的i个氨基酸组进行排列，将排列后的氨基酸组标记为PCF1、PCF2...PCFi，将蛋白质序列集进行排列，并将排列后的蛋白质序列集标记为PLT1、PLT2...PLTj；

所述的蛋白质序列集汇总模块(3)与键/值对列表模块(4)相连，该键/值对列表模块(4)将经过蛋白质序列集汇总模块(3)排列后的氨基酸组和蛋白质序列集建立成以下形式的队列表：

<PCF1,PLT1>；…….<>……<PCF1,PLTj>

…….

<PCFi,PLT1>；…….<>……<PCFi,PLTj>

其中，PCF1-PCFi表示目标蛋白质的特征值，i组数；PLT1-PLTj表示蛋白质序列集中的每一条蛋白质序列数据，j表示标准蛋白质序列集所含蛋白质序列数据的数量；从而得到一个键/值对列表；

所述的键/值对列表模块(4)与检测识别模块(5)相连，该检测识别模块(5)接受上述键/值对列表模块(4)生成的键/值队列表，检测所得队列表每一行的PLT1-PLTj是否含有该行之前所标注的PCFk，k属于1-i，将该行包含有PCFk的那些PLT1-PLTj中的元素检测出来，记作

<PCF1,PL1-1>；…….<>……<PCF1,PL1-j>

…….

<PCFi,PL i-1>；…….<>……<PCFi,PLi-j>

并将记作上述格式的数据作为简化后的键/值对列表，

其中，PL1-1至PL1-j表示第一行PLT1-PLTj中含有PCF1的标准蛋白质序列，PL1-1表示PLT1-PLTj中第一个含有该PCF1的标准蛋白质序列，PL1-j表示PLT1-PLTj中最后一个含有该PCF1的标准蛋白质序列；

...

PLi-1至PLi-j表示第i行PLT1-PLTj中含有PCFi的标准蛋白质序列，PLi-1表示PLT1-PLTj中第一个含有该PCFi的标准蛋白质序列，PLi-j表示PLT1-PLTj中最后一个含有该PCFi的标准蛋白质序列；

所述的检测识别模块(5)与特征值交集运算模块(6)相连，

所述的特征值交集运算模块(6)对检测识别模块(5)得到的减化后的键/值对列表进行交集运算，以得出蛋白质序列集汇总模块(3)中的蛋白质序列集中是否含有特征值输入子模块(22)中蛋白质特征值；

[PCF1,...,PCFi]＝PL[1-1...1-j]∩…∩PL[i-1...i-j],

即以交集PL[1-1...1-j]∩…∩PL[i-1...i-j]表示上述PL[1-1…1-j]—PL[i-1…i-j]中，同时含有PCF1-PCFi的那些蛋白质序列；

所述的特征值交集运算模块(6)与检测输出模块(7)相连，

当上述交集非空，则确定蛋白质序列集汇总模块(3)中的蛋白质序列集中含有目标蛋白质输入子模块(21)输入目标蛋白质，所述的检测输出模块(7)将该结果输出；

当上述交集为空集，则确定蛋白质序列集汇总模块(3)中的蛋白质序列集中不含有目标蛋白质输入子模块(21)输入目标蛋白质，所述的检测输出模块(7)将该结果输出。

6.如权利要求5所述的微藻蛋白质特征序列标签匹配的快速检测系统，其特征在于所述的检测识别模块(5)包括任务分解/分配子模块(8)、多个检测节点(9)、多个汇总处理机(10)和汇总子模块(11)，其中所述的任务分解/分配模块(5)相连，该任务分解/分配模块(8)将对列表数据拆分成多个64M大小的文件，每个文件均为对列表的一个子集，并将文件均匀发送到各个检测节点(9)上；

所述的检测节点(9)接受上述任务分解/分配子模块(8)分配的文件，检测所分配文件的每一行是否含有该行之前所标注的PCFk，k属于1-i；

所有检测节点完成检测时，即完成检测对列表的每一行PLT1-PLTj是否含有该行之前所标注的PCFk，k属于1-i，

每一个检测节点(9)都对应有一个汇总处理机(10)，首先由其中一个汇总处理机(10)将与之对应的检测节点(9)上的数据进行初步汇总；

当所有的汇总处理机(10)都完成汇总之后，由汇总子模块(11)对各个汇总处理机(10)中的数据进行进一步汇总；从而实现将对列表每一行中包含有该行之前所标注的PCFk的那些PLT1-PLTj中的元素检测出来，记作

<PCF1,PL1-1>；…….<>……<PCF1,PL1-j>

…….

<PCFi,PL i-1>；…….<>……<PCFi,PLi-j>

并将记作上述格式的数据作为键/值对列表，

完整全部详细技术资料下载

当前第2页1 2 3