一种区分蛋白编码基因和非编码基因的方法及系统的制作方法

文档序号:6590511阅读:554来源:国知局
专利名称:一种区分蛋白编码基因和非编码基因的方法及系统的制作方法
技术领域
本发明涉及生命科学领域,尤其涉及一种区分蛋白编码基因和非编码基因的方法及系统。
背景技术
目前国际上主要有两中方法进行区分蛋白编码基因(以下简称编码基因)和非编码基因:CPC方法由北京大学生命科学学院开发,依靠预测基因的开放阅读框及已知蛋白库等信息来判定一条核酸序列为编码基因还是非编码基因。该方法太过依赖于开放阅读框的预测方法及已知数据库,对新基因的判定及长非编码基因的判定存在明显不足,且根据我们自身的测评显示,对于长非编码基因的判断准确率非常低。PhyloCSF是国际上近几年采用的一种方法,依靠多个物种序列比对信息得到保守型区域,根据待测序列的保守型强弱来判定是编码还是非编码序列。但是,由于很多物种根本没有全基因组序列,所以无法得到多物种序列比对信息。因此,对于很多物种无法衡量序列的保守性,进而无法判定编码与非编码能力。此外,长非编码基因内部有多个保守型的模块(子序列),因此仅仅依靠保守型区域来判定编码能力过于片面,我们自身对该方法的测评显不准确率也很低。

发明内容
为解决上述问题,本发明提供一种区分编码基因和非编码基因的方法及系统,其主要利用序列串连密码子对的频率统计准确的将编码序列和非编码序列以及编码区域按照其他五种读码方式所产生的序列区分出来,不依赖于物种已知的数据,不需要保守性信息,并且对长非编码RNA有很好的判断效果。为实现上述目的,本发明提供了一种区分编码基因和非编码基因的方法发明,该方法包括:步骤1,将样本集按照编码和非编码序列分为正、负两个训练集合,对正、负两个训练集合分别执行步骤2至步骤4 ;步骤2,在训练集合中统计出每个相邻核苷酸三聚体ANT在编码序列、非编码序列和基因间区域序列中的出现频率并分别构建出现频率矩阵,基于三个出现频率矩阵通过log2-ratio运算构建打分矩阵;步骤3,所述打分矩阵利用滑动窗口进行打分的方式计算出窗口分值S-score,以此作为分类模型的第一个特征,并使用动态规划算法分别找出由所述样本集中的编码序列和非编码序列所转换成的数组内的具有最大子段和的区域作为特征子序列MLCDS,并且以所述MLCDS的长度作为分类模型的第二个特征;步骤4,利用i e (1,2, 3,4, 5,6)获取分类模型的第三个特征,其中X是读码方式中MLCDS的长度,Yi代表全部六种读码方式中各自的MLCDS长度;利用
权利要求
1.一种区分蛋白编码基因和非编码基因的方法,其特征在于,包括: 步骤1,将样本集按照编码和非编码序列分为正、负两个训练集合,对正、负两个训练集合分别执行步骤2至步骤4 ; 步骤2,在训练集合中统计出每个相邻核苷酸三聚体ANT在编码序列、非编码序列和基因间区域序列中的出现频率并分别构建出现频率矩阵,基于三个出现频率矩阵通过log2-ratio运算构建打分矩阵; 步骤3,所述打分矩阵利用滑动窗口进行打分的方式计算出窗口分值S-score,以此作为分类模型的第一个特征,并使用动态规划算法分别找出由所述样本集中的编码序列和非编码序列所转换成的数组内的具有最大子段和的区域作为特征子序列MLCDS,并且以所述MLCDS的长度作为分类模型的第二个特征; 步骤4,利用Ση^(γ.γ i e (1,2, 3,4, 5,6)获取分类模型的第三个特征,其中X是读码方式中MLCDS的长度,Yi代表全部六种读码方式中各自的MLCDS长度; 利用;o(S1) ’ j e (I, 2,3,4,5)获取分类模型的第四个特征,其中S是在核酸序列5一共的六种读码方式中按照正确的读码方式提取出来的MIXDS的S-score,Ej代表剩下其他五种错误读码方式中提取出来的MIXDS的S-score ; 利用单个核苷酸三聚体在编码和非编码区域的出现频率进行log2-rati0运算,获取核苷酸三聚体偏好性作为分类模型的第五个特征; 步骤5,利用所述正 、负两个训练集合的五个特征组成正负两个特征向量集合来训练分类模型,待区分序列利用所述分类模型进行预测得到区分结果。
2.如权利要求1所述的区分编码基因和非编码基因的方法,其特征在于,出现频率XiF的计算公式为:η XiN= ^Sj(Xi)1=^ mm η T= ^XiNSj(Xj); m = 64 * 64; η = (1........N) i=i i=i j=i XiN XiF =— 1 T 其中X代表着某种类型的ant,Sj(Xi)是X在某一类序列集合中的某一条序列上的出现次数,XiN是该种ANT在整个某种序列集合中的出现次数,T则表示所有种类的ANT在该数据集中的总共出现次数,m表示ANT的种类数目,η表示该类型的集合中所包含的序列条数。
3.如权利要求1所述的区分编码基因和非编码基因的方法,其特征在于,所述步骤2包括: 步骤21,使用滑动窗口分别对编码序列和非编码序列的每条转录本序列按照六框读码的方式进行扫描; 步骤22,所述打分矩阵会在上述扫描的过程中对所述滑动窗口的每一个子窗口进行打分,将一条由核苷酸序列组成的转录本转化为六个数组,所述数组中的元素就是每个子窗口的窗口分值; 步骤23,利用动态规划算法中的求最大子段和的方式在所述六个数组中的每一个数组中找出一条加和最大的子段,得到六个候选最大字段; 步骤24,所述打分矩阵在所述六个候选最大字段中找出分值最大的那一条作为该转录本的最像CDS区域的特征子序列。
4.如权利要求3所述的区分编码基因和非编码基因的方法,其特征在于,所述步骤23中加和最大的子段X计算公式为: X= maxaikl [ id細丨 j a[k]是拥有这个最大子段和的最大子段,i和j分别代表a[k]这个最大子段在这种读码方式中的起始和终止位置。
5.如权利要求1所述的区分编码基因和非编码基因的方法,其特征在于,所述步骤5中:将所述待区分序列分为正、负训练集,然后将所述正、负训练集转换成支持向量机SVM所要求的输入格式,并将其放入SVM进行分类模型的训练,得到区分结果。
6.一种区分编码基因和非编码基因的系统,其特征在于,包括: 预处理模块,用于将样本集按照编码和非编码序列分为正、负两个训练集合,对正、负两个训练集合分别执行频率统计模块至特征提取模块; 频率统计模块,用于在训练集合中统计出每个ANT在编码序列、非编码序列和基因间区域序列中的出现频率并分别构建出现频率矩阵,基于三个出现频率矩阵通过log2-ratio运算构建打分矩阵; 序列提取模块,所述打分矩阵利用滑动窗口进行打分的方式计算出窗口分值S-score,以此作为分类模型的第一个特征,并使用动态规划算法分别找出由所述样本序列的编码序列和非编码序列所转换成的数组内的具有最大子段和的区域作为特征子序列MLCDS,以所述MLCDS的长度作为分类模型的第二个特征; 特征提取模块,利用EfL=(Yi), 1 e (1,2, 3,4, 5,6)获取分类模型的第三个特征,其中X是读码方式中MLCDS的长度,Yi代表全部六种读码方式中各自的MLCDS长度; ^ljfflZjlo(S-Ej) ’ (1,2,3,4,5)获取分类模型的第四个特征,其中S是读码方式中 5MLCDS的S-score,Ej代表剩下其他几种读码方式中MLCDS的S-score ; 利用单个核苷酸三聚体在编码和非编码区域的出现频率进行log2-rati0运算,获取核苷酸三聚体偏好性作为分类模型的第五个特征; 区分结果获得模块,利用所述正、负两个训练集合的五个特征组成正负两个特征向量集合来训练分类模型,待区分序列利用所述分类模型进行预测得到区分结果。
7.如权利要求6所述的区分编码基因和非编码基因的系统,其特征在于,出现频率XiF的计算公式为:
8.如权利要求6所述的区分编码基因和非编码基因的系统,其特征在于,所述序列提取模块包括: 扫描模块,使用滑动窗口分别对编码序列和非编码序列的每条转录本序列按照六框读码的方式进行扫描; 打分模块,所述打分矩阵会在上述扫描的过程中对所述滑动窗口的每一个子窗口进行打分,将一条由核苷酸序列组成的转录本转化为六个数组,所述数组中的元素就是每个子窗口的窗口分值; 候选字段获取模块,利用动态规划算法中的求最大子段和的方式在所述六个数组中的每一个数组中找出一条加和最大的子段,得到六个候选最大字段; 序列选择模块,所述打分矩阵在所述六个候选最大字段中找出分值最大的那一条作为该转录本的最像CDS区域的特征子序列。
9.如权利要求8所述的区分编码基因和非编码基因的系统,其特征在于,所述候选字段获取模块中加和最大的子段X计算公式为:
10.如权利要求6所述的区分编码基因和非编码基因的方法,其特征在于,所述区分结果获得模块中:将所述待区分序列分为正、负训练集,然后将所述正、负训练集转换成支持向量机SVM所要求的输入格式,并将其放入SVM进行分类模型的训练,得到区分结果。
全文摘要
本发明提供一种区分蛋白编码基因和非编码基因的方法及系统,其能够在序列水平上区分蛋白编码基因和非编码基因的特征,该特征不依赖于物种已知的数据,不需要保守性信息,并且对长非编码RNA有很好的判断效果,除了在准确性上具有强大的优势外,自身操作简单,不需要过多的文件依赖,处理时间明显优于已知的方法。
文档编号G06F19/20GK103218543SQ20131010222
公开日2013年7月24日 申请日期2013年3月27日 优先权日2013年3月27日
发明者赵屹, 孙亮, 罗海涛 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1