对染色体序列和质粒序列进行分类的方法及装置的制造方法

文档序号:9866188阅读:470来源:国知局
对染色体序列和质粒序列进行分类的方法及装置的制造方法
【技术领域】
[0001] 本发明属于数据挖掘技术领域,尤其设及对染色体序列和质粒序列进行分类的方 法及装置。
【背景技术】
[0002] 宏基因组是将环境中多个微生物细胞混在一个样本中,采用基因组测序技术获取 样本所有DNA(Deoxy;ribonucleic acid,脱氧核糖核酸)数据的一种生物组学技术。宏基因 组数据提供了所在环境中活跃的所有微生物种群信息,对研究包括人类疾病、生物质能源 和自然界生命进化等重大问题具有关键作用。
[0003] 将DNA提取出来后,由于现有的测序技术只能测序一定长度限制下的序列,因此需 要将很长的DNA链打断成片段进行测序。对所有片段完成测序后,需要对片段进行组装,还 原DNA序列,从而进行更深层次的分析工作。基因组序列组装,是指在测序工作完成之后,对 片段进行组装的过程。正确组装片段还原DNA序列的前提是所有片段来自同一基因组,然 而,质粒的存在使运一前提条件很难得到满足。W微生物基因组为例,微生物细胞中的质粒 是可W在不同细胞之间转移的环形脱氧核巧酸分子,其可W将部分序列插入到宿主的染色 体上,因此在组装序列时,某些片段可能属于外源的质粒序列,而非宿主的染色体序列。因 此,在基因组序列的组装过程中,精确检测出属于质粒的片段对进行正确的组装过程非常 重要,是DNA序列得W正确还原的重要前提。
[0004] 检测出质粒序列的问题,可W转化为染色体序列与质粒序列的分类问题。对于微 生物物种的染色体序列与质粒序列的分类问题,目前相关方面的研究较少,cBar是仅有的 比较有代表性的研究。在cBar中染色体序列和质粒序列WFASTA格式的文本文件进行存储, cBar提取的特征是五字符短串(pentamer)出现的频率特征,即五字符短串出现的频数除W 序列的长度,提取特征后,cBar选取了朴素贝叶斯、决策树、神经网络和支持向量机四种算 法进行模拟训练,其中,支持向量机学习的模型得到的分类结果最优,分类准确率达到 90%。
[0005] 在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:cBar采用的 是五字符短串的频率特征,总共有512个特征,未考虑不同长度的k字符短串(kmer)出现频 率的组合效应、W及去除不相关特征的噪音影响,需要通过进一步的分类模型优化研究; cBar方案未进行特征选择,没有选择出最优的特征组合,最优特征组合意味着最优的字符 短串组合,对进一步研究染色体序列和质粒序列的差异有重要意义,并且能够提高模型训 练的效率和效果;cBar训练得到的最优结果是90%的分类准确率,还具有提高的空间。

【发明内容】

[0006] 鉴于此,本发明实施例提供了一种对染色体序列和质粒序列进行分类的方法及装 置,W解决现有的对染色体序列和质粒序列进行分类的准确率较低,训练模型的效率较低、 效果较差的问题。
[0007]第一方面,本发明实施例提供了一种对染色体序列和质粒序列进行分类的方法, 包括:
[000引获取染色体序列和质粒序列;
[0009] 对所述染色体序列和所述质粒序列进行预处理,得到第一训练样本和第二训练样 本;
[0010] 提取所述第一训练样本中所有所述染色体序列的所有k字符短串及其反向互补序 列对的频数特征,并生成第一频数特征表,其中,k大于或等于2且小于或等于5;
[0011] 提取所述第二训练样本中所有所述质粒序列的所有k字符短串及其反向互补序列 对的频数特征,并生成第二频数特征表;
[0012] 从所述第一频数特征表和所述第二频数特征表中随机抽取第一预设比例的特征 数据作为训练集,将剩余的所述特征数据作为测试集,采用卡方检验算法计算所述训练集 中所有所述特征数据的权重值,并从所述训练集中选取权重值满足预设条件的所述特征数 据;
[0013] 采用随机森林算法,并根据权重值满足所述预设条件的所述特征数据训练分类模 型;
[0014] 根据所述分类模型对所述染色体序列和所述质粒序列进行分类。
[0015] 第二方面,本发明实施例提供了一种对染色体序列和质粒序列进行分类的装置, 包括:
[0016] 序列获取单元,用于获取染色体序列和质粒序列;
[0017] 预处理单元,用于对所述染色体序列和所述质粒序列进行预处理,得到第一训练 样本和第二训练样本;
[0018] 第一频数特征表生成单元,用于提取所述第一训练样本中所有所述染色体序列的 所有k字符短串及其反向互补序列对的频数特征,并生成第一频数特征表,其中,k大于或等 于2且小于或等于5;
[0019] 第二频数特征表生成单元,用于提取所述第二训练样本中所有所述质粒序列的所 有k字符短串及其反向互补序列对的频数特征,并生成第二频数特征表;
[0020] 第一特征数据选取单元,用于从所述第一频数特征表和所述第二频数特征表中随 机抽取第一预设比例的特征数据作为训练集,将剩余的所述特征数据作为测试集,采用卡 方检验算法计算所述训练集中所有所述特征数据的权重值,并从所述训练集中选取权重值 满足预设条件的所述特征数据;
[0021] 分类模型训练单元,用于采用随机森林算法,并根据权重值满足所述预设条件的 所述特征数据训练分类模型;
[0022] 分类单元,用于根据所述分类模型对所述染色体序列和所述质粒序列进行分类。
[0023] 本发明实施例与现有技术相比存在的有益效果是:本发明实施例通过提取染色体 序列和质粒序列中所有k字符短串及其反向互补序列对的频数特征,优化了分类模型;通过 结合卡方检验算法与随机森林算法,从训练集中选取权重值满足预设条件的特征数据,提 高了分类模型的训练效率和训练效果;提高了对染色体序列和质粒序列进行分类的准确 率,分类准确率超过95 %。
【附图说明】
[0024] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述 中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些 实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可W根据运些 附图获得其他的附图。
[0025] 图1是本发明实施例提供的对染色体序列和质粒序列进行分类的方法的实现流程 图;
[0026] 图2是本发明实施例提供的对染色体序列和质粒序列进行分类的方法步骤S102的 具体实现流程图;
[0027] 图3是本发明实施例提供的对染色体序列和质粒序列进行分类的装置的结构框 图。
【具体实施方式】
[0028] 为了使本发明的目的、技术方案及优点更加清楚明白,W下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用W解释本发明,并 不用于限定本发明。
[0029] 图1示出了本发明实施例提供的对染色体序列和质粒序列进行分类的方法的实现 流程图,详述如下:
[0030] 在步骤S101中,获取染色体序列和质粒序列。
[0031] 例如,从美国国家生物信息中屯、获取所有
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1