对染色体序列和质粒序列进行分类的方法及装置的制造方法

文档序号：9866188阅读：470来源：国知局

对染色体序列和质粒序列进行分类的方法及装置的制造方法
【技术领域】
[0001] 本发明属于数据挖掘技术领域，尤其设及对染色体序列和质粒序列进行分类的方法及装置。
【背景技术】
[0002] 宏基因组是将环境中多个微生物细胞混在一个样本中，采用基因组测序技术获取样本所有DNA(Deoxy;ribonucleic acid,脱氧核糖核酸)数据的一种生物组学技术。宏基因组数据提供了所在环境中活跃的所有微生物种群信息，对研究包括人类疾病、生物质能源和自然界生命进化等重大问题具有关键作用。
[0003] 将DNA提取出来后，由于现有的测序技术只能测序一定长度限制下的序列，因此需要将很长的DNA链打断成片段进行测序。对所有片段完成测序后，需要对片段进行组装，还原DNA序列，从而进行更深层次的分析工作。基因组序列组装，是指在测序工作完成之后，对片段进行组装的过程。正确组装片段还原DNA序列的前提是所有片段来自同一基因组，然而，质粒的存在使运一前提条件很难得到满足。W微生物基因组为例，微生物细胞中的质粒是可W在不同细胞之间转移的环形脱氧核巧酸分子，其可W将部分序列插入到宿主的染色体上，因此在组装序列时，某些片段可能属于外源的质粒序列，而非宿主的染色体序列。因此，在基因组序列的组装过程中，精确检测出属于质粒的片段对进行正确的组装过程非常重要，是DNA序列得W正确还原的重要前提。
[0004] 检测出质粒序列的问题，可W转化为染色体序列与质粒序列的分类问题。对于微生物物种的染色体序列与质粒序列的分类问题，目前相关方面的研究较少，cBar是仅有的比较有代表性的研究。在cBar中染色体序列和质粒序列WFASTA格式的文本文件进行存储， cBar提取的特征是五字符短串（pentamer)出现的频率特征，即五字符短串出现的频数除W 序列的长度，提取特征后，cBar选取了朴素贝叶斯、决策树、神经网络和支持向量机四种算法进行模拟训练，其中，支持向量机学习的模型得到的分类结果最优，分类准确率达到 90%。
[0005] 在实现本发明的过程中，发明人发现现有技术中至少存在如下问题:cBar采用的是五字符短串的频率特征，总共有512个特征，未考虑不同长度的k字符短串（kmer)出现频率的组合效应、W及去除不相关特征的噪音影响，需要通过进一步的分类模型优化研究； cBar方案未进行特征选择，没有选择出最优的特征组合，最优特征组合意味着最优的字符短串组合，对进一步研究染色体序列和质粒序列的差异有重要意义，并且能够提高模型训练的效率和效果;cBar训练得到的最优结果是90%的分类准确率，还具有提高的空间。

【发明内容】

[0006] 鉴于此，本发明实施例提供了一种对染色体序列和质粒序列进行分类的方法及装置，W解决现有的对染色体序列和质粒序列进行分类的准确率较低，训练模型的效率较低、效果较差的问题。
[0007]第一方面，本发明实施例提供了一种对染色体序列和质粒序列进行分类的方法，包括：
[000引获取染色体序列和质粒序列；
[0009] 对所述染色体序列和所述质粒序列进行预处理，得到第一训练样本和第二训练样本；
[0010] 提取所述第一训练样本中所有所述染色体序列的所有k字符短串及其反向互补序列对的频数特征，并生成第一频数特征表，其中，k大于或等于2且小于或等于5;
[0011] 提取所述第二训练样本中所有所述质粒序列的所有k字符短串及其反向互补序列对的频数特征，并生成第二频数特征表；
[0012] 从所述第一频数特征表和所述第二频数特征表中随机抽取第一预设比例的特征数据作为训练集，将剩余的所述特征数据作为测试集，采用卡方检验算法计算所述训练集中所有所述特征数据的权重值，并从所述训练集中选取权重值满足预设条件的所述特征数据；
[0013] 采用随机森林算法，并根据权重值满足所述预设条件的所述特征数据训练分类模型；
[0014] 根据所述分类模型对所述染色体序列和所述质粒序列进行分类。
[0015] 第二方面，本发明实施例提供了一种对染色体序列和质粒序列进行分类的装置，包括：
[0016] 序列获取单元，用于获取染色体序列和质粒序列；
[0017] 预处理单元，用于对所述染色体序列和所述质粒序列进行预处理，得到第一训练样本和第二训练样本；
[0018] 第一频数特征表生成单元，用于提取所述第一训练样本中所有所述染色体序列的所有k字符短串及其反向互补序列对的频数特征，并生成第一频数特征表，其中，k大于或等于2且小于或等于5;
[0019] 第二频数特征表生成单元，用于提取所述第二训练样本中所有所述质粒序列的所有k字符短串及其反向互补序列对的频数特征，并生成第二频数特征表；
[0020] 第一特征数据选取单元，用于从所述第一频数特征表和所述第二频数特征表中随机抽取第一预设比例的特征数据作为训练集，将剩余的所述特征数据作为测试集，采用卡方检验算法计算所述训练集中所有所述特征数据的权重值，并从所述训练集中选取权重值满足预设条件的所述特征数据；
[0021] 分类模型训练单元，用于采用随机森林算法，并根据权重值满足所述预设条件的所述特征数据训练分类模型；
[0022] 分类单元，用于根据所述分类模型对所述染色体序列和所述质粒序列进行分类。
[0023] 本发明实施例与现有技术相比存在的有益效果是:本发明实施例通过提取染色体序列和质粒序列中所有k字符短串及其反向互补序列对的频数特征，优化了分类模型;通过结合卡方检验算法与随机森林算法，从训练集中选取权重值满足预设条件的特征数据，提高了分类模型的训练效率和训练效果；提高了对染色体序列和质粒序列进行分类的准确率，分类准确率超过95 %。
【附图说明】
[0024] 为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可W根据运些附图获得其他的附图。
[0025] 图1是本发明实施例提供的对染色体序列和质粒序列进行分类的方法的实现流程图；
[0026] 图2是本发明实施例提供的对染色体序列和质粒序列进行分类的方法步骤S102的具体实现流程图；
[0027] 图3是本发明实施例提供的对染色体序列和质粒序列进行分类的装置的结构框图。
【具体实施方式】
[0028] 为了使本发明的目的、技术方案及优点更加清楚明白，W下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用W解释本发明，并不用于限定本发明。
[0029] 图1示出了本发明实施例提供的对染色体序列和质粒序列进行分类的方法的实现流程图，详述如下：
[0030] 在步骤S101中，获取染色体序列和质粒序列。
[0031] 例如，从美国国家生物信息中屯、获取所有

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周丰丰;彭超;王普;葛瑞泉;
技术所有人：深圳先进技术研究院;
我是此专利的发明人

上一篇：一种基于密度峰值的高效层次聚类方法
上一篇：一种基于时空体运动轮廓特征的行人检测方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。