对染色体序列和质粒序列进行分类的方法及装置的制造方法_4

文档序号：9866188阅读：来源：国知局

例中的各功能单元可W集成在一个处理单元中，也可W 是各个单元单独物理存在，也可W两个或两个W上单元集成在一个单元中。
[0094] 所述功能如果W软件功能单元的形式实现并作为独立的产品销售或使用时，可W 存储在一个计算机可读取存储介质中。基于运样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用W使得一台计算机设备(可W是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memo巧）、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可W存储程序代码的介质。
[0095] W上所述，仅为本发明的【具体实施方式】，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明掲露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述W权利要求的保护范围为准。
【主权项】
1. 一种对染色体序列和质粒序列进行分类的方法，其特征在于，包括：获取染色体序列和质粒序列；对所述染色体序列和所述质粒序列进行预处理，得到第一训练样本和第二训练样本；提取所述第一训练样本中所有所述染色体序列的所有k字符短串及其反向互补序列对的频数特征，并生成第一频数特征表，其中，k大于或等于2且小于或等于5; 提取所述第二训练样本中所有所述质粒序列的所有k字符短串及其反向互补序列对的频数特征，并生成第二频数特征表；从所述第一频数特征表和所述第二频数特征表中随机抽取第一预设比例的特征数据作为训练集，将剩余的所述特征数据作为测试集，采用卡方检验算法计算所述训练集中所有所述特征数据的权重值，并从所述训练集中选取权重值满足预设条件的所述特征数据；采用随机森林算法，并根据权重值满足所述预设条件的所述特征数据训练分类模型；根据所述分类模型对所述染色体序列和所述质粒序列进行分类。2. 如权利要求1所述的方法，其特征在于，所述对所述染色体序列和所述质粒序列进行预处理，得到第一训练样本和第二训练样本包括：对所述染色体序列和所述质粒序列进行同源性比对，找出所述染色体序列上质粒片段的位置；对所述染色体序列进行切割，并去除所述质粒片段；从切割后的所有所述染色体序列中抽取长度大于第一预设值的所述染色体序列作为第一训练样本，并将所述质粒序列作为第二训练样本。3. 如权利要求1所述的方法，其特征在于，所述从所述训练集中选取权重值满足预设条件的所述特征数据具体为：将所述训练集中的所有所述特征数据按照权重值由大到小的顺序降序排序；从降序排序的所述特征数据中选取排序靠前的多个所述特征数据。4. 如权利要求1所述的方法，其特征在于，在所述从所述训练集中选取权重值满足预设条件的所述特征数据之后，所述采用随机森林算法，并根据权重值满足所述预设条件的所述特征数据训练分类模型之前，所述方法还包括：根据权重值满足所述预设条件的所述特征数据重新构建所述训练集和所述测试集，采用卡方检验算法计算重新构建的所述训练集中所有所述特征数据的权重值，并从重新构建的所述训练集中选取权重值满足所述预设条件的所述特征数据。5. 如权利要求1所述的方法，其特征在于，在所述根据权重值满足预设条件的所述特征数据训练分类模型之后，所述方法还包括：通过所述测试集计算所述分类模型对应的曲线面积、特异性和/或敏感度，以测试所述分类模型的准确性。6. -种对染色体序列和质粒序列进行分类的装置，其特征在于，包括：序列获取单元，用于获取染色体序列和质粒序列；预处理单元，用于对所述染色体序列和所述质粒序列进行预处理，得到第一训练样本和第二训练样本；第一频数特征表生成单元，用于提取所述第一训练样本中所有所述染色体序列的所有 k字符短串及其反向互补序列对的频数特征，并生成第一频数特征表，其中，k大于或等于2 且小于或等于5; 第二频数特征表生成单元，用于提取所述第二训练样本中所有所述质粒序列的所有k 字符短串及其反向互补序列对的频数特征，并生成第二频数特征表；第一特征数据选取单元，用于从所述第一频数特征表和所述第二频数特征表中随机抽取第一预设比例的特征数据作为训练集，将剩余的所述特征数据作为测试集，采用卡方检验算法计算所述训练集中所有所述特征数据的权重值，并从所述训练集中选取权重值满足预设条件的所述特征数据；分类模型训练单元，用于采用随机森林算法，并根据权重值满足所述预设条件的所述特征数据训练分类模型；分类单元，用于根据所述分类模型对所述染色体序列和所述质粒序列进行分类。7. 如权利要求6所述的装置，其特征在于，所述预处理单元包括：质粒片段位置确定子单元，用于对所述染色体序列和所述质粒序列进行同源性比对，找出所述染色体序列上质粒片段的位置；质粒片段去除子单元，用于对所述染色体序列进行切割，并去除所述质粒片段；训练样本生成子单元，用于从切割后的所有所述染色体序列中抽取长度大于第一预设值的所述染色体序列作为第一训练样本，并将所述质粒序列作为第二训练样本。8. 如权利要求6所述的装置，其特征在于，所述第一特征数据选取单元包括：排序子单元，用于将所述训练集中的所有所述特征数据按照权重值由大到小的顺序降序排序；选取子单元，用于从降序排序的所述特征数据中选取排序靠前的多个所述特征数据。9. 如权利要求6所述的装置，其特征在于，所述装置还包括：第二特征数据选取单元，用于根据权重值满足所述预设条件的所述特征数据重新构建所述训练集和所述测试集，采用卡方检验算法计算重新构建的所述训练集中所有所述特征数据的权重值，并从重新构建的所述训练集中选取权重值满足所述预设条件的所述特征数据。10. 如权利要求6所述的装置，其特征在于，所述装置还包括：分类模型测试单元，用于通过所述测试集计算所述分类模型对应的曲线面积、特异性和/或敏感度，以测试所述分类模型的准确性。
【专利摘要】本发明适用于数据挖掘技术领域，提供了对染色体序列和质粒序列进行分类的方法及装置。该方法包括：获取染色体序列和质粒序列并得到第一训练样本和第二训练样本；提取所有k字符短串及其反向互补序列对的频数特征，生成第一频数特征表和第二频数特征表，其中，k大于或等于2且小于或等于5；从第一频数特征表和第二频数特征表中抽取训练集和测试集，采用卡方检验算法计算训练集中所有特征数据的权重值；采用随机森林算法，并根据权重值满足预设条件的特征数据训练分类模型；根据分类模型对染色体序列和质粒序列进行分类。本发明提高了分类模型的训练效率和训练效果，并提高了对染色体序列和质粒序列进行分类的准确率。
【IPC分类】G06K9/52, G06K9/62, G06K9/46
【公开号】CN105631464
【申请号】CN201510956205
【发明人】周丰丰, 彭超, 王普, 葛瑞泉
【申请人】深圳先进技术研究院
【公开日】2016年6月1日
【申请日】2015年12月18日

完整全部详细技术资料下载

当前第4页1 2 3 4