对染色体序列和质粒序列进行分类的方法及装置的制造方法_3

文档序号：9866188阅读：来源：国知局

常接近全特征模型的结果，且负样本的识别准确率即质粒序列的识别准确率普遍高于90%，大于全特征时的结果。
[0化引表3 [0化9]
[0060] 在步骤S107中，根据分类模型对染色体序列和质粒序列进行分类。
[0061] 图2示出了本发明实施例提供的对染色体序列和质粒序列进行分类的方法步骤 S102的具体实现流程图，参照图2:
[0062] 在步骤S201中，对染色体序列和质粒序列进行同源性比对，找出染色体序列上质粒片段的位置；
[0063] 在步骤S202中，对染色体序列进行切割，并去除质粒片段；
[0064] 在步骤S203中，从切割后的所有染色体序列中抽取长度大于第一预设值的染色体序列作为第一训练样本，并将质粒序列作为第二训练样本。
[0065] 可移动的质粒分子W较高频率侵入宿主细胞的染色体序列中，与染色体序列进行拼接，导致染色体序列含有大量的质粒序列片段。为了保证分类模型的准确性，需要对染色体序列进行预处理，找出每条染色体序列中含有的质粒片段，并去除运些质粒片段。在具体实现时，可采用NCBI BLAST软件包的BLASTN功能对染色体序列进行切割并去除质粒片段。 2044条染色体序列在进行比对和切割之后，得到955102条染色体序列，该数量大大超过 3098条的质粒序列，会导致正负样本训练集失去平衡，导致分类模型的分类效果不佳，因此，从切割后的所有染色体序列中抽取长度大于第一预设值的染色体序列作为第一训练样本，例如，抽取4915条长度大于20000碱基组的染色体序列作为第一训练样本。
[0066] 应理解，在本发明实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应W其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
[0067] 本发明实施例通过提取染色体序列和质粒序列中所有k字符短串及其反向互补序列对的频数特征，优化了分类模型;通过结合卡方检验算法与随机森林算法，从训练集中选取权重值满足预设条件的特征数据，提高了分类模型的训练效率和训练效果;提高了对染色体序列和质粒序列进行分类的准确率，分类准确率超过95%。
[0068] 图3示出了本发明实施例提供的对染色体序列和质粒序列进行分类的装置的结构框图，该装置可W用于运行图1或图2所示的对染色体序列和质粒序列进行分类的方法。为了便于说明，仅示出了与本发明实施例相关的部分。
[0069] 参照图3,该装置包括：
[0070] 序列获取单元31，用于获取染色体序列和质粒序列；
[0071] 预处理单元32,用于对所述染色体序列和所述质粒序列进行预处理，得到第一训练样本和第二训练样本.
[0072] 第一频数特征表生成单元33,用于提取所述第一训练样本中所有所述染色体序列的所有k字符短串及其反向互补序列对的频数特征，并生成第一频数特征表，其中，k大于或等于2且小于或等于5;
[0073] 第二频数特征表生成单元34,用于提取所述第二训练样本中所有所述质粒序列的所有k字符短串及其反向互补序列对的频数特征，并生成第二频数特征表；
[0074] 第一特征数据选取单元35，用于从所述第一频数特征表和所述第二频数特征表中随机抽取第一预设比例的特征数据作为训练集，将剩余的所述特征数据作为测试集，采用卡方检验算法计算所述训练集中所有所述特征数据的权重值，并从所述训练集中选取权重值满足预设条件的所述特征数据；
[0075] 分类模型训练单元36,用于采用随机森林算法，并根据权重值满足所述预设条件的所述特征数据训练分类模型；
[0076] 分类单元37，用于根据所述分类模型对所述染色体序列和所述质粒序列进行分类。
[0077] 优选地，所述预处理单元32包括：
[0078] 质粒片段位置确定子单元321，用于对所述染色体序列和所述质粒序列进行同源性比对，找出所述染色体序列上质粒片段的位置；
[0079] 质粒片段去除子单元322,用于对所述染色体序列进行切割，并去除所述质粒片段；
[0080] 训练样本生成子单元323,用于从切割后的所有所述染色体序列中抽取长度大于第一预设值的所述染色体序列作为第一训练样本，并将所述质粒序列作为第二训练样本。 [0081 ]优选地，所述第一特征数据选取单元35包括：
[0082] 排序子单元351，用于将所述训练集中的所有所述特征数据按照权重值由大到小的顺序降序排序；
[0083] 选取子单元352,用于从降序排序的所述特征数据中选取排序靠前的多个所述特征数据。
[0084] 进一步地，所述装置还包括：
[0085] 第二特征数据选取单元38,用于根据权重值满足所述预设条件的所述特征数据重新构建所述训练集和所述测试集，采用卡方检验算法计算重新构建的所述训练集中所有所述特征数据的权重值，并从重新构建的所述训练集中选取权重值满足所述预设条件的所述特征数据。
[0086] 优选地，所述装置还包括：
[0087] 分类模型测试单元39,用于通过所述测试集计算所述分类模型对应的曲线面积、特异性和/或敏感度，w测试所述分类模型的准确性。
[0088] 本发明实施例通过提取染色体序列和质粒序列中所有k字符短串及其反向互补序列对的频数特征，优化了分类模型;通过结合卡方检验算法与随机森林算法，从训练集中选取权重值满足预设条件的特征数据，提高了分类模型的训练效率和训练效果;提高了对染色体序列和质粒序列进行分类的准确率，分类准确率超过95%。
[0089] 本领域普通技术人员可W意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够W电子硬件、或者计算机软件和电子硬件的结合来实现。运些功能究竟 W硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可W对每个特定的应用来使用不同方法来实现所描述的功能，但是运种实现不应认为超出本发明的范围。
[0090] 所属领域的技术人员可W清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可W参考前述方法实施例中的对应过程，在此不再寶述。
[0091] 在本申请所提供的几个实施例中，应该理解到，所掲露的装置和方法，可W通过其它的方式实现。例如，W上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可W有另外的划分方式，例如多个单元可W结合或者可W集成到另一个系统，或一些特征可W忽略，或不执行。另一点，所显示或讨论的相互之间的禪合或直接禪合或通信连接可W是通过一些接口，单元的间接禪合或通信连接，可W 是电性，机械或其它的形式。
[0092] 所述作为分离部件说明的单元可W是或者也可W不是物理上分开的，作为单元显示的部件可W是或者也可W不是物理单元，即可W位于一个地方，或者也可W分布到多个网络单元上。可W根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0093] 另外，在本发明各个实施

完整全部详细技术资料下载

当前第3页1 2 3 4