对染色体序列和质粒序列进行分类的方法及装置的制造方法_2

文档序号:9866188阅读:来源:国知局
已测序完成的细菌(Bacteria)的染色体 序列和质粒序列,其中染色体序列2044条,质粒序列3198条,将运些数据作为实验数据。
[0032] 在步骤S102中,对染色体序列和质粒序列进行预处理,得到第一训练样本和第二 训练样本。
[0033] 其中,第一训练样本是染色体序列对应的训练样本,是正类训练样本;第二训练样 本是质粒序列对应的训练样本,是负类训练样本。
[0034] 在步骤S103中,提取第一训练样本中所有染色体序列的所有k字符短串及其反向 互补序列对的频数特征,并生成第一频数特征表,其中,k大于或等于2且小于或等于5。
[0035] 在步骤S104中,提取第二训练样本中所有质粒序列的所有k字符短串及其反向互 补序列对的频数特征,并生成第二频数特征表。
[0036] 由于卡方检测算法要求特征必须为离散属性,因此在本发明实施例中提取的特征 为k取值2至5之间的所有k字符短串与其反向互补序列对出现的频数特征,总共690个特征。 将染色体序列和质粒序列转换为数值特征后,将染色体序列的类标设置为1,质粒序列的类 标设置为0。
[0037] 对于第一训练样本中的染色体序列,所有的字符短串及其反向互补序列对的个数 为690,例如第一训练样本包括4915条染色体序列,则创建一张4925行、690列的第一频数特 征表,该第一频数特征表中的每一行代表一条染色体序列,每一列代表一个字符短串及其 反向互补序列对。每一对组合被映射到对应的下标中,当一对组合出现在一条染色体序列 中,二维表对应的位置加1。对于第二训练样本中的质粒序列,所有的字符短串及其反向互 补序列对的个数为690,例如第二训练样本包括3198条质粒序列,则创建一张3198行、690列 的第二频数特征表。
[00;3引 表1
[0039]
[0040] 表1是染色体序列和质粒序列被转换为数值数据的示意表格,表1中的每一行代表 一条序列,每一列代表一个特征。
[0041] 在本发明实施例中,提取的特征为第一训练样本中的染色体序列和第二训练样本 中的质粒序列的A、C、G和T四个碱基组组成的所有k字符短串及其反向互补序列对的频数特 征。当k为奇数时,反向互补序列对的数目为N化)=4k/2;当k为偶数时,反向互补序列对的 数目为N化)= (4k+4k/2)/2。
[0042] 在步骤S105中,从第一频数特征表和第二频数特征表中随机抽取第一预设比例的 特征数据作为训练集,将剩余的特征数据作为测试集,采用卡方检验算法计算训练集中所 有特征数据的权重值,并从训练集中选取权重值满足预设条件的特征数据。
[0043] 例如,第一预设比例可W为90%,在每次抽取训练集和测试集时,采用十折交叉验 证的方法,抽取90%的特征数据作为训练集,剩余10%的特征数据作为测试集。
[0044] 需要说明的是,还可W选择留一叉验证法或者五折交叉验证法等进行特征数据的 抽取和分类模型的训练,在此不作限定。
[0045] 卡方检验算法用于计算特征数据tk与类别Cl之间的卡方值,计算公式为
。卡方值越小,表明特征数据tk与类别 Cl的独立性越强,即特征数据tk与类别Cl的关联性越弱,特征数据tk的分类能力越弱;卡方 值越大,表明特征数据tk与类别Cl之间的关联性越强,特征数据tk的分类能力越强。特征数 据的权重值可W特征数据的卡方值确定,特征数据的卡方值越大,权重值越大;特征数据的 卡方值越小,权重值越小。
[0046] 优选地,从训练集中选取权重值满足预设条件的特征数据具体为:将训练集中的 所有特征数据按照权重值由大到小的顺序降序排序;从降序排序的特征数据中选取排序靠 前的多个特征数据。
[0047] 表 2
[004引
[0049] 表2中的attLimportance表示权重值,表2是对特征数据进行降序排序的示意表 格。通过十折交叉验证,每次卡方检验算法对特征数据的排序都有略微的差别,但是排序在 前的特征数据的集合基本保持一致,每次只有小的排名波动,例如第一次选出的最重要的 特征数据是第27个特征数据,但第二次第27个特征数据排名降为第二,第2个特征数据也有 运种表现,但是都是比较小的波动,运意味着,每次选择的前10到前100个特征数据都是非 常相似的特征数据的组合,对分类结果不会造成偏差。
[0050] 进一步地,在从训练集中选取权重值满足预设条件的特征数据之后,采用随机森 林算法,并根据权重值满足预设条件的特征数据训练分类模型之前,该方法还包括:根据权 重值满足预设条件的特征数据重新构建训练集和测试集,采用卡方检验算法计算重新构建 的训练集中所有特征数据的权重值,并从重新构建的训练集中选取权重值满足预设条件的 特征数据。
[0051] 作为本发明的一个实施例,在第一次构建的训练集中选取权重值排序最靠前的10 个特征数据;结合运10个特征数据构建第二个训练集,从第二个训练集中选取权重值排序 最靠前的20个特征数据;结合运20个特征数据构建第Ξ个训练集,从第Ξ个训练集中选取 权重值排序最靠前的30个特征数据;W此类推,依次构建第四个训练集至第十个训练集,依 次选取40个至100个特征数据。根据所有选取的权重值满足预设条件的特征数据训练分类 模型。
[0052] 在步骤S106中,采用随机森林算法,并根据权重值满足预设条件的特征数据训练 分类模型。
[0053] 随机森林算是是基于决策树的数据挖掘分类算法,它集成了多棵决策树,通过有 放回采样输入样本和特征数据来建立一棵决策树。在每次输入样本进行分类时,每棵决策 树对样本所属的类进行投票,输出选择得票最多的类。
[0054] 在本发明实施例中,可设置随机森林算法每次训练500棵决策树,W信息增益作为 分裂准则。运500棵决策树对每条测试序列所属的类进行预测,最后选择得票最多的类作为 输出。
[0055] 优选地,在根据权重值满足预设条件的特征数据训练分类模型之后,该方法还包 括:通过测试集计算分类模型对应的曲线面积、特异性和/或敏感度,W测试分类模型的准 确性。
[0056] 其中,曲线面积(AUC,Area Under the Curve)表示R0C(Receive;r Operation 化aracteriStic,受试者工作特征)曲线下的面积,可用于衡量分类模型的分类准确性;特 异性(Specificity)用于识别二分类器负样本的准确率;敏感度(Sensitivity)用于识别二 分类器正样本的准确率。
[0057]按照对特征数据的权重值进行排序的结果,依次选择前10到前100的特征数据的 集合,每次增加10个特征数据,得到的数据表现如表3所示,不进行特征数据的选择,采用所 有的690个特征进行分类模型的训练,得到的分类模型的分类效果是,曲线面积达到 0.97631,表示有97.631%的数据被分类正确。选择前10个特征时,分类模型的曲线面积为 0.953309,表示有95.3309 %的数据被分类正确,从选择前20个特征数据开始,有96 % W上 的数据被分类正确,到前100个特征数据时,Ξ项指标已非
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1