一种大规模跨平台基因表达数据分类方法与流程

文档序号：14725724发布日期：2018-06-19 06:55阅读：来源：国知局

技术特征：

1.一种大规模跨平台基因表达数据分类方法，其特征在于，包括以下步骤：

S1、获取训练集，初始化分类器：从基因库中获取基因表达数据和样本标签，样本的标签为C＝{C0，C1},将基因表达数据无偏划分为训练集和测试集，其中训练集含有N个基因表达数据样本，每个样本为P个基因的表达值，从而构建一个N*P的矩阵R，并初始化分类器CL；

S2、对训练集进行数据转换：对矩阵R进行数据转换，原始样本记录的是P个基因的表达值，经过数据转换后，每个样本记录的是P个按照基因表达值排序的基因名；

S3、根据训练集计算相对偏移表T：根据特征函数求得正、负类样本特征，然后根据偏移量函数计算每个基因在正类样本特征中相对于负类样本特征的偏移量，根据偏移量大小对P个基因排序，获得相对偏移表T；

S4、生成候选偏序对，并计算出候选偏序对中的top偏序规则r；

S5、更新分类器和训练集：将top偏序规则r加入分类器CL，并去除矩阵R中被top偏序规则r前项所命中的样本；

S6、判断样本量与最小支持度θ的大小：若样本量大于最小支持度θ，则重复执行步骤S3、S4以及S5；若样本量不大于最小支持度θ，则执行步骤S7；

S7、设定分类器CL缺省类：将矩阵R剩余样本中的多数类设定为分类器CL的缺省类；

S8、预测分类：用分类器CL对测试集进行分类，判定方法为依次比较分类器CL中的偏序规则，若规则前项命中测试样本，则输出规则后项为预测类别；若CL中无规则命中测试样本，则输出缺省类为预测类别。

2.如权利要求1所述的一种大规模跨平台基因表达数据分类方法，其特征在于，所述对训练集进行数据转换的步骤具体为：

S21、创建样本中的二元组：将矩阵R中每一个样本的基因表达值和基因名组合成为一个二元组；

S22、将二元组进行键升序排序：对矩阵R中每个样本内的P个二元组，以基因表达值为键升序排序；

S23、将样本更新为有序基因序列：对矩阵R中每个样本，删去二元组中的基因表达值，从而将样本更新为有序基因序列。

3.如权利要求1所述的一种大规模跨平台基因表达数据分类方法，其特征在于，所述根据训练集计算相对偏移表的步骤具体为：

S31、计算正类样本特征EP：根据特征函数计算矩阵R中样本的P个基因分别在正类样本中总分值，然后根据总分值，对P个基因由高到低排序后得到的基因序列即为正类样本特征EP；

S32、计算负类样本特征EN：根据特征函数计算矩阵R中样本的P个基因分别在负类样本中总分值，然后根据总分值，对P个基因由高到低排序后得到的基因序列即为负类样本特征EN；

S33、计算偏移量：利用偏移量函数计算每个基因顺位在正类样本特征EP上相对于负类样本特征EN的偏移量Distance(gene)；

S34、排序得到相对偏移表T：根据每个基因的偏移量得分值，对P个基因排序后得到的基因序列即为相对偏移表T。

4.如权利要求1所述的一种大规模跨平台基因表达数据分类方法，其特征在于，所述生成候选偏移对并计算top偏序规则r的步骤具体为：

S41、生成m个候选偏序对：从相对偏移表T的首尾随机各取出m个基因，组合为m个候选偏序对；

S42、计算每个候选偏序对的分类规则：每一个候选偏序对<g1,g2>可以产生四个分类规则{g1<g2→C0,g1<g2→C1,g1≥g2→C0,g1≥g2→C0}，从而每一个候选偏序对得到四个分类规则；

S43、找出每个候选偏序对置信度最高的偏序规则，得到m个偏序规则：对每一个候选偏序对，根据置信度公式和支持度公式选取出置信度最高的偏序规则；依次对m个候选偏序对进行选取，从而可得到m个偏序规则；

S44、从m个偏序规则中得到top偏序规则r：再次根据置信度公式和支持度公式从m个偏序规则中选取出置信度最高的top偏序规则r。

5.如权利要求1-4中任一项权利要求所述的一种大规模跨平台基因表达数据分类方法，其特征在于，在步骤S3中，所述特征函数的公式定义如下：

其中，sample.index(gene)为基因在每一个样本中的得分，在本公式中，先计算出基因在每一个样本中的得分，然后再累计得分，从而得到每个基因在对应类别的样本上的总得分

6.如权利要求5所述的一种大规模跨平台基因表达数据分类方法，其特征在于，在步骤S3中，所述偏移量函数的公式定义如下：

Distance(gene)＝EP.index(gene)-EN.index(gene)

其中，EP.index(gene)为矩阵R中每一个基因根据在正类样本EP中的总得分排序后的顺位值，EN.index(gene)为矩阵R中每一个基因根据在负类样本EN中的总得分排序后的顺位值，通过计算矩阵R中每一个基因顺位在正类样本特征EP上相对于负类样本特征EN的差值，该差值即为矩阵R中每一个基因顺位在正类样本特征EP上相对于负类样本特征EN的偏移量Distance(gene)。

7.如权利要求4所述的一种大规模跨平台基因表达数据分类方法，其特征在于，所述支持度(supp)公式为所述置信度(conf)公式为conf(X→Y)＝supp(X∪Y)/supp(X)；先根据支持度(supp)公式计算出每一个候选偏序对规则的支持度(supp)，然后再根据每一个候选偏序对规则的支持度(supp)，利用置信度(conf)公式计算出各个候选偏序对规则的置信度(conf)，然后对比置信度(conf)，得到每一个候选偏序对中置信度(conf)最高的规则作为该候选偏序对的唯一规则。

完整全部详细技术资料下载

当前第2页1 2 3