一种对分类数据集进行测试的方法_3

文档序号：9350410阅读：来源：国知局

，此时可以将标签C1与标签C,视为弱关联，依照简单朴素贝叶斯多标签分类准则进行处理，判定该测试实例属于标签C1，但是不属于标签c]。
[0080]如果户(m S0并且'(? I作>〇，综合Sim(Cl，Cj)， WI 1X):，与作丨獨_作丨丨幻3个结果值，制定第二标签最终选择策略。
[0081] 第二标签最终选择策略具体包括：
[0082]如果但是~测试实 ? ? 例既不属于类标签C1，也不属于类标签C]。
[0083] 基于标签相似度的多标签选择策略伪代码：
[0084]
[0085] 在获得多标签分类策略之后，可以利用多标签分类策略对测试集进行种群初始化，种群初始化原本是利用随机函数产生随机的一组值。而在本发明中，利用了多标签分类策略对测试集进行了种群划分。
[0086] 在种群初始化之后，还会对测试集中的各个实例进行评价：具体来说，是利用适应函数对种群中的每一个个体进行评价计算。
[0087] 适应函数的设计，具体为：假设Y为数据标记集合，通过0/1的方式对数据集进行标记，最后每个实例的标记集合是0/1的向量集合。其中0表示该标记不属于该实例，1表示该标记属于该实例。例如一实例的标记向量为（1，1，〇，1，〇)，其预测标记向量为（1，〇，1， 1，〇)，则该实例的预测准确度为3/5。设测试集实例数为N，Y1为第i个实例的实际标记向量
集，Z1为第i个实例的预测标记向量集，则适应度函数值公式为：
[0088] S5,利用文化算法优化多标签选择策略，获得最佳标签选择策略。
[0089]为了能够找到最优的协调比例，可以利用文化算法对三个差值（， WIXLiviuIA' /vjxLPgm)进行加权（a，0，y)计算，提出基于文化算法与标签相似度的最优标签选择策略，并将其应用于测试实例的类标签测试中。
[0090] 具体来说，利用文化算法初始化所述训练集，并对所述训练集中的实例进行评价。
[0091] 为了使得三个变量在同一数量级，需要先对两个概率差进行数量级修正，修正方法如下：即为找出所有类标签之间差值绝对值的最大值max (其中i= 1，2, . . .，m，m表示类标签的维度），然后计算实例所有类标签的概率差值巧彳I_Md丨I) 与所有类标签的最大差值绝对值max 的比值，作为类标签(^修正后的概率差值，对于所有类标签Cj，修正公式如下：
[0093] 本发明选择多标签分类中的分类精度作为评判标准。由于多标签数据集包含的类标签很多，学习系统几乎不能与实际标记集合完全吻合，而且差距还会很大，这样会导致评估标准取值大大降低，不利于分析。因此采用0/1的二类分类标记方式对类标记进行向量标记，即若该标记属于该示例就记为1，否则为0,预测时只要预测的标记向量与实际类标记向量在某一位上相等，就记为预测准确，准确度值就加1。将所得的准确度进行整体平均后，作为本次优化的适应度函数值，对优化结果进行判断。适应函数的设计在上述已经描述，此处使用的适应函数和上面使用的适应函数类似，在此不再赘述。
[0094] 对a，0，y这3个权值进行学习，并对所述训练集进行训练，得到a，0，y各自的最优权值。在本发明实施例中，a表示相似因子，若取值0.5，则&"(￡>￡')的取值范围为 [1/3, 1]。P是一个主观的确定因子，表示两个不同的类标签的相关程度阈值，此处可取值为（1+1/3)+2 = 2/3。而Y的取值可为是通过文化算法优化得到的，取值在0-1之间。 [0095] 将所述最优权值运用到所述多标签选择策略中，获得所述最佳标签选择策略。
[0096] 最佳标签选择策略包括以下内容：
[0097] 若议+丨(6构:!I)-I幻):+F.(e(C5I尤)-级句1幻)）1 4测试实例属于类标签C1，也属于类标签Cj;其中，a为标签相似度的权重值，0为先验概率的权重值；r为后验概率的权重值。
[0098] 若沴(gdj)-g(〇x))+，.(0C；.|；r)-e(c;|j〇)<i具有如下情况： f
[0099] 若0C,11JT)-0(CfIX)>0，并且IWO;那么测试实例属于类标签C1，不属于类标签Cj;
[0100] 若ec1 ，并且e(c:I^o必c；1ij〇>〇 ;那么测试实例不属于类标签Ci，属于类标签Cj;
[0101] 若0(c)If)-e(CIz)>〇，并且祕句:丨^-^^阳^^那么测试实例属于类标签"属于类标签Cj。
[0102] 基于文化算法与标签相似度的最佳标签选择策略实际上也是在训练集中训练获得的。其具体选择方式如下所示：
[0112] Else
[0113]实例X不属于标签(^与c丨
[0114] Else
[0115]实例X不属于标签(^与c丨
[0116] EndIf
[0117] 进一步的，基于文化算法与标签相似的的标签选择策略伪代码为：
[0118]
[0119] S6,基于最佳标签选择策略，对测试集进行分类测试。
[0120] 下面使用具体的实施例进行说明，并对比其他的分类方式进行评价。
[0121] 1，获得相关测试所用的数据集，本发明以数据集emotions进行说明，该数据集是关于音乐曲目的分类问题，训练集样本数为415,测试集样本数为178,属性为数值型，共72 个，类标签个数为6。
[0122] 2,判断数据集是否需要标准化，若需要则采用本发明提到的标准化处理策略对数据集进行处理，否则直接进行试验测试。在测试时，先将分类数据集划分为训练集和测试集。
[0123] 3,采用本发明提出的基于标签相似度的多标签选择策略，应用于朴素贝叶斯多标签分类器中，对测试集数据进行测试，保存预测结果与程序运行时间，用以试验对比。
[0124] 4,基于文化算法的各参数值，初始化训练集的种群空间和信仰空间，采用本发明设计的适应度函数对训练集中的个体进行评价。
[0125] 5,利用文化算法对3个权值进行学习，对训练集进行训练，优化得到最优权值，代入到本发明所提出的基于文化算法与标签相似度的最优标签选择策略中，对测试集数据进行预测，保存预测结果与程序运行时间，用以试验比对。
[0126] 6,采用朴素贝叶斯多标签分类算法对数据集进行分类预测，保存实验结果与程序运行时间，用以实验对比。
[0127] 7,对实验结果进行对比统计，以表格、图片及文字的方式对分类结果进行统计说明。
[0128] 结果：
[0129] 表1-1~1-2表示基于高斯分布、柯西分布与连续属性离散化为拟合方式的NBMLC 算法、SL-NBMLC算法与CASL-NBMLC算法的分类结果。实验结果取3个算法独立运行10次结果的最大值（MAX)，最小值（MIN)与平均值（AVE)。表中加粗部分为较优结果。
[0130] 表 1-1NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果

[0135] (图2A、图2B)和（图3A、图3B)分别表示以高斯分布、柯西分布与连续属性离散化为拟合方式的NBMLC算法、SL-NBMLC算法与CASL-NBMLC算法，各自独立运行10次的运行结果，其中横轴表示运行次数，纵轴表示算法在对应算法计算所得分类精度。具体请参看图 2A-图2B，是NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果（高斯分布与柯西分布）。图 3A-图 3B是NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果

完整全部详细技术资料下载

当前第3页1 2 3 4