一种对分类数据集进行测试的方法_2

文档序号：9350410阅读：来源：国知局

集之后，若需要对其进行标准化处理，则使用绝对标准差的方式对所述分类数据集进行标准化；标准化之后，将所述分类数据集分成训练集和测试集；根据所述训练集获得基于标签相似度的朴素贝叶斯多标签选择策略；然后利用所述多标签选择策略对所述测试集进行种群初始化，然后进行评价；利用文化算法优化所述多标签选择策略，获得最佳标签选择策略；基于所述最佳标签选择策略，对所述测试集进行分类测试。本发明针对朴素贝叶斯多标签分类算法对于不同类标签之间相互独立的假设进行修正，提出标签相似度表示标签之间的依赖关系，应用到标签最终选择策略中，即：设计提出基于标签相似度的朴素贝叶斯多标签选择策略，并使用文化算法对其进行优化，然后用于多个多标签数据集中进行测试验证，可以提高分类的准确度。
【附图说明】
[0048] 图1为本发明实施例中一种对分类数据集进行测试的方法的实施过程图；
[0049] 图2A-图2B为本发明实施例中NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果；
[0050] 图3A-图3B为本发明实施例中NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果。
【具体实施方式】
[0051] 本发明的核心点在于，针对朴素贝叶斯多标签分类算法对于不同类标签之间相互独立的假设进行修正，提出标签相似度表示标签之间的依赖关系，应用到标签最终选择策略中，即：设计提出基于标签相似度的朴素贝叶斯多标签选择策略，并使用文化算法对其进行优化，然后用于多个多标签数据集中进行测试验证。
[0052] 为了使本申请所属技术领域中的技术人员更清楚地理解本申请，下面结合附图，通过具体实施例对本申请技术方案作详细描述。
[0053] 具体请参看图1，描述了一种对分类数据集进行测试的方法的实施过程图，该方法包括：
[0054] S1，获得分类数据集。
[0055] S2,判断分类数据集是否需要标准化，若需要标准化，使用绝对标准差的方式对分类数据集进行标准化。
[0056] 具体来说，由于数据集某些属性之间的数据差异较大，会影响属性对预测结果的准确性，因此研究合适的数据集标准化处理策略，减小数据间差异较大时对数据集分类准确度的预测误差是很有必要的。本发明对数据集的标准化处理采用的是统计学中的"对变量标准化"方法，使用数据的绝对标准差的方式进行标准化。
[0057] S3,标准化之后，将分类数据集分成训练集和测试集。
[0058] 具体来说，可以采用分层随机取样的方法，对分类数据集进行预处理操作。随机取读入的分类数据集的70%进入到训练集，剩余30%进入到测试集。然后计算出训练集中实例的先验概率和后验概率。
[0059] 先验概率是指根据以往经验和分析得到的概率。后验概率是指通过调查或其它方式获取新的附加信息，利用贝叶斯公式对先验概率进行修正，而后得到的概率。
[0060] 先验概率和后验概率的区别：先验概率不是根据有关自然状态的全部资料测定的，而只是利用现有的材料（主要是历史资料）计算的。后验概率使用了有关自然状态更加全面的资料，既有先验概率资料，也有补充资料。
[0061] S4,根据训练集获得基于标签相似度的朴素贝叶斯多标签选择策略；然后利用多标签选择策略对测试集进行种群初始化，然后进行评价。
[0062] 具体来说，基于标签相似度的朴素贝叶斯多标签选择策略的具体过程包括：
[0063] 首先，获得先验概率：;其中，X表示所述测试集中的实例， ~丨w::表示通过朴素贝叶斯算法计算出的实例X属于标签Cl的概率；汽《1幻表示通过朴素贝叶斯算法计算出的实例X不属于标签(^的概率。
[0064] 获得朴素贝叶斯最大化后验概率：I幻，其中，尸(C1JX)表示通过朴素贝叶斯算法计算出的实例X属于标签c,的概率；X)表示通过朴素贝叶斯算法计算出的实例X不属于标签(^的概率。
[0065] 获得标签相似度Sim(Cl，Cj) ;Sim(Cl，Cj)表示类标签C1与类标签cj的相关性。
[0066] 标签相似度主要用来表示两个类标签（cdPcJ的相似程度。
述训练集的类标签集合中，不同类标签(^与c,的平均距离，n表示训练集维度，k表示所述训练集中的第k个实例，:ef表示所述训练集中的第k个实例类标签(^的取值，4表示所述训练集中的第k个实例类标签4的取值，i辛j，I<i<m，I<j<m，m为类标签集合的维度；
[0069] 基于标签相似度、先验概率、后验概率，获得多标签选择策略。
[0070] 具体来说，多标签选择策略包含以下内容：
[0071] 根据两个类标签的标签相似度的取值与0的比较结果的不同，将基于标签相似度的朴素贝叶斯多标签选择策略分成两种情况：标签相似度Sim(Cl，Cj)〈 0和标签相似度 Sim(Cl，C])彡P。其中是一个主观的确定因子，表示两个不同类标签的相关程度阈值，
[0072] (1)如果Sim(Cl，C])〈|3，那么说明类标签(^与C2的关联性很弱，则根据简单朴素贝叶斯多标签分类规则，只有当_丨|1)> 0时，该测试实例属于类标签C1,否则，该测试实例不属于类标签c1;同样只有当1^-八< 1力>G时，该测试实例属于类标签 C]，否则，该测试实例不属于类标签C]。
[0073] (2)如果Sim(Cl，C])彡P，那么说明类标签(^与(：2的关联性很强，此时又要分为三种情形去判断，具体介绍如下：
[0074] a.如果作,11幻_作：>|幻>〇并且~丨1幻-/>(€|1)>:0:，则说明测试实例对于两个类标签的选择计算概率与标签相似度相呼应，此时根据简单朴素贝叶斯多标签分类规则进行测试实例类标签预测，该测试实例既属于类标签C1又属于类标签c
[0075] b.如果作.,1 11)_作f丨幻￡〇并且作+丨Ix) - I幻彡〇，同情形a，测试实例对于两个类标签计算概率结果选择与标签相似度的计算结果相呼应，此时也根据简单朴素贝叶斯多标签分类规则进行测试实例类标签预测，该测试实例既不属于类标签(^又不属于类标签 CjO
[0076] c?如果作,1m_IZ)> 〇并且iVm_IDS〇，此时，测试实例对于两个类标签所属关系的概率计算结果与两个标签的标签相似度计算结果相冲突，此时需要将标签相似度的值，应用到简单朴素贝叶斯多标签分类的方法中，综合Sim(Cl，C])， 1X) _ ，与作?丨丨X) _P(c:丨x) 3个结果值，制定第一标签最终选择策略，具体如下：
[0077] 如果标签相似度&"，> .峨幻，并且汽4丨_~:|力>印:1力_/^丨1)，则说明计算出的夂)的差值本就不大，可能这个测试实例就在该类标签4的边界部分，因此，根据标签相似度Sim(Cl，C])与与标签C]相关性比较强的标签ci的所属关系，判定该测试实例既属于标签C1，也属于标签Cj。
[0078] 如果标签相似度細V，）>辦⑷-沙)丨焉，但是祝1.1)._幻<咐1 说明计算出的的差值本就不大，可能这个测试实例就在该类标签C1的边界部分，因此，根据标签相似度Sim(Cl，C])与与标签C1相关性比较强的标签c,的所属关系，判定该测试实例既不属于类标签C1，也不属于类标签C]。
[0079] 如果标签相似度綠.喃幻，并且则说明计算出的作彳Im,uI幻的差值，_作丨m的差值都很大，虽然标签相似度在阈值范围内，但是其比最小的差值都小，加之阈值本就带有主观性，不能作为太严格的评判标准，因此

完整全部详细技术资料下载

当前第2页1 2 3 4