一种对分类数据集进行测试的方法_4

文档序号:9350410阅读:来源:国知局
(num= 10 与num= 20)。
[0136] 在实际应用中,还可以使用本发明的方法对分类数据集进行预测。
[0137] 通过本发明的一个或者多个实施例,本发明具有以下有益效果或者优点:
[0138] 本发明实施例中提供了一种对分类数据集进行测试的方法,在获得分类数据集之 后,若需要对其进行标准化处理,则使用绝对标准差的方式对所述分类数据集进行标准化; 标准化之后,将所述分类数据集分成训练集和测试集;根据所述训练集获得基于标签相似 度的朴素贝叶斯多标签选择策略;然后利用所述多标签选择策略对所述测试集进行种群初 始化,然后进行评价;利用文化算法优化所述多标签选择策略,获得最佳标签选择策略;基 于所述最佳标签选择策略,对所述测试集进行分类测试。本发明针对朴素贝叶斯多标签分 类算法对于不同类标签之间相互独立的假设进行修正,提出标签相似度表示标签之间的依 赖关系,应用到标签最终选择策略中,即:设计提出基于标签相似度的朴素贝叶斯多标签选 择策略,并使用文化算法对其进行优化,然后用于多个多标签数据集中进行测试验证,可以 提高分类的准确度。
[0139] 尽管已描述了本申请的优选实施例,但本领域内的普通技术人员一旦得知了基本 创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包 括优选实施例以及落入本申请范围的所有变更和修改。
[0140] 显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精 神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围 之内,则本申请也意图包含这些改动和变型在内。
【主权项】
1. 一种对分类数据集进行测试的方法,其特征在于,所述方法包括: Sl,获得所述分类数据集; 52, 判断所述分类数据集是否需要标准化,若需要标准化,使用绝对标准差的方式对所 述分类数据集进行标准化; 53, 标准化之后,将所述分类数据集分成训练集和测试集; 54, 根据所述训练集获得基于标签相似度的朴素贝叶斯多标签选择策略;然后利用所 述多标签选择策略对所述测试集进行种群初始化,然后进行评价; 55, 利用文化算法优化所述多标签选择策略,获得最佳标签选择策略; 56, 基于所述最佳标签选择策略,对所述测试集进行分类测试。2. 如权利要求1所述的方法,其特征在于,所述根据所述训练集获得基于标签相似度 的朴素贝叶斯多标签选择策略,具体包括: 获得先验概率:M ;其中,X表示所述测试集中的实例,:表示通过 朴素贝叶斯算法计算出的实例X属于标签(^的概率;IJO表示通过朴素贝叶斯算法计 算出的实例X不属于标签C1的概率; 获得朴素贝叶斯最大化后验概率:#的^>?轉^):;其中,1^|幻表示通过朴素贝叶 斯算法计算出的实例X属于标签C]的概率;表示通过朴素贝叶斯算法计算出的实 例X不属于标签Cj的概率; 获得标签相似度Sim(Cl,Cj),Sim(Cl,Cj)表示类标签C 1与类标签c j的相关性; 基于所述标签相似度、所述先验概率、所述后验概率,获得所述多标签选择策略。3. 如权利要求2所述的方法,其特征在于,所述获得标签相似度Sim(c D C]),具体为:其中,Dis(Cl,Cj)表示所述训练集的类标签集合 中,不同类标签(^与c ,的平均距离,η表示训练集维度,k表示所述训练集中的第k个实例, <表示所述训练集中的第k个实例类标签(^的取值,#表示所述训练集中的第k个实例类 标签C j的取值,i辛j, I < i < m, I < j < m,m为类标签集合的维度;[表不相似因子。4. 如权利要求2所述的方法,其特征在于,所述多标签选择策略具体包括: 若5加((:1,(3])〈0,其中,0表示两个不同的类标签的相关程度阈值,所述多标签选择 策略如下: 当%? 1:1)im> 0时,表示测试实例属于类标签C1,否则,所述测试实例不属于类 标签C1;其中,所述测试实例是属于所述测试集中的实例; 当IZH丨w> 0时,表示所述测试实例属于类标签c],否则,所述测试实例不属 于类标签Cj。5. 如权利要求2所述的方法,其特征在于,所述多标签选择策略具体包括: 若Sim(Cl,cj)彡β,所述多标签选择策略如下: 如果巧?1丨λ?_Ρ(?β|Χ)> 〇并且〇,所述测试实例既属于类标签C1 又属于类标签Cj; 如果难〇并且10-#碎I力客t,所述测试实例既不属于类标签C1 又不属于类标签c]; 如果 PU 丨母?1尤)> 〇 并且 X - P(<|J〇 £ O,:综合 Sim(Cl,Cj), IXLΡ(??D,与iV, ι.γ)_作丨丨χ) 3个结果值,制定第一标签最终选择策略; 如果乳ΠΙΑ#田< 〇并且F(f丨尤-作·;〇,综合Sim(Cl,C]), Ac) IX)-化°| X),与P(c: m _作:丨x) 3个结果值,制定第二标签最终选择策略。6. 如权利要求5所述的方法,其特征在于,所述第一标签最终选择策略具体包括: 如果挪介,11)_Ρ(?? Z),并且 Α?' I幻_Ρ(?? Z)>iV, IJO _作;IX),所述测试 实例既属于标签C1,也属于标签Cj; 如果_(4巧)< 约禮I幻IZ),并且雄;IJT)_/?5丨尤)>^(4 IJT) _IX),所述测试 实例属于标签C1,但是不属于标签Cj。7. 如权利要求5所述的方法,其特征在于,所述第二标签最终选择策略具体包括: 如果沒_,气)>/V: IZ) _户(< 丨 Z),但是 p(c; 11) _ 11) < P(c; IX) _ 尸(彳 IX),所述测试 实例既不属于类标签C1,也不属于类标签C]。8. 如权利要求1所述的方法,其特征在于,所述利用文化算法优化所述多标签选择策 略,获得最佳标签选择策略,具体包括: 利用文化算法初始化所述训练集,并对所述训练集中的实例进行评价; 对α、β、γ这3个权值进行学习,并对所述训练集进行训练,得到α、β、γ各自的 最优权值; 将所述最优权值运用到所述多标签选择策略中,获得所述最佳标签选择策略。9. 如权利要求1或8任意权项所述的方法,其特征在于,所述最佳标签选择策略,具体 包括:;所述测试实例属于类标 签C1,也属于类标签cj;其中,r为0-1之间的数值。10. 如权利要求1或8任意权项所述的方法,其特征在于,所述最佳标签选择策略,具体 包括: .... 具有如下情况: ?那么所述测试实例属于类标签C1,不 属于类标签Cj; ,那么所述测试实例不属于类标签C1,属于类标签C1;,^那么测试实例属于类标签C1,属于类 标签Cj。
【专利摘要】本发明公开了一种对分类数据集进行测试的方法,在获得分类数据集后,若需要对其进行标准化处理,则使用绝对标准差的方式对分类数据集进行标准化;标准化之后,将分类数据集分成训练集和测试集;根据训练集获得基于标签相似度的朴素贝叶斯多标签选择策略;然后利用多标签选择策略对测试集进行种群初始化、评价;利用文化算法优化多标签选择策略,获得最佳标签选择策略;基于最佳标签选择策略,对测试集进行分类测试。本发明提出标签相似度表示标签之间的依赖关系,应用到标签最终选择策略中,即:设计提出基于标签相似度的朴素贝叶斯多标签选择策略,并使用文化算法对其进行优化,并用于多个多标签数据集中进行测试验证,可以提高分类的准确度。
【IPC分类】G06K9/62
【公开号】CN105069483
【申请号】CN201510521056
【发明人】颜雪松
【申请人】中国地质大学(武汉)
【公开日】2015年11月18日
【申请日】2015年8月21日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1