一种对分类数据集进行测试的方法

文档序号:9350410阅读:1968来源:国知局
一种对分类数据集进行测试的方法
【技术领域】
[0001] 本申请涉及多标签分类技术领域,尤其涉及一种对分类数据集进行测试的方法。
【背景技术】
[0002] 多标签学习源自于文本分类问题,如每个文件可能会属于几个预定义的主题:卫 生和政府。但是现在,该类问题也非常广泛的存在于现实生活的应用中:在视频搜索领域, 每个音频剪辑可以划分到不同的情感标签,例如"欢快"和"愉悦";在基因功能学中,基因 可能对应到多个功能标签,例如"身材高大"和"皮肤白皙";在图像归属领域,一副图像可能 同时属于几个场景标签,例如"大树"和"高楼"。凡此种种,多标签分类问题在越来越多的 实际应用程序中得到广泛应用,对其进行更深入研究将会给我们的日常生活带来更大的益 处。在机器学习和数据挖掘领域,分类成为了一个研究最多的任务。这个任务主要包括根 据所给数据集的特点,构造一个分类器,然后利用所构造的分类器对未知类标签的对象实 例赋予类标签的过程。
[0003] 作为一种具有监督和指导功能的学习方法,朴素贝叶斯分类器(NaiveBayes ClassifienNBC)凭借其简单、高效的优点,成为了众多分类学习方法中的佼佼者。朴素贝 叶斯(Na'fveBayes,NB)技术,是基于所谓的贝叶斯定理,而且即使针对于高维问题也具有 适用性。虽然其原理很简单,但朴素贝叶斯通常表现了很好的分类效果。但是,朴素贝叶斯 分类器是基于一个简单但是却不现实的假设,就是"假定属性间的相互独立性",因此其分 类精度不高。

【发明内容】

[0004] 本发明了提供了一种对分类数据集进行测试的方法,以解决现有技术中分类精度 不高的技术问题。
[0005] 为解决上述技术问题,本发明提供了一种对分类数据集进行测试的方法,所述方 法包括:
[0006]Sl,获得所述分类数据集;
[0007]S2,判断所述分类数据集是否需要标准化,若需要标准化,使用绝对标准差的方式 对所述分类数据集进行标准化;
[0008]S3,标准化之后,将所述分类数据集分成训练集和测试集;
[0009]S4,根据所述训练集获得基于标签相似度的朴素贝叶斯多标签选择策略;然后利 用所述多标签选择策略对所述测试集进行种群初始化,然后进行评价;
[0010] S5,利用文化算法优化所述多标签选择策略,获得最佳标签选择策略;
[0011]S6,基于所述最佳标签选择策略,对所述测试集进行分类测试。
[0012] 优选的,所述根据所述训练集获得基于标签相似度的朴素贝叶斯多标签选择策 略,具体包括:
[0013] 获得先验概率:11ID;其中,X表示所述测试集中的实例,PMI幻::表示 通过朴素贝叶斯算法计算出的实例X属于标签(^的概率;11)表示通过朴素贝叶斯算法 计算出的实例X不属于标签C1的概率;
[0014] 获得朴素贝叶斯最大化后验概率:pMI1X);其中,作彳II)表示通过朴素贝 叶斯算法计算出的实例X属于标签(^的概率;表示通过朴素贝叶斯算法计算出的实 例X不属于标签Cj的概率;
[0015] 获得标签相似度Sim(Cl,Cj),Sim(Cl,Cj)表示类标签C1与类标签Cj的相关性;
[0016] 基于所述标签相似度、所述先验概率、所述后验概率,获得所述多标签选择策略。
[0017] 优选的,所述获得标签相似度Sim(Cl,C]),具体为:
集合中,不同类标签(^与c,的平均距离,n表示训练集维度,k表示所述训练集中的第k个 实例,4表示所述训练集中的第k个实例类标签(^的取值,0表示所述训练集中的第k个实 例类标签Cj的取值,i辛j,I<i<m,I<j<m,m为类标签集合的维度;
[0020] 优选的,所述多标签选择策略具体包括:
[0021] 若Sim(Cl,Cj)〈|3,其中,P表示两个不同的类标签的相关程度阈值,所述多标签 选择策略如下:
[0022] 当〇时,表示测试实例属于类标签C1,否则,所述测试实例不属 于类标签C1;其中,所述测试实例是属于所述测试集中的实例;
[0023] 当PMW> 〇时,表示所述测试实例属于类标签c,,否则,所述测试实例 不属于类标签C]。
[0024] 优选的,所述多标签选择策略具体包括:
[0025] 若Sim(Cl,Cj)彡P,所述多标签选择策略如下:
[0026] 如果户(c,1 |X)> 〇并且作丨I沿-乃彳|X)> 〇,所述测试实例既属于类标签 C1又属于类标签Cj;
[0027] 如果_雄IIiy〇并且11? 0,所述测试实例既不属于类标 签(^又不属于类标签c
[0028] 如果IJT_作:)W> 〇并且户(々丨丨幻$ 〇:,综合Sim(Cl,Cj), />(c,imI幻,与/>(c)丨Z) _ P(c>r) 3个结果值,制定第一标签最终选择策略;
[0029]如果尺★1尤-户紀丨X)孓Q并且汽II尤_作丨|I) >Q$综合Sim(C1,cj), 11): -I的,与阶1Jx) _/>(<m3个结果值,制定第二标签最终选择策略。
[0030] 优选的,所述第一标签最终选择策略具体包括:
[0031] 如果仏,p(cf|X),并且沙;|夏> _舞? 1^〉^', |尤)丨幻 试实例既属于标签C1,也属于标签Cj;
[0032] 如果 &./傘,弋:)< /^:'|1)_/^丨,1〇 并且- 所述 ., J 测试实例属于标签C1,但是不属于标签Cj。
[0033] 优选的,所述第二标签最终选择策略具体包括:
[0034] 如果細仏气) > 巧4W_作.丨⑷,但是作;IX) _价,°I幻〈尸(c)I尤)_ />(<IX),所述测 试实例既不属于类标签C1,也不属于类标签C]。
[0035] 优选的,所述利用文化算法优化所述多标签选择策略,获得最佳标签选择策略,具 体包括:
[0036] 利用文化算法初始化所述训练集,并对所述训练集中的实例进行评价;
[0037] 对a、0、y这3个权值进行学习,并对所述训练集进行训练,得到a、0、y各 自的最优权值;
[0038] 将所述最优权值运用到所述多标签选择策略中,获得所述最佳标签选择策略。
[0039] 优选的,所述最佳标签选择策略,具体包括:
[0040] 若《.伽抝4)+/?.(0((^IIj〇)+r(e(c;I ⑷)>1;所述测试实例属于 类标签C1,也属于类标签cj;其中,r为0-1之间的数值。
[0041 ] 优选的,所述最佳标签选择策略,具体包括:
[0042] 若。<沒.5^(〔,,<:,) + 久(0<::|尤)-0<:;。|幻)+,.(0(;:|;-以£:/°|1))<1具有如下情况:
[0043] 若巧|1)>〇 ,并且以C 那么所述测试实例属于类标签 C1,不属于类标签C];
[0044] 若iD-e(c,°m<〇,并且m-eciz)>〇,那么所述测试实例不属于类标 签C1,属于类标签Cj;
[0045] 若獻c?丨幻-c^ 1尤>0,并且e(g⑷-0C;1m>〇,那么测试实例属于类标签Ci,属 于类标签Cj。
[0046] 通过本发明的一个或者多个技术方案,本发明具有以下有益效果或者优点:
[0047]-种对分类数据集进行测试的方法,在获得分类数据
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1