基于混淆矩阵对大数据进行分类的方法与流程

文档序号:13005681阅读:465来源:国知局

本发明涉及分类方法,尤其涉及信息领域基于混淆矩阵对大数据进行分类的方法。



背景技术:

数据分类作为数据挖掘中一项非常重要的工作,在商业、军事、科研的决策分析中应用广泛。随着社会信息化不断推进,在过去的5年内全球数字化信息量增长迅速,已从之前的tb级上升到pb级,甚至eb级。随着数据规模和数据体积的持续增大,大数据时代的数据分类问题规模越来越大,样本数目、特征维数和类别数量都在快速增长,大数据蕴含高价值信息的同时也隐藏着大量的数据噪声,因此,大数据分类中如何判定大数据分类精度是准确提取大数据价值的关键技术。

数据分类的方法主要包括两类:

监督分类:先取有代表性的训练区作为样本,通过选择特征参数,确定判别函数,据此进行分类。典型的监督分类算法包括平行算法,最小距离法,最大似然法,波谱角分类法等。

非监督分类:在没有先验类别作为样本的条件下,根据间相似度大小进行计算自动判别归类,无须人为干预,分类后确定数据类别。典型的非监督分类算法一般包括:回归分析、趋势分析、等混合距离法、集群分析、主成分分析和图形识别等。

无论是监督分类还是非监督分类都面临分类精度的问题,表征分类精度的方法很多,常用的有利用混淆矩阵、总体分类精度oa以及kappa系数等。混淆矩阵能够很清楚的看到每个类别正确分类的个数以及被错分的类别和个数。但是,混淆矩阵并不能一眼就看出分类精度的好坏,因此,基于混淆矩阵衍生出来各种分类精度指标,包括总体分类精度和kappa系数等。总体分类精度是指被正确分类的类别数与总的类别个数的比值。kappa系数指数据中被错误划分为某类的总数与真实划分为该类的比例。

随着大数据时代的数据分类问题规模越来越大,样本数目、特征维数和类别数量快速增长,且大数据中隐藏着大量的数据噪声,无论是监督分类还是非监督分类方法在大数据时代都面临分类准确度的问题。面对大数据,如何准确地进行大数据分类是当代信息科学技术领域的一大难题。



技术实现要素:

本发明要解决的技术问题在于:针对大数据挖掘中蕴含高价值信息的同时也隐藏着大量数据噪声的问题,提出一种基于混淆矩阵对大数据分类的方法,提高大数据分类精度,加速大数据的计算分析。

为了解决上述技术问题,本发明的具体技术方案为:

第一步、对大数据进行数据类别粗分,得到n类数据,具体方法为:依据大数据样本的特征将大数据样本分为n类,样本的特征包括颜色、声音、图像、大小、数据格式、文件后缀、特效、图标形式等等能将数据进行区分的数据特征。将分为n类的大数据用大数据集d来表示,d=[d1,d2,…,di,…dn],n为d中的类别数目,n为正整数,di表示d中第i个类别的分类样本的集合,如带有运动图像的视频集合、带有声音的音频集合、以.doc为文件后缀的word文档集合等常见数据类别的集合,1≤i≤n,dij表示di中第j个样本,并且每个类别的第一个样本di1为标本,即第一个样本的分类经确认与真实类别一致,1≤j≤mi,mi为di中的样本个数,为正整数。

第二步、统计d中的总样本数tn,具体方法为:将d中的样本数求和,即:

第三步、构建面向d的分类判定混淆矩阵p,具体方法如下:

3.1.建立类别标签。基于监督分类原理,为d1,d2,…,di,…dn建立数据类别标签tag1,tag2,…,tagi,…tagn,tagi为di的类别标签,1≤i≤n;

3.2.对d1,d2,…,di,…dn中的样本类别进行第二次判定,判定规则为:将每个样本定义为一个二元组dij=<ki,rj>,ki表示di的关键特征集合,rj表示di中样本dij的非关键特征集合;关键特征集合是判定样本类别的充分条件,即样本dij只要具有ki包含的所有关键特征就可以判定数据类别,如,只要有图像关键特征就认为该样本属于视频类型;非关键特征集合是判定样本类别的必要但非充分条件,即样本dij只要属于某种数据类别就可能具有rj中的特征,但具有该特征并不能立刻判定样本类别,如某视频文件以.mp3作为文件后缀,.mp3就是该视频的一个非关键特征。同一类别的样本必须满足下列条件之一:

条件①:两个样本的关键特征集合相同;

条件②:两个样本的关键特征集合相似,并且必要特征集合相同。

其中,集合相同表示两个集合包含的元素个数相同并且每一个元素也相同;集合相似表示两个集合包含的元素个数相同并且60%以上的元素相同,如集合a={1,2,3,4,5}与集合b={1,2,3,4,5}相同;集合a={1,2,3,4,5}与集合b'={1,2,3,6,0}相似,num(a)=num(b)=num(b')=5,表示集合a,b,b'包含的元素个数均为5,num(x)表示集合x的元素个数。第二次判定具体方法如下:

3.2.1.定义变量i=1;

3.2.2.定义变量j=1;

3.2.3.定义变量i'=1;

3.2.4.定义变量j'=1;

3.2.5.判定样本dij是否与di'同类,步骤如下:

3.2.5.1.若num(ki)≠num(ki'),样本dij与di'不同类,转3.2.5.8,否则,转3.2.5.2;

3.2.5.2.ki≠ki',表示集合ki与ki'不同,需要判断相似性,转3.2.5.3,否则,表示集合ki与ki'相同,样本dij与di'同类,转3.2.5.7;

3.2.5.3.若rj≠rj'表示集合rj与rj'不同,不能满足条件②,转3.2.5.8,否则,可能满足条件②,转3.2.5.4;

3.2.5.4.令集合变量

3.2.5.5.tmp=ki∩ki';

3.2.5.6.若集合ki与ki'相似,满足条件②,样本dij与di'同类,转3.2.5.7,否则,样本dij与di'不同类,转3.2.5.8;

3.2.5.7.给样本dij贴上标签tagi';

3.2.5.8.i'=i'+1;

3.2.5.9.若i'≤n,转3.2.5;否则,转3.2.5.10;

3.2.5.10.j=j+1;

3.2.5.11.若j≤mi,转3.2.3,否则,转3.2.5.12;

3.2.5.12.i=i+1;

3.2.5.13.若i≤n,转3.2.2,否则,样本判定结束,转3.3;

3.3.标签统计。统计di中的样本被标识为tagi'类别的数目,具体方法如下:

3.3.1.定义变量i=1;

3.3.2.定义变量i'=1;

3.3.3.定义变量j=1;

3.3.4.定义变量pii'=0;

3.3.5.若样本dij被标识为标签tagi',pii'=pii'+1,否则,转3.3.6;

3.3.6.j=j+1;

3.3.7.若j≤mi,转3.3.5,否则,3.3.8;

3.3.8.i'=i'+1;

3.3.9.若i'≤n,转3.3.3,否则,转3.3.10;

3.3.10.i=i+1;

3.3.11.若i≤n,转3.3.2,否则,转3.4;

3.4.构建分类判定混淆矩阵p,如公式(1)所示。

公式(1)中,pii'表示测试样本实际属于i类而被判定为i'类的样本个数,pii为第i类别被正确分类的样本数目,由混淆矩阵可以看出,如果其对角线元素值越大,则表明分类的精度越高。

第四步、计算面向d的分类精度oa。具体方法如下:

第五步、核算面向d的分类有效精度ea,方法如下:

第六步、输出oa和ea,结束。

采用本发明可以达到以下技术效果:

1.第三步构建混淆矩阵对样本类别进行第二次判定,使得分类准确,提高了大数据分类的精度;

2.通过第五步核算面向大数据分类有效精度,较第四步面向大数据的总体分类精度更能准确度量数据分类的精度;

3.由于基于混淆矩阵对大数据进行分类的方法提高了大数据分类精度,可加速大数据的计算分析等处理过程。

附图说明

图1为本发明基于混淆矩阵判定大数据分类精度的方法总体流程图。

具体实施方式

图1为本发明的总体流程图,其具体实施步骤如下:

第一步、对大数据进行数据类别粗分,得到n类数据,具体方法为:依据大数据样本的特征将大数据样本分为n类,样本的特征包括颜色、声音、图像、大小、数据格式、文件后缀、特效、图标形式等等能将数据进行区分的数据特征。将分为n类的大数据用大数据集d来表示,d=[d1,d2,…,di,…dn],n为d中的类别数目,n为正整数,di表示d中第i个类别的分类样本的集合,如带有运动图像的视频集合、带有声音的音频集合、以.doc为文件后缀的word文档集合等常见数据类别的集合,1≤i≤n,dij表示di中第j个样本,并且每个类别的第一个样本di1为标本,即第一个样本的分类经确认与真实类别一致,1≤j≤mi,mi为di中的样本个数,为正整数。

如实施例1:对包含9个随机样本的大数据集{001.gif,002.avi,003.jpeg,004.mp3,005.gif,006.mp3,007.avi,008.mp3,009.avi}进行数据类别粗分,得到n=3类数据,具体方法为:依据大数据样本的特征(文件后缀)将大数据样本分为n=3类,将分为3类的大数据用大数据集d来表示,d=[d1,d2,d3],d1,d2,d3表示d中第1、2、3个类别的分类样本的集合,d1=[d11=001.gif,d12=00.jpeg,d13=005.gif]为图像集合类型、d2=[d21=004.mp3,d22=006.mp3,d23=008.mp3]为音频集合类型、d3=[d31=002.avi,d32=007.avi,d33=009.avi]为视频集合类型,并且每个类别的第一个样本di1为标本,即第一个样本的分类经确认与真实类别一致。

第二步、统计d中的总样本数tn,具体方法为:将d中的样本数求和,即:

如实施例1中的

第三步、构建面向d的分类判定混淆矩阵p,具体方法如下:

3.1.建立类别标签。基于监督分类原理,为d1,d2,…,di,…dn建立数据类别标签tag1,tag2,…,tagi,…tagn,tagi为di的类别标签,1≤i≤n;

如实施例1:为d1,d2,d3建立数据类别标签tag1,tag2,,tag3,tag1表示图像标签,tag2表示音频标签,tag3表示视频标签;

3.2.对d1,d2,…,di,…dn中的样本类别进行二次判定,判定规则为:将每个样本定义为一个二元组dij=<ki,rj>,ki表示di的关键特征集合,rj表示di中样本dij的非关键特征集合;关键特征集合是判定样本类别的充分条件,即样本dij只要具有ki包含的所有关键特征就可以判定数据类别同一类别的样本必须满足下列条件之一:

条件①:两个样本的关键特征集合相同;

条件②:两个样本的关键特征集合相似,并且必要特征集合相同。

其中,集合相同表示两个集合包含的元素个数相同并且每一个元素也相同;集合相似表示两个集合包含的元素个数相同并且60%以上的元素相同。第二次判定具体方法如下:

如实施例1:

定义样本二元组如下:

d11=<{pixel,color,texture},{.gif}>

d12=<{sound,mb,color},{.jpeg}>

d13=<{pixel,mb,sound},{.gif}>

d21=<{sound,color,mb},{.mp3}>

d22=<{image,pixel,mb},{.mp3}>

d23=<{pixel,color,texture},{.mp3}>

d31=<{sound,image,gb},{.avi}>

d32=<{color,sound,mb},{.avi}>

d33=<{pixel,color,texture},{.avi}>

其中:pixel表示像素特征,color表示颜色特征,sound表示声音特征,image表示运动图像特征,texture表示纹理特征,mb|gb表示大小特征不同大小量级。

3.2.1.定义变量i=1;

3.2.2.定义变量j=1;

3.2.3.定义变量i'=1;

3.2.4.定义变量j'=1;

3.2.5.判定样本d11是否与d1同类,步骤如下:

3.2.5.1.num(k1)≠num(k1),样本dij与di'不同类,转3.2.5.8,否则,转3.2.5.2;

3.2.5.2.ki≠ki',表示集合ki与ki'不同,需要判断相似性,转3.2.5.3,否则,表示集合ki与ki'相同,样本dij与di'同类,转3.2.5.7;

3.2.5.3.若rj≠rj'表示集合rj与rj'不同,不能满足条件②,转3.2.5.8,否则,可能满足条件②,转3.2.5.4;

3.2.5.4.令集合变量

3.2.5.5.tmp=ki∩ki';

3.2.5.6.若集合ki与ki'相似,满足条件②,样本dij与di'同类,转3.2.5.7,否则,样本dij与di'不同类,转3.2.5.8;

3.2.5.7.给样本dij贴上标签tagi';

3.2.5.8.i'=i'+1;

3.2.5.9.若i'≤n,转3.2.5;否则,转3.2.5.10;

3.2.5.10.j=j+1;

3.2.5.11.若j≤mi,转3.2.3,否则,转3.2.5.12;

3.2.5.12.i=i+1;

3.2.5.13.若i≤n,转3.2.2,否则,样本判定结束,转3.3;

如实施例1:判定样本dij是否与di'同类

3.2.5判定样本d11是否与d1同类,步骤如下:

3.2.5.1num(k1)=num(k1)=3,转3.2.5.2;

3.2.5.2ki={pixel,color,texture},ki'={pixel,color,texture},表示集合ki与ki'相同,样本dij与di'同类,转3.2.5.7;

3.2.5.7.给样本dij贴上标签;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'≤n,转3.2.5;

3.2.5判定样本d11是否与d2同类,步骤如下:

3.2.5.1num(k1)=num(k2)=3,转3.2.5.2;

3.2.5.2ki=k1={pixel,color,texture},ki'=k2={sound,color,mb},表示集合ki与ki'不同,需要判断相似性,转3.2.5.3;

3.2.5.3.rj=r1={.gif},rj'=r1={.mp3},表示集合rj与rj'不同,不能满足条件②,转3.2.5.8;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'≤n,转3.2.5;

3.2.5判定样本d11是否与d3同类,步骤如下:

3.2.5.1num(k1)=num(k3)=3,转3.2.5.2;

3.2.5.2ki=k1={pixel,color,texture},ki'=k3={sound,image,gb},表示集合ki与ki'不同,需要判断相似性,转3.2.5.3;

3.2.5.3.rj=r1={.gif},rj'=r1={.avi},表示集合rj与rj'不同,不能满足条件②,转3.2.5.8;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'=4>n,转3.2.5.10;

3.2.5.10j=j+1;

3.2.5.11j=2,m1=3若j≤mi,转3.2.3;

3.2.3定义变量i'=1;

3.2.4定义变量j'=1;

3.2.5判定样本d12是否与d1同类,步骤如下:

3.2.5.1num(k1)=num(k2)=3,转3.2.5.2;

3.2.5.2ki={sound,mb,color},ki'={pixel,color,texture},表示集合ki与ki'不同,需要判断相似性,转3.2.5.3;

3.2.5.3.rj=r2={.gpeg},rj'=r1={.gif},表示集合rj与rj'不同,不能满足条件②,转3.2.5.8;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'≤n,转3.2.5;

3.2.5判定样本d12是否与d2同类,步骤如下:

3.2.5.1num(k1)=num(k2)=3,转3.2.5.2;

3.2.5.2ki={sound,mb,color},ki'={sound,color,mb},表示集合ki与ki'相同,样本dij与di'同类,转3.2.5.7;

3.2.5.7.给样本dij贴上标签;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'≤n,转3.2.5;

3.2.5判定样本d12是否与d3同类,步骤如下:

3.2.5.1num(k1)=num(k3)=3,转3.2.5.2;

3.2.5.2ki={sound,mb,color},ki'={sound,image,gb},表示集合ki与ki'不同,需要判断相似性,转3.2.5.3;

3.2.5.3.rj=r2={.gif},rj'=r1={.avi},表示集合rj与rj'不同,不能满足条件②,转3.2.5.8;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'=4>n,转3.2.5.10;

3.2.5.10j=j+1;

3.2.5.11j=2,m1=3若j≤mi,转3.2.3;

3.2.3定义变量i'=1;

3.2.4定义变量j'=1;

3.2.5判定样本d13是否与d1同类,步骤如下:

3.2.5.1num(k1)=num(k1)=3,转3.2.5.2;

3.2.5.2ki={pixel,mb,sound},ki'={pixel,color,texture},表示集合ki与ki'不同,需要判断相似性,转3.2.5.3;

3.2.5.3.rj=r3={.gif},rj'=r1={.gif},可能满足条件②,转3.2.5.4;

3.2.5.4令集合变量

3.2.5.5tmp=ki∩ki';

3.2.5.6若样本dij与di'不同类,转3.2.5.8;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'≤n,转3.2.5;

3.2.5判定样本d13是否与d2同类,步骤如下:

3.2.5.1num(k1)=num(k2)=3,转3.2.5.2;

3.2.5.2ki={pixel,mb,sound},ki'={sound,color,mb},表示集合ki与ki'不同,需要判断相似性,转3.2.5.3;

3.2.5.3.rj=r3={.gif},rj'=r1={.mp3},表示集合rj与rj'不同,不能满足条件②,转3.2.5.8;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'≤n,转3.2.5;

3.2.5判定样本d13是否与d3同类,步骤如下:

3.2.5.1num(k1)=num(k3)=3,转3.2.5.2;

3.2.5.2ki={pixel,mb,sound},ki'={sound,image,gb},表示集合ki与ki'不同,需要判断相似性,转3.2.5.3;

3.2.5.3.rj=r3={.gif},rj'=r1={.avi},表示集合rj与rj'不同,不能满足条件②,转3.2.5.8;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'=4>n,转3.2.5.10;

3.2.5.10j=j+1;

3.2.5.11j=4,m1=3若j>mi,转3.2.5.12;

3.2.5.12i=i+1;

3.2.5.13若i=2≤n,转3.2.2;

3.2.2定义变量j=1;

3.2.3定义变量i'=1;

3.2.4定义变量j'=1;

3.2.5判定样本d21是否与d1同类,步骤如下:

3.2.5.1num(k2)=num(k1)=3,转3.2.5.2;

3.2.5.2ki={sound,color,mb},ki'={pixel,color,texture},表示集合ki与ki'不同,需要判断相似性,转3.2.5.3;

3.2.5.3.rj=r1={.mp3},rj'=r1={.gif},表示集合rj与rj'不同,不能满足条件②,转3.2.5.8;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'≤n,转3.2.5;

3.2.5判定样本d21是否与d2同类,步骤如下:

3.2.5.1num(k2)=num(k2)=3,转3.2.5.2;

3.2.5.2ki={sound,color,mb},ki'={sound,color,mb},表示集合ki与ki'相同,样本dij与di'同类,转3.2.5.7;

3.2.5.7.给样本dij贴上标签;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'≤n,转3.2.5;

3.2.5判定样本d21是否与d3同类,步骤如下:

3.2.5.1num(k2)=num(k3)=3,转3.2.5.2;

3.2.5.2ki={sound,color,mb},ki'={sound,image,gb},表示集合ki与ki'不同,需要判断相似性,转3.2.5.3;

3.2.5.3.rj=r1={.mp3},rj'=r1={avi},表示集合rj与rj'不同,不能满足条件②,转3.2.5.8;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'=4>n,转3.2.5.10;

3.2.5.10j=j+1;

3.2.5.11j=2,m1=3若j≤mi,转3.2.3;

3.2.3定义变量i'=1;

3.2.4定义变量j'=1;

3.2.5判定样本d22是否与d1同类,步骤如下:

3.2.5.1num(k2)=num(k1)=3,转3.2.5.2;

3.2.5.2ki={image,pixel,mb},ki'={pixel,color,texture},表示集合ki与ki'不同,需要判断相似性,转3.2.5.3;

3.2.5.3.rj=r2={.mp3},rj'=r1={.gif},表示集合rj与rj'不同,不能满足条件②,转3.2.5.8;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'≤n,转3.2.5;

3.2.5判定样本d22是否与d2同类,步骤如下:

3.2.5.1num(k2)=num(k2)=3,转3.2.5.2;

3.2.5.2ki={image,pixel,mb},ki'={sound,color,mb}},表示集合ki与ki'不同,需要判断相似性,转3.2.5.3;

3.2.5.3.r1={.mp3},r2={.mp3},可能满足条件②,转3.2.5.4;

3.2.5.4令集合变量

3.2.5.5tmp=ki∩ki';

3.2.5.6样本dij与di'不同类,转3.2.5.8;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'≤n,转3.2.5;

3.2.5判定样本d22是否与d3同类,步骤如下:

3.2.5.1num(k2)=num(k3)=3,转3.2.5.2;

3.2.5.2ki={image,pixel,mb},ki'={sound,image,gb},表示集合ki与ki'不同,需要判断相似性,转3.2.5.3;

3.2.5.3.rj=r2={.mp3},rj'=r1={.avi},表示集合rj与rj'不同,不能满足条件②,转3.2.5.8;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'=4>n,转3.2.5.10;

3.2.5.10j=j+1;

3.2.5.11j=2,m1=3若j≤mi,转3.2.3;

3.2.3定义变量i'=1;

3.2.4定义变量j'=1;

3.2.5判定样本d23是否与d1同类,步骤如下:

3.2.5.1num(k2)=num(k1)=3,转3.2.5.2;

3.2.5.2ki={pixel,color,texture},ki'={pixel,color,texture},表示集合ki与ki'相同,样本dij与di'同类,转3.2.5.7;

3.2.5.7.给样本dij贴上标签;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'≤n,转3.2.5;

3.2.5判定样本d23是否与d2同类,步骤如下:

3.2.5.1num(k2)=num(k2)=3,转3.2.5.2;

3.2.5.2ki={pixel,color,texture},ki'={sound,color,mb},表示集合ki与ki'不同,需要判断相似性,转3.2.5.3;

3.2.5.3rj=r3={.mp3},rj'=r1={.mp3},可能满足条件②,转3.2.5.4;

3.2.5.4令集合变量

3.2.5.5tmp=ki∩ki';

3.2.5.6样本dij与di'不同类,转3.2.5.8;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'=4>n,转3.2.5.10;

3.2.5.10j=j+1;

3.2.5.11j=2,m1=3若j≤mi,转3.2.3;

3.2.3定义变量i'=1;

3.2.4定义变量j'=1;

3.2.5判定样本d23是否与d3同类,步骤如下:

3.2.5.1num(k2)=num(k3)=3,转3.2.5.2;

3.2.5.2ki={pixel,color,texture},ki'={sound,image,gb},表示集合ki与ki'不同,需要判断相似性,转3.2.5.3;

3.2.5.3.rj=r3={.mp3},rj'=r1={.avi},表示集合rj与rj'不同,不能满足条件②,转3.2.5.8;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'=4>n,转3.2.5.10;

3.2.5.10j=j+1;

3.2.5.11j=4,m1=3若j>mi,转3.2.5.12;

3.2.5.12i=i+1;

3.2.5.13若i=2≤n,转3.2.2;

3.2.2定义变量j=1;

3.2.3定义变量i'=1;

3.2.4定义变量j'=1;

3.2.5判定样本d31是否与d1同类,步骤如下:

3.2.5.1num(k3)=num(k1)=3,转3.2.5.2;

3.2.5.2ki=k3={sound,image,gb},ki'=k1={pixel,color,texture},表示集合ki与ki'不同,需要判断相似性,转3.2.5.3;

3.2.5.3.rj=r1={.avi},rj'=r1={.gif},表示集合rj与rj'不同,不能满足条件②,转3.2.5.8;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'≤n,转3.2.5;

3.2.5判定样本d31是否与d2同类,步骤如下:

3.2.5.1num(k3)=num(k2)=3,转3.2.5.2;

3.2.5.2ki=k3={sound,image,gb},ki'=k2={sound,color,mb},表示集合ki与ki'不同,需要判断相似性,转3.2.5.3;

3.2.5.3.rj=r1={.avi},rj'=r1={.mp3},表示集合rj与rj'不同,不能满足条件②,转3.2.5.8;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'≤n,转3.2.5;

3.2.5判定样本d31是否与d3同类,步骤如下:

3.2.5.1num(k3)=num(k3)=3,转3.2.5.2;

3.2.5.2ki={sound,image,gb},ki'={sound,image,gb},表示集合ki与ki'相同,样本dij与di'同类,转3.2.5.7;

3.2.5.7.给样本dij贴上标签;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'=4>n,转3.2.5.10;

3.2.5.10j=j+1;

3.2.5.11j=2,m1=3若j≤mi,转3.2.3;

3.2.3定义变量i'=1;

3.2.4定义变量j'=1;

3.2.5判定样本d32是否与d1同类,步骤如下:

3.2.5.1num(k3)=num(k1)=3,转3.2.5.2;

3.2.5.2ki=k3={color,sound,mb},ki'=k1={pixel,color,texture},表示集合ki与ki'不同,需要判断相似性,转3.2.5.3;

3.2.5.3.rj=r1={.avi},rj'=r1={.gif},表示集合rj与rj'不同,不能满足条件②,转3.2.5.8;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'≤n,转3.2.5;

3.2.5判定样本d32是否与d2同类,步骤如下:

3.2.5.1num(k3)=num(k2)=3,转3.2.5.2;

3.2.5.2ki=k3={color,sound,mb},ki'=k2={color,sound,mb},表示集合ki与ki'相同,样本dij与di'同类,转3.2.5.7;

3.2.5.7.给样本dij贴上标签;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'≤n,转3.2.5;

3.2.5判定样本d32是否与d3同类,步骤如下:

3.2.5.1num(k3)=num(k3)=3,转3.2.5.2;

3.2.5.2ki={color,sound,mb},ki'={sound,image,gb},表示集合ki与ki'不同,需要判断相似性,转3.2.5.3;

3.2.5.4rj=r2={.avi},rj'=r1={.avi},可能满足条件②,转3.2.5.4;

3.2.5.4令集合变量

3.2.5.5tmp=ki∩ki';

3.2.5.6样本dij与di'不同类,转3.2.5.8;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'=4>n,转3.2.5.10;

3.2.5.10j=j+1;

3.2.5.11j=2,m1=3若j≤mi,转3.2.3;

3.2.3定义变量i'=1;

3.2.4定义变量j'=1;

3.2.5判定样本d33是否与d1同类,步骤如下:

3.2.5.1num(k3)=num(k1)=3,转3.2.5.2;

3.2.5.2ki=k3={pixel,color,texture},ki'=k1={pixel,color,texture},表示集合ki与ki'相同,样本dij与di'同类,转3.2.5.7;

3.2.5.7.给样本dij贴上标签;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'≤n,转3.2.5;

3.2.5判定样本d33是否与d2同类,步骤如下:

3.2.5.1num(k3)=num(k2)=3,转3.2.5.2;

3.2.5.2ki=k3={pixel,color,texture},ki'=k2={sound,color,mb},表示集合ki与ki'不同,需要判断相似性,转3.2.5.3;

3.2.5.3.rj=r3={.avi},rj'=r1={.mp3},表示集合rj与rj'不同,不能满足条件②,转3.2.5.8;

3.2.5.8.i'=i'+1;

3.2.5.9.若i'≤n,转3.2.5;

3.2.5判定样本d33是否与d3同类,步骤如下:

3.2.5.1num(k3)=num(k3)=3,转3.2.5.2;

3.2.5.2ki={pixel,color,texture},ki'={sound,image,gb},表示集合ki与ki'不同,需要判断相似性,转3.2.5.3;

3.2.5.5rj=r2={.avi},rj'=r1={.avi},可能满足条件②,转3.2.5.4;

3.2.5.4令集合变量

3.2.5.5tmp=ki∩ki';

3.2.5.6样本dij与di'不同类,转3.2.5.8;

3.2.5.8i'=i'+1;

3.2.5.9若i'=4>n,转3.2.5.10;

3.2.5.10j=j+1;

3.2.5.11若j=4,mi=3,j>mi,转3.2.5.12;

3.2.5.12i=i+1;

3.2.5.13若i=4>n,样本判定结束,此时,大数据集d的分类发生了变化,为:d=[d1,d2,d3]+{d13}+{d22},d1,d2,d3表示d中第1、2、3个类别的分类样本的集合,{d13},{d22}为目前暂未明确类别的数据样本。d1=[d11=001.gif,d23=008.mp3,d33=009.avi]为图像集合类型、d2=[d21=004.mp3,d12=002.jpeg,d32=007.avi]为音频集合类型、d3=[d31=002.avi]为视频集合类型,{d13=005.gif}和{d22=006.mp3}依据条件①和条件②暂时无法分类的样本。转3.3;

3.3.统计di中的样本被标识为tagi'类别的数目,具体方法如下:

3.3.1.定义变量i=1;

3.3.2.定义变量i'=1;

3.3.3.定义变量j=1;

3.3.4.定义变量pii'=0;

3.3.5.若样本dij被标识为标签tagi',pii'=pii'+1,否则,转3.3.6;

3.3.6.j=j+1;

3.3.7.若j≤mi,转3.3.5,否则,3.3.8;

3.3.8.i'=i'+1;

3.3.9.若i'≤n,转3.3.3,否则,转3.3.10;

3.3.10.i=i+1;

3.3.11.若i≤n,转3.3.2,否则,转3.4;

3.4.构建分类判定混淆矩阵p,如公式(1)所示。

公式(1)中,pii'表示测试样本实际属于i类而被判定为i'类的样本个数,pii为第i类别被正确分类的样本数目。

如实施例1构建的p:

第四步、计算面向d的总体分类精度oa。具体方法如下:

如实施例1:

第五步、计算面向d的分类有效精度ea。具体方法如下:

如实施例1:

第五步、输出oa和ea,结束。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1