自适应多标签预测方法与流程

文档序号:14453275阅读:254来源:国知局
本发明属于智能信息分类与处理领域,特别是涉及一种可应用于大数据环境下多媒体资讯的快速聚类及发现密度峰值点的自适应多标签预测方法。
背景技术
:随着网络的快速发展,信息量正成几何趋势增长,当下的微博、论坛、微信、在线视频、网络购物和社交网络无一例外都需要标签来方便用户的搜索和分类,准确而详尽的标签一方面可让用户能够快速地找到其所需,另一方面商家也可以借助标签对用户进行分类,对不同的用户群推荐迎合其口味的产品,从而避免用户因浏览大量无关信息,使有价值的内容淹没在信息的海洋中。反之商家若是无法正确处理信息过载问题,将最终导致消费者的不断流失。目前给信息加多标签的方法主要有将多标签分解转化为独立的单一标签进行标记和将多标签转化为标签间的排序来标记。转化为单一标签,将多标签之间的关联关系完全忽略,准确性低;标签间的排序不仅需要大量的计算,且确定标签的排序后,还需要进一步确定是该标签的前标签还是后标签相似程度更高,因此同样存在准确性不高的缺陷。相较于本发明,目前的处理方法存在以下缺点:1、目前的网络信息通过计算机的学习方法,对单一标签也就是识别问题做出的预测方法较多,但由于信息的多标签存在关联关系,因此利用分解多标签为单一多标签的方法,标签的准确性较低,不能达到实用的目的。2、目前的多标签预测技术往往只能对给定的静态数据集做出处理,如考虑新增信息,往往需要重新学习,重新设置参数,不能做到随数据的变化而自动调整参数,因此泛化性弱,普适性差。3、将信息的多标签预测转为标签间的序关系来处理,不仅需要大量的计算,且可解释性较差,预测的准确性也不高。4、现有的多标签预测技术多是以提高某一评价标注而设计的,忽略了其它标准,这造成了其可移植性差的特点,仅适合在满足某些条件的数据集中使用。技术实现要素:本发明是为了克服现有技术存在的不足之处,提供一种自适应多标签预测方法,以期能准确地对网络信息加上标签,提高多标签预测的准确性、普适性、可解释性以及可移转性,从而实现大数据环境下智能信息分类和处理。本发明为解决技术问题采用如下技术方案:本发明一种自适应多标签预测方法的特点是按如下步骤进行:步骤1:获得初始化示例集D:步骤1.1、由num′个已知对象建立原始示例集D′={inst′1,inst′2,…,inst′a,…,inst′num′},inst′a表示第a个已知对象所对应的原始示例;1≤a≤num′;并有inst′a={attr′a;lab′a};attr′a表示所述第a个已知对象特征的属性集;lab′a表示所述第a个已知对象语义的标签集;并有attr′a={attr′a,1,attr′a,2,…,attr′a,n};attr′a,n表示第a个已知对象的第n个属性;n为第a个已知对象的属性数;lab′a={lab′a,1,lab′a,2,…,lab′a,x,…,lab′a,m};lab′a,x表示第a个已知对象的第x个标签;m为第a个已知对象的标签数;1≤x≤m;并有:lab′a,x=1表示第a个已知对象语义符合第x个标签;lab′a,x=0表示第a个已知对象语义不符合第x个标签;步骤1.2、对所述原始示例集D′中的num′个已知对象特征的属性集{attr′1,attr′2,…,attr′a,…,attr′num′}分别进行归一化处理,获得归一化处理后的num′个已知对象特征的属性集{attr″1,attr″2,…,attr″a,…,attr″num′};当所述归一化后的第a个已知对象特征的属性集arrta″对应的m个标签值均为0时,删除所述归一化后的第a个已知对象所属的原始示例;从而获得num个示例构成的初始化示例集D={inst1,inst2,…,insti,…,instnum};insti表示初始化后的第i个已知对象所对应的示例;并有insti={attri;labi};attri表示初始化后的第i个示例特征的属性集;labi表示初始化后的所述第i个示例语义的标签集;1≤i≤num;步骤2:求解所述初始化示例集D中各示例的群聚度,从而确定初始化示例集D中的领袖示例、局外示例和选民示例:步骤2.1、将所述初始化示例集D中num个示例中的每个示例的m个标签分别作为m维坐标,从而获得第i个示例insti与第k个示例instk标签的欧式距离dik;1≤k≤num且k≠i;步骤2.2、定义迭代次数γ;并初始化γ=1;定义所述第i个示例insti的所属聚类为clui;步骤2.3、利用式(1)获得第γ次迭代的第i个示例insti的内聚合度从而获得第γ次迭代的num个示例的内聚合度并将最大的内聚合度记为式(1)中,为第γ次迭代的阈值;当时,当时,步骤2.4、利用式(2)或式(3)获得第γ次迭代的第i个示例insti的差异度从而获得第γ次迭代的num个示例的差异度步骤2.5、对所述第γ次迭代的num个示例的差异度δ(γ)进行归一化处理,获得归一化后的差异度步骤2.6、利用式(4)获得第γ次迭代的第i个示例insti的群聚度从而获得第γ次迭代的num个示例的群聚度步骤2.7、对所述第γ次迭代的num个示例的群聚度sco(γ)进行降序排列,获得群聚度序列并令与所述群聚度序列sco′(γ)相对应的内聚合度为ρ′t(γ)表示当时的第γ次迭代的第i个示例insti的内聚合度;1≤t≤num;步骤2.8、初始化t=1;步骤2.9、判断且ρ′t(γ)≥num×3%是否成立,若成立,则第γ次迭代的阈值为有效值,并记录t后,执行步骤2.10;否则,判断是否成立,若成立,则将t+1赋值给t,并重复执行步骤2.9;否则,修改阈值将γ+1赋值给γ,并返回执行步骤2.3;步骤2.10、判断第γ次迭代的第i个示例insti的内聚合度是否满足若满足,则所述第i个示例insti为局外示例,且令所述第i个示例insti的所属聚类clui=-1;否则,判断是否成立,若成立,则第i个示例insti为领袖示例,且令clui=i,否则,第i个示例insti为选民示例;步骤2.11、统计所述领袖示例的个数和所述选民示例的个数,并分别记为N和M;步骤2.12、记N个领袖示例集为1≤α≤N;则与所述N个领袖示例集D(l)相对应的内聚合度为表示第α个领袖示例的内聚合度;与所述N个领袖示例集D(l)相对应的标签集为表示第α个领袖示例的标签集;与所述N个领袖示例集D(l)相对应的所属聚类为表示第α个领袖示例的所属聚类;步骤2.13、记M个选民示例集为1≤β≤M;则与所述M个选民示例集D(v)相对应的内聚合度为表示第β个选民示例的内聚合度;与所述M个选民示例集D(v)相对应的标签集为表示第β个选民示例的标签集;与所述M个选民示例集D(v)相对应的所属聚类为表示第β个选民示例的所属聚类;步骤3:获得所述M个选民示例集D(v)的所属聚类clu(v):步骤3.1、定义迭代次数χ;并初始化χ=1;并定义第z个中转示例instz;z≥0;并初始化α=1、β=1、z=0;步骤3.2、从所述N个领袖示例集D(l)中选取任第α个领袖示例获得所述第α个领袖示例为与第χ次迭代的第β个选民示例标签的欧式距离步骤3.3、若时,则将β+1赋值给β,并判断β≤M是否成立,若成立,重复执行步骤3.3;否则执行步骤3.5;若时,判断第χ次迭代的第β个选民示例的所属聚类是否为空,若为空,则执行步骤3.4;否则,表示第χ次迭代的第β个选民示例的所属聚类的值为第χ次迭代现有的领袖示例的下标,记为执行步骤3.11;步骤3.4、将第α个领袖示例的下标α(l)赋值给并将z+1赋值给z,令表示将第χ次迭代的第β个选民示例中的下标βχ、标签集内聚合度和所属聚类均赋值给第χ次迭代的第z个中转示例的下标、标签集、内聚合度和所属聚类;并将β+1赋值给β;判断β≤M是否成立,若成立,则执行步骤3.3;否则执行步骤3.5;步骤3.5、若z≤0,则执行步骤3.14;否则,将χ+1赋值给χ,并将依次赋值给令β=1;并获得所述第χ次迭代的第β个选民示例与第χ次迭代第z个中转示例标签的欧式距离并将z-1赋值给z;步骤3.6、若时,则将β+1赋值给β,并判断β≤M是否成立,若成立,重复执行步骤3.6;否则执行步骤3.5;若时,判断第χ次迭代的第β个选民示例的所属聚类是否为空,若为空,则执行步骤3.7;否则,表示第χ次迭代的第β个选民示例的所属聚类的值为第χ次迭代现有的领袖示例的下标,记为执行步骤3.8;步骤3.7、将第χ次迭代的第z个中转示例的下标z(χ)赋值给并将z+1赋值给z,令并将β+1赋值给β;并判断β≤M是否成立,若成立,则重复执行步骤3.6;否则执行步骤3.5;步骤3.8、利用式(5)获得第χ次迭代的第β选民示例与所述第χ次迭代现有领袖示例的影响力步骤3.9、利用式(6)获得第χ次迭代的第β个选民示例与第χ次迭代的第z个中转示例的影响力步骤3.10、若则将β+1赋值给β,并执行步骤3.6;否则,令并将z+1赋值给z,令并将β+1赋值给β,并判断β≤M是否成立,若成立,则执行步骤3.6;否则执行步骤3.5;步骤3.11、利用式(7)获得第χ次迭代的第β选民示例与所述第χ次迭代现有领袖示例的影响力步骤3.12、利用式(8)获得第χ次迭代的第β个选民示例与第α个领袖示例的影响力步骤3.13、若则将β+1赋值给β,并执行步骤3.3;否则,将第α个领袖示例的下标α(l)赋值给并将z+1赋值给z,令并将β+1赋值给β,并判断β≤M是否成立,若成立,则执行步骤3.3;否则执行步骤3.5;步骤3.14、将α+1赋值给α;并判断α≤N是否成立,若成立,令β=1,并执行步骤3.2;否则执行步骤3.15;步骤3.15、将第χ次迭代时所述M个选民示例集D(v)相对应的所属聚类依次赋值给所述M个选民示例集D(v)相对应的所属聚类步骤3.16、判断是否还存在所属聚类为空的选民示例,若存在,则设置所属聚类为空的选民示例的所属聚类的值为-1;步骤4;采用支持向量机对预测示例进行粗分类:4.1、建立由nump个预测示例组成的预测示例集P={instp1,instp2,…,instpj,…,instpnump};instpj表示第j个预测示例;1≤j≤nump;并有instpj={attrpj;labpj};arrtpj表示第j个预测示例instpj的属性集;labpj表示第j个预测示例instpj的标签集;记所述第j个预测示例instpj的所属聚类为clupj;4.2、以所述初始化示例集D相对应的num个所属聚类{clu1,clu2,…,clui,…,clunum}作为训练标签,以所述初始化示例集D中的num个已知对象的属性集{attr1,attr2…,attri,…,attrnum}作为训练样本;以所述预测示例集P的nump个属性集{attrp1,attrp2…,attrpj,…,attrpnump}作为预测样本,并用支持向量机方法进行训练,获得nump个预测标签,将所述nump个预测标签分别赋值给所述预测示例集P的nump个所属聚类;从而完成对所述预测示例集P的粗分类;步骤5、对nump个预测示例进行多标签预测;步骤5.1、将所述初始化示例集D中num个示例和所述预测示例集P中nump个示例整合为第ψ次更新示例集记为表示第Ω个第ψ次更新示例;1≤Ω≤num+nump;步骤5.2、所述第ψ次更新示例集中num+nump个更新示例中的每个示例的n个属性分别作为n维坐标,从而获得第Ω个第ψ次更新示例与第ξ个第ψ次更新示例属性的欧式距离1≤ξ≤num+nump且ξ≠Ω;步骤5.3、利用式(9)获得第Ω个第ψ次更新示例的属性聚合度从而获得第ψ次更新的num+nump个更新示例的属性聚合度当时,当时,步骤5.4、初始化j=1;步骤5.5、若所述预测示例集P中第j个预测示例instpj的所属聚类为clupj与所述初始化示例集D中第i个已知示例insti的所属聚类为clui相同;则利用式(10)获得第i个已知示例insti与第j个预测示例instpj的影响力graij:式(10)中,Γi表示已知示例insti在第ψ次更新示例集所对应更新示例的属性聚合度,Γj表示预测示例instpj在第ψ次更新示例集所对应更新示例的属性聚合度,dij表示所述第i个已知示例insti与第j个预测示例instpj属性的欧式距离;步骤5.6、重复步骤5.5,从而获得第j个预测示例instpj与所述初始化示例集D其他已知示例的影响力,并记录最大影响力gramax;步骤5.7、若graij=gramax,则令labpj=labi,表示所述预测示例集P的标签集labpj中的各个标签和所述初始化示例集D的标签集labi中的各个标签相同,从而获得第j个多标签预测的预测示例;步骤5.8、将j+1赋值给j,并判断j≤nump是否成立,若成立,则返回步骤5.5执行,否则,表示完成对nump个预测示例的多标签预测;本发明所述的自适应多标签预测方法的特点是:所述步骤5中,还包括步骤5.9、将完成多标签预测的预测示例集P的标签集赋值到所述对应的第ψ次更新示例集中,从而获得第ψ+1次更新示例集以所述第ψ+1次更新示例集作为新的初始化示例集进行自适应多标签预测。当出现新的具有相同的对象特征及相同的对象语义的预测示例时,只需从步骤4开始即可完成对新的预测示例进行多标签预测。所述步骤2.9中,修改阈值的规则是:若则将减去τ2赋值给否则,将加τ2赋值给0.1≤τ2≤0.5,75%≤τ1<100%。与已有技术相比,本发明有益效果体现在:1、本发明采用先粗分类再精准预测的方法,借助本发明所含的自适应性,通过多轮迭代,使得预测标签不断进化,进而取得比现有的多标签预测技术更为准确的预测结果,是一个可以投入到实际应用的方法。2、本发明通过初始化示例集,可根据不同已知对象特征和语义确定不同的初始化示例集,使得本发明可广泛应用于现有网络平台大部分的应用环境,从简单的文字型数据,到音频,乃至图像,皆可有较好地做出标签预测,相较于现有技术普适性强。3、本发明通过计算获得内聚合度来表示示例的内聚程度,通过计算获得差异度来表示示例的耦合程度,并依据内聚合度和差异度求解出来的群聚度,各参数有实际含义,充分考虑了高内聚低耦合的数据分类要求,易于理解和解释,从而在保证了本发明有较高的预测准确性的同时,使得本发明有较强的可移植性,可在各种条件下进行多标签预测。4、本发明通过内聚合度能够准确找到各个产品领域中的领袖示例;对于微博,论坛和社交网络,借助此法能够准确地找到不同话题领域中影响力最大的关键用户,通过对其行为的详细研究,可预测到该领域可能的趋势,并为该领域的用户提供准确的推荐。5、本发明通过计算示例与示例间影响力,不但可以用于多标签预测上,也可对相同语义的已知标签的示例进行类比,找寻到与该示例的多标签极为类似的示例,推荐给用户,提高用户的使用体验。6、本发明在预测示例的多标签确定时,采用选取与预测示例最为相似的已知示例的标签集作为预测示例的标签集的方法,可以将该已知示例的用户群推荐给新出现的预测示例;可为新出现的产品找到其较为准确的市场定位,并为其发现潜在的用户。7、本发明由于采用将完成多标签预测的预测示例加入到初始化示例集的方法,从而丰富了现有训练集,提高了下一轮预测的准确性,使得本发明具有自适应性的学习能力,面对新加入的示例能进一步完善现有数据集合,伴随已知标签示例的增加,将进一步提高该方法预测的准确性。具体实施方式本实施例中,一种自适应多标签预测方法,是按如下步骤进行:步骤1:获得初始化示例集D:步骤1.1、由num′个已知对象建立原始示例集D′={inst′1,inst′2,…,inst′a,…,inst′num′},inst′a表示第a个已知对象所对应的原始示例;1≤a≤num′;并有inst′a={attr′a;lab′a};attr′a表示第a个已知对象特征的属性集;lab′a表示第a个已知对象语义的标签集;并有attr′a={attr′a,1,attr′a,2,…,attr′a,n};attra′,n表示第a个已知对象的第n个属性;n为第a个已知对象的属性数,lab′a={lab′a,1,lab′a,2,…,lab′a,x,…,lab′a,m};lab′a,x表示第a个已知对象的第x个标签;m为第a个已知对象的标签数;1≤x≤m;并有:lab′a,x=1表示第a个已知对象语义符合第x个标签;lab′a,x=0表示第a个已知对象语义不符合第x个标签;假设,已知对象为图片,将色差,尺寸等需要详细描述的对象特征作为属性集,用准确而详尽的数字作为各个属性的值;将风景图片,动物图片等非是即否的对象语义作为标签集,用0表示不符合该标签,用1表示符合该标签;步骤1.2、对原始示例集D′中的num′个已知对象特征的属性集{attr′1,attr′2,…,attr′a,…,attr′num′}分别进行归一化处理;在归一化处理中,以第a个已知对象特征的属性集attr′a为例,即是先记录属性集{attr′a,1,attr′a,2,…,attr′a,n}中值最大的属性attr′a,max,再用最大的属性attr′a,max作为分母,与属性集中每个属性进行除法计算,便可获得第a个归一化处理后的已知对象特征的属性集attr″a;依此类推获得归一化处理后的num′个已知对象特征的属性集{attr″1,attr″2,…,attr″a,…,attr″num′};当归一化后的第a个已知对象特征的属性集arrta″对应的m个标签值均为0时,删除归一化后的第a个已知对象所属的原始示例;从而获得num个示例构成的初始化示例集D={inst1,inst2,…,insti,…,instnum};insti表示初始化后的第i个已知对象所对应的示例;并有insti={attri;labi};attri表示初始化后的第i个示例特征的属性集;labi表示初始化后的第i个示例语义的标签集;1≤i≤num;如表1所示:表1:初始化示例集D第i个示例insti的数据表attri,1…attri,nlabi,1…labi,mρiδiscoicluiinsti步骤2:求解初始化示例集D中各示例的群聚度,从而确定初始化示例集D中的领袖示例、局外示例和选民示例:步骤2.1、将初始化示例集D中num个示例中的每个示例的m个标签分别作为m维坐标,从而获得第i个示例insti与第k个示例instk标签的欧式距离dik;1≤k≤num且k≠i;例如,求解第一个示例与第二个示例标签的欧式距离d12,第一个示例和第二个示例都有m个相同名称的标签,但由于取值不一定相同,则分别表示为第一个示例的标签集lab1={lab1,1,lab1,2,…,lab1,m}和第二个示例的标签集lab2={lab2,1,lab2,2,…,lab2,m},则标签的欧式距离d12为步骤2.2、定义迭代次数γ;并初始化γ=1;定义第i个示例insti的所属聚类为clui;步骤2.3、利用式(1)获得第γ次迭代的第i个示例insti的内聚合度从而获得第γ次迭代的num个示例的内聚合度并将最大的内聚合度记为式(1)中,为第γ次迭代的阈值;当时,当时,步骤2.4、利用式(2)或式(3)获得第γ次迭代的第i个示例insti的差异度从而获得第γ次迭代的num个示例的差异度步骤2.5、对第γ次迭代的num个示例的差异度δ(γ)进行归一化处理,获得归一化后的差异度借助步骤2.4和步骤2.5将会使归一化后的差异度δ′(γ)有较大的区分,使少数接近于1,大部分值都小于0.5,这将有助于领袖示例的选取;步骤2.6、利用式(4)获得第γ次迭代的第i个示例insti的群聚度从而获得第γ次迭代的num个示例的群聚度步骤2.7、对第γ次迭代的num个示例的群聚度sco(γ)进行降序排列,获得群聚度序列并令与群聚度序列sco′(γ)相对应的内聚合度为ρ′t(γ)表示当时的第γ次迭代的第i个示例insti的内聚合度;1≤t≤num;步骤2.8、初始化t=1;步骤2.9、判断且ρ′t(γ)≥num×3%是否成立,若成立,则第γ次迭代的阈值为有效值,并记录t后,执行步骤2.10;否则,判断是否成立,若成立,则将t+1赋值给t,并重复执行步骤2.9;否则,修改阈值修改阈值的规则是:若则将减去τ2赋值给否则,将加τ2赋值给0.1≤τ2≤0.5,75%≤τ1<100%;将γ+1赋值给γ,并返回执行步骤2.3;判断且ρ′t(γ)≥num×3%的条件中,1.25和3%不是固定不变的,本发明是建立在示例数目为万级,标签数目在20以下,会有较优解,当示例数目和标签数目变化时候,可以酌情进行修改,其原则是能保证后面的步骤中仅选取群聚度远大于其它示例的少量示例作为领袖示例;步骤2.10、判断第γ次迭代的第i个示例insti的内聚合度是否满足若满足,则第i个示例insti为局外示例,且令第i个示例insti的所属聚类clui=-1;否则,判断是否成立,若成立,则第i个示例insti为领袖示例,且令clui=i,否则,第i个示例insti为选民示例;步骤2.11、统计领袖示例的个数和选民示例的个数,并分别记为N和M;步骤2.12、记N个领袖示例集为1≤α≤N;则与N个领袖示例集D(l)相对应的内聚合度为表示第α个领袖示例的内聚合度;与N个领袖示例集D(l)相对应的标签集为表示第α个领袖示例的标签集;与N个领袖示例集D(l)相对应的所属聚类为表示第α个领袖示例的所属聚类;步骤2.13、记M个选民示例集为1≤β≤M;则与M个选民示例集D(v)相对应的内聚合度为表示第β个选民示例的内聚合度;与M个选民示例集D(v)相对应的标签集为表示第β个选民示例的标签集;与M个选民示例集D(v)相对应的所属聚类为表示第β个选民示例的所属聚类;步骤3:获得M个选民示例集D(v)的所属聚类clu(v):步骤3.1、定义迭代次数χ;并初始化χ=1;并定义第z个中转示例instz;z≥0;并初始化α=1、β=1、z=0;第z个中转示例instz存储结构类似于常用的堆栈结构,本发明为了表述清晰,同时引入迭代次数χ,用来区分z相同时的中转示例;此时M个选民示例集D(v)相对应的所属聚类的值皆为空;步骤3.2、从N个领袖示例集D(l)中选取任第α个领袖示例获得第α个领袖示例为与第χ次迭代的第β个选民示例的标签的欧式距离步骤3.3、若时,则将β+1赋值给β,并判断β≤M是否成立,若成立,重复执行步骤3.3;否则执行步骤3.5;若时,判断第χ次迭代的第β个选民示例的所属聚类是否为空,若为空,则执行步骤3.4;否则,表示第χ次迭代的第β个选民示例的所属聚类的值为第χ次迭代现有的领袖示例的下标,记为执行步骤3.11;例如,第χ次迭代现有的领袖示例为inst9,则步骤3.4、将第α个领袖示例的下标α(l)赋值给并将z+1赋值给z,令表示将第χ次迭代的第β个选民示例中的下标βχ、标签集内聚合度和所属聚类均赋值给第χ次迭代的第z个中转示例的下标、标签集、内聚合度和所属聚类;并将β+1赋值给β;判断β≤M是否成立,若成立,则执行步骤3.3;否则执行步骤3.5;表示一个示例等于了另一个示例,其仅表示这两个示例对应的值相同,即将等号右边示例的下标、标签集、内聚合度和所属聚类赋值给等号左边示例的下标、标签集、内聚合度和所属聚类;步骤3.5、若z≤0,则执行步骤3.14;否则,将χ+1赋值给χ,并将依次赋值给对于其它与χ相关的参数,也需将χ-1关联的赋值给对应的χ关联的,以保持数据的连贯和一致性,譬如令β=1;并获得所述第χ次迭代的第β个选民示例与第χ次迭代第z个中转示例的标签的欧式距离并将z-1赋值给z;步骤3.6、若时,则将β+1赋值给β,并判断β≤M是否成立,若成立,重复执行步骤3.6;否则执行步骤3.5;若时,判断第χ次迭代的第β个选民示例的所属聚类是否为空,若为空,则执行步骤3.7;否则,表示第χ次迭代的第β个选民示例的所属聚类的值为第χ次迭代现有的领袖示例的下标,记为执行步骤3.8;步骤3.7、将第χ次迭代的第z个中转示例的下标z(χ)赋值给并将z+1赋值给z,令并将β+1赋值给β;并判断β≤M是否成立,若成立,则重复执行步骤3.6;否则执行步骤3.5;步骤3.8、利用式(5)获得第χ次迭代的第β选民示例与第χ次迭代现有的领袖示例的影响力式(5)可推广到计算任一两个语义相同的示例的影响力的计算,只需要知道两个示例的内聚合度和两者标签的欧式距离,或是两个示例的属性聚合度和两者属性的欧式距离,套用公式(5),便可获得两个示例间的影响力;步骤3.9、利用式(6)获得第χ次迭代的第β个选民示例与第χ次迭代的第z个中转示例的影响力步骤3.10、若则将β+1赋值给β,并执行步骤3.6;否则,令并将z+1赋值给z,令并将β+1赋值给β,并判断β≤M是否成立,若成立,则执行步骤3.6;否则执行步骤3.5;步骤3.11、利用式(7)获得第χ次迭代的第β选民示例与第χ次迭代现有领袖示例的影响力步骤3.12、利用式(8)获得第χ次迭代的第β个选民示例与第α个领袖示例的影响力步骤3.13、若则将β+1赋值给β,并执行步骤3.3;否则,将第α个领袖示例的下标α(l)赋值给并将z+1赋值给z,令并判断β≤M是否成立,若成立,则将β+1赋值给β,并执行步骤3.3;否则执行步骤3.5;步骤3.14、将α+1赋值给α;并判断α≤N是否成立,若成立,令β=1,并执行步骤3.2;否则,执行步骤3.15;步骤3.15、将第χ次迭代时M个选民示例集D(v)相对应的所属聚类依次赋值给M个选民示例集D(v)相对应的所属聚类步骤3.16、判断是否还存在所属聚类为空的选民示例,若存在,则设置所属聚类为空的选民示例的所属聚类的值为-1;因此,选民示例的所属聚类可取的值的数目为N+1,分别对应N个领袖示例的所属聚类的值以及所属聚类为-1的情况;步骤4;采用支持向量机对预测示例进行粗分类:4.1、建立由nump个预测示例组成的预测示例集P={instp1,instp2,…,instpj,…,instpnump};instpj表示第j个预测示例;1≤j≤nump;并有instpj={attrpj;labpj};arrtpj表示第j个预测示例instpj的属性集;labpj表示第j个预测示例instpj的标签集;记第j个预测示例instpj的所属聚类为clupj;本发明中预测示例和已知示例必须是同一对象,即对象的特征和语义相同,例如,已知示例是图片,则预测示例也需是图片,皆将色差,尺寸等需要详细描述的对象特征作为属性集,将风景图片,动物图片等非是即否的对象语义作为标签集,两个示例集拥有相同名称的属性集和标签集,但值各不相同,为表述清晰,本发明在论述时用不同符号进行区分;4.2、以初始化示例集D相对应的num个所属聚类{clu1,clu2,…,clui,…,clunum}作为训练标签,以初始化示例集D中的num个已知对象的属性集{attr1,attr2…,attri,…,attrnum}作为训练样本;以预测示例集P的nump个属性集{attrp1,attrp2…,attrpj,…,attrpnump}作为预测样本,并用支持向量机方法进行训练,获得nump个预测标签,将nump个预测标签分别赋值给预测示例集P的nump个所属聚类;从而完成对预测示例集P的粗分类;支持向量机方法通常有三个输入,分别为训练标签,训练样本和预测样本,从而得到一个输出,即预测标签;步骤5、对nump个预测示例进行多标签预测;步骤5.1、将所述初始化示例集D中num个示例和所述预测示例集P中nump个示例整合为第ψ次更新示例集记为表示第Ω个第ψ次更新示例;1≤Ω≤num+nump;ψ为更新次数,更新主要包括将现有初始化示例和预测示例整合成一个示例集,以及将完成多标签预测的预测示例集P的标签集赋值到所述对应的第ψ次更新示例集中,ψ的初始化为1,每完成一次更新后,将ψ+1赋值给ψ;步骤5.2、所述第ψ次更新示例集中num+nump个更新示例中的每个示例的n个属性分别作为n维坐标,从而获得第Ω个第ψ次更新示例与第ξ个第ψ次更新示例属性的欧式距离1≤ξ≤num+nump且ξ≠Ω;步骤5.3、利用式(9)获得第Ω个第ψ次更新示例的属性聚合度从而获得第ψ次更新的num+nump个更新示例的属性聚合度当时,当时,求解属性聚合度公式和内聚合度公式近似,但由标签的欧式距离变成了属性的欧式距离;步骤5.4、初始化j=1;步骤5.5、若所述预测示例集P中第j个预测示例instpj的所属聚类为clupj与所述初始化示例集D中第i个已知示例insti的所属聚类为clui相同;则利用式(10)获得第i个已知示例insti与第j个预测示例instpj的影响力graij:式(10)中,Γi表示已知示例insti在第ψ次更新示例集所对应更新示例的属性聚合度,Γj表示预测示例instpj在第ψ次更新示例集所对应更新示例的属性聚合度,dij表示所述第i个已知示例insti与第j个预测示例instpj属性的欧式距离;步骤5.6、重复步骤5.5,从而获得第j个预测示例instpj与所述初始化示例集D其他已知示例的影响力,并记录最大影响力gramax;步骤5.7、若graij=gramax,则令labpj=labi,表示所述预测示例集P的标签集labpj中的各个标签和所述初始化示例集D的标签集labi中的各个标签相同,从而获得第j个多标签预测的预测示例;步骤5.8、将j+1赋值给j,并判断j≤nump是否成立,若成立,则返回步骤5.5执行,否则,表示完成对nump个预测示例的多标签预测;步骤5.9、将完成多标签预测的预测示例集P的标签集赋值到所述对应的第ψ次更新示例集中,从而获得第ψ+1次更新示例集以所述第ψ+1次更新示例集作为新的初始化示例集进行自适应多标签预测,从而丰富现有训练集,提高下一轮预测的准确性,当出现新的具有相同的对象特征及相同的对象语义的预测示例时,只需从步骤4开始即可完成对新的预测示例进行多标签预测。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1