基于鲁棒秩约束稀疏学习的图聚类方法与流程

文档序号:18887474发布日期:2019-10-15 21:09阅读:706来源:国知局
基于鲁棒秩约束稀疏学习的图聚类方法与流程
本发明涉及一种图聚类方法,特别涉及一种基于鲁棒秩约束稀疏学习的图聚类方法。
背景技术
:随着信息科技的发展,人们每天所接触到和需要处理的信息呈现几何级的增长,面对如此大规模的信息资源,如何对它们进行有效的组织和利用,成为一个迫切需要解决的问题。在这样的背景下,大量未被标记的数据极大地促进了数据挖掘领域里一个重要研究方向的发展——聚类。聚类首先起源于分类学,它是基于相似性将物理对象或抽象对象分组为多个类的过程。该过程利用样本的特征作为分类依据,以确保同一类别内的个体具有尽可能高的同质性,并在类别之间尽可能具有异质性。聚类是“无监督学习”的代表,聚类时不需要人为输入数据标签、不需要先验知识,通过有限时间内的运算就可以将数据点划分为不同的类别。聚类可以作为独立分析数据的工具,直接得出分析结果,也可以在数据量较大时,用作对数据的预处理,“大数据”这个概念里常常伴随着聚类的存在。在众多聚类技术中,图聚类拥有较为先进的性能,并且可以挖掘数据的内在结构。图聚类是一种将数据模拟为空间点的聚类算法,即根据数据在空间的距离构建数据相似图,而后对数据相似图进行后处理以完成聚类任务。j.huang等人在文献"j.huang,f.nie,andh.huang,anewsimplexsparselearningmodeltomeasuredatasimilarityforclustering,inproc.ieeeconf.twenty-fourthinternationaljointconferenceonartificialintelligence,2015,"中提出了单纯形稀疏表示图聚类方法,该方法在稀疏表示的基础上,提出可以使用具有约束的稀疏表示来计算样本点之间的相似度,取得了较好的聚类效果。f.nie等人在文献"f.nie,x.wang,m.i.jordan,andh.huang,theconstrainedlaplacianrankalgorithmforgraph-basedclustering,inproc.ieeeconf.thirtiethaaaiconferenceonartificialintelligence,2016,"中提出了拉普拉斯秩约束图聚类方法,该方法在秩约束的基础上直接对数据图进行学习,这样可以根据数据点在相似图中的连通关系直接得到聚类结果,提升了聚类的速度和准确性。这两种方法都具有局限性。第一,学得的相似图并不能准确地反映数据间的关系。第二,每个数据点的误差在目标函数中被平方,这些方法容易受到异常值和噪声的影响,鲁棒性较差。技术实现要素:为了克服现有图聚类方法鲁棒性差的不足,本发明提供一种基于鲁棒秩约束稀疏学习的图聚类方法。该方法通过稀疏表示方法学习数据相似图s,同时结合l2,1范数,得到初始目标函数;采用k邻近法构建初始图,约束所求相似图s在初始图的邻域内;加上拉普拉斯秩约束,使秩等于数据点个数减去该相似图连通区域个数;上述三项加入系数后加在一起,得到最终的目标函数。应用增广拉格朗日乘子法,将目标函数从有约束优化问题转变成无约束优化问题;对于目标函数中包含的变量,首先进行初始化,然后在每次迭代中,固定其他三个变量不变,交替优化某一变量;在每次迭代的最后,对增广拉格朗日乘子法包含的参数进行更新;在迭代到达终止条件后,根据求得的解,对相似度矩阵进行分解,得到最终的聚类结果。本发明通过高质量地构建图,并利用l2,1范数提高了方法的鲁棒性。本发明解决其技术问题所采用的技术方案:一种基于鲁棒秩约束稀疏学习的图聚类方法,其特点是包括以下步骤:步骤一、通过稀疏表示方法学习数据相似图s,同时结合l2,1范数,x为数据,初始目标函数为:步骤二、采用k邻近法构建初始图,通过正则化项约束所求相似图s在初始图b的邻域内;步骤三、对s的拉普拉斯矩阵ls的秩加以约束,使秩等于数据点个数减去该相似图连通区域个数,根据数据点在相似图中的连通关系直接得到聚类结果,具体地,通过进行约束;步骤四、将上述三项加入系数后加在一起,得到最终的目标函数:步骤五、应用增广拉格朗日乘子法,令e=x-xz、z=s,将目标函数转化为:步骤六、对于其中包含的e、z、s、f,首先进行初始化,然后在每次迭代中,固定其他三个变量不变,交替优化某一变量;步骤七、在每次迭代的最后,对增广拉格朗日乘子法包含的参数进行更新,经过有限次迭代,逐步求得最优解。步骤八、根据求得的最优解,对s进行分解,得到最终的聚类结果。本发明的有益效果是:该方法通过稀疏表示方法学习数据相似图s,同时结合l2,1范数,得到初始目标函数;采用k邻近法构建初始图,约束所求相似图s在初始图的邻域内;加上拉普拉斯秩约束,使秩等于数据点个数减去该相似图连通区域个数;上述三项加入系数后加在一起,得到最终的目标函数。应用增广拉格朗日乘子法,将目标函数从有约束优化问题转变成无约束优化问题;对于目标函数中包含的变量,首先进行初始化,然后在每次迭代中,固定其他三个变量不变,交替优化某一变量;在每次迭代的最后,对增广拉格朗日乘子法包含的参数进行更新;在迭代到达终止条件后,根据求得的解,对相似度矩阵进行分解,得到最终的聚类结果。本发明通过高质量地构建图,并利用l2,1范数提高了方法的鲁棒性。下面结合附图和具体实施方式对本发明作详细说明。附图说明图1是本发明基于鲁棒秩约束稀疏学习的图聚类方法的流程图。具体实施方式参照图1。本发明基于鲁棒秩约束稀疏学习的图聚类方法具体步骤如下:步骤一、通过稀疏表示方法学习数据相似图s,同时结合l2,1范数,以此来提高图的构建质量并减小数据噪声和异常值的影响。具体地,x为数据,初始目标函数为:步骤二、采用k邻近法构建初始图,通过正则化项约束所求相似图s在初始图b的邻域内,进而使得学到的相似图能够准确地反映数据间的关系;步骤三、加上拉普拉斯秩约束,即对s的拉普拉斯矩阵ls的秩加以约束,使秩等于数据点个数减去该相似图连通区域个数,这样就可以根据数据点在相似图中的连通关系直接得到聚类结果,而无需后续执行后操作,提高了聚类的质量和效率。具体地,通过进行约束;步骤四、将上述三项加入系数后加在一起,得到最终的目标函数:步骤五、应用增广拉格朗日乘子法,令e=x-xz、z=s,将目标函数转化为:步骤六、对于其中包含的e、z、s、f,首先进行初始化,然后在每次迭代中,固定其他三个变量不变,交替优化某一变量;步骤七、在每次迭代的最后,对增广拉格朗日乘子法包含的参数进行更新,这样经过有限次迭代,可以逐步求得最优解。步骤八、根据求得的解,对s进行分解,得到最终的聚类结果。本发明的效果通过以下仿真实验做进一步的说明。1.仿真条件。本发明是在中央处理器为i5-34703.2ghzcpu、内存4g、windows7操作系统上,运用matlab软件进行的仿真。实验中使用的coil20数据集来自于d.cai等人在文献"d.cai,x.he,j.han,andt.s.huang,graphregularizednonnegativematrixfactorizationfordatarepresentation,ieeetransactionsonpatternanalysisandmachineintelligence,vol.33,no.8,pp.1548-1560,2010."中提出,包含1440组数据,有20个类别,每组数据对应一张32×32的图片。2.仿真内容。对数据集进行聚类实验。为了对比本发明的有效性,选取了f.nie等人在文献"f.nie,x.wang,m.i.jordan,andh.huang,theconstrainedlaplacianrankalgorithmforgraph-basedclustering,inproc.ieeeconf.thirtiethaaaiconferenceonartificialintelligence,2016,"中提到的拉普拉斯秩约束图聚类方法(clr)和j.huang等人在文献"j.huang,f.nie,andh.huang,anewsimplexsparselearningmodeltomeasuredatasimilarityforclustering,inproc.ieeeconf.twenty-fourthinternationaljointconferenceonartificialintelligence,2015,"中提出的单纯形稀疏表示图聚类方法,以及其他一些基本聚类方法。调节参数,计算精确性(acc)、归一化互信息(nmi)与纯净度(purity)。对比结果如表1所示。表1实验结果对比methodk-meansnmfncutcanclrssr本方法acc0.550.470.490.820.830.690.88nmi0.720.600.660.900.910.800.93purity0.600.500.560.860.870.750.89从表1可见,本方法的聚类性能优于其他对比方法。通过以上仿真实验可以验证本发明的有效性。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1