基于度量学习的多视图子空间聚类方法

文档序号：37155722发布日期：2024-02-26 17:16阅读：13来源：国知局

本发明涉及多视图子空间聚类，具体涉及一种基于度量学习的多视图子空间聚类方法。

背景技术：

1、图数据广泛存在于现实世界的应用领域，包括社交网络、人脑神经系统、知识系统和用户在一个领域的描绘，因此图聚类引起了广泛的关注。为了将相似的主题聚在同一类别中，不同的主题聚在不同类别中，近年来大量的图聚类算法得到了很好的研究。稀疏子空间聚类(sparse subspace clustering，ssc)是最著名的基于谱的子空间聚类方法之一。其核心思想是通过从同一子空间中选取几个点，并进行谱聚类来分离实例，从而找到稀疏表示。最小二乘回归(least squares regression，lsr)鼓励一种分组效应，即利用frobenius范数对高度相关的数据进行分组。与稀疏表示不同，低秩表示(low-rank representation，lrr)寻求向量集合的最低秩表示。上述方法经常用于机器学习的各种实际领域。其中，子空间学习方法最受关注。学习潜在的相似关系有助于捕获数据的固有信息，从而进一步促进下游任务的性能。考虑到数据点通常位于潜在的子空间中，子空间聚类技术对数据在其底层子空间中的分组起着至关重要的作用。这些方法首先利用自表达特性利用相似图来表示数据之间的关系，然后对得到的相似图进行谱聚类，得到最终的聚类结果

2、除了从单一来源收集信息外，众所周知，现实世界的数据通常包含多个视图，这些视图是从多个渠道收集的。例如，一张人脸图像可能由各种特征组成，如环境光和个人的面部表情，其中每种特征对应于一个不同的视图。不同于传统的单视图聚类算法，多视图子空间聚类方法可以精确地重塑数据对象之间的相关性，因为所有的数据视图尽管具有部分信息，但仍然具有共同的聚类结构。尽管现有的的多视图聚类算法表现出突出的性能，但仍然存在两个令人讨厌的缺点。一方面，现实世界的数据通常由冗余和损坏组成，不幸的是，现有的方法忽略了这一点，从而导致表征不足。因此，难以恢复可分离表示以方便后续聚类模块。另一方面，不同的数据集固有地包含不同的底层结构和数据分布。使用相同的度量来衡量所有数据集样本之间的相似性是不合理的。因此，上述方法无法探究数据内部的内在关系。

技术实现思路

1、针对现有技术中的上述不足，本发明提供了一种基于度量学习的多视图子空间聚类方法。

2、为了达到上述发明目的，本发明采用的技术方案为：

3、一种基于度量学习的多视图子空间聚类方法，包括如下步骤：

4、s1、采集视图样本数据点，并根据各视图样本数据点构建多视图数据集；

5、s2、通过低通滤波器对原始数据进行平滑处理，使数据更好地保留原始几何结构，并据此得到原始数据的子空间表达；

6、s3、利用不同度量模块构建基于多视图的相似矩阵；

7、s4、基于数据驱动的方式融合每个视图的相似矩阵，构建共识图；

8、s5、基于视图一致的共识图、基于不同度量模块多视图的相似矩阵以及低通滤波器学习构建基于度量学习的多视图子空间聚类目标函数；

9、s6、基于多视图子空间表征学习的目标函数进行迭代优化，得到最优多视图子空间共识表征，利用谱聚类对多视图数据进行聚类。

10、进一步的，所述s2具体包括如下步骤：

11、s21、利用低通滤波器对原始数据的各个视图进行平滑处理并构建各样本数据点的自表达矩阵，其中，对原始数据的平滑处理的具体方式为：

12、

13、式中，为第v个视图的数据矩阵，为数据矩阵，n为各视图样本数据点总数，dv为第v个视图的数据维度，i为n维单位矩阵，l(v)为x(v)对应的拉普拉斯矩阵，k为滤波阶数，为多视图数据集x的第v个视图的平滑表征；

14、s22、利用正则化法优化相似矩阵，得到优化后的相似矩阵，其中正则化项为：

15、

16、式中，z(v)为相似矩阵，为求解矩阵各项元素值的平方和的计算符；

17、s23、遍历多视图数据集，根据优化后的相似矩阵构建基于多视图的自表达矩阵，其中，基于多视图的相似矩阵表示的待优化目标函数为：

18、

19、其中，z(v)为第v个视图上优化后的相似矩阵，即为基于多视图的自表达矩阵；为多视图数据集x的第v个视图的平滑表征；m为多视图数据集x中视图总数；α为对z(v)约束项的权重系数；为图学习模块函数。

20、进一步的，所述s3中利用不同度量模块构建基于多视图的相似矩阵表示为：

21、

22、式中，z(v)为第v个视图上优化后的相似矩阵；s(v)为第v个视图的纯图，为第v个视图的纯图中的元素，为相似矩阵中样本和之间的线性距离，i，j为对应样本的编号；为度量学习模块函数，β为s(v)约束项权重系数。

23、进一步的，所述s4具体为：

24、根据基于视图一致的纯图构建基于共识图的目标函数，并以使得共识图的目标函数结果最小所对应的共识图，作为最终的共识图，其中，基于共识图的目标函数表示为：

25、

26、其中，c为共识图，ci为共识图中的第i列，cij为共识图中的元素；s(v)为第v个视图的纯图；w(v)为第v个视图所对应的权重，为图融合模块函数。

27、进一步的，所述s5中基于多视图子空间聚类的目标函数表示为：

28、

29、式中，为第v个视图的数据矩阵，为数据矩阵，n为各视图样本数据点总数，dv为第v个视图的数据维度，z(v)为相似矩阵，函数为图学习部分；为度量学习模块，s(v)为第v个视图的纯图，为纯图中的第i列的转置，为第v个视图的纯图中的元素，ci为共识图c中的第i列；为图融合模块。

30、本发明具有以下有益效果：

31、本发明既能了解输入数据的全局结构，又能探索两个局部邻居之间的相似关系。同时，本发明使用的低通滤波器显著提高了方法的鲁棒性。最后，将图滤波学习、子空间学习和不同度量模块学习集成到一个统一框架中，实现协同学习。所提出方法在几个权威基准数据集上产生了出色的结果，并被证明优于当前最先进的方法。

技术特征：

1.一种基于度量学习的多视图子空间聚类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于度量学习的多视图子空间聚类方法，其特征在于，所述s2具体包括如下步骤：

3.根据权利要求1所述的基于度量学习的多视图子空间聚类方法，其特征在于，所述s3中利用不同度量模块构建基于多视图的相似矩阵表示为：

4.根据权利要求1所述的基于度量学习的多视图子空间聚类方法，其特征在于，所述s4具体为：

5.根据权利要求1所述的基于度量学习的多视图子空间聚类方法，其特征在于，所述s5中基于多视图子空间聚类的目标函数表示为：

技术总结
本发明公开了一种基于度量学习的多视图子空间聚类方法，通过采集视图样本数据点，并根据视图样本数据点构建多视图数据集；通过低通滤波器对原始数据进行平滑处理，再利用基于不同度量模块构建基于多视图的相似矩阵，并基于数据驱动的方式融合每个视图的相似矩阵，从而构建共识图；根据基于视图一致的共识图以及基于多视图的相似矩阵构建基于度量学习的多视图子空间聚类目标函数，并对基于多视图子空间表征学习的目标函数进行迭代优化，最后利用谱聚类对多视图数据进行聚类；本发明提出了可同时基于自表达性质的不同度量模块样本间的相似度，并利用自学习的低通滤波器筛除原始数据中的高频噪声从而恢复数据平滑表征的多视图表征学习技术。

技术研发人员：黄树东,谭雨泽,刘奕汐,刘权辉,冯文韬,吕建成
受保护的技术使用者：四川大学
技术研发日：
技术公布日：2024/2/25

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄树东,谭雨泽,刘奕汐,刘权辉,冯文韬,吕建成
技术所有人：四川大学
我是此专利的发明人

上一篇：数据处理方法、装置、设备及存储介质与流程
上一篇：一种基于减摆器性能差异的地面共振计算方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。