基于不完全多视图的深度图聚类分类器设计系统及方法

文档序号:37682243发布日期:2024-04-18 20:54阅读:11来源:国知局
基于不完全多视图的深度图聚类分类器设计系统及方法

本发明涉及计算机视觉领域,尤其是涉及一种基于不完全多视图的深度图聚类分类器设计系统及方法。


背景技术:

1、随着科学技术的蓬勃发展,各类文档数据、基因表达数据、互联网数据、图像数据、股票交易数据等通常具有多种形式或通过多种来源获取。这些数据基本具有高维性,通过对数据特征的分组,使得在不同的特征空间下,可从不同的角度揭示事物的不同属性,这种从多个视角度量的数据称为多视图数据。在实践过程中,由于采集技术或者人为失误导致所收集的数据通常包含噪声甚至数据丢失,因此各个领域产生的大量含有噪声的无标签数据让不完全多视图无监督学习变得流行起来。

2、不完全多视图聚类可分为传统方法和基于深度学习的方法。传统方法主要分为四种,非负矩阵分解、子空间学习、核学习、图学习。非负矩阵分解是通过矩阵分解技术直接学习所有视图的低维一致表示。比如,文献online multi-view clustering withincomplete views(不完整视图的在线多视图聚类)将多视图聚类建模为一个联合非负矩阵分解问题,该方法将捕获不同异构视图之间的关系,在所有视图中学习一致的潜在特征矩阵,对不同视图中的数据引入一个动态的权重设置,采用快速估计的方法填充传入的缺失数据,并给缺失视图赋予较低的权重。子空间学习目标为得到一个共同的低维潜在子空间,该子空间能够保证不同视图之间最可能的一致性。文献efficient and effectiveregularized incomplete multi-view clustering(高效正则化不完全多视图聚类)通过监督的共享子空间学习,获得与每个多视图数据相对应的共享子空间,建立视图相容性判别模型。基于共享子空间重构误差等同分布的假设,提出针对视图缺失的多视角数据的共享表征获取方法,实现多视图缺失数据的预补全,最后通过多元线性回归实现缺失视图的精确补全。核学习通过不同的核映射到不同的特征空间,将所有空间的投影特征进行组合,使它们之间的相关性达到最大化。文献incomplete multi-view learning via half-quadratic minimization(半二次最小化的不完全多视图学习)在损失函数中引入基于半二次极小化理论的鲁棒估计器,通过半二次最小化过程衍生的自动加权方案,减少了异常样本的影响,结合核形式学习的自表示矩阵的低秩结构,提高对噪声的鲁棒性。图学习则是通过学习图结构,找到一个相似矩阵,用于聚类划分。文献adaptive graph completionbased incomplete multi-view clustering(基于不完全多视图聚类的自适应图补全)通过图的恢复,该方法可以利用缺失实例和可用实例的隐藏信息来增强一致性表示学习,并引入一个自适应向量,有效地减少视图缺失导致的多视图信息不平衡的负面影响。图学习是基于图的划分,但现有学习图结构的方式主要是通过高斯函数学习,对于不完整视图精度相对较低。传统方法对于不完整视图采用了视图恢复或赋予权重等,然而在其表示能力和高复杂性方面受到限制,无法解决不完整视图的大规模多视图聚类问题,因此,解决此问题刻不容缓。

3、近年来,深度imvc方法以其强大的泛化能力和可扩展性逐渐受到人们的关注。深度imvc方法通常利用插补策略来推断缺失数据的可能值,然后再进行多视图聚类。比如,文献incomplete multi-view clustering via contrastive prediction(基于对比预测的不完全多视图聚类)通对偶学习最大化不同视图之间的实际信息来学习信息量和一致性的表示,采用双重预测最小化不同视图的条件熵来恢复缺失的视图。文献generativepartial multi-view clustering with adaptive fusion and cycle consistency(基于自适应融合和周期一致性的生成部分多视图聚类)提出利用生成性对抗网络为缺失数据生成所需数据。文献multi-view spectral clustering network(多视点光谱聚类网络)将全局结构和局部结构与自表示层相结合。全局结构和局部结构相互促进,使同一类样本之间的距离变小,该算法在不同视图之间加入判别约束,使得同一簇的样本具有较大的权值,而不同簇的样本具有较小的权值。文献asurvey on multi-view learning(多视角学习研究综述)将图学习引入深度学习,通过考虑视图内相似性和视图间一致性来学习不同视图的一组表示,并在嵌入网络上叠加一个新的正交约束层,以实现神经网络的联合优化和矩阵分解,避免平凡解。

4、然而,纵观目前不完全多视图分类器的设计,虽然取得较好的性能,但是现有的方法仍存在以下问题:

5、问题一、提取图结构信息质量有待提升:图学习中的局部结构通常由传统的欧氏距离定义。欧几里得距离取决于数据的完整性,在视图不完整的情况下,无法获得更准确的图结构信息。

6、问题二、嵌入特征提取有限:嵌入特征的提取是提升不完全多视图聚类的效果的重要基石。其是针对要与图结构关系融合而言,输入样本中缺少充分的嵌入特征是相关分类器性能不高的重要原因,而且无论是多视图学习的哪一类算法,都存在因为无法反映嵌入特征与图结构信息完美融合而提出新算法的情况。

7、问题三、缺失样本在嵌入特征和图结构融合有待增强:大部分学者主要采用插补策略来解决样本缺失问题,而恢复样本的有效性取决于插补数据的质量,尤其是当缺失数据数量很大时,基于完整的数据很难正确估计缺失数据。此外,由于缺失数据的基础是未知的,因此测量插补的质量也很困难。并且现有的做法是先提取嵌入特征,再处理图结构关系,只考虑到两者存在都存在有效信息,但忽视了两者信息存在相互促进的关系,不能将嵌入特征和图结构结合在一起。


技术实现思路

1、本发明的目的就是为了提供一种提升不完全多视图分类性能的基于不完全多视图的深度图聚类分类器设计系统及方法。

2、本发明的目的可以通过以下技术方案来实现:

3、一种基于不完全多视图的深度图聚类分类器设计系统,包括:

4、图结构信息提取模块:用于将获取的不完全多视图数据集处理为样本对数据集,基于所述样本对数据集在共享权重网络中生成共享权重和共享网络参数,并采用距离度量方式进行计算,得到图结构信息;

5、多视图嵌入特征提取模块:用于基于卷积神经网络编码器从获取的不完全多视图数据集中提取初始嵌入特征,基于卷积神经网络解码器将提取的初始嵌入特征进行重构得到重构视图,并基于不完全多视图与重构视图提取出最终嵌入特征;

6、嵌入特征与图结构融合分类器实现模块:用于基于所述最终嵌入特征和图结构信息进行融合,以获得嵌入特征与图结构融合分类器。

7、进一步地,所述图结构信息提取模块包括:

8、样本对生成子模块:用于将不完全多视图数据集生成多对正对和负对,将所述多对正对和负对作为样本对数据集;

9、共享权重网络子模块:用于基于子空间方法,将所述样本对数据集映射到低维特征空间,利用具有不同参数的共享权重网络提取共享权重和共享网络参数;

10、距离度量子模块:用于基于所述共享权重和共享网络参数,利用距离相似度函数计算样本对之间的距离,以获得图结构信息。

11、进一步地,采用k近邻分类算法将不完全多视图数据集生成多对正对和负对。

12、进一步地,所述多视图嵌入特征提取模块包括:

13、卷积神经网络编码子模块:用于基于卷积神经网络编码器从所述不完全多视图数据集中提取初始嵌入特征;

14、卷积神经网络解码子模块:用于基于卷积神经网络解码器,根据提取的初始嵌入特征进行重构获得重构视图,并通过最小化不完全多视图与重构视图的差异性,提取出最终嵌入特征。

15、进一步地,所述嵌入特征与图结构融合分类器实现模块包括:

16、索引生成子模块:用于生成所述不完全多视图数据集的索引矩阵;

17、视图间平衡子模块:用于基于所述嵌入特征和图结构信息构建视图间平衡表达式,以约束视图间的平衡;

18、样本修复子模块:用于基于索引矩阵和图结构信息修复不完全多视图数据集缺失信息,得到修复完全图;

19、特征融合子模块:用于基于所述修复完全图和图结构信息之间的相融性构建特征融合表达式以进行特征融合,得到融合后的全局图;

20、多视图聚类算法子模块:基于所述融合后的全局图,采用多视图聚类算法构建多视图分类表达式;

21、目标优化函数构建子模块:用于基于所述视图间平衡表达式、特征融合表达式和多视图分类表达式构建目标优化函数,并通过最小化目标优化函数获得嵌入特征与图结构融合分类器。

22、进一步地,所述视图间平衡表达式为:

23、

24、式中,n为视图总数,m为样本总数,分别为第v个视图中第i个样本和第j个样本的嵌入特征,为第v个视图内第i个样本和第j个样本之间的图结构。

25、进一步地,所述得到修复完全图的表达式为:

26、

27、式中,为修复完全图,g为索引矩阵,u为全局图。

28、进一步地,所述特征融合表达式为:

29、

30、式中,n为视图总数,为修复完全图,sv为第v个视图的图结构,f为范数。

31、本发明还提供一种基于不完全多视图的深度图聚类分类器设计方法,包括以下步骤:

32、将获取的不完全多视图数据集处理为样本对数据集,基于所述样本对数据集在共享权重网络中生成共享权重和共享网络参数,并采用距离度量方式进行计算,得到图结构信息;

33、基于卷积神经网络编码器从获取的不完全多视图数据集中提取初始嵌入特征,基于卷积神经网络解码器将提取的初始嵌入特征进行重构得到重构视图,并基于不完全多视图与重构视图提取出最终嵌入特征;

34、基于所述最终嵌入特征和图结构信息进行融合,以获得嵌入特征与图结构融合分类器。

35、与现有技术相比,本发明具有以下有益效果:

36、(1)本发明通过图结构关系信息提取、嵌入特征提取以及嵌入特征和图结构融合三方面原则实现分类器设计,能够有效提升不完全多视图数据集的分类性能。

37、(2)本发明开创性地引入深度度量学习网络,通过共享权重网络学习更准确的图结构,代替传统方法采用的欧氏距离,探索更加准确的样本邻域相关性,从而获得更好的图学习和与深度神经网络的平滑性。

38、(3)本发明考虑到嵌入特征提取不全面的影响,利用卷积神经网络编码生成嵌入特征,并将处理的嵌入特征重构视图,能够挖掘嵌入的隐藏信息,有利于探索缺失信息的内在结构。

39、(4)本发明考虑到视图缺失导致的多视图信息不平衡的负面影响,引入索引矩阵,可以推断每个视图的基向量,将图结构信息和嵌入特征集成到深度不完全多视图聚类的联合优化框架中,充分利用局部结构和全局结构来获得有效的一致表示,有效提升不完全多视图数据集的分类性能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1