一种基于张量的跨域异构大数据多视角聚类方法和装置与流程

文档序号:16680192发布日期:2019-01-19 00:20阅读:420来源:国知局
一种基于张量的跨域异构大数据多视角聚类方法和装置与流程

本发明涉及信息处理技术领域,尤其涉及一种基于张量的跨域异构大数据多视角聚类方法和装置。



背景技术:

多视角聚类分析是数据挖掘的一个新兴研究领域,它可以从不同视角去探索未知数据集,存在多个聚类过程,允许有一个或多个聚类结果。比传统的单聚类,即从一个视角探索未知数据集而只产生一个聚类结果,更加符合人类看待世界的多样性特点。因此,对大数据进行多视角聚类分析,可以揭开数据中的所有结构,更好地服务人类。

现有的多视角聚类技术,主要包括多视图聚类、选择聚类和子空间聚类。多视图聚类能够融合多源信息挖掘数据的内在结构,比单一视图聚类具有更好的聚类性能。然而,多视图聚类只能从多源信息学习发现单一聚类结果,不能从多角度选择不同特征的组合产生不同的聚类结果;而选择聚类可以挖掘数据的不同模式,提供多个不同的聚类结果供用户选择。但选择聚类只注重多个聚类结果之间的相异性且无法解释其含义,不能融合多视图信息来提高聚类性能。子空间聚类被用于高维聚类,能够通过提取的子空间发现良好的类簇,但也不能从数据不同的观点产生多个不同的聚类结果。

现有技术中的多视角聚类技术无法在融合跨域多视图信息的基础上,让用户根据不同的情境上下文选择数据特征的不同组合,从而无法根据不同情境产生不同的聚类结果为上层大数据应用提供高质量聚类服务的技术问题。



技术实现要素:

本发明实施例提供了一种基于张量的跨域异构大数据多视角聚类方法和装置,解决现有技术中无法根据不同情境产生不同的聚类结果为上层大数据应用提供高质量聚类服务的技术问题。

鉴于上述问题,提出了本申请实施例以便提供一种基于张量的跨域异构大数据多视角聚类方法和装置。

第一方面,本发明提供了一种基于张量的跨域异构大数据多视角聚类方法,所述方法包括:

根据融合跨域异构特征空间构建样本张量,且根据不同情境上下文构建特征空间组合向量;将所述样本张量累加获得合并张量;沿所述合并张量各个特征空间对应的阶做归一化获得连接张量;根据所述连接张量计算在多属性关联条件下的平稳分布,获得所述各个特征空间评分向量,且将所述特征空间评分向量做外积获得评分张量;将所述特征空间组合向量和所述评分张量引入高维空间张量距离构建组合评分张量距离;根据所述组合评分张量距离计算样本相似度,且根据所述特征空间组合向量构建视图矩阵;根据所述视图矩阵获得不同视图下的多视角聚类结果。

优选地,所述跨域异构特征空间包括网络空间、物理空间和社会空间中的一种或多种。

优选地,根据所述连接张量计算在多属性关联条件下的平稳分布,获得所述各个特征空间评分向量,且将所述评分向量做外积获得评分张量,还包括:获得l个连接张量,l为正整数;初始化概率参数和阈值参数;选择初始向量与随机向量;将l个所述连接张量分别和所述初始向量、所述随机向量做单模乘;分别判断相邻两次评分向量的误差是否小于阈值参数;当相邻两次评分向量的误差小于阈值参数时,获得l个评分向量;根据特征空间维度截取所述l个评分向量获得特征空间评分向量;将所述特征空间评分向量做外积获得评分张量。

优选地,根据所述视图矩阵获得不同视图下的多视角聚类结果,还包括:根据典型聚类算法输入所述视图矩阵获得多视角聚类结果。

第二方面,本发明提供了一种基于张量的跨域异构大数据多视角聚类装置,所述装置包括:

第一构建单元,所述第一构建单元用于根据融合跨域异构特征空间构建样本张量,且根据不同情境上下文构建特征空间组合向量;

第一获得单元,所述第一获得单元用于将所述样本张量累加获得合并张量;

第二获得单元,所述第二获得单元用于沿所述合并张量各个特征空间对应的阶做归一化获得连接张量;

第三获得单元,所述第三获得单元用于根据所述连接张量计算在多属性关联条件下的平稳分布,获得所述各个特征空间评分向量,且将所述特征空间评分向量做外积获得评分张量;

第二构建单元,所述第二构建单元用于将所述特征空间组合向量和所述评分张量引入高维空间张量距离构建组合评分张量距离;

第三构建单元,所述第三构建单元用于根据所述组合评分张量距离计算样本相似度,且根据所述特征空间组合向量构建视图矩阵;

第四获得单元,所述第四获得单元用于根据所述视图矩阵获得不同视图下的多视角聚类结果。

优选地,第一构建单元包括所述跨域异构特征空间包括网络空间、物理空间和社会空间中的一种或多种。

优选地,第三获得单元根据所述连接张量计算在多属性关联条件下的平稳分布,获得所述各个特征空间评分向量,且将所述评分向量做外积获得评分张量,还包括:

第五获得单元,所述第五获得单元用于获得l个连接张量,l为正整数;

第一执行单元,所述第一执行单元用于初始化概率参数和阈值参数;

第二执行单元,所述第二执行单元用于选择初始向量与随机向量;

第三执行单元,所述第三执行单元用于将l个所述连接张量分别和所述初始向量、所述随机向量做单模乘;

第一判断单元,所述第一判断单元用于分别判断相邻两次评分向量的误差是否小于阈值参数;

第六获得单元,所述第六获得单元用于当相邻两次评分向量的误差小于阈值参数时,获得l个评分向量;

第七获得单元,所述第七获得单元用于根据特征空间维度截取所述l个评分向量获得特征空间评分向量;

第八获得单元,所述第八获得单元用于将所述特征空间评分向量做外积获得评分张量。

优选地,第四获得单元根据所述视图矩阵获得不同视图下的多视角聚类结果,还包括:

第九获得单元,所述第九获得单元用于根据典型聚类算法输入所述视图矩阵获得多视角聚类结果。

第三方面,本发明提供了一种基于张量的跨域异构大数据多视角聚类装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:根据融合跨域异构特征空间构建样本张量,且根据不同情境上下文构建特征空间组合向量;将所述样本张量累加获得合并张量;沿所述合并张量各个特征空间对应的阶做归一化获得连接张量;根据所述连接张量计算在多属性关联条件下的平稳分布,获得所述各个特征空间评分向量,且将所述特征空间评分向量做外积获得评分张量;将所述特征空间组合向量和所述评分张量引入高维空间张量距离构建组合评分张量距离;根据所述组合评分张量距离计算样本相似度,且根据所述特征空间组合向量构建视图矩阵;根据所述视图矩阵获得不同视图下的多视角聚类结果。

本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:

本申请实施例提供的一种基于张量的跨域异构大数据多视角聚类方法和装置,根据融合跨域异构特征空间构建样本张量,且根据不同情境上下文构建特征空间组合向量;将所述样本张量累加获得合并张量;沿所述合并张量各个特征空间对应的阶做归一化获得连接张量;根据所述连接张量计算在多属性关联条件下的平稳分布,获得所述各个特征空间评分向量,且将所述特征空间评分向量做外积获得评分张量;将所述特征空间组合向量和所述评分张量引入高维空间张量距离构建组合评分张量距离;根据所述组合评分张量距离计算样本相似度,且根据所述特征空间组合向量构建视图矩阵;根据所述视图矩阵获得不同视图下的多视角聚类结果。解决现有技术中无法根据不同情境产生不同的聚类结果为上层大数据应用提供高质量聚类服务的技术问题,实现了可以同时考虑多个模态特征的融合交互对聚类结果的影响,能提供比单一视图聚类更好的聚类性能;可以灵活地根据不同情境应用的需求选择需要的特征空间,根据张量元素映射关系,产生多个聚类结果为不同的应用提供高质量聚类服务,并且聚类结果解释性较好;更加有效地度量高阶空间中数据样本的距离,适合跨域异构大数据样本相似度的计算;提高重要属性对聚类结果的影响,同时退化噪音属性的影响,聚类质量优于不加评分的情况的技术效果。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

图1为本发明实施例中一种基于张量的跨域异构大数据多视角聚类方法的流程示意图;

图2为本发明实施例中一种基于张量的跨域异构大数据多视角聚类装置的结构示意图;

图3为本发明实施例中提供的评分学习算法流程示意图;

图4为本发明实施例中提供的张量多视角聚类算法流程示意图;

图5为本发明实施例中另一种基于张量的跨域异构大数据多视角聚类装置的结构示意图。

附图标号说明:总线300,接收器301,处理器302,发送器303,存储器304,总线接口306。

具体实施方式

本发明实施例提供了一种基于张量的跨域异构大数据多视角聚类方法和装置,本发明提供的技术方案总体思路如下:根据融合跨域异构特征空间构建样本张量,且根据不同情境上下文构建特征空间组合向量;将所述样本张量累加获得合并张量;沿所述合并张量各个特征空间对应的阶做归一化获得连接张量;根据所述连接张量计算在多属性关联条件下的平稳分布,获得所述各个特征空间评分向量,且将所述评分向量做外积获得评分张量;将所述特征空间组合向量和评分张量引入高维空间张量距离构建组合评分张量距离;根据所述组合评分张量距离计算样本相似度,且根据所述特征空间组合构建视图矩阵;根据所述视图矩阵获得不同视图下的多视角聚类结果。解决现有技术中无法根据不同情境产生不同的聚类结果为上层大数据应用提供高质量聚类服务的技术问题,实现了可以同时考虑多个模态特征的融合交互对聚类结果的影响,能提供比单一视图聚类更好的聚类性能;可以灵活地根据不同情境下应用的需求选择需要的特征空间,根据张量元素映射关系,产生多个聚类结果为不同的应用提供高质量聚类服务,并且聚类结果解释性较好;更加有效地度量高阶空间中数据样本的距离,适合跨域异构大数据样本相似度的计算;提高重要属性对聚类结果的影响,同时退化噪音属性的影响,聚类质量优于不加评分的情况的技术效果。

下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。

实施例一

图1为本发明实施例中一种基于张量的跨域异构大数据多视角聚类方法的流程示意图。如图1所示,所述方法包括:

步骤110:根据融合跨域异构特征空间构建样本张量,且根据不同情境上下文构建特征空间组合向量。

进一步的,所述跨域异构特征空间包括网络空间、物理空间和社会空间中的一种或多种。

具体而言,请参考图4,根据融合跨域异构特征空间构建样本张量其中f1,f2,...,fl表示l个特征空间。针对大数据高维、多源、异构的特点,采用张量融合跨域异构多源信息挖掘数据的内在结构,可以同时考虑多个模态特征的融合交互对聚类结果的影响,能提供比单一视图聚类更好的聚类性能。所述跨域异构特征空间包括网络空间、物理空间和社会空间中的一种或多种。根据不同情境上下文构建特征空间组合向量v1,v2,...,vm∈{0,1}l

步骤120:将所述样本张量累加获得合并张量;

步骤130:沿所述合并张量各个特征空间对应的阶做归一化获得连接张量。

具体而言,将所述样本张量累加获得合并张量沿所述合并张量各个特征空间对应的阶做归一化获得连接张量

步骤140:根据所述连接张量计算在多属性关联条件下的平稳分布,获得所述各个特征空间评分向量,且将所述特征空间评分向量做外积获得评分张量;

进一步的,根据所述连接张量计算在多属性关联条件下的平稳分布,获得所述各个特征空间评分向量,且将所述评分向量做外积获得评分张量,还包括:获得l个连接张量,l为正整数;初始化概率参数和阈值参数;选择初始向量与随机向量;将l个所述连接张量分别和所述初始向量、所述随机向量做单模乘;分别判断相邻两次评分向量的误差是否小于阈值参数;当相邻两次评分向量的误差小于阈值参数时,获得l个评分向量;根据特征空间维度截取所述l个评分向量获得特征空间评分向量;将所述特征空间评分向量做外积获得评分张量。

具体而言,计算在多属性关联条件下所述连接张量的平稳分布,获得所述各个特征空间评分向量,且将所述评分向量做外积获得评分张量其中,请参考图3,本实施例中提供的评分学习算法包括:获得l个连接张量初始化概率参数μ和阈值参数δ;将l个所述连接张量分别和初始向量、随机向量做单模乘,分别判断相邻两次评分向量的误差小于阈值参数δ,获得l个评分向量。通过在高维空间张量距离中引入特征空间组合系数,可以灵活地根据不同情境下应用的需求选择需要的特征空间,根据张量元素映射关系,从而产生多个聚类结果为不同的应用提供高质量聚类服务,并且聚类结果解释性较好。根据特征空间维度截取所述l个评分向量获得特征空间评分向量e1,e2,…,el;将所述特征空间评分向量e1,e2,…,el做外积获得评分张量

步骤150:将所述特征空间组合向量和评分张量引入高维空间张量距离构建组合评分张量距离;

步骤160:根据所述组合评分张量距离计算样本相似度,且根据所述特征空间组合构建视图矩阵;

步骤170:根据所述视图矩阵获得不同视图下的多视角聚类结果。

进一步的,根据典型聚类算法输入所述视图矩阵获得多视角聚类结果。

具体而言,将所述特征空间组合向量和评分张量引入高维空间张量距离构建组合评分张量距离,其中组合评分张量距离公式:

根据所述组合评分张量距离计算样本相似度,且根据所述特征空间组合构建视图矩阵根据典型聚类算法(快速搜索密度峰值聚类算法)输入所述视图矩阵获得多视角聚类结果cl1,cl2,...,clm,为上层大数据应用提供高质量聚类服务。所述组合评分张量距离考虑了不同坐标的复杂关系,所以使用所述组合评分张量距离可以更加有效地度量高阶空间中数据样本的距离,适合跨域异构大数据样本相似度的计算。同时,在所述组合评分张量距离中引入特征空间评分系数,可以提高重要属性对聚类结果的影响,同时退化噪音属性的影响,聚类质量优于不加评分的情况。

实施例2

基于与前述实施例中一种基于张量的跨域异构大数据多视角聚类方法同样的发明构思,本发明还提供一种基于张量的跨域异构大数据多视角聚类装置,如图2所示,所述装置包括:

第一构建单元,所述第一构建单元用于根据融合跨域异构特征空间构建样本张量,且根据不同情境上下文构建特征空间组合向量;

第一获得单元,所述第一获得单元用于将所述样本张量累加获得合并张量;

第二获得单元,所述第二获得单元用于沿所述合并张量各个特征空间对应的阶做归一化获得连接张量;

第三获得单元,所述第三获得单元用于根据所述连接张量计算在多属性关联条件下的平稳分布,获得所述各个特征空间评分向量,且将所述特征空间评分向量做外积获得评分张量;

第二构建单元,所述第二构建单元用于将所述特征空间组合向量和评分张量引入高维空间张量距离构建组合评分张量距离;

第三构建单元,所述第三构建单元用于根据所述组合评分张量距离计算样本相似度,且根据所述特征空间组合向量构建视图矩阵;

第四获得单元,所述第四获得单元用于根据所述视图矩阵获得不同视图下的多视角聚类结果。

进一步的,第一构建单元包括所述跨域异构特征空间,其中所述跨域异构特征空间包括网络空间、物理空间和社会空间中的一种或多种。

进一步的,第三获得单元根据所述连接张量计算在多属性关联条件下的平稳分布,获得所述各个特征空间评分向量,且将所述评分向量做外积获得评分张量,还包括:

第五获得单元,所述第五获得单元用于获得l个连接张量,l为正整数;

第一执行单元,所述第一执行单元用于初始化概率参数和阈值参数;

第二执行单元,所述第二执行单元用于选择初始向量与随机向量;

第三执行单元,所述第三执行单元用于将l个所述连接张量分别和所述初始向量、所述随机向量做单模乘;

第一判断单元,所述第一判断单元用于分别判断相邻两次评分向量的误差是否小于阈值参数;

第六获得单元,所述第六获得单元用于当相邻两次评分向量的误差小于阈值参数时,获得l个评分向量;

第七获得单元,所述第七获得单元用于根据特征空间维度截取所述l个评分向量获得特征空间评分向量;

第八获得单元,所述第八获得单元用于将所述特征空间评分向量做外积获得评分张量。

进一步的,第四获得单元根据所述视图矩阵获得不同视图下的多视角聚类结果,还包括:

第九获得单元,所述第九获得单元用于根据典型聚类算法输入所述视图矩阵获得多视角聚类结果。

前述图1实施例1中的一种基于张量的跨域异构大数据多视角聚类方法的各种变化方式和具体实例同样适用于本实施例的一种基于张量的跨域异构大数据多视角聚类装置,通过前述对一种基于张量的跨域异构大数据多视角聚类方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种基于张量的跨域异构大数据多视角聚类装置的实施方法,所以为了说明书的简洁,在此不再详述。

实施例3

基于与前述实施例中一种基于张量的跨域异构大数据多视角聚类方法同样的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种基于张量的跨域异构大数据多视角聚类方法的任一方法的步骤。

其中,在图5中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。

处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的信息。

本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:

本申请实施例提供的一种基于张量的跨域异构大数据多视角聚类方法和装置,根据融合跨域异构特征空间构建样本张量,且根据不同情境上下文构建特征空间组合向量;将所述样本张量累加获得合并张量;沿所述合并张量各个特征空间对应的阶做归一化获得连接张量;根据所述连接张量计算在多属性关联条件下的平稳分布,获得所述各个特征空间评分向量,且将所述评分向量做外积获得评分张量;将所述特征空间组合向量和评分张量引入高维空间张量距离构建组合评分张量距离;根据所述组合评分张量距离计算样本相似度,且根据所述特征空间组合构建视图矩阵;根据所述视图矩阵获得不同视图下的多视角聚类结果。解决现有技术中无法根据不同情境产生不同的聚类结果为上层大数据应用提供高质量聚类服务的技术问题,实现了可以同时考虑多个模态特征的融合交互对聚类结果的影响,能提供比单一视图聚类更好的聚类性能;可以灵活地根据不同情境下应用的需求选择需要的特征空间,根据张量元素映射关系,产生多个聚类结果为不同的应用提供高质量聚类服务,并且聚类结果解释性较好;更加有效地度量高阶空间中数据样本的距离,适合跨域异构大数据样本相似度的计算;提高重要属性对聚类结果的影响,同时退化噪音属性的影响,聚类质量优于不加评分的情况的技术效果。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1