一种基于张量展开的多视图谱聚类算法的制作方法

文档序号:11865373阅读:305来源:国知局
一种基于张量展开的多视图谱聚类算法的制作方法与工艺
本发明涉及数据挖掘领域,更具体地,涉及一种基于张量展开的多视图谱聚类算法。
背景技术
:多视图聚类问题主要通过整合多个视图里的有用信息从而提高聚类的性能。目前相关的算法研究大致可分成三类:基于多图融合算法,基于协同训练算法,基于子空间学习算法。第一、基于多图融合算法。该类方法的思想是为每一个视图分别构造一个图结构,然后融合这些图结构。2007年微软研究院的DengyongZhou教授和ChristopherJ.C.Burges教授的研究表明为每一个图结构定义一个随机游走,然后为所有的随机游走定义一个马尔可夫混合模型整合来自每个视图的信息可以取得不错的效果。2011年美国马里兰大学AbhishekKumar教授和美国犹他大学PiyushRai教授等人首次提出基于谱聚类,利用视图之间的协同规则化的聚类假设来整合信息。2014年中国中山大学潘炎副教授等人提出基于低秩和稀疏假设,将所有视图的概率转移矩阵融合,从而提取到一个有较高准确度的概率转移矩阵作为谱聚类的输入,也取得较高准确度的聚类结果第二、基于协同训练算法。该类方法思想是在不同的视图上进行各自训练学习,但是在训练过程中要利用其他视图上学习到的信息进行约束,通过多次迭代训练,直到多个视图聚类结果趋于一致。例如,2004年德国柏林洪堡大学SteffenBickel教授和TobiasScheffer教授的研究算法表明,每当不同的视图各自进行一次聚类后,都会相互交换部分信息来实现协同训练。2011年美国马里兰大学AbhishekKumar教授和HalDaum′eIII教授在每次迭代过程中,利用每个视图的谱表示去约束更新其他视图的邻接矩阵,直至所有的视图的邻接矩阵趋于稳定。第三、基于子空间学习算法。该类方法基于这样的假设:对于多个不同的视图(特征表示),它们都可以映射到同一个潜在低维子空间。于是,多视图聚类问题的核心就是映射到这个共同的潜在低维子空间,再进行聚类。例如,2009年美国加利福尼亚大学KamalikaChaudhuri副教授等人提出典型相关分析(CCA)方法将多视图高维数据投影到一个低维子空间中,2010年加州大学伯克利分校MathieuSalzmann教授提出将所有视图垂分解到一个垂直的潜在子空间的方法也备受关注。然而,针对多视图聚类问题,已有的方法几乎都是用矩阵进行各个视图的数据表示,只考虑视图本身的信息融合,忽视了视图之间的空间结构关系信息。技术实现要素:本发明提供一种基于张量展开的多视图谱聚类算法,该方法基于张量表示多个视图的概率转移矩阵,并用张量展开去探寻更准确、科学的模型,最终提高多视图聚类的效果。为了达到上述技术效果,本发明的技术方案如下:一种基于张量展开的多视图谱聚类算法,包括以下步骤:S1:将每个视图通过图结构表示得到各自的概率转移矩阵;S2:用一个张量表示所有视图的概率转移矩阵(每个张量的前片表示一个视图的概率转移矩阵),利用数据分布规律建模求解,得到一个概率转移矩阵P;S3:将概率转移矩阵P作为基于马尔可夫链的谱聚类算法的关键输入,计算得到谱聚类输出结果;其中n表示样本总数,m表示视图总数。进一步地,所述步骤S2的具体过程包括:S21:对张量进行Mode-1展开,即将Pi按列拼接成矩阵P(1)=(P1,P2,···,Pm),其中Pi表示第i个视图的概率转移矩阵,张量的第i个前片(FrontalSlice);为了保存在Mode-1展开后样本之间的结构信息,借鉴低秩矩阵表示(Low-RankmatrixRepresentation,LRR)方法的思想使用矩阵来保存样本之间的结构信息:又S22:对张量进行Mode-2展开,即是将Pi转置后按列拼接成矩阵利用低秩矩阵表示思想使用矩阵来保存样本之间的结构信息:又S23:对张量进行Mode-3展开即是将Pi向量化后按行拼接成矩阵P(3)=(vec(P1);vec(P2);…;vec(Pm)),利用稀疏表示思想使用矩阵来保存m个视图之间的稀疏信息:等价于S24:利用S21-S23得到的结果得出令得到优化目标:其中,γ(>0)是一个折中因子;S25:对求解模型加入一个噪声张量来提高求解模型对噪声的鲁棒性:其中,λ(>0)是一个折中因子;S26:对S25中得到优化目标求解后得到关联矩阵W=|W1|+|W1|T进而得到概率转移矩阵其中是对角矩阵且进一步地,步骤S25中得到的模型还需进行优化,具体过程如下:S251:对优化目标进行凸松弛处理得到:S252:构造增广拉格朗日函数:其中,是拉格朗日乘子,μ>0是惩罚参数;S253:当W1=W1k,μ=μk时,令W1的更新公式为:若是的奇异值分解,则其中Sθ(·)=max(·-θ,0)+min(·+θ,0)W2的更新公式为:其中是的奇异值分解W3的更新公式为:的更新公式为:的更新公式为:利用公式(1)-(5)在每次的迭代中更新变量W1、W2、W3、和直至该算法收敛。与现有技术相比,本发明技术方案的有益效果是:由于现有的多视图聚类算法没有考虑所有视图的整体结构信息(即各个视图相互之间的高维约束信息),仅利用二元关系结构进行建模求解,会存在较大的误差。本发明基于张量表示所有的视图数据,利用n-Mode乘法进行展开分析,且保存各个视图之间的空间结构信息,建立一个更多约束更加精准的的模型,在这样一个更加精准的数据环境下,再进行低秩矩阵和稀疏表示,可有效提高多视图聚类的效果。附图说明图1为本发明流程图;图2为张量在Mode-1展开结果;图3为张量在Mode-2展开结果;图4为张量在Mode-3展开结果。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。实施例1如图1所示,一种基于张量展开的多视图谱聚类算法,包括以下步骤:S1:将每个视图通过图结构表示得到各自的概率转移矩阵;S2:用一个张量表示所有视图的概率转移矩阵(如图2-4所示,每个张量的前片表示一个视图的概率转移矩阵),利用数据分布规律建模求解,得到一个概率转移矩阵P;S3:将概率转移矩阵P作为基于马尔可夫链的谱聚类算法的关键输入,计算得到谱聚类输出结果;其中n表示样本总数,m表示视图总数。进一步地,所述步骤S2的具体过程包括:S21:对张量进行Mode-1展开,如图2所示将Pi按列拼接成矩阵P(1)=(P1,P2,···,Pm),其中Pi表示第i个视图的概率转移矩阵;为了保存进行Mode-1展开后样本之间的结构信息,借鉴低秩矩阵表示(LRR)方法的思想使用矩阵来保存样本之间的结构信息:又S22:对张量进行Mode-2展开,如图3所示将Pi转置后按列拼接成矩阵利用低秩矩阵表示思想使用矩阵来保存样本之间的结构信息:又S23:对张量进行Mode-3展开,如图4所示将Pi向量化后按行拼接成矩阵P(3)=(vec(P1);vec(P2);…;vec(Pm)),利用稀疏表示思想使用矩阵来保存m个视图之间的稀疏信息:等价于S24:利用S21-S23得到的结果得出令得到优化目标:其中,γ(>0)是一个折中因子;S25:对求解模型加入一个噪声张量来提高求解模型对噪声的鲁棒性:其中,λ(>0)是一个折中因子;S26:对S25中得到优化目标求解后得到关联矩阵W=|W1|+|W1|T进而得到概率转移矩阵其中是对角矩阵且进一步地,步骤S25中得到的模型还需进行优化,具体过程如下:S251:对优化目标进行凸松弛处理得到:S252:构造增广拉格朗日函数:其中,是拉格朗日乘子,μ>0是惩罚参数;S253:当μ=μk时,令W1的更新公式为:若是的奇异值分解,则其中Sθ(·)=max(·-θ,0)+min(·+θ,0)W2的更新公式为:其中是的奇异值分解W3的更新公式为:的更新公式为:的更新公式为:利用公式(1)-(5)在每次的迭代中更新变量W1、W2、W3、和直至该算法收敛。本发明将选择典型的多图融合算法进行对比实验,具体如下:a)单视图(SingleView):将每个视图按照上述的基于马尔可夫链的谱聚类方法进行处理,从所有的视图聚类的结果中选取最好的结果(BestSingleView)和最差的结果(WorstSingleView)。b)特征连接(FeatureConcatenation,FC):将所有视图的特征直接拼接一组特征,再使用上述的基于马尔可夫链的谱聚类进行聚类。c)核均值(KernelAddition,KA):为每个视图构造基于高斯核的核矩阵,然后基于所有的核矩阵取均值,再使用上述的基于马尔可夫链的谱聚类输出最终结果。d)协同规则化谱聚类(Co-regularizedSpectralClustering,Co-Reg):该方法通过提出新的谱聚类目标函数,该目标函数隐式地结合多个视图的关联矩阵来实现多视图聚类。e)健壮的多视图谱聚类(RobustMulti-ViewSpectralClustering,RMSC):该方法为每个视图构造一个基于马尔科夫链的随机游走的概率转移矩阵,然后基于低秩和稀疏分解,得到目标概率转移矩阵。该概率转移矩阵作为谱聚类的关键输入。本实施例中选用的数据集主要有天秤星座运动数据集(LibrasMovement)和乳腺癌预测数据集(BreastCancer),具体的样本数,视图个数,类别如下表所示:表1实验数据集数据集样本数视图数类别数天秤星座运动数据集360215乳腺癌预测数据集56922本实施例中选用的实验结果评价指标主要有:F-分数(F-score),精度(Precision),召回率(Recall),归一化互信息(normalizedmutualinformation),平均熵(averageentropy),调整兰德指数(adjustedrandindex);其中,平均熵的值越小表示聚类的性能越好,其他指标的值越大则表示聚类的性能越好。在每个数据集上,进行了20轮不同初始化值的实验,同时计算了20轮实验结果中各种指标的方差(下表括号中的数字,有些方差小于10-5,进行四舍五入后为0)。具体采用表1的数据进行对比实验的结果如表2、表3:表2数据集LibrasMovement实验结果对比实验方法F-分数精度召回率归一化互信息调整兰德指数平均熵最优单视图0.3391(0.0154)0.3219(0.0164)0.3585(0.0171)0.5589(0.0139)0.2913(0.0166)1.7445(0.0552)最差单视图0.2740(0.0173)0.2631(0.0169)0.2860(0.0185)0.4957(0.0157)0.2221(0.0185)1.9857(0.0616)特征连接0.3488(0.0161)0.3310(0.0159)0.3688(0.0181)0.5806(0.0172)0.3016(0.0173)1.6615(0.0647)核均值0.3708(0.0236)0.3513(0.0270)0.3931(0.0229)0.6028(0.0165)0.3250(0.0259)1.5757(0.0689)协同规则化谱聚类0.3680(0.0210)0.3490(0.0220)0.3880(0.0220)0.5610(0.0170)0.3220(0.0230)1.7370(0.0670)健壮的多视图谱聚类0.3538(0.0124)0.3359(0.0145)0.3740(0.0153)0.5769(0.0131)0.3070(0.0135)1.6750(0.0509)本文0.3892(0.0253)0.3669(0.0234)0.4146(0.0286)0.6108(0.0162)0.3447(0.0270)1.5468(0.0614)表3数据集BreastCancer实验结果对比实验方法F-分数精度召回率归一化互信息调整兰德指数平均熵最优单视图0.6936(0.0001)0.5404(0.0010)0.9680(0.0031)0.0635(0.0060)0.0354(0.0039)0.9171(0.0038)最差单视图0.6936(0.0000)0.5391(0.0000)0.9721(0.0000)0.0556(0.0000)0.0303(0.0000)0.9220(0.0000)特征连接0.6940(0.0001)0.5326(0.0005)0.9961(0.0023)0.0081(0.0047)0.0039(0.0023)0.9486(0.0024)核均值0.7982(0.0000)0.7358(0.0000)0.8721(0.0000)0.4804(0.0000)0.5233(0.0000)0.5311(0.0000)协同规则化谱聚类0.7120(0.0020)0.5940(0.0050)0.8880(0.0030)0.2510(0.0120)0.2070(0.0130)0.7680(0.0110)健壮的多视图谱聚类0.8187(0.0000)0.7713(0.0000)0.8723(0.0000)0.5090(0.0000)0.5838(0.0000)0.4945(0.0000)本文0.8417(0.0000)0.8111(0.0000)0.8747(0.0000)0.5455(0.0000)0.6468(0.0000)0.4500(0.0000)相同或相似的标号对应相同或相似的部件;附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1