一种多源异构大数据的缺失源补全方法

文档序号:10535060阅读:718来源:国知局
一种多源异构大数据的缺失源补全方法
【专利摘要】本发明公开了一种多源异构大数据的缺失源补全方法。本方法针对多源异构数据的缺失源问题,利用多源异构数据间的语义互补性和分布相似性,基于子空间学习方法,通过对完整的多源异构数据的语义互补性和分布相似性的挖掘,获得一个不同来源间的特征同构的语义共享子空间,从而在这个特征同构空间中,利用学习到的语义互补性和分布相似性,补全多源异构数据的缺失来源。本方法中,假设不同的来源都服从正态分布,那么缺失源的数据矩阵可以塑造为低秩(捕捉类间差异,代表期望)加稀疏(捕捉类内差异,代表方差)两个成分的和。由此,利用异源间的语义互补性和等同分布补全多源异构数据的缺失描述。
【专利说明】
一种多源异构大数据的缺失源补全方法
技术领域
[0001] 本发明属于信息技术领域,针对海量多源异构数据环境下的缺失源问题,提出了 一种多源异构大数据的缺失源补全方法。
【背景技术】
[0002] 近年来,随着大量高技术数码产品的出现,由这些异源电子设备产生的多源异构 数据(felti-source Heterogeneous Data)己经遍布到人们现实生活的各个角落。所谓多 源异构数据是指来自不同来源或者渠道,但表达的内容相似,以不同形式、不同来源、不同 视角和不同背景等多种样式出现的数据。例如,新浪微博、腾讯微信和搜狐网站关于相同的 新闻的不同形式的报道;老年痴呆症(A1 zhe imer)患者的大脑可以由核磁共振(MRI)、正电 子成像技术(PET)和X光产生多种不同视角的医学成像;Wikipedia网站上对花豹的描述采 用了图片、文本和语音等不同来源的媒介;相同的建筑物白宫可以处在不同的背景之下。
[0003] 然而,在现实情况下,由于高数据采集代价,不真实性和拒绝反馈等原因,多源异 构数据的多个来源并非都可得而是仅具有一个来源的描述。因此,国内外的研究人员提出 了一些多源数据的矩阵补全方法。目前该类方法大致可分为四类:一类是基于欧氏距离的 方法,其次是基于矩阵分解的方法,再者是基于选择填补的方法,最后是基于特征选择的方 法。
[0004] 基于样本间的欧氏距离,K-最近邻(K-Nearest Neighbor,KNN)算法通过近邻样本 的均值填补缺失值。尽管这种方法具有简单易行的特点,但若样本中存在噪声,就会大大降 低矩阵补全的效果。(参考文献:Thomas M.Cover, Peter E.Hart.Nearest Neighbor Pattern Classification.IEEE Transactions on Information Theory 13(1):21-27 (1967).)
[0005] 奇异值分解(Singular Value Decomposition,SVD)是一种基于低秩逼近的补全 方法。该方法首先将缺失值初始为0,然后对填补矩阵进行奇异值分解,接着利用低秩矩阵 中的对应值更新缺失值,直至收敛。然而,如果存在大量缺失值,SVD则无法对填补矩阵进行 奇异值分解。(参考文献:Gene H.Golub,Charles F.Van Loan.Matrix Computations (3.ed.).Johns Hopkins University Press 2012.)
[0006] Mus lea等人通过实验已经验证高效而鲁棒的多源学习方法需要将主动(Active) 学习和半监督学习相结合。(参考文献:Ion Muslea, Steven Minton, Craig A.Knoblock.Active+Semi-supervised Learning=Robust Multi-view Learning.ACM International Conference on Machine Learning 2002:435-442. )Qian等人正是根据这 一点,提出了一种半监督的多源数据缺失标签填补(Semi-Supervised Dimension Reduction for Multi-label and Multi-view Learning,SSDR_MML)方法,利用异源数据 间的相关性,填补大量无标签数据的缺失标签。SSDR-MML方法的不足之处在于,它只能填补 缺失的标签,对于多源异构数据的缺失描述却无能为力。(参考文献:Buyue Qian,Xiang Wang,Jieping Ye,Ian Davidson.A Reconstruction Error Based Framework for Multi-Label and Multi-view Learning.IEEE Transactions on Knowledge and Data Engineering 27(3):594-607(2015)?)
[OOO7] Xiang等人提出了一种能够处理多源逐块(Block-Wise)缺失数据的特征选择 (incomplete Source-Feature Selection,iSFS)方法。其基本思想为:首先,针对每个来源 学习一个单独的分类器&(k=l,2,…,m,m为来源的数量);然后,通过额外的正规化项,将 所有模型整合到一起。为了能够处理多源逐块缺失数据,iSFS方法根据不同来源的缺失情 况,将全部数据分成不同的组。在每个分组内,都包含完整的和存在缺失来源的多源数据。 不同分组之间不是完全独立的,同一完整的多源数据可以被包含在不同的分组里。iSFS方 法的优点在于,能够在多源数据出现逐块缺失的情况下,不必对缺失元素进行插值填补,就 可完成多源分析和特征选择。然而,它却无法补全缺失的数据。(参考文献:Shuo Xiang,Lei Yuan,Wei Fan,Yalin Wang,Paul M.Thompson,Jieping Ye.Multi-source Learning with Block-wise Missing Data for Alzheimer's Disease Prediction.ACM SIGKDD International Conference on Knowledge Discovery and Data Mining 2013:185-193.)
[0008]表1总结了上述多源数据缺失补全方法的不足。
[0009]表1.已有的多源数据缺失补全方法的不足


【发明内容】

[0011] 本发明的目的:
[0012] 在现实情况下,由于高数据采集代价,不真实性和拒绝反馈等原因,多源异构数据 的多个来源并非都可得而是仅具有一个来源的描述。这种现象导致缺失来源的存在,其中 缺失来源数据完全缺失其它来源的描述。这个问题完全不同于单源环境下的不完整数据的 情况。单源不完整数据指的是在单源数据中某些变量的值是缺失的。如图1所示,在阿尔茨 海默病神经影像(Alzheimer's Disease Neuroimaging Initiative)数据库中,许多数据 只有磁共振成象(Magnetic Resonance Imaging,MRI)度量,而没有正电子放射断层 (Positron Emmission Tomography,PET)扫描图像。在图1的(a)图中椭圆空心虚线框表示 多源异构数据的缺失来源,而在图1的(b)图中小六边形空心实线框表示单源环境下的不完 整数据中的缺失值。
[0013]因此,传统的单源不完整数据的补全方法完全不适用于多源异构数据的缺失来源 补全。此外,多源数据的每个来源都包含了一些相关互补信息,这些信息对于提高大数据分 类、聚类、检索和分析的性能都是不可或缺十分必要的。然而,缺失来源数据通常都被直接 丢弃,这就会导致可使用的数据资源的严重缺失,进而严重削弱了各种大数据应用的性能。 由此,迫切需要提出一种有效的多源异构数据缺失来源补全方法,补全缺失的来源,弥补数 据资源的严重缺失,以促进多源异构数据的高效利用。而通过利用异源间的语义互补性和 分布相似性,补全多源异构数据的缺失来源正是本发明的特色之一。
[0014] 如图2所示,多源异构数据处在互补性和分布性约束之下。互补性约束指的是不同 来源间的语义互补性,该约束会将不同来源间的互补信息充分包含在多源数据中。不同于 互补性约束,分布性约束呈现出高度的分布相似性,此约束会将同一来源内的同类样本聚 集到一起。而本发明的具体目的就是针对多源异构数据的缺失源问题,提供一种多源异构 大数据的缺失源补全方法,利用多源异构数据间的语义互补性和等同分布,基于子空间学 习方法,通过对已有的无缺失多源异构数据间关联性的挖掘,补全缺失的来源,提供更多的 数据资源,增强大数据应用的性能。
[0015] 本发明的技术方案:
[0016] 以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并 非用于限定本发明的范围。
[0017] 如图3所示,本发明提供了一种多源异构数据的缺失源补全的基本框架。这个框架 由两个数学模型组成,一个为同构线性相关分析(Isomorphic Linear Correlation Analysis,ILCA)模型,另一个为等同分布约束补全(Identical Distribution Pursuit C〇mpleti〇n,IDPC)模型。其中,旨在捕捉异源间的语义互补性和等同分布,ILCA模型将多源 异构数据线性投影到一个特征同构空间,以此揭示出异源间的共享信息。与此同时,假设不 同的来源都服从正态分布,那么缺失源的数据矩阵可以塑造为低秩(捕捉类间差异,代表期 望)加稀疏(捕捉类内差异,代表方差)两个成分的和。由此,为了补全缺失的来源,IDPC模型 在由ILCA模型学习到的特征同构空间中,利用异源间的语义互补性和等同分布,补全多源 异构数据的缺失描述,进而可以获得更多的多源异构数据,提高学习器的泛化能力。
[0018] 在图3中,一组多源异构数据由MRI和PET两种异源描述组成,并已有一些无缺失的 多源异构数据XE和Ye。然而某些多源数据XM存在缺失源。例如,实例X5,X6,X7,和X8完全缺失 MRI源的描述。针对多源异构数据的缺失源问题,为了恢复多源异构数据的缺失描述,获取 更多的多源异构数据,提高学习器的泛化能力,本发明将提供具有多源补全能力的缺失源 补全算法。
[0019]具体的技术方案为:
[0020] 1)ILCA模型首先学习到一个特征同构空间。在这个空间中使用相同的维度和相同 的属性描述相同的语义概念,以此桥接多个异构的底层特征空间。为了能够充分捕捉到异 源间的语义互补性和等同分布,ILCA模型会利用已有的无缺失异构描述X E和Ye,学习多个异 构的线性变换A和B,从而消除不同来源间的异构性,由此得到一个特征同构空间。在这个空 间中,来自不同来源的异构相关描述被耦合到一起,以此捕捉异源异构描述间的共享信息, 进而在不同的类别间形成大边缘。
[0021 ]例如,图3中类1和类2的大边缘。由此便可在这个特征同构空间中,直接度量多源 异构数据间的相关性。如图3所示,线性变换A和B将异构共生描述X#Py2线性投影到这个特 征同构空间,以消除它们之间的异构性。此外,在这个特征同构空间中,ILCA模型还将同类 样本聚集到一起,而异类样本间则保持一定距离。例如,在这个特征同构空间中,异构共生 描述(xi,yi)和(X3,y3)呈现出很高的分布相似性。
[0022] 2)进一步假设多源异构数据的缺失源服从正态分布。那么,缺失描述的期望自然 对应于类间差异,而缺失样本的方差代表类内差异。为了恢复多源异构数据的缺失源,IDPC 模型利用秩(rank)捕捉类间差异,同时使用稀疏性(sparsity)挖掘类内差异。由此,缺失描 述的数据矩阵XM便由低秩矩阵Lm和稀疏矩阵S M的和构成。根据这个补全假设,IDPC模型利用 ILCA模型学习到的语义互补性和等同分布,补全多源异构数据的缺失源。此外,在补全过程 中,一些噪声信息不可避免地被包含在了恢复的缺失源中。这些因素会严重影响恢复描述 的性能。为了能够有效地去除这些噪声,在IDPC模型中引入了一个由均值矩阵诱导的数据 分布约束。这个约束会将恢复的描述推进到以同类样本的均值为中心的边缘内。而矩阵H的 第i行为已有的无缺失矩阵Ye中和第i个缺失描述类别相同的同类样本的均值。
[0023] 在图3中,由于yi和y3都属于类1,所以yi和y3的均值构成hi。与此同时,在特征同构 空间中,来自缺失源MRI的恢复描述X5和X7被推进到以PET源中同类样本的均值hi为中心的 边缘中,并分别和对应的异构描述ys和y?耦合到一起。如图3所示,由ILCA+IDPC框架不仅完 成了缺失源的补全,而且使恢复的缺失描述在学习到的特征同构空间中更可能是线性可分 的。
[0024] 下面进一步说明本发明的主要内容:
[0025] 1)同构线性相关分析模型
[0026]本发明提供的同构线性相关分析ILCA模型,利用已有的多源无缺失数据学习多个 异构线性变换,比如利用两个源的无缺失数据知e 和E"ixdy(d x为来源Vx的维度, dy为来源Vy的维度,m为无缺失样本的数量),学习两个异构线性变换A和B,从而将异源间的 相关异构描述耦合到一起,以捕捉异源间的语义互补性和等同分布,消除异源间的异构性, 从而构建出一个低维的特征同构空间。
[0027] 该方法首先设知和知分别是来源Vx和Vy中同类样本对的集合,和分别是来源 V x和Vy中异类样本对的集合,J和R分别是来源Vx和Vy中的散度矩阵。那么可以将类内散度矩 阵Js和Rs定义为如下形式:
[0028] [(而―(1)
[0029] Yj (y< ~ yj)(yt ~ yjY (2) v(yi 句)
[0030] 与此同时,类间散度矩阵JD和RD被定义为如下形式:
[0031] Z (xi-xj)( xi~xi)' (3)
[0032] R? =; X {yi ~yj)(yt - y/) (4): v'(W/)e%_
[0033] 基于上述定义,ILCA方法的优化模型如下: .||^/1 - YeB\\2f - a(tr(ATj.DA) + tr(Br RVB)) +
[0034] 心 p{tr{ATjsA) + tr{BrRsB)) (5:) s.L ArA lk and BrB = lk
[0035] 其中,j e :趿心欧,s e服~錄,kG {1,???,min(dx,dy)}为同构空间的维度, + trCST%ff)是类间惩罚(即拉大异类样本间的距离),tr(尤以)+ tr(扒i?J)是类 内紧缩(即缩减同类样本间的距离),而a和0是平衡参数。在公式(5)中,引入正交约束的目 的就是有效地去除同一来源内不同特征间的相关性。此外,利用类内紧缩和类间惩罚构成 的大边缘策略学习不同来源间的等同分布。
[0036] 值得注意的是,ILCA方法可以将多源异构数据线性投影到一个低维空间中。这一 点是非常不同于著名的非线性投影方法核典型相关分析方法(参考文献:David R.Hardoon,Sandor Szedmak,John Shawe-Taylor.Canonical Correlation Analysis:An Overview with Application to Learning Methods.Neural Computation 16(12):2639-2664(2004))和深度典型相关分析(参考文献:Galen Andrew,Raman Arora,Jeff A.Bilmes,Karen Livescu.Deep Canonical Correlation Analysis.ACM International Conference on Machine Learning(3)2013:1247-1255?)方法的。
[0037] 2)等同分布约束补全模型
[0038] 如图4所示,本发明提供的等同分布约束补全模型IDPC假设数据矩阵 % = %1+n2]T e多源缺失样本的数量)是来源1的一组缺失描述,而数 据矩阵e E~崎对应于缺失描述XM的来自于来源Vy的一组已经存在的 异构描述。缺失源的数据矩阵XM可以塑造为低秩LM(捕捉类间差异,代表期望)加稀疏S M(捕 捉类内差异,代表方差)两个成分的和。由此,为了补全缺失的来源,IDPC模型在由ILCA模型 学习到的特征同构空间中,利用ILCA模型捕捉到的异源间的语义互补性和等同分布,补全 多源异构数据的缺失描述。
[0039] 假设AlPf为公式(5)中ILCA模型的最优解,IDPC方法的优化模型如下: min W(Lm + Sm)a* - ymb*U + rU^Mlii ,,、
[0040] (6) s. t. ||(Z..AJ 4- Sm)A" - < n and \\LM\\* < £
[0041] 其中,LM和SM分别表示缺失来源描述的类间和类内差异,y为平衡因子,Jr为距离度 量参数,而e为预先指定的正参数以控制恢复的缺失来源描述携带的信息量。矩阵 if 丨/V 构建了一个数据分布约束,使得恢复的缺失来源描述Lm+Sm=Xm拥有 和来源Vy中已存在的描述Ye相同的分布,以此最大程度地消除噪声。假设是YM中第i个样 本在YE中的最近邻。在矩阵H中每一行向量A『由已存在的样本YE中和Xm中第i个实例同类样 本的均值组成。4和歧分别是来自来源V x和Vy的第t个类的样本集。定义如下三式:
[0042] ^ ^ ^ ^ A 3/y G (7)
[0043] Dl = [JtDt (8)
[0044] hi=mean(D1) (9)
[0045] 其中,D1是Ye中和XM中第i个实例同类样本的集合。
[0046] 此外,在公式(6)中引入迹范数约束的目的就是在特征同构空间中捕捉更多的缺 失来源描述XM的类间差异。而A范数正规化项控制恢复的缺失来源描述X M的稀疏度以此挖 掘足够的类内差异。
[0047] 因此,本质上,由于充分考虑了不同来源间的语义互补性和等同分布,提出的IDPC 模型不同于现有的矩阵补全方法。
[0048] 需要注意的是,直接求解公式(6)中的问题〇:不是一件容易的事情,其原因有两 点。首先,很难找到满足数据分布约束的最优解。其次,迹范数约束是不平滑,这就使得寻 找模型的最优解更加困难。然而,可以使用拉格朗日对偶法增广目标函数。具体方法为将数 据分布约束的加权和添加到目标函数中。由此可得如下可求解的凸优化问题Q 2: ]\(Lm + Sm)A*- YmB% + Fll^ll! +
[0049] n2-.LM,sM r](W(LM + - HB*\\2F - n) (10) S.t. Um\L S £
[0050] 其中,n为平衡因子。
[0051 ]本发明的有益效果:
[0052]针对于多源缺失数据中存在的缺失源问题,本发明提供了一种特征层面的多源异 构数据缺失源补全的框架。该框架首先针对于异源间存在的特征异构性,设计了一种线性 投影法ILCA,通过学习一个特征同构空间,桥接异构的底层特征空间,并捕捉到异源间的语 义互补性和等同分布。此外,根据不同的来源都服从正态分布的假设,将缺失源的数据矩阵 塑造为低秩加稀疏两个成分的和。同时,创新性地提出了一种基于数据分布约束的缺失源 补全模型IDPC,利用ILCA模型学习到的异源间的语义互补性和等同分布,补全多源异构数 据的缺失描述,获取更多的多源异构数据,提高学习器的泛化能力。
【附图说明】
[0053]图1为多源异构数据的缺失来源和单源不完整数据示意图。
[0054]图2为多源异构数据间的互补性和分布性约束示意图。
[0055] 图3为多源异构数据的缺失源补全框架示意图。
[0056] 图4为多源异构数据缺失源的构成示意图。
【具体实施方式】
[0057]下面通过具体实施例,对本发明做进一步说明。
[0058]本发明提供的多源异构大数据的缺失源补全方法,由同构线性相关分析ILCA和等 同分布约束补全IDPC算法组成,通过循环迭代过程实现模型的逐步优化。
[0059] 为了符号的简单表示,在公式(5)中的ILCA模型可以表示为:
[0060] 赠 f(z) (11)
[0061 ]其中,/(?) = atr0 _+_j8tr_(_)是平滑的目标函数,z= [Az Bz]象征优化变量,而e 为封闭的凸集,其定义为:
[0062] G - {ZlA^A^ - (1.2)
[0063] 由于f( ?)是连续可微函数且带有Lipschitz连续梯度L(参考文献: Y.Nesterov.Introductory lectures on convex optimization,volume 87.Springer Science&Business Media,2004.):
[0064] \\Vf(Zx) - Vf{Zy)\\F < /..||ZV - ||f,VZ,,Zy E C (!3)
[0065] 所以,很适合米用加速近似梯度(Accelerated Proximal Gradient,APxG)(参考 文献:[l]Yurii Nesterov. Introductory Lectures on Convex Programming.Kluwer Academic Publishers,2004.[2]Shuiwang Ji,Jieping Ye.An Accelerated Gradient Method for Trace Norm Minimization.Proc.ACM.International Conference on Machine Learning,2009,pp ? 457-464 ?)算法求解公式(11)中的问题。
[0066]需要注意的是,在APxG算法中,可以使用基于曲线搜索的梯度下降(Gradient Descent Method with Curvilinear Search,GDMCS)算法(参考文献:Zaiwen Wen,Wotao Y i n . A Feasible Method for Optimization with Orthogonality Constraints.Elsevier .Pattern recognition,2013,142(1-2): 397-434 ?)保持满足约束 条件e的给定点p的正交性。算法1给出了 GDMCS算法的具体细节。
[0069] 通过将APxG和算法1相结合,就可以求解公式(5)中的问题。算法2给出了求解公式 (5)中问题的具体细节,其中Schmidt( ?)表示Gram-Schmidt正交化(参考文献:Carl D.Meyer.Matrix Analysis and Applied Linear Algebra.SIAM Publishers,2000.)〇

[0072] 在公式(6)中的IDPC模型可以简化为:
[0073] mmF(0) = w(6>) + yg(〇) (14)
[0074] 其中,w(〇 = |H||是一个平滑的目标函数,g( ? ) = |卜|h是一个不可微函数,? = [L0 S0]象征性地表示优化变量,而$为如下形式的封闭的凸集:
[0075] Q - [0|il.f.(-;|u < £} (15)
[0076]由于公式(14)中的w( ?)是连续可微函数且带有Lipschitz连续梯度L(参考文献: Y.Nesterov.Introductory lectures on convex optimization,volume 87.Springer Sc ience&Business Media,2004.),所以很适合米用加速投影梯度(Accelerated Projected Gradient,APjG)(参考文南犬:Y.Nesterov. Introductory lectures on convex optimization,volume 87.Springer Science&Business Media,2004.)算法求角军公式(14) 中的问题。
[0077] 需要注意的是,在APjG算法中,一个给定点p在凸集?⑷阳IL 上的欧几里德 投影可以定义为:
[0078] pro人;(?)二 a'gggip -.?丨||/2 (!6)
[0079] 其中,m是预先指定的正常数。那么,可以使用在迹范数约束上的有效投影 (Efficient Projection on Trace Norm Constraints,EPTNC)算法(参考文南犬:John Duchi,Shai Shalev-Shwartz,Yoram Singer,Tushar Chandra.Efficient Projections onto the-iM-Ballfor Learning in High Dimensions . Proc. International Conference on Machine Learning,2008,pp. 272-279.)求解等式(16) D 算法3给出了EPTNC算法的具体 细节。

[0082] 与此同时,在APjG算法中,通过不可微函数g( ?)构建的无约束优化问题为:
[0083] ?* = argminpiWdl^ + p\\0 ~ 5||| (17)
[0084] 其中,y和P是两个预先指定的正参数。可以使用软门限算子(Soft-Thresholding Operator,ST0)算法(参考文南犬:Jian-Feng Cai ,Emmanuel J. Candes , Zuowei Shen . A Singular Value Thresholding Algorithm for Matrix Completion.SIAM.Journal on Optimization,2010,20(4): 1956-1982.)求解等式(17) ATC算法的具体细节见算法4。
[0086] 当应用APjG算法求解公式(14)中的问题时,一个给定点P=[LP SP]在集合S上的欧 几里德投影?=[A0 Be]可以定义为:
[0087] pr〇i〇(P) = arg mm \\0-P\\-;/2 (18)
[0088] 通过结合APjG算法,算法3和算法4,就可以求解公式(14)中的问题。算法5给出了 IDPC算法的具体细节。
2:;. i又LSi = 和= S.g。? 3:: for i - niax-ilcrdo 4.:' 设 a; = 广 1)/%一:1.。. .5.:: 计算丄朽=(1 + o:i)L0i -& " 计算知,:=(1 + ~ a;S0i-文 7:; 设 P; = [1巧 SpJ tr & 计算 l w(h)和 I7Spw(SPi)。 % while (true): 10: 计算.L户=- ▽知w(Z^)/t^0. " i l W[^i+1] ^ eptnc{lp,e), 12. 计算 ^ = Sp; - kwOpJ/T;。
[0090] ^ 13: ii-W[5ei+1] = sro(5p.A(-,r,)〇 14: T^0;+i = [^i+1S0i+i]〇 15: if FCO^^) < Fr.JJ.(9ii^) then break 16: else 更新矜=..n x 2: 17: end-if 18: end-while 19:::更新 = (1 +」l + 4tf-j_)/2, ri+1 = ii, 和七+i 二 max(0.9A;,/)。 20: end-for 2.1..:.设沒-*=.瑪+、.;!
[0091]本发明提供的多源异构大数据的缺失源补全ILCA+IDPC框架,针对多源异构数据 的缺失源问题,利用多源异构数据间的语义互补性和分布相似性,基于子空间学习方法,通 过对已有的无缺失多源异构数据间关联性的挖掘,补全多源异构数据的缺失描述,从而获 取更多的多源异构数据,提高学习器的泛化能力。
[0092]以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术 人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本 发明的保护范围应以权利要求书所述为准。
【主权项】
1. 一种多源异构大数据的缺失源补全方法,其步骤包括: 1) 利用已有的无缺失异构描述,学习多个异构的线性变换,将多源异构数据线性投影 到一个特征同构空间;在所述特征同构空间中,将来自不同来源的异构相关描述耦合到一 起,以捕捉异源间的语义互补性和等同分布,消除异源间的异构性; 2) 在所述特征同构空间中,利用异源间的语义互补性和等同分布,补全多源异构数据 的缺失描述。2. 如权利要求1所述的方法,其特征在于:步骤1)利用已有的多源无缺失数据 知e MfHx~和Ke e 学习多个异构线性变换A和B,其中dx为来源Vx的维度,d y为来源Vy 的维度,m为无缺失样本的数暈:并建立如下的优化模型:其中,4 e Edxxfc, S e _E_ayx_fc7ke {1,···,min(dx,dy)}为同构空间的维度,Js和Rs为类内散 度矩阵,Jd和Rd为类间散度矩阵,+ trCS7"/^)是类间惩罚,是 类内紧缩,而α和β是平衡参数。3. 如权利要求2所述的方法,其特征在于,步骤2)中,设数据矩阵私=[x,ll+1,…e Mn2xdx是来源^的一组缺失描述,其中^为多源缺失样本的数量,设数据矩阵 [3^+1,...,3?+?] 7"€ 对应于缺失描述Xm的来自于来源Vy的一组已经存在的异构描述, 然后将缺失源的数据矩阵Xm塑造为低秩矩阵Lm加稀疏矩阵Sm两个成分的和;然后建立如下 优化模型:其中,AlPf为步骤1)得到的最优解,Lm和Sm分别表示缺失来源描述的类间和类内差异, γ为平衡因子,η为距离度量参数,而ε为预先指定的正参数以控制恢复的缺失来源描述携 带的信息量;矩阵# =H,…e Kn2xi^构建了一个数据分布约束,使得恢复的缺失来源 描述Lm+Sm=Xm拥有和来源Vy中已存在的描述Ye相同的分布,以此最大程度地消除噪声。4. 如权利要求3所述的方法,其特征在于,使用拉格朗日对偶法增广目标函数,以求解 Ω i,具体方法为将数据分布约束的加权和添加到目标函数中,由此得到如下可求解的凸优 化问题Ω 2:其中,η为平衡因子。
【文档编号】G06F17/30GK105893610SQ201610265744
【公开日】2016年8月24日
【申请日】2016年4月26日
【发明人】张磊, 王树鹏, 云晓春
【申请人】中国科学院信息工程研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1