基于混合公共因子分析器的分布式高维数据分类方法

文档序号:9787830阅读:371来源:国知局
基于混合公共因子分析器的分布式高维数据分类方法
【技术领域】
[0001] 本发明涉及一种基于混合公共因子分析器的分布式高维数据分类方法,属于数据 处理与应用的技术领域。
【背景技术】
[0002] 随着采集和存储技术的不断发展,数据的维度和数量不断增大,高维大数据不断 涌现。例如,基于内容的大规模图像检索和文档检索中屡见不鲜的人脸图像、视频和网页文 本、语音与音频信号处理中不可避免出现的高维特征矢量、生物信息学中对生物组织进行 聚类分析中的基因数据等。很显然,维度越高,数据量越大,可以更加全面地刻画所描述的 对象以及更好地分辨对象。然而,过高的维度、过大的数据量带来了极高的处理和传输负 担,特别是在传感器网络中,单个节点的存储、处理和传输通信能力都十分有限,因此,对数 据的分析与处理方法的设计提出了新的更高的要求和挑战。具体而言,一方面,对于高维度 数据或特征而言,传统的模型和及其估计算法容易出现"维数灾难"问题,使得相关问题难 以理解和表示,更不可能实现可视化。因此,如何实现对高维数据准确、高效地分析与处理, 已经成为一个极具挑战性的基础研究问题;另一方面,当数据量很大的时候,单个传感器节 点往往无法完成数据的分析和处理任务,此时可以将大数据分成不同的部分,分别存储在 多个传感器节点上,通过合理的通信和协作,共同完成指定的任务。如何针对大数据设计协 作处理策略,也是亟待解决的问题。
[0003] 分类是指通过一定的方法将数据分成多个类的过程,在机器学习领域,对数据的 分类是一个有监督学习的过程。在现有的文献和专利中,已经出现了大量分类的方法,但是 当数据量很大或者单个节点处理能力有限的情况下,需要将数据分布在多个节点上,此时 如何完成分布式处理,十分关键。因此,本专利所提出的方法正是为了解决这一问题,设计 一种基于混合公共因子分析器的分布式高维数据分类方法(1)混合因子分析模型可以有效 的处理高维数据;(2)通过设计节点间协作方式,只传输中间结果就可以获得满意的聚类结 果,与传输原始数据方式相比,既减小了通信的开销,又保护了数据上的隐私信息,确保了 网络中的数据安全。

【发明内容】

[0004] 本发明目的在于解决了上述现有技术的缺陷,提出了一种基于混合公共因子分析 器的分布式高维数据分类方法,该方法包括如下步骤:
[0005] 步骤1:数据的采集;
[0006] 设有Μ个节点组成一个网络,每个节点采集到的数据来自V个类,数据维度为p。其 中,节点m采集到的所有数据中,来自第ν个类的数据集为X^={〇" =1^ 其中表示节点m处,来自第v个类的第η个数据,为数字第v个类的训练数据个数;此 外,节点m的邻居节点集合表示为Rm;
[0007] 步骤2,训练:对于所有节点中来自于第v个类的数据X!:1 ,Μ),用混合公共 因子分析器(MCFA)来描述其分布,并且采用分布式方式完成模型的训练,估计出参数
?ν = 1,…,F);以同样的方式,估计出每一类数据所对应的 MCFA的参数集θ (v) (ν = 1,. . .,V),训练过程完成;
[0008] 步骤3,识别:当网络中的任一节点采集到新的用于识别的数据X '时,计算X '关于 0w(v = l,...,V)的对数似然值log ρ(χ' | 0w)(v = l,...,V):
[0010]将最大对数似然值对应的序号作为χ'的识别结果ν' :
[0012] 本发明步骤2所述针对第v个类的数据的训练的过程包括如下:
[0013] 为了表示简洁,并且不会影响理解和实施,省略和
[0014] 步骤2-1,初始化:设定MCFA中的参数初始值。其中,各节点 处的(wi,. . .,wg,. . .,wg) = (1/G, . . .,1/G,. . .,1/G);L和Ε矩阵中的每一个元素都从标准正 态分布N(0,1)中生成;Ri,. . .,|g,. . .,|c}中的每个元素都从标准正态分布N(0,1)中生成; Ωι=. . . = Qg=. . . = Qc=Iq,其中 Iq为(q X q)的单位矩阵。
[0015] 步骤2-2,广播数据个数:每个节点1(1 = 1,2, . . .,M)将其采集到的数据个数Νι广 播给其邻居节点。当某个节点m收到它的所有邻居节点广播来的数据个数之后,该节点计算 权重系数Clm:
[0017] 此外,迭代计数器iter = l,开始迭代过程;
[0018] 步骤2-3,局部计算:在传感器网络中的每个节点1处,根据当前的节点处的数据Xi 和上一次迭代之后估计出的参数值? °ld,即(当iter = 1时,Θ °ld为初始化之后的参数值), 计算出&1,11,8九,118和/\:(/? = 1,...,%4 = 1,.",(7),其公式为:
[0024]步骤2-4,广播扩散:传感器网络中的每个节点1把计算出三组中间变量,即:
[0025]
(g = 1.…乂放在一个数据包内,然 后向其他节点广播扩散该数据包。
[0026] 步骤2-5,联合计算:当节点m(m=l, . . .,M)收到来自其所有邻居节点l(leRm)& 来的含有中间变量的数据包之后,计算联合统计量{兄^ 丨二,即:
[0029] 步骤2-6,参数估计:节点m(m=l,...,M)根据步骤2-5计算出的联合统计量和步骤

[0035]步骤2-7,判别收敛:节点m(m=l,...,M)计算当前迭代下的对数似然值,即:
[0037] 其中Θη~表示当前迭代估计出的参数值,?°ld表示上一次迭代中的估计参数值。 如果1 ogp (Xm | Θ new) -1 〇gp (Xm | Θ °ld) < ε,其中ε = 1 〇-5,节点m进入终止状态。否则,转向步骤
[0038] 2-3开始下一次迭代。
[0039] 经过上述步骤2-1~步骤2-7之后,估计出θ (v)。
[0040]本发明方法应用于数据的并行分布式处理。
[0041 ] 有益效果:
[0042] 1.本发明采用的混合公共因子分析器能够对高维数据进行降维,从而在降维的同 时顺利完成数据的建模,获得更好的分类性能,并且降低了运算复杂度。此外,本发明只传 输中间计算结果而非原始数据,极大地保护了传输数据的隐私。
[0043] 2.本发明采用的基于混合公共因子分析器的训练与识别过程,使得网络中的各个 节点可以充分利用其它节点的数据中所包含的信息,使得分类性能极大地优于集中式方 法。
【附图说明】
[0044] 图1为本发明涉及的基于混合公共因子分析器的分布式高维数据分类方法的流程 图。
[0045] 图2为本发明所涉及的方法和其他方法的分类性能的定性比较结果示意图。
[0046] 图3为本发明所涉及的方法和其他方法的分类性能的定量比较结果示意图。
【具体实施方式】
[0047] 下面结合说明书附图对本发明创造作进一步的详细说明。
[0048] 如图1-3所示,本发明提供了一种基于混合公共因子分析器的分布式高维数据分 类方法,该方法包括如下步骤:
[0049] 步骤1:数据的采集;
[0050] 设有Μ台计算机/计算节点(即:节点),组成一个网络,每个节点采集到的数据来自 V个类,数据维度为ρ。其中,节点m采集到的所有数据中,来自第ν个类的数据集为
,其中.<!,表示节点m处,来自第v个类的第η个数据,坨, 11为 数字第ν个类的训练数据个数。
[0051 ]此外,每个节点的数据传输范围设为Di S,对于当前节点m,所有与其距离小于DiS 的节点为其邻居节点,节点m的邻居节点集合表示为1。在本发明中,节点之间的连接关系 (网络拓扑)事先确定好,只需要保证任意两个节点之间至少存在一条直接或经多跳可以到 达的路径即可。
[0052] 步骤2:训练;
[0053] 对于所有节点中来自于第ν个类的数据集XT 用混合公共因子分析 器(mixture of common factor analyzers,简称MCFA)来描述其分布。与第ν个类相关的 MCFA模型其参数集为其中Kf为混合权值,满足
(q维矢量)和i^^qXq)矩阵)分别为与p维数据对应的q维因子所服从 的高斯分布的均值和协方差矩阵,q取P/2~p/8之间的任意整数。采用如下的分布式方式完 成训练,具体训练过程如下(这里以第ν类数据足f的训练过程为例,为了表示简洁,并且不 会影响理解和实施,下面的步骤中略去X。和 α(νΓ):
[0054] 步骤2-1,初始化:设定MCFA中的参数初始值€) = ,&^]f=pL,E]·。其中,各节点 处的(wi,. . .,wg,. . .,wg) = (1/G, . . .,1/G,. . .,1/G);L和E矩阵中的每一个元素都从标准正 态分布N(0,1)中生成;Ri,. . .,|g,. . .,|c}中的每个元素都从标准正态分布N(0,1)中生成; Ωι=. . . = Qg=. . . = Qc=Iq,其中 Iq为(q X q)的单位矩阵。
[0055]步骤2-2,广播数据个数:每个节点1(1 = 1,2, . . .,M)将其采集到的数据个数Νι广 播给其邻居节点。当某个节点m收到它的所有邻居节点广播来的数据个数之后,该节点计算 权重系数Clm:
[0057] 该权重的含义为用于衡量节点m的各邻居节点1(1 eRm)每次传输的信息在节点m 处的重要性。此
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1