一种针对多源异构数据的异源间相似性度量方法与流程

文档序号:11865460阅读:来源:国知局

技术特征:

1.一种多源异构大数据的异源间相似性度量方法,其特征在于,包括以下步骤:

1)利用多源异构数据间的语义互补性,基于子空间学习方法,学习不同来源间的满足伪度量约束的基于马氏距离的多个异源度量;

2)利用学习到的异源度量,将多源异构数据线性投影到一个低维特征同构空间;

3)在低维特征同构空间中,将目标对象即相关的异源异构近邻拉入邻域边缘,并且将噪声点推出临域边缘,从而消除异源间的特征异构性;

4)将同一数据的多源描述耦合到一起,实现异源间的相似度对比,进而在低维特征同构空间中充分嵌入异源间的互补信息。

2.如权利要求1所述的方法,其特征在于,采用如下的优化模型:

其中,k≥min(dx,dy)为特征同构子空间的维度,fA,B(·)为边缘函数,gA,B(·)为相关性度量函数;利用半正定约束ATA≥0和BTB≥0确保模型Ψ1能够学习到多个良好定义的伪度量;相关性度量函数gA,B(·)利用学习到的异源度量A和B,度量多源异构描述X和Y间的距离;而边缘函数fA,B(·)通过利用马氏距离度量,将目标对象即相关的异源异构近邻拉入邻域边缘ε,并且将噪声点推出邻域边缘,同时将同一数据的多源描述耦合到一起,在这个空间中充分嵌入异源间的互补信息,以此捕捉不同来源间的语义互补性。

3.如权利要求2所述的方法,其特征在于,所述马氏距离度量的表达式为:

其中,为来源SX中的第i个样本,为来源SY中的第j个样本。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1