一种针对多源异构数据的异源间相似性度量方法与流程

文档序号：11865460阅读：来源：国知局

技术特征：

1.一种多源异构大数据的异源间相似性度量方法，其特征在于，包括以下步骤：

1)利用多源异构数据间的语义互补性，基于子空间学习方法，学习不同来源间的满足伪度量约束的基于马氏距离的多个异源度量；

2)利用学习到的异源度量，将多源异构数据线性投影到一个低维特征同构空间；

3)在低维特征同构空间中，将目标对象即相关的异源异构近邻拉入邻域边缘，并且将噪声点推出临域边缘，从而消除异源间的特征异构性；

4)将同一数据的多源描述耦合到一起，实现异源间的相似度对比，进而在低维特征同构空间中充分嵌入异源间的互补信息。

2.如权利要求1所述的方法，其特征在于，采用如下的优化模型：

其中，k≥min(d_x,d_y)为特征同构子空间的维度，f_A,B(·)为边缘函数，g_A,B(·)为相关性度量函数；利用半正定约束A^TA≥0和B^TB≥0确保模型Ψ₁能够学习到多个良好定义的伪度量；相关性度量函数g_A,B(·)利用学习到的异源度量A和B，度量多源异构描述X和Y间的距离；而边缘函数f_A,B(·)通过利用马氏距离度量，将目标对象即相关的异源异构近邻拉入邻域边缘ε，并且将噪声点推出邻域边缘，同时将同一数据的多源描述耦合到一起，在这个空间中充分嵌入异源间的互补信息，以此捕捉不同来源间的语义互补性。

3.如权利要求2所述的方法，其特征在于，所述马氏距离度量的表达式为：

其中，为来源S_X中的第i个样本，为来源S_Y中的第j个样本。

完整全部详细技术资料下载

当前第2页1 2 3