本发明涉及大数据处理,具体涉及一种基于方位编码的相似数据搜索方法、系统及电子设备。
背景技术:
1、当前信息化社会,大数据技术获得越发广泛的应用,其主体是为半结构化和非结构化数据(如文本、图像、音频和视频数据等),占总采集量的85%以上,蕴含巨大价值。不过非结构大数据具有海量、异构和混杂等特性,给信息存储、计算以及面向各种应用的数据处理技术带来了前所未有的挑战。为充分挖掘利用非结构化大数据的价值,需要能够对海量非结构化数据进行高效地处理与分析,相似性搜索作为其中的一个关键基础问题,具有重要研究意义。
2、相似性搜索是指从给定数据集合中搜索出与指定查询数据最相似数据的过程。由于非结构化数据在结构方面的复杂性导致难以直接计算相似度,一些相关技术中采用提取特征向量的方式将数据转换为向量空间中的数据点进行最近邻搜索,然而高维空间中的最近邻搜索往往会面临“维度灾难”问题,实际处理效果并不理想。一些其他相关技术也往往都会存在计算成本高,搜索效率低的问题。
技术实现思路
1、有鉴于此,本说明书实施例提供了一种基于方位编码的相似数据搜索方法、系统及电子设备,能够以高效准确地确定出相似数据,降低计算成本,提高搜索效率。
2、在第一方面,本说明书实施例提供了一种基于方位编码的相似数据搜索方法,包括:
3、获取指定查询数据与给定数据集,所述给定数据集包括多项基本数据,所述指定查询数据与多项所述基本数据均为非结构化数据;
4、对所述指定查询数据与多项所述基本数据进行特征向量提取,生成相对应的多维特征向量,并根据所述多维向量在多维向量空间中确定与所述指定查询数据对应的查询点以及与多项基本数据对应的多个数据点;
5、针对多个所述数据点构造近邻图,在所述近邻图中为每个所述数据点的多个邻居点进行方位编码,确定多个所述邻居点相应的向量方位编码;
6、基于所述近邻图以及所述向量方位编码在多个所述数据点中进行最近邻搜索,以确定所述查询点的最近邻数据点;
7、确定所述最近邻数据点对应的所述基本数据为所述给定查询数据对应的相似数据。
8、本说明书实施例还提供了一种基于方位编码的相似数据搜索系统,包括:
9、数据获取模块,用于获取指定查询数据与给定数据集,所述给定数据集包括多项基本数据,所述指定查询数据与多项所述基本数据均为非结构化数据;
10、特征向量提取模块,用于对所述指定查询数据与多项所述基本数据进行特征向量提取,生成相对应的多维特征向量,并根据所述多维向量在多维向量空间中确定与所述指定查询数据对应的查询点以及与多项基本数据对应的多个数据点;
11、方位编码模块,用于针对多个所述数据点构造近邻图,在所述近邻图中为每个所述数据点的多个邻居点进行方位编码,确定多个所述邻居点相应的向量方位编码;
12、最近邻搜索模块,用于基于所述近邻图以及所述向量方位编码在多个所述数据点中进行最近邻搜索,以确定所述查询点的最近邻数据点;以及
13、相似数据确定模块,用于确定所述最近邻数据点对应的所述基本数据为所述给定查询数据对应的相似数据。
14、本说明书实施例还提供了一种基于方位编码的相似数据搜索电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,,所述处理器执行所述程序时实现如第一方面所述的基于方位编码的相似数据搜索方法。
15、从上面可以看出,本说明书实施例所提供的一种基于方位编码的相似数据搜索方法、系统及电子设备,具有以下有益技术效果:
16、所述基于方位编码的相似数据搜索方法,确定指定查询数据与给定数据集中多项基本数据的多维特征向量,针对多项基本数据对应的多个数据点构造近邻图,基于数据点与对应邻居点在多维向量空间中的方位关系进行方位编码确定多个邻居点对应的向量方位编码,并基于所述向量方位编码执行最近邻搜索,能够实现更加快速地搜索确定出最近邻数据点,从而确定指定查询数据对应的相似数据。这样的方式能够以高效准确地确定出相似数据,降低计算成本,提高搜索效率。
1.一种基于方位编码的相似数据搜索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,针对多个所述数据点构造近邻图,包括:
3.根据权利要求1所述的方法,其特征在于,在所述近邻图中为每个所述数据点的多个邻居点进行方位编码,确定多个所述数据点相应的向量方位编码,包括:
4.根据权利要求3所述的方法,其特征在于,针对所述给定数据集对应的多个所述数据点相应的所述多维特征向量进行主成分分析,确定主分量投影矩阵,包括:
5.根据权利要求4所述的方法,其特征在于,根据所述主分量投影矩阵计算确定所述数据点对应的所述邻居点相对该数据点的方位编码串,包括:
6.根据权利要求1所述的方法,其特征在于,基于所述近邻图以及所述向量方位编码在多个所述数据点中进行最近邻搜索,以确定所述查询点的最近邻数据点,包括:
7.根据权利要求6所述的方法,其特征在于,所述原始距离是指所述邻居点与所述查询点之间的欧氏距离;
8.根据权利要求6所述的方法,其特征在于,在选取与所述查询点之间汉明距离最小的多个邻居点时,所选取的邻居点的个数根据所述近邻图中为每个所述数据点对应维护的邻居点的个数确定;
9.一种基于方位编码的相似数据搜索系统,其特征在于,所述系统包括:
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。