数据处理方法、装置、服务器及存储介质与流程

文档序号:32439172发布日期:2022-12-06 20:42阅读:65来源:国知局
数据处理方法、装置、服务器及存储介质与流程

1.本公开涉及计算机技术领域,尤其涉及一种数据处理方法、装置、服务器及存储介质。


背景技术:

2.随着计算机技术的发展,电子地图被越来越多的使用。在电子地图中,存在大量地址信息,这些地址信息通常以兴趣点(point of interest,poi)数据的形式存在。poi数据通常包括位置实体的名称、地址、联系电话、位置坐标等信息。一个poi数据可以表示一栋房子、一个商铺、一个邮筒、一个公交站等。
3.在实际应用中,电子地图中的poi数据会不断的更新,例如新增、删除、替换等。这样一来,导致服务端在不同时期从电子地图中获取到的poi数据存在大量相似的问题,而这些poi数据所表示的实际内容相同(即poi数据重复),进而影响用户对poi数据的使用。因此,如何确定出重复的poi数据为当前亟需解决的技术问题。


技术实现要素:

4.本公开提供一种数据处理方法、装置、服务器及存储介质,用以确定出重复的poi数据。本公开的技术方案如下:
5.根据本公开实施例的第一方面,提供一种数据处理方法,方法包括:确定多个特征对;各特征对包括维度相同的两个特征,两个特征中的第一特征为第一兴趣点poi数据的特征,两个特征中的第二特征为第二poi数据的特征;对于第一特征对,确定第一特征对的特征相似度,得到多个特征相似度,并根据多个特征相似度,确定第一poi数据与第二poi数据的数据相似度;第一特征对为多个特征对中的任意一个;在数据相似度大于或等于预设阈值的情况下,确定第一poi数据与第二poi数据重复。
6.可选的,上述方法还包括:获取第一poi数据以及获取第二poi数据;对第一poi数据进行分词处理,得到第一poi数据的多个第一特征,以及,对第二poi数据进行分词处理,得到第二poi数据的多个第二特征。
7.可选的,获取第二poi数据,包括:根据第一poi数据的位置信息,获取第二poi数据;第二poi数据的位置信息与第一poi数据的位置信息之间的距离小于或者等于预设距离。
8.可选的,对于第一特征对,确定第一特征对的特征相似度,得到多个特征相似度,包括:确定第一特征对的维度类型;维度类型包括文本类型和数值类型;在维度类型为文本类型的情况下,根据第一特征相似度算法计算第一特征对的特征相似度;在维度类型为数值类型的情况下,根据第二特征相似度算法计算第一特征对的特征相似度。
9.可选的,第一特征相似度算法为编辑距离算法,第二特征相似度算法为余弦相似度算法。
10.可选的,根据多个特征相似度,确定第一poi数据与第二poi数据的数据相似度,包
括:将多个特征相似度进行加权,得到第一poi数据与第二poi数据的数据相似度。
11.可选的,上述方法还包括:在数据相似度小于预设阈值的情况下,存储第一poi数据。
12.可选的,在确定第一poi数据与第二poi数据重复之后,上述方法还包括:删除第二poi数据,并存储第一poi数据。
13.根据本公开实施例的第二方面,提供一种数据处理装置,数据处理装置包括确定单元以及处理单元;确定单元,用于确定多个特征对;各特征对包括维度相同的两个特征,两个特征中的第一特征为第一兴趣点poi数据的特征,两个特征中的第二特征为第二poi数据的特征;处理单元,用于对于第一特征对,确定第一特征对的特征相似度,得到多个特征相似度,并根据多个特征相似度,确定第一poi数据与第二poi数据的数据相似度;第一特征对为多个特征对中的任意一个;确定单元,还用于在数据相似度大于或等于预设阈值的情况下,确定第一poi数据与第二poi数据重复。
14.可选的,数据处理装置还包括获取单元;获取单元,用于获取第一poi数据以及获取第二poi数据;处理单元,还用于对第一poi数据进行分词处理,得到第一poi数据的多个第一特征,以及,对第二poi数据进行分词处理,得到第二poi数据的多个第二特征。
15.可选的,获取单元,具体用于:根据第一poi数据的位置信息,获取第二poi数据;第二poi数据的位置信息与第一poi数据的位置信息之间的距离小于或者等于预设距离。
16.可选的,处理单元,具体用于:确定第一特征对的维度类型;维度类型包括文本类型和数值类型;在维度类型为文本类型的情况下,根据第一特征相似度算法计算第一特征对的特征相似度;在维度类型为数值类型的情况下,根据第二特征相似度算法计算第一特征对的特征相似度。
17.可选的,第一特征相似度算法为编辑距离算法,第二特征相似度算法为余弦相似度算法。
18.可选的,处理单元,具体用于:将多个特征相似度进行加权,得到第一poi数据与第二poi数据的数据相似度。
19.可选的,处理单元还用于:在数据相似度小于预设阈值的情况下,存储第一poi数据。
20.可选的,在确定第一poi数据与第二poi数据重复之后,处理单元还用于:删除第二poi数据,并存储第一poi数据。
21.根据本公开实施例的第三方面,提供一种服务器,包括:处理器、用于存储处理器可执行的指令的存储器;其中,处理器被配置为执行指令,以实现上述第一方面的数据处理方法。
22.根据本公开实施例的第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当计算机可读存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如上述第一方面的数据处理方法。
23.根据本公开实施例的第五方面,提供一种计算机程序产品,计算机程序产品包括计算机指令,当计算机指令被处理器执行时,实现如上述第一方面的数据处理方法。
24.本公开提供的技术方案至少带来以下有益效果:数据处理装置确定多个特征对;由于各特征对包括维度相同的两个特征,两个特征中的第一特征为第一兴趣点poi数据的
特征,两个特征中的第二特征为第二poi数据的特征。因此每个特征对都包含了一个相同维度下第一poi数据的特征和第二poi数据的特征,使得第一poi数据的特征和第二poi数据的特征之间更加匹配,方便后续的特征之间特征相似度的确定。对于多个特征对中的任意一个第一特征对,数据处理装置确定第一特征对的特征相似度,得到多个特征相似度。后续的,数据处理装置根据多个特征相似度,确定第一poi数据与第二poi数据的数据相似度,若数据相似度大于或等于预设阈值,则表明第一poi数据与第二poi数据重复。通过上述方法本公开可以成功确定出重复的poi数据,进而可以对重复的poi数据进行针对性处理。
25.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
26.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
27.图1是根据一示例性实施例示出的一种数据处理系统的结构示意图;
28.图2是根据一示例性实施例示出的一种数据处理方法的流程示意图之一;
29.图3是根据一示例性实施例示出的一种数据处理方法的流程示意图之二;
30.图4是根据一示例性实施例示出的一种分词流程示意图;
31.图5是根据一示例性实施例示出的一种数据处理方法的流程示意图之三;
32.图6是根据一示例性实施例示出的一种获取数据的流程示意图;
33.图7是根据一示例性实施例示出的一种数据处理方法的流程示意图之四;
34.图8是根据一示例性实施例示出的一种确定特征对相似度的流程示意图;
35.图9是根据一示例性实施例示出的一种数据处理方法的流程示意图之五;
36.图10是根据一示例性实施例示出的一种数据处理方法的逻辑架构;
37.图11是根据一示例性实施例示出的一种数据处理装置的结构示意图;
38.图12是根据一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
39.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
40.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
41.另外,在本公开实施例的描述中,除非另有说明,“/”表示或的意思,例如,a/b可以表示a或b。本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,在本公开实施例的描述中,“多个”是指两个或多于两个。
42.需要说明的,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息、用户行为信息等)和数据(包括但不限于程序代码等),均为经用户授权或者经过各方充分授权的信息和数据。
43.在对本公开实施例进行详细地解释说明之前,先对本公开实施例涉及到的一些相关技术进行介绍。
44.随着计算机技术的发展,电子地图被越来越多的使用。在电子地图中,存在大量的poi数据。poi数据用于反映用户感兴趣或对用户来说有实际用途的特定的地理位置点。在电子地图中,一个poi数据可以表示一栋房子、一个商铺、一个邮筒、一个公交站等。
45.在实际应用中,电子地图中的poi数据会不断的调整,例如新增、删除、替换等。那么服务端会在不同时期获取到大量相似的poi数据,如果服务端将这些poi数据全部存储,则将带来大面积的poi数据重复,进而影响服务端的使用(例如由于同一商铺具有多个表示它的poi数据,影响服务端对用户的分发效率)。因此,如何确定出重复的poi数据,并对重复的poi数据进行过滤成为了相关技术中亟需解决的技术问题。
46.本公开实施例提供的数据处理方法,用于解决相关技术中存在的上述技术问题。本公开实施例提供的数据处理方法可以适用于数据处理系统,图1示出了该数据处理系统的一种结构示意图。如图1所示,数据处理系统10包括数据处理装置11以及服务器12。数据处理装置11与服务器12连接。数据处理装置11与服务器12之间可以采用有线方式连接,也可以采用无线方式连接,本发明实施例对此不作限定。
47.数据处理装置11用于获取第一兴趣点poi数据和第二poi数据,对第一poi数据进行分词处理,得到第一poi数据的多个第一特征,以及,对第二poi数据进行分词处理,得到第二poi数据的多个第二特征。数据处理装置11还用于确定多个特征对,对于第一特征对,确定第一特征对的特征相似度,得到多个特征相似度。数据处理装置11还用于根据多个特征相似度,确定第一poi数据与第二poi数据的数据相似度,在数据相似度大于或等于预设阈值的情况下,确定第一poi数据与第二poi数据重复。
48.数据处理装置11可以在各种多媒体资源应用的服务器12中实现。其中,服务器12可以为多媒体资源分享平台应用的服务器,例如短视频分享平台应用的服务器。该服务器12上部署有poi数据库,例如elasticsearch(es)数据库,poi数据库中存储有大量poi数据。
49.在不同的应用场景中,数据处理装置11和服务器12可以为相互独立的设备,也可以集成于同一设备中,本发明实施例对此不作具体限定。
50.数据处理装置11和服务器12集成于同一设备时,数据处理装置11和服务器12之间的数据传输方式为该设备内部模块之间的数据传输。这种情况下,二者之间的数据传输流程与“数据处理装置11和服务器12之间相互独立的情况下,二者之间的数据传输流程”相同。
51.在本公开实施例提供的以下实施例中,以数据处理装置11和服务器12相互独立设置为例进行说明。
52.图2是根据一些示例性实施例示出的一种数据处理方法的流程示意图。在一些实施例中,上述数据处理方法可以应用到如图1所示的数据处理装置、服务器,也可以应用到其他类似设备。
53.如图2所示,本公开实施例提供的数据处理方法,包括下述s201-s204。
54.s201、数据处理装置确定多个特征对。
55.其中,各特征对包括维度相同的两个特征,两个特征中的第一特征为第一poi数据的特征,两个特征中的第二特征为第二poi数据的特征。
56.作为一种可能的实现方式,对于任意一个第一poi数据的特征(以下称第一特征),数据处理装置获取该第一特征的维度标识。进一步数据处理装置遍历第二poi数据的特征(以下称第二特征)的维度标识,从多个第二特征中确定出与第一特征具有相同维度标识的第二特征,并将两个维度相同的第一特征与第二特征作为一个特征对,以此确定多个特征对。
57.示例性的,多个第一特征包括第一poi数据的名称特征向量、地址特征向量,对应的维度标识分别为标识1、标识2;多个第二特征包括第二poi数据名称特征向量、地址特征向量,对应的维度标识分别为标识1、标识2;数据处理装置则将第一poi数据的名称特征向量与第二poi数据的名称特征向量作为一个特征对,将第一poi数据的地址特征向量第二poi数据的地址特征向量作为另一个特征对。
58.s202、对于第一特征对,数据处理装置确定第一特征对的特征相似度,得到多个特征相似度。
59.其中,第一特征对为多个特征对中的任意一个。
60.作为一种可能的实现方式,数据处理装置根据预设的相似度算法,计算每个特征对中两个特征向量之间的特征相似度,得到多个特征相似度。
61.需要说明的,相似度算法为运维人员预先在数据处理装置中设置的。例如,相似度算法可以为余弦相似度算法或者编辑距离算法等,本公开实施例对具体的相似度算法不作限定。
62.在一些实施例中,针对不同类型的特征向量,数据处理装置还可以采用不同的相似度算法,计算两个特征向量之间的特征相似度。此步骤的具体实现方式,可以具体参照本公开实施例的后续描述,此处不再进行赘述。
63.s203、数据处理装置根据多个特征相似度,确定第一poi数据与第二poi数据的数据相似度。
64.作为一种可能的实现方式,数据处理装置将多个特征相似度之和,确定为第一poi数据与第二poi数据的数据相似度。
65.作为另一种可能的实现方式,数据处理装置将多个特征相似度进行加权,得到第一poi数据与第二poi数据的数据相似度。
66.需要说明的,各特征相似度的权值由运维人员预先在数据处理装置中设置。例如,对于名称特征的特征相似度的权值可以设为0.5,地址特征的特征相似度的权值可以设为0.9。
67.可以理解的,数据处理装置将多个特征相似度进行加权,得到第一poi数据与第二poi数据的数据相似度,合理利用了各个特征相似度,使得最终得到的数据相似度更加准确。
68.s204、在数据相似度大于或等于预设阈值的情况下,数据处理装置确定第一poi数据与第二poi数据重复。
69.作为一种可能的实现方式,数据处理装置确定出第一poi数据与第二poi数据的数
据相似度之后,将该数据相似度与预设阈值进行比较,判断该数据相似度是否大于或者等于预设阈值。在数据相似度大于或等于预设阈值的情况下,数据处理装置确定第一poi数据与第二poi数据重复。
70.需要说明的,预设阈值由运维人员预先在数据处理装置中设置。
71.示例性的,若第一poi数据与第二poi数据的数据相似度为0.91,预设阈值为0.9,数据处理装置确定第一poi数据与第二poi数据重复。
72.本公开实施例提供的技术方案至少带来以下有益效果:数据处理装置确定多个特征对;由于各特征对包括维度相同的两个特征,两个特征中的第一特征为第一兴趣点poi数据的特征,两个特征中的第二特征为第二poi数据的特征。因此每个特征对都包含了一个相同维度下第一poi数据的特征和第二poi数据的特征,使得第一poi数据的特征和第二poi数据的特征之间更加匹配,方便后续的特征之间特征相似度的确定。对于多个特征对中的任意一个第一特征对,数据处理装置确定第一特征对的特征相似度,得到多个特征相似度。后续的,数据处理装置根据多个特征相似度,确定第一poi数据与第二poi数据的数据相似度,若数据相似度大于或等于预设阈值,则表明第一poi数据与第二poi数据重复。通过上述方法本公开可以成功确定出重复的poi数据,进而可以对重复的poi数据进行针对性处理。
73.在一种设计中,为了得到第一poi数据的特征以及第二poi数据的特征,如图3所示,本公开实施例提供的数据处理方法,还包括下述s301-s302。
74.s301、数据处理装置获取第一poi数据以及获取第二poi数据。
75.作为一种可能的实现方式,数据处理装置从服务器的es数据库中获取第一poi数据和第二poi数据。
76.作为另一种可能的实现方式,数据处理装置获取待写入的第一poi数据,并从服务器的es数据库中获取第二poi数据。
77.此时,第一poi数据为外部输入进来的数据,第二poi数据则为服务器中存储的数据。例如,第一poi数据为运维人员实时输入数据处理装置中的数据。
78.可以理解的,poi是指电子地图上任何有地理意义的位置点,例如商店、学校、医院、加油站等;poi数据也就是与该poi相关的数据,如poi为学校,poi数据也就可以包括该学校的名称、电话、经纬度、地址信息、师资信息、学校简介等。本公开实施例对第一poi数据的具体内容以及第二poi数据的具体内容不作限定。
79.s302、数据处理装置对第一poi数据进行分词处理,得到第一poi数据的多个第一特征,以及,对第二poi数据进行分词处理,得到第二poi数据的多个第二特征。
80.作为一种可能的实现方式,数据处理装置将第一poi数据输入预设的分词包中,输出第一poi数据的多个第一特征;同理,数据处理装置将第二poi数据输入预设的分词包中,输出第二poi数据的多个第二特征。
81.需要说明的,分词包为运维人员预先在数据处理装置中设置的,用于对输入的poi数据的内容进行分词处理,得到多个分词,并将每个分词作为poi数据的一个维度特征,以得到poi数据所包含的多维度特征。例如,poi数据的内容包括学校的名称、经纬度、地址信息以及其他信息,但这些信息杂糅在一起难以区分,数据处理装置通过分词包则可以提取到名称分词、地址分词,并将提取到的每个分词作为poi数据的一个维度特征,得到poi数据的多维度特征。
82.分词包进行分词处理得到的具体分词,与该分词包的分词能力相关。预设的分词包括jieba包以及自维护分词包。jieba包是一个现有的中文分词库,在自然语言处理方面用途广泛,jieba包主要是将jieba库中的已有词作为依据,对输入的字符串进行分词。自维护分词包则围运维人员根据日常的运营反馈组建分词库,并对组建的分词库进行离线训练得到的分词包,用于补充jieba包无法识别的词汇,例如新晋的某个网红品牌。
83.如图4所示,示出了一种分词流程示意图。数据处理装置可以将第一poi数据分别输入jieba包以及自维护分词包,并将jieba包以及自维护分词包的分词结果的集合(如名称分词、地址分词)作为第一poi数据最终的分词结果。同理,数据处理装置将第二poi数据分别输入jieba包以及自维护分词包,并将jieba包以及自维护分词包的分词结果的集合作为第二poi数据最终的分词结果。
84.多个第一特征可以以多维特征向量的形式体现,多维特征向量则是根据多维特征数组转换而来的。例如,对于地址分词(如经纬度、全球定位系统(global positioning system,gps)坐标等),数据处理装置通过经纬度哈希(geohash)算法,对地址分词进行特征转换,得到一个维度的特征数组。数据处理装置将该特征数据转换为特征向量后,则可以得到地址特征向量。
85.在一种设计中,如图5所示,为了获取第二poi数据,本公开实施例提供的上述s301,具体包括下述s3011-s3012:
86.s3011、数据处理装置获取第一poi数据的位置信息。
87.作为一种可能的实现方式,数据处理装置获取第一poi数据之后,从第一poi数据中提取位置信息。
88.s3012、数据处理装置根据第一poi数据的位置信息,获取第二poi数据。
89.其中,第二poi数据的位置信息与第一poi数据的位置信息之间的距离小于或者等于预设距离。
90.作为一种可能的实现方式,数据处理装置获取到第一poi数据的位置信息之后,根据第一poi数据的位置信息,从es数据库查询与第一poi数据的位置信息之间的距离小于或者等于预设距离的poi数据,并获取查询到的poi数据。
91.在实际应用中的,数据处理装置可以通过es数据库中的geo-es检索引擎,查询满足检索条件的poi数据。具体的,数据处理装置将检索条件输入到geo-es检索引擎中,得到满足条件的poi数据。例如,数据处理装置将第一poi数据的位置信息以及与该位置信息之间的距离不超过3km作为检索条件,得到es数据库中满足条件的poi数据,并获取满足条件的poi数据。即第二poi数据可以为多个,本公开实施例对第二poi数据的数量不作限定。
92.示例性的,如图6所示,数据处理装置在接收到待写入es数据库的poi数据(即第一poi数据)后,通过geo-es检索引擎获取与第一poi数据距离3km内的poi数据(即第二poi数据)。进一步,数据处理装置确定第一poi数据与各第二poi数据之间的数据相似度,并按照数据相似度从大到小的顺序对多个第二poi数据进行排序,得到排序结果。
93.可以理解的,数据处理装置根据第一poi数据的位置信息,获取与第一poi数据的位置信息之间的距离小于或者等于预设距离的第二poi数据。这样一来,可以筛选出与第一poi数据重复性概率较大的poi数据,使得数据处理装置的去重工作更具有针对性,且节约了数据处理装置的计算资源。
94.在一种设计中,如图7所示,为了得到多个特征相似度,本公开实施例提供的上述s202,具体包括下述s2021-s2023:
95.s2021、数据处理装置确定第一特征对的维度类型。
96.其中,维度类型包括文本类型和数值类型。
97.作为一种可能的实现方式,数据处理装置获取第一特征对中第一特征或者第二特征对应的分词。若该分词内容为文本,数据处理装置将第一特征对的维度类型确定为文本类型;若该分词内容为数值,数据处理装置将第一特征对的维度类型确定为数值类型。
98.示例性的,名称分词反映了一个学校的名称,其内容通常为文本,因此,若第一特征对中的特征对应的分词为名称分词,数据处理装置将第一特征对的维度类型确定为文本类型。地址分词反映了一个学校的地址信息,其内容既可以是文本(如街道、门牌号等),又可以是数值(如经纬度、坐标等)。在地址分词的内容为文本的情况下,数据处理装置将第一特征对的维度类型确定为文本类型;在地址分词的内容为数值的情况下,数据处理装置将第一特征对的维度类型确定为数值类型。
99.s2022、在维度类型为文本类型的情况下,数据处理装置根据第一特征相似度算法计算第一特征对的特征相似度。
100.作为一种可能的实现方式,在维度类型为文本类型的情况下,数据处理装置根据第一特征相似度算法计算第一特征对中两个特征向量之间的特征相似度。
101.s2023、在维度类型为数值类型的情况下,数据处理装置根据第二特征相似度算法计算第一特征对的特征相似度。
102.作为一种可能的实现方式,在维度类型为数值类型的情况下,数据处理装置根据第二特征相似度算法计算第一特征对中两个特征向量之间的特征相似度。
103.需要说明的,第一特征相似度算法与第二特征相似度算法均为运维人员预先在数据处理装置中设置的。第一特征相似度算法与第二特征相似度算法可以相同,也可以不同。例如,第一特征相似度算法可以为余弦相似度算法、编辑距离算法、欧式距离算法中的任一个,第二特征相似度算法可以为余弦相似度算法、编辑距离算法、欧式距离算法中的任一个。
104.优选的,第一特征相似度算法为编辑距离算法,第二特征相似度算法为余弦相似度算法。即在维度类型为文本类型的情况下,数据处理装置根据第一特征相似度算法计算第一特征对中两个特征向量之间的编辑距离,并将计算到的编辑距离作为第一特征对的特征相似度。在维度类型为数值类型的情况下,数据处理装置根据第二特征相似度算法计算第一特征对中两个特征向量夹角之间的余弦值,并根据计算到的余弦值确定第一特征对的特征相似度。
105.示例性的,如图8所示,对于维度类型为文本类型的特征对(如名称特征、文本类的地址特征),数据处理装置计算编辑距离;对于维度类型为数值类型的特征对(如坐标、电话号码),数据处理装置计算余弦相似度。进一步的,数据处理装置根据多个特征相似度,确定第一poi数据与第二poi数据的数据相似度,并最终输出判断信息(第一poi数据与第二poi数据重复或者不重复)。
106.可以理解的,编辑距离算法更加适用于衡量文本之间的相似度,余弦相似度更加适用于衡量数值之间的相似度。因此采用上述优选方案确定到的特征相似度更加准确。
107.在一种设计中,如图9所示,本公开实施例提供的数据处理方法在上述步骤s204之后,还包括下述s205。
108.s205、数据处理装置删除第二poi数据,并存储第一poi数据。
109.作为一种可能的实现方式,数据处理装置确定出第一poi数据与第二poi数据重复之后,删除第二poi数据,并将第一poi数据存储到es数据库中。
110.可以理解的,在确定第一poi数据与第二poi数据重复之后,删除第二poi数据,并存储第一poi数据,降低了es数据库中poi数据的重复率。
111.在一些实施例中,数据处理装置还可以将确定出的重复poi数据存储在相同的文件夹中,得到融合记录日志。
112.在一种设计中,在数据相似度小于预设阈值的情况下,数据处理装置直接将第一poi数据存储到es数据库中。
113.可以理解的,对于不重复的poi数据,数据处理装置直接对其进行存储,以方便用户使用。
114.如图10所示,示出了本公开实施例提供的数据处理方法的逻辑架构,该逻辑架构包括业务层、服务处以及数据层。其中,数据层用于提供数据支撑,主要包括es数据库、geo-es检索引擎、jieba库等。服务层用于提供空间索引服务、分词服务、融合服务(例如新增或删除)等。业务层用于进行业务处理,根据服务层提供的服务,实现上述数据处理流程。
115.上述实施例主要从装置(设备)的角度对本公开实施例提供的方案进行了介绍。可以理解的是,为了实现上述方法,装置或设备包含了执行各个方法流程相应的硬件结构和/或软件模块,这些执行各个方法流程相应的硬件结构和/或软件模块可以构成一个电子设备。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的算法步骤,本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
116.本公开实施例可以根据上述方法示例对装置或设备进行功能模块的划分,例如,装置或设备可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
117.图11是根据一示例性实施例示出的数据处理装置的结构示意图。参照图11所示,本公开实施例提供的数据处理装置40,包括确定单元401以及处理单元402。
118.确定单元401,用于确定多个特征对;各特征对包括维度相同的两个特征,两个特征中的第一特征为第一兴趣点poi数据的特征,两个特征中的第二特征为第二poi数据的特征;处理单元402,用于对于第一特征对,确定第一特征对的特征相似度,得到多个特征相似度,并根据多个特征相似度,确定第一poi数据与第二poi数据的数据相似度;第一特征对为多个特征对中的任意一个;确定单元401,还用于在数据相似度大于或等于预设阈值的情况下,确定第一poi数据与第二poi数据重复。
119.可选的,数据处理装置还包括获取单元403;获取单元403,用于获取第一poi数据
以及获取第二poi数据;处理单元402,还用于对第一poi数据进行分词处理,得到第一poi数据的多个第一特征,以及,对第二poi数据进行分词处理,得到第二poi数据的多个第二特征。
120.可选的,获取单元403,具体用于:根据第一poi数据的位置信息,获取第二poi数据;第二poi数据的位置信息与第一poi数据的位置信息之间的距离小于或者等于预设距离。
121.可选的,处理单元402,具体用于:确定第一特征对的维度类型;维度类型包括文本类型和数值类型;在维度类型为文本类型的情况下,根据第一特征相似度算法计算第一特征对的特征相似度;在维度类型为数值类型的情况下,根据第二特征相似度算法计算第一特征对的特征相似度。
122.可选的,第一特征相似度算法为编辑距离算法,第二特征相似度算法为余弦相似度算法。
123.可选的,处理单元402,具体用于:将多个特征相似度进行加权,得到第一poi数据与第二poi数据的数据相似度。
124.可选的,处理单元402还用于:在数据相似度小于预设阈值的情况下,存储第一poi数据。
125.可选的,在确定第一poi数据与第二poi数据重复之后,处理单元402还用于:删除第二poi数据,并存储第一poi数据。
126.图12是本公开提供的一种服务器的结构示意图。如图12,该服务器50可以包括至少一个处理器501以及用于存储处理器可执行指令的存储器502其中,处理器501被配置为执行存储器502中的指令,以实现上述实施例中的数据处理方法。
127.另外,服务器50还可以包括通信总线503以及至少一个通信接口504。
128.处理器501可以是一个处理器(central processing units,cpu),微处理单元,asic,或一个或多个用于控制本公开方案程序执行的集成电路。
129.通信总线503可包括一通路,在上述组件之间传送信息。
130.通信接口504,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(radio access network,ran),无线局域网(wireless local area networks,wlan)等。
131.存储器502可以是只读存储器(read-only memory,rom)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,ram)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、只读光盘(compact disc read-only memory,cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
132.其中,存储器502用于存储执行本公开方案的指令,并由处理器501来控制执行。处理器501用于执行存储器502中存储的指令,从而实现本公开数据处理方法中的功能。
133.作为一个示例,结合图12,数据处理装置40中的确定单元401以及处理单元402实
现的功能与图12中的处理器501的功能相同。
134.在具体实现中,作为一种实施例,处理器501可以包括一个或多个cpu,例如图12中的cpu0和cpu1。
135.在具体实现中,作为一种实施例,服务器50可以包括多个处理器,例如图12中的处理器501和处理器507。这些处理器中的每一个可以是一个单核(single-cpu)处理器,也可以是一个多核(multi-cpu)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
136.在具体实现中,作为一种实施例,服务器50还可以包括输出设备505和输入设备506。输出设备505和处理器501通信,可以以多种方式来显示信息。例如,输出设备505可以是液晶显示器(liquid crystal display,lcd),发光二级管(light emitting diode,led)显示设备,阴极射线管(cathode ray tube,crt)显示设备,或投影仪(projector)等。输入设备506和处理器501通信,可以以多种方式接受用户对象的输入。例如,输入设备506可以是鼠标、键盘、触摸屏设备或传感设备等。
137.本领域技术人员可以理解,图12中示出的结构并不构成对服务器50的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
138.另外,本公开还提供一种计算机可读存储介质,当计算机可读存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如上述实施例所提供的数据处理方法。
139.另外,本公开还提供一种计算机程序产品,包括计算机指令,当计算机指令在服务器上运行时,使得服务器执行如上述实施例所提供的数据处理方法。
140.本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1