兴趣点匹配方法、装置、计算机设备以及存储介质与流程

文档序号:20017299发布日期:2020-02-25 10:48阅读:154来源:国知局
兴趣点匹配方法、装置、计算机设备以及存储介质与流程

本公开涉及数据处理领域,特别涉及一种兴趣点匹配方法、装置、计算机设备以及存储介质。



背景技术:

随着科技的发展,人们的出行离不开电子地图的导航,电子地图中存在多个兴趣点,其中兴趣点泛指一切可以抽象为点的地理实体。在生成电子地图时,其兴趣点数据的来源多样化,由于不同数据源在兴趣点命名以及描述等方面各不相同,从而导致同一个地理实体在两个不同数据源中的名称、类型以及位置描述方法可能不同。因此,在基于上述兴趣点数据生成电子地图时,可以对多个数据源中的兴趣点进行匹配,以保证同一个地理实体不会被显示为两个兴趣点,从而影响电子地图的功能实现。

相关技术中,以数据源为两种为例,对兴趣点进行匹配的方法进行说明:

从两个数据源的兴趣点中各自选取一个兴趣点,基于字符串分别计算两个兴趣点的名称之间的相似度以及类型之间的相似度,并基于预设的权重得到两个兴趣点的相似度,当两个兴趣点的相似度大于预设阈值时,确定这两个兴趣点指向同一个地理实体,完成兴趣点的匹配。

但是,在实际大规模兴趣点匹配时存在多种多样的情况,对于兴趣点的名称和类型而言,可能由于兴趣点的名称和类型在两个数据源中的表述不同,使得基于兴趣点的名称和类型计算兴趣点的相似度时很容易造成错误,例如,同一个地理实体在两个数据源中的兴趣点数据在名称和类型上均不相似,因此,其计算得到的相似度也较低,此时,会将这两个兴趣点认为不是同一个地理实体,而导致匹配错误,因此,上述兴趣点匹配的准确性较低,错误率较高,会影响到所生成电子地图的准确性。



技术实现要素:

本公开实施例提供了一种兴趣点匹配方法、装置、计算机设备以及存储介质,可以解决相关技术中兴趣点匹配精度不高的问题。所述技术方案如下:

一方面,提供了一种兴趣点匹配方法,所述方法包括:

获取属于第一数据源的第一兴趣点的第一描述信息和第一位置信息;

对所述第一描述信息和所述第一位置信息进行特征融合,得到第一特征信息;

在属于第二数据源的多个兴趣点中,确定与所述第一兴趣点之间符合目标距离条件的至少一个第二兴趣点;

当所述至少一个第二兴趣点中任一第二兴趣点的第二特征信息与所述第一特征信息之间的相似度符合匹配条件,将所述第二兴趣点与所述第一兴趣点确定为指向同一个地理实体的兴趣点。

一方面,提供了一种兴趣点匹配装置,所述装置包括:

获取模块,用于获取属于第一数据源的第一兴趣点的第一描述信息和第一位置信息;

特征融合模块,用于对所述第一描述信息和所述第一位置信息进行特征融合,得到第一特征信息;

第一确定模块,用于在属于第二数据源的多个兴趣点中,确定与所述第一兴趣点之间符合目标距离条件的至少一个第二兴趣点;

第二确定模块,用于当所述至少一个第二兴趣点中任一第二兴趣点的第二特征信息与所述第一特征信息之间的相似度符合匹配条件,将所述第二兴趣点与所述第一兴趣点确定为指向同一个地理实体的兴趣点。

在一种可能的实施方式中,所述第一确定模块包括:

第二位置信息确定子模块,用于在所述第二数据源中确定所述第一兴趣点的第二位置信息;

第二获取子模块,用于基于所述第二位置信息,获取属于所述第二数据源的多个兴趣点与所述第一兴趣点之间的距离;

第二兴趣点确定子模块,用于确定与所述第一兴趣点之间符合目标距离条件的至少一个第二兴趣点。

在一种可能的实施方式中,所述装置还包括:

绑定模块,用于将所述第二兴趣点与所述第一兴趣点绑定存储。

一方面,提供了一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述程序代码由所述一个或多个处理器加载并执行以实现所述兴趣点匹配方法所执行的操作。

一方面,提供了一种存储介质,所述存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现所述兴趣点匹配方法所执行的操作。

通过将两个数据源内的兴趣点输入到训练后的特征融合模型,由特征融合模型对兴趣点的名称和类型分别进行语义匹配,基于语义匹配结果和第一模型参数得到兴趣点对应的语义信息,将语义信息和位置信息基于训练后的第二模型参数进行特征融合,得到了能反映兴趣点名称和类型语义以及兴趣点位置的特征信息。由于在特征融合过程中的使用了训练后的特征融合模型进行特征的融合,使得得到的特征信息更加符合兴趣点本身的特性,使用该特征信息进行兴趣点匹配时,可以得到更加精确的兴趣点匹配结果。

附图说明

为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种兴趣点匹配方法的实施环境示意图;

图2是本公开实施例提供的一种兴趣点匹配方法流程图;

图3是本公开实施例提供的一种模型训练流程图;

图4是本公开实施例提供的一种兴趣点匹配方法流程图;

图5是本公开实施例提供的一种兴趣点匹配装置结构示意图;

图6是本公开实施例提供的一种计算机设备的框图;

图7是本公开实施例提供的一种计算机设备的框图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

下面是对本公开所涉及的一些名词进行的解释:

兴趣点(pointofinterest,poi):泛指一切可以抽象为点的地理对象,尤其是一些与人们生活密切相关的地理实体,如学校、银行、餐馆、加油站、医院以及超市等。兴趣点的主要用途是对事物或事件的地址进行描述,能在很大程度上增强对事物或事件位置的描述能力和查询能力,提高地理定位的精度和速度。每个兴趣点至少包含三方面信息,名称、类型以及坐标,全面的兴趣点信息是生成电子地图时不可或缺的信息。

兴趣点匹配:生成电子地图时要从不同的数据源中获取兴趣点数据,由于不同的数据源对于兴趣点的命名、分类以及位置的记录可能均是不同的,这对于后续的地图生成会带来不利的影响,因此在生成电子地图之前需要对不同数据源中的兴趣点进行匹配,将不同数据源中指向同一个地理实体的兴趣点进行匹配。

bert(bidirectionalencoderrepresentationfromtransformers,对transformer的双向编码进行调整后的算法)模型:可以看成是一种语义编码模型,经过训练之后输入字、词或句子可以得到相应的语义信息,可以用于语义匹配、文本分类等任务。

第一四分位数:指通过四分位数统计描述分析方法描述数据时,即将全部数据从小到大排列,正好排列在下1/4位置上的数就叫做第一四分位数(按照百分比,也就是处在25%位置上的数字)。

图1是本公开实施例提供的一种兴趣点匹配方法的实施环境的示意图,如图1所示,该实施环境中至少包括:计算机设备110、兴趣点匹配服务器120、电子地图生成服务器130以及数据库140。

其中,计算机设备110中可以安装有用于指示兴趣点匹配服务器120进行兴趣点匹配的第一客户端,该计算机设备还可以安装有用于指示电子地图生成服务器进行电子地图生成的第二客户端,在一种可能的实施方式中,第一客户端和第二客户端可以为同一个客户端,本公开实施例对此不做限定。该计算机设备110可以为平台开发人员所使用的设备。

计算机设备110的用户可以通过第一客户端可以与兴趣点匹配服务器120建立连接,通过该连接进行数据交互,从而获取兴趣点匹配服务器120提供的兴趣点匹配信息,并可以向兴趣点匹配服务器120发送兴趣点匹配请求。

计算机设备110的用户可以通过第二客户端来访问电子地图生成服务器130,从而可以使用电子地图生成服务器130提供的电子地图生成功能。

该兴趣点匹配服务器120可以通过api(applicationprograminterface,应用程序接口)以及sdk(softwaredevelopmentkit,软件开发工具包)等方式来实现与电子地图生成服务器130之间的数据交互,可以将完成兴趣点匹配之后的兴趣点匹配信息发送给电子地图生成服务器130,以便于电子地图生成服务器130基于兴趣点的匹配信息生成电子地图。

兴趣点匹配服务器120与电子地图生成服务器130可以共享一个数据库140,数据库140中存储有来自于不同数据源的兴趣点数据集,当计算机设备110的用户指示兴趣点匹配服务器120进行兴趣点匹配时,用户还可以指定来自于特定数据源的兴趣点数据集,当然,当用户没有指定数据源时,计算机设备110也可以自动确定数据源。

电子地图生成服务器130用于基于兴趣点匹配服务器120得到的兴趣点匹配信息生成电子地图。

可选的,兴趣点匹配服务器120包括一台服务器、多台服务器和云计算平台中的至少一种。兴趣点匹配服务器120用于提供电子地图生成之前的兴趣点匹配的后台服务。可选的兴趣点匹配服务器120承担主要的兴趣点匹配工作,计算机设备110承担次要的兴趣点匹配工作;或者兴趣点匹配服务器120承担次要的兴趣点匹配工作,计算机设备110承担主要的兴趣点匹配工作;或者,兴趣点匹配服务器120和计算机设备110分别可以单独承担兴趣点匹配工作需要说明的是,上述兴趣点匹配服务器120还可以在无需配备计算机设备110的情况下自行进行上述兴趣点匹配过程,本公开实施例对此不做具体限定。

可选的,电子地图生成服务器130包括一台服务器、多台服务器和云计算平台中的至少一种。电子地图生成服务器130用于提供电子地图生成的后台服务。可选的兴趣点匹配服务器120承担主要的电子地图生成工作,计算机设备110承担次要的电子地图生成工作;或者电子地图生成服务器130承担次要的电子地图生成工作,计算机设备110承担主要的电子地图生成工作;或者电子地图生成服务器130和计算机设备110分别可以单独承担电子地图生成工作。

计算机设备110可以泛指多个计算机设备中的一个,本公开实施例仅以计算机设备110来举例说明。本领域技术人员可以知晓,上述计算机设备的数量可以更多或更少。比如上述计算机设备110可以仅为一个,或者上述计算机设备为几十个或几百个,或者更多数量,此时上述实施环境中还包括其他计算机设备。本公开实施例对计算机设备的数量和类型不做限定。

对于本公开实施例来说,所关注的兴趣点来自于不同数据源,该数据源可以是指兴趣点数据采集来源,例如,实体采集以及基于自发性地理信息(volunteeredgeographicinformation,vgi)的兴趣点数据共享等。

在兴趣点数据的采集过程中,由于采集部门、采集标准比例尺以及业务人员的操作能力参差不齐、采集数据后的处理方法以及数据集更新程度等差异,同一地区的来自于不同数据源的兴趣点数据往往存在着一定程度上的位置差异、命名差异以及分类差异,因此,可以通过下述图3所示的兴趣点匹配方法将两个数据源中的兴趣点进行匹配,确定两个数据源中的兴趣点指向同一个地理实体,便于之后生成电子地图。

首先对上述几种兴趣点数据采集来源进行描述:

来源1:实地采集。

测量人员通过使用手持全球定位系统(globalpositioningsystem,gps)接收机等设备测得单个兴趣点的空间位置信息,并手动添加兴趣点名称以及类型等文本描述信息,这些gps接收机可随时与计算机设备进行连接,实现数据的实时传输。除此之外,测量人员还可以使用数码相机将该兴趣点的门牌、门牌号、联系电话以及经营时间等信息拍摄下来,计算机设备可利用图像识别技术将所拍摄的内容一一识别并记录下来。计算机设备将通过实地采集的兴趣点数据的集合作为兴趣点数据集。

来源2:基于自发性地理信息的兴趣点数据共享。

用户资源向数据库中上传兴趣点数据,计算机可以获取用户上传的兴趣点数据,将收集到的兴趣点数据的集合作为兴趣点集。

需要说明的是,除了通过上述两种来源获取兴趣点数据,当然也可以通过其他来源获取兴趣点数据,本公开实施例对此不做限定。

图2是本公开实施例提供的一种兴趣点匹配方法的流程图,参见图2,该方法包括:

201、计算机设备获取属于第一数据源的第一兴趣点的第一描述信息和第一位置信息。

其中,第一数据源可以为上述数据源中的任一数据源,对于该第一数据源,计算机设备可以获取到该第一数据源的兴趣点数据集合,从该第一数据源的兴趣点数据集合中选择任一兴趣点作为第一兴趣点来执行本公开实施例的兴趣点匹配过程。当然,该图2所示实施例仅对一个兴趣点的匹配过程进行了说明,在一些实施例中,还可以并行对多个兴趣点分别进行该匹配过程,以达到提高匹配效率的目的。

其中,第一描述信息可以包括第一兴趣点的名称和第一兴趣点的类型。该第一兴趣点的名称至少包括基本名称,有一些兴趣点的名称中也可能包含行政区名称,具体来说,如果第一兴趣点的名称为“深圳市海岸城购物中心”,那么计算机设备可以基于预先存储的行政区名称列表进行匹配,确定第一兴趣点名称中的行政区名称为“深圳市”,将除去行政区名称的部分确定为基本名称“海岸城购物中心”。该第一兴趣点的类型可以用于表示该兴趣点的特征或者属性,计算机设备可以将不同的兴趣点分到同一个类型下,以表示该类型下的兴趣点具有类似特征或者属性。在一种可能的分类方法中,可以将城市中的所有地理实体分成大型商场、高级酒店、交通枢纽、城市公园、名胜古迹、休闲场馆、重要机关、文化教育、医院、大厦以及小区11个大类,每个数据源都有一套自身的兴趣点分类体系,也即是,对于不同的数据源同一个地理实体所属的类型可能是不同的。

另外,第一位置信息可以为第一兴趣点的gps坐标,也可以为第一兴趣点的经纬度信息,本公开实施例对此不做限定。

202、计算机设备将第一描述信息和第一位置信息输入特征融合模型。

在本公开实施例中,该特征融合模型主要有三个功能,第一个功能是将文本向量化,也即是将输入的第一描述信息转化为向量;第二个功能是对输入的兴趣点描述信息进行语义匹配,得到与之对应的语义信息。第三个功能将对语义信息和兴趣点位置信息进行处理,得到兴趣点的特征信息。也就是说,该特征融合模型具备将描述信息和位置信息用一种特定形式的特征信息来进行表示的能力,由于模型是基于大量的不同兴趣点的描述信息和位置信息数据训练得到,因此,在对第一描述信息和第一位置信息进行表示时,可以根据重要性的不同调整第一描述信息和第一位置信息在特征信息的比重。

需要说明的是,该特征融合模型可以采用预先训练完毕的开源模型,这样可以借助该模型快速的实现本公开提供的兴趣点匹配方法,也可以是自行收集的训练数据来训练得到的模型,这样得到的模型参数更加符合实际的兴趣点匹配情况,具体的训练方法可以参见步骤206之后的模型训练过程。本公开实施例对于模型的训练时机不做限定。

203、该计算机设备通过特征融合模型基于第一描述信息生成第一语义信息,将第一语义信息和第一位置信息进行拼接,得到第一特征信息。

在本公开实施例中,该特征融合模型在对输入的第一描述信息和第一位置信息进行处理时,可以包括下述步骤203a和203b:

203a、基于第一描述信息中的行政区名称、基本名称以及类型中至少一项进行语义匹配,得到至少一个语义信息,将至少一个语义信息按照对应的权重进行加权计算,得到第一语义信息。

在一种可能的实施方式中,如果第一兴趣点的名称中包含行政区名称、基本名称以及类型,则计算机设备将第一描述信息中的行政区名称、基本名称以及类型输入到特征融合模型中,由特征融合模型分别输出与行政区名称对应的第二语义信息、与基本名称对应的第三语义信息以及与类型对应的第四语义信息。特征融合模型基于第一模型参数,对第二语义信息、第三语义信息以及第四语义信息进行加权计算,得到第一语义信息。需要说明的是,上述实施方式是以第一描述信息中包括行政区名称、基本名称以及类型三项信息为例进行说明的,在其他实施方式中也可以仅向特征融合中输入行政区名称、基本名称以及类型中的至少一项,由特征融合模型输出与输入对应的至少一项语义信息,具体的实现方式与输入三项信息类似,在此不再赘述。

由于特征融合模型具备将文本向量化和语义匹配功能,为了更加清楚的说明本公开实施例采用的方法,下面将以一些相关模型为例,说明特征融合模型如何基于输入的第一描述信息,输出对应的语义信息的,需要说明的是,下述出现的相关模型仅仅是便于相关人员理解本公开,并不能构成对本公开的限制。

在实现语义匹配功能的过程中,可以采用bert模型来实现相应的语义匹配功能,也可以采用其他的模型来实现语义匹配功能,下面以采用bert模型为例进行说明,计算机设备将第一描述信息输入到特征融合模型后,特征融合模型可以对输入的第一描述信息进行向量化,具体的文本向量化的方法可以采用独热编码(one-hotencoding)或词嵌入(wordembedding),分别将第一描述信息中组成行政区名称、基本名称以及类型的单字向量化,得到对应的单字向量,并根据单字在行政区名称、基本名称以及类型中的出现顺序进行编码,得到各个单字的顺序向量,随后对行政区名称、基本名称以及类型整体进行编码,得到行政区名称向量、基本名称向量以及类型向量。在此之后,特征融合模型对数据化之后的向量进行加权计算,得到第一语义信息。需要说明的是,如果第一兴趣点的名称中不存在行政区名称,那么模型可以将第二语义信息输出为0向量。

203b、将第一语义信息和第一位置信息进行拼接,得到第一特征信息。

在一种可能的实施方式中,特征融合模型在生成第一语义信息之后,可以将第一位置信息直接拼接在第一语义信息之后得到第一特征信息,该第一特征信息可以从整体上反映第一兴趣点的特征,使用该第一特征信息可以标识该第一兴趣点。

在另一种可能的实施方式中,特征融合模型在生成第一语义信息之后,可以基于第二模型参数对第一语义信息和第一位置信息进行加权求和,得到第一特征信息。这样可以利用特征融合模型的泛化能力,提高第一特征信息的对于兴趣点特征的代表性。

在本公开实施例中,仅以特征融合模型存储在该计算机设备上为例进行说明,在一些实施例中,实际上该计算机设备还可以将第一特征信息获取请求发给其他计算设备,由其他计算设备基于特征融合模型进行语义匹配和信息处理,并返回第一特征信息,从而获取到第一特征信息,大大降低了该计算机设备的处理压力。

204、计算机设备在第二数据源中确定第一兴趣点的第二位置信息,基于第二位置信息,获取属于第二数据源的多个兴趣点与第一兴趣点之间的距离,确定与第一兴趣点之间符合目标距离条件的至少一个第二兴趣点。

在一种可能的实施方式中,第一数据源和第二数据源中存储兴趣点位置信息的方式可能是不同的,那么,计算机设备可以基于坐标系和坐标系之间的映射关系,将第一数据源中的位置信息映射到第二数据源中,其中,映射可以是指由一种坐标系的数据转化为另一种坐标系的数据。坐标系转换完成之后,计算机设备可以以第一兴趣点在第二数据源中的第二位置信息为中心点确定第一范围,获取位于第一范围内的所有兴趣点,将其作为第二兴趣点。例如,第一数据源中将兴趣点的gps坐标作为兴趣点的位置信息,而第二数据源中将兴趣点的经纬度信息作为兴趣点的位置信息。计算机设备可以将第一数据源中第一兴趣点的第一位置信息转化为第二数据源中的第二位置信息,在第二数据源中确定第一兴趣点的第二位置信息。之后,计算机设备可以基于第二位置信息和目标距离条件确定第一范围,获取处于第一范围内的所有兴趣点,将获取到的兴趣点作为第二兴趣点。

在另一种可能的实施方式中,坐标系转换完成之后,计算机设备可以直接基于第一兴趣点在第二数据源中的第二位置信息,遍历第二数据源,获取第二数据源中所有的兴趣点与第一兴趣点之间的距离,将第二数据源中与第一兴趣点之间的距离小于或等于预设距离的兴趣点作为第二兴趣点。

205、计算机设备将至少一个第二兴趣点的第二描述信息和第三位置信息输入到特征融合模型中,得到至少一个第二特征信息。

具体的实施方式可以参见步骤202至203,在此不再赘述。

206、当至少一个第二兴趣点中任一第二兴趣点的第二特征信息与第一特征信息之间的相似度符合匹配条件,计算机设备将第二兴趣点与第一兴趣点确定为指向同一个地理实体的兴趣点。

其中,匹配条件包括:两个兴趣点之间的相似度信息大于或等于多个参考特征信息与多个第三特征信息的多个相似度信息中的第一四分位数;例如,相似度信息可以为余弦相似度。

具体的,计算机设备可以计算至少一个第二特征信息与第一特征信息的余弦相似度,当计算得到的余弦相似度大于等于匹配条件时,则确定第一数据源中的第一兴趣点和第二数据源中的第二兴趣点为指向同一个地理实体的兴趣点。在此之后,计算机设备可以将第二兴趣点与第一兴趣点绑定存储,这样在之后生成电子地图的过程中,可以从不同数据源获取兴趣点数据,将具有绑定关系的第一兴趣点和第二兴趣点确定为同一个兴趣点。

参见步骤202中记载的内容,本公开实施例提供的特征融合模型主要有三个功能,第一个功能是将文本向量化,也即是将输入的第一描述信息转化为向量;第二个功能是对输入的兴趣点描述信息进行语义匹配,得到与之对应语义信息。第三个功能将对语义信息和兴趣点位置信息进行处理,得到兴趣点的特征信息。其中第一个功能和第二个功能可以借助训练完成相关模型实现,也可以在获取初始模型之后自行训练得到,而为了实现本公开提供的兴趣点匹配方法,可以采用如下方法对模型实现第三个功能的部分进行训练,该模型训练方法可以包括数据收集以及训练过程。

在数据收集过程中,计算机设备可以从数据库中获取多个样本数据集,样本数据集中包括:样本兴趣点的参考特征信息、与样本兴趣点匹配的第三兴趣点的第三特征信息以及与待匹配兴趣点不匹配的第四兴趣点的第四特征信息。

在一种可能的实施方式中,由于数据源中的兴趣点数据不是一成不变,而是会随着时间的推移不断的更新数据源中的兴趣点数据,每一个兴趣点数据的更新均会把信息错误的兴趣点替换,计算机设备可以获取数据源的更新记录和历史版本,将替换后的兴趣点数据作为与样本兴趣点匹配的第三兴趣点,将替换前的兴趣点数据作为与样本兴趣点不匹配的第四兴趣点。将样本兴趣点与第三兴趣点以及第四兴趣点绑定存储,将其作为一组样本数据,将多组样本数据组成样本数据集。

在一种可能的实施方式中,服务器上存储有样本数据集,计算机设备可以向服务器发送样本数据集获取请求,服务器基于样本数据集获取请求将样本数据集发送至计算机设备。

在一种可能的实施方式中,使用电子地图的过程中,用户可能会发现某一个兴趣点显示错误、不存在或者是某个兴趣点没有显示在电子地图上,那么用户可以主动上传修正信息,服务器可以将这些用户上传的修正信息进行存储。计算机设备可以向服务器发送用户修正信息获取请求,获取请求中携带用户修正信息的标识,服务器基于用户修正信息的标识查找对应的用户修正信息,并将用户修正信息发送至计算机设备,计算机设备可以基于用户修正信息自动生成样本数据集。当然,用户修正信息也可以是存储在计算机设备上的,本公开实施例对用户修正信息存储的位置不做限定。

在模型训练过程中,基于样本数据集进行模型训练,得到特征融合模型方法为:

模型初始化模型参数,随机生成第一模型参数和第二模型参数,在第一次迭代过程中,计算机设备将参考特征信息、第三特征信息以及第四特征信息输入到模型中,由模型获取参考特征信息与第三特征信息的第一相似度信息以及参考特征信息与第四特征信息的第二相似度信息,并基于第一相似度信息和第二相似度信息调整第一模型参数和第二模型参数,至此,第一次迭代过程结束,第二次迭代过程与第一次迭代过程类似,将下一组参考特征信息、第三特征信息以及第四特征信息输入到模型中,并进行后续操作,直至任一迭代过程满足迭代结束条件,则将满足迭代结束条件的迭代过程所得到的模型作为特征融合模型。

具体来说,模型训练过程中可以构建一个基于度量学习的误差函数(tripletloss),具体误差函数见公式(1):

l=max(0,margin-(d(r,n)-d(r,p)))(i)其中,l为损失函数,模型训练过程中要使得该值变小;max()表示取最大值;d(r,n)为参考特征信息与第四特征信息的第二相似度信息,d(r,p)为参考特征信息与第三特征信息的第一相似度信息;margin为预设的参数,可以设置为1,也可以根据实际需要进行设定,本公开实施例对此不做限定。需要说明的是,相似度信息可以为余弦距离。当模型输出的特征信息为向量时,可以通过公式(2)计算余弦距离。

d=1-cos(a,b)(2)其中d为余弦距离,cos(a,b)为向量a和向量b的余弦相似度,余弦相似度的计算公式可以如公式(3)所示。

计算机设备可以基于第二相似度信息与第一相似度信息的差值,调整模型的参数,当公式(1)中的l小于预设阈值时,结束模型训练,得到特征融合模型,其中,预设阈值可以根据实际需要进行设定,本公开实施例对此不做限定。具体的训练流程参见图3。也就是说,模型训练过程实际上是使得特征融合模型通过模型参数计算的第一相似度信息尽可能大,第二相似度信息尽可能小。

在本公开实施例中,通过将两个数据源内的兴趣点输入到训练后的特征融合模型,由特征融合模型对兴趣点的名称和类型分别进行语义匹配,基于语义匹配结果和第一模型参数得到兴趣点对应的语义信息,将语义信息和位置信息基于第二模型参数进行拼接,得到了能反映兴趣点名称和类型语义以及兴趣点位置的特征信息。由于拼接过程中的使用了训练后的特征融合模型进行特征的拼接和融合,使得得到的特征信息更加符合兴趣点本身的特性,使用该特征信息进行兴趣点匹配时,可以得到更加精确的兴趣点匹配结果。

上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。

为了便于理解,下面基于图4提供的一种算法流程,来对该兴趣点匹配方法进行简述,图4是本公开实施例提供的一种兴趣点匹配方法流程图,如图4所示,方法包括:

服务器中存储有电子地图ma和电子地图mb,电子地图ma和电子地图mb中的兴趣点数据来自于不同的数据源,不同数据源中存储有大量的poi(兴趣点)数据,计算机设备可以从服务器中获取电子地图ma和mb对应的poi数据,并基于获取到的poi数据进行poi匹配。需要说明的是,计算机设备可以以电子地图ma为基准进行与电子地图mb的poi匹配,也可以以电子地图mb为基准进行与电子地图ma的poi匹配,本公开实施例对此不做限定,下面以电子地图ma为基准进行与电子地图mb的poi匹配进行说明。

第一步,从地图ma中给定一个

在一种可能的实施方式中,计算机设备可以从电子地图ma中选取一个其中i为该poi的编号,a表示该poi来自于电子地图ma,中携带有该poi的名称、类型以及第一位置信息,计算机设备基于该的第一位置信息,在电子地图mb中确定该第二位置信息,如果两个电子地图中存储poi位置信息的方式不同,那么在计算机设备确定第二位置信息之前,可以先将电子地图ma中的位置信息进行坐标系变换,将第一位置信息转化为与电子地图mb相同的坐标系下,之后再从电子地图mb中确定第二位置信息。

第二步,从地图mb中寻找附近的poi集合。

在一种可能的实施方式中,基于第二位置信息,从电子地图mb中获取与距离小于等于预设距离的至少一个poi,并将获取到的至少一个poi作为一个集合pb。该集合pb的形式可以为其中,n可以为该poi的编号,b表示改poi来自于电子地图mb。

第三步,计算与poi集合pb中所有poi的表示向量。

在一种可能的实施方式中,计算机设备将与poi集合pb中所有的poi输入到特征融合模型中,特征融合模型基于poi的名称、类型以及位置信息输出所有poi的表示向量。具体来说,poi的名称至少包括基本名称,例如“民俗文化瀑布”,有一些poi的名称也可以包括行政区划前缀,例如“深圳锦绣中华民族村”中“深圳”为行政区划前缀,“锦绣中华民族村”为基本名称。需要说明的是,本公开采用的特征融合模型实现语义匹配功能的部分可以采用bert模型进行,当然,也可以采用其他的语义匹配模型,本公开实施例对此不做限定,下面以采用bert模型为例进行说明。

计算机设备将poi的行政区划前缀、基本名称以及类型输入到bert模型中,bert模型对poi的行政区划前缀、基本名称以及类型进行语义匹配,得到与poi行政区划前缀对应的行政区划前缀向量vec1、基本名称向量vec2以及类型向量vec3。随后特征融合模型基于权重对上述三个向量进行加权求和,得到poi文本表示向量,随后将poi的经纬度信息拼接到文本表示向量之后,经过一个全连接层,得到用于表示poi特征的表示向量。

第四步,计算表示向量与poi集合pb中所有poi的表示向量之间余弦相似度,并选取相似度最高的

第五步,比较之间的相似度是否大于阈值t,当相似度大于阈值t时,确定为指向同一个地理实体的兴趣点,如果相似度小于或等于阈值t,则认为电子地图mb中不存在与兴趣点匹配的兴趣点

在本公开实施例中,通过将两个数据源内的兴趣点输入到训练后的特征融合模型,由特征融合模型对兴趣点的名称和类型分别进行语义匹配,基于语义匹配结果和第一模型参数得到兴趣点对应的语义信息,将语义信息和位置信息基于训练后的第二模型参数进行特征融合,得到了能反映兴趣点名称和类型语义以及兴趣点位置的特征信息。由于在特征融合过程中的使用了训练后的特征融合模型进行特征的融合,使得得到的特征信息更加符合兴趣点本身的特性,使用该特征信息进行兴趣点匹配时,可以得到更加精确的兴趣点匹配结果。

图5是本公开实施例提供的一种兴趣点匹配装置的框图,如图5所示,该装置包括:获取模块501、特征融合模块502、第一确定模块503以及第二确定模块504。

获取模块501,用于获取属于第一数据源的第一兴趣点的第一描述信息和第一位置信息。

特征融合模块502,用于对第一描述信息和第一位置信息进行特征融合,得到第一特征信息。

第一定模块503,用于在属于第二数据源的多个兴趣点中,确定与第一兴趣点之间符合目标距离条件的至少一个第二兴趣点。

第二确定模块504,用于当至少一个第二兴趣点中任一第二兴趣点的第二特征信息与第一特征信息之间的相似度符合匹配条件,将第二兴趣点与第一兴趣点确定为指向同一个地理实体的兴趣点。

在一种可能的实施方式中,特征融合模块,包括:第一输入子模块,用于将第一描述信息和第一位置信息输入特征融合模型。

第一语义信息生成子模块,用于由特征融合模型基于第一描述信息生成第一语义信息。

拼接子模块,用于将第一语义信息和第一位置信息进行拼接,得到第一特征信息。

在一种可能的实施方式中,第一语义信息生成子模块,包括:

语义匹配单元,用于由特征融合模型基于第一描述信息中的行政区名称、基本名称以及类型中至少一项进行语义匹配,得到至少一个语义信息。

计算单元,用于将至少一个语义信息按照对应的权重进行加权计算,得到第一语义信息。

在一种可能的实施方式中,装置还包括:

模型训练模块,用于基于样本数据集进行模型训练,得到特征融合模型。其中,样本数据集包括样本兴趣点的参考特征信息、与样本兴趣点匹配的第三兴趣点的第三特征信息以及与待匹配兴趣点不匹配的第四兴趣点的第四特征信息。

在一种可能的实施方式中,模型训练模块,包括:

第二输入子模块,用于在任一次迭代过程中,将参考特征信息、第三特征信息以及第四特征信息输入到上一次迭代所得到的模型中。

第一获取子模块,用于基于模型获取参考特征信息与第三特征信息的第一相似度信息以及参考特征信息与第四特征信息的第二相似度信息。

特征融合模型得到子模块,用于基于第二相似度信息与第一相似度信息的差值,调整模型的参数,直到任一迭代过程满足迭代结束条件,则将满足迭代结束条件的迭代过程所得到的模型作为特征融合模型。

在一种可能的实施方式中,第一确定模块包括:

第二位置信息确定子模块,用于在第二数据源中确定第一兴趣点的第二位置信息。

第二获取子模块,用于基于第二位置信息,获取属于第二数据源的多个兴趣点与第一兴趣点之间的距离。

第二兴趣点确定子模块,用于确定与第一兴趣点之间符合目标距离条件的至少一个第二兴趣点。

在一种可能的实施方式中,装置还包括:

绑定模块,用于将第二兴趣点与第一兴趣点绑定存储。

在本公开实施例中,通过将两个数据源内的兴趣点输入到训练后的特征融合模型,由特征融合模型对兴趣点的名称和类型分别进行语义匹配,基于语义匹配结果和第一模型参数得到兴趣点对应的语义信息,将语义信息和位置信息基于训练后的第二模型参数进行特征融合,得到了能反映兴趣点名称和类型语义以及兴趣点位置的特征信息。由于在特征融合过程中的使用了训练后的特征融合模型进行特征的融合,使得得到的特征信息更加符合兴趣点本身的特性,使用该特征信息进行兴趣点匹配时,可以得到更加精确的兴趣点匹配结果。

需要说明的是:上述实施例提供的兴趣点匹配装置在兴趣点匹配时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的兴趣点匹配装置与兴趣点匹配方法实施例属于同一构思,其具体实现过程详见方法实施例,在此不再赘述。

图6是本公开实施例提供的一种计算机设备600的结构示意图。该计算机设备600可以是:记本电脑或台式电脑。计算机设备600还可能被称为用户设备、便携式计算机设备、膝上型计算机设备、台式计算机设备等其他名称。

通常,计算机设备600包括有:处理器601和存储器602。

处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用dsp(digitalsignalprocessing,数字信号处理)、fpga(field-programmablegatearray,现场可编程门阵列)、pla(programmablelogicarray,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(centralprocessingunit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有gpu(graphicsprocessingunit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括ai(artificialintelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器601所执行以实现本公开中方法实施例提供的兴趣点匹配方法。

在一些实施例中,计算机设备600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、显示屏605、音频电路606、定位组件607和电源608中的至少一种。

外围设备接口603可被用于将i/o(input/iutput,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本公开实施例对此不做限定。

射频电路604用于接收和发射rf(radiofrequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它计算机设备进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wirelessfidelity,无线保真)网络。在一些实施例中,射频电路604还可以包括nfc(nearfieldcommunication,近距离无线通信)有关的电路,本公开实施例对此不做限定。

显示屏605用于显示ui(userinterface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置计算机设备600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在计算机设备600的不同表面或呈折叠设计;在一些实施例中,显示屏605可以是柔性显示屏,设置在计算机设备600的弯曲表面上或折叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用lcd(liquidcrystaldisplay,液晶显示屏)、oled(organiclight-emittingdiode,有机发光二极管)等材质制备。

音频电路606可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在计算机设备600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路606还可以包括耳机插孔。

定位组件607用于定位计算机设备600的当前地理位置,以实现导航或lbs(locationbasedservice,基于位置的服务)。定位组件607可以是基于美国的gps、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源608用于为计算机设备600中的各个组件进行供电。电源608可以是交流电、直流电、一次性电池或可充电电池。当电源608包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中,计算机设备600还包括有一个或多个传感器609。该一个或多个传感器609包括但不限于:压力传感器610、指纹传感器611、光学传感器612以及接近传感器613。

压力传感器610可以设置在计算机设备600的侧边框和/或显示屏605的下层。当压力传感器613设置在显示屏605的下层时,由处理器601根据用户对显示屏605的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器611用于采集用户的指纹,由处理器601根据指纹传感器611采集到的指纹识别用户的身份,或者,由指纹传感器611根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器601授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。当计算机设备600上设置有物理按键或厂商logo时,指纹传感器611可以与物理按键或厂商logo集成在一起。

光学传感器612用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器612采集的环境光强度,控制显示屏605的显示亮度。具体地,当环境光强度较高时,调高显示屏605的显示亮度;当环境光强度较低时,调低显示屏605的显示亮度。接近传感器613,也称距离传感器,通常设置在计算机设备600的前面板。接近传感器613用于采集用户与计算机设备600的正面之间的距离。在一个实施例中,当接近传感器613检测到用户与计算机设备600的正面之间的距离逐渐变小时,由处理器601控制显示屏605从亮屏状态切换为息屏状态;当接近传感器616检测到用户与计算机设备600的正面之间的距离逐渐变大时,由处理器601控制显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解,图6中示出的结构并不构成对计算机设备600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。

基于相同构思,本申请实施例还提供一种计算机设备,如图7所示,所述计算机设备包括:

处理器701;用于存储所述处理器701可执行指令的存储器702;其中,所述处理器被配置为执行命令,以实现如上述实施例所述的兴趣点匹配方法。

应理解的是,上述处理器可以是中央处理器(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessing,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advancedriscmachines,arm)架构的处理器。

进一步地,在一种可选的实施例中,上述存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。

该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-onlymemory,rom)、可编程只读存储器(programmablerom,prom)、可擦除可编程只读存储器(erasableprom,eprom)、电可擦除可编程只读存储器(electrically,eeprom)或闪存。易失性存储器可以是随机存取存储器(randomaccessmemory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用。例如,静态随机存取存储器(staticram,sram)、动态随机存取存储器(dynamicrandomaccessmemory,dram)、同步动态随机存取存储器(synchronousdram,sdram)、双倍数据速率同步动态随机存取存储器(doubledatarandomsdram,ddrsdram)、增强型同步动态随机存取存储器(enhancedsdram,esdram)、同步连接动态随机存取存储器(synchlinkdram,sldram)和直接内存总线随机存取存储器(directrambusram,drram)。

本领域技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

上述仅为本公开的可选实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1