一种兴趣点排序方法和装置与流程

文档序号:23053174发布日期:2020-11-25 17:29阅读:96来源:国知局
一种兴趣点排序方法和装置与流程

本申请涉及地图搜索领域,特别是涉及一种兴趣点排序方法和装置。



背景技术:

配置在终端上的电子地图可以为用户提供便捷的地图指引服务。例如,电子地图可以根据用户输入的关键词,在电子地图相应的位置上向用户展示关键词对应的兴趣点(pointofinterest,poi)作为指引。

目前,主要根据字符重复程度的方式确定关键词所对应poi的排序顺序,poi与关键词的重复程度越高,就越优先展示给用户。例如关键词为“北京师范大学”,该关键词对应的poi包括“北京邮电大学”,由于该poi“北京邮电大学”与该关键词的字符重复程度较高,会排列在非常靠前的展示位置,从而可能对用户造成误导,带来不好的用户搜索体验。

可见,上述方式的poi排序效果并不好,可能会出现相关度不大的poi被优先展示给用户的情况。



技术实现要素:

为了解决上述技术问题,本申请提供了一种兴趣点排序方法和装置,将包括关键词中的高词权重分词的可能性更大的兴趣点优先展示给用户,从而降低了误导用户的可能,提高了用户的搜索体验。

本申请实施例公开了如下技术方案:

第一方面,本申请实施例提供了一种兴趣点排序方法,所述方法包括:

获取用于搜索兴趣点的关键词;

对所述关键词进行分词,并确定所述关键词中分词对应的词权重,所述关键词中任一个分词对应的词权重用于标识这个分词与所述关键词所体现搜索目的的相关程度;

根据所述关键词中分词对应的词权重,确定所述关键词对应的搜索结果中兴趣点的排序值。

可选的,所述确定所述关键词中分词对应的词权重,包括:

根据点击模型确定所述关键词中分词对应的词权重,所述点击模型是根据用户历史搜索数据训练得到的,所述用户历史搜索数据包括历史关键词和通过历史关键词选择的兴趣点。

可选的,在所述确定所述关键词中分词对应的词权重之后,所述方法还包括:

根据所述关键词中分词对应的词权重,确定所述搜索结果中兴趣点分别与所述关键词的文本相关性;

所述根据所述关键词中分词对应的词权重,确定所述关键词对应的搜索结果中兴趣点的排序值,包括:

根据所述搜索结果中兴趣点分别与所述关键词的文本相关性,确定所述关键词对应的搜索结果中兴趣点的排序值。

可选的,所述方法还包括:

确定所述搜索结果中兴趣点分别与所述关键词的类型相关性;所述搜索结果中任一个兴趣点与所述关键词的类型相关性,用于标识这个兴趣点所属实体类型与所述关键词所属实体类型的相关程度;

所述根据所述搜索结果中兴趣点分别与所述关键词的文本相关性,确定所述关键词对应的搜索结果中兴趣点的排序值,包括:

根据所述搜索结果中兴趣点分别与所述关键词的文本相关性和类型相关性,确定所述关键词对应的搜索结果中兴趣点的排序值。

可选的,目标兴趣点为所述搜索结果中的任一个兴趣点,所述目标兴趣点与所述关键词的类型相关性根据下述方法得到:

确定所述目标兴趣点属于实体类型集合中各个实体类型的第一概率分布函数;

确定所述关键词属于实体类型集合中各个实体类型的第二概率分布函数;

根据所述第一概率分布函数和第二概率分布函数确定所述目标兴趣点与所述关键词的类型相关性。

可选的,所述确定所述目标兴趣点属于实体类型集合中各个实体类型的第一概率分布函数,包括:

根据所述目标兴趣点的后缀词特征,确定所述目标兴趣点属于实体类型集合中各个实体类型的第一概率分布函数。

可选的,所述根据所述搜索结果中兴趣点分别与所述关键词的文本相关性和类型相关性,确定所述关键词对应的搜索结果中兴趣点的排序值,包括:

根据所述搜索结果中兴趣点分别与所述关键词的文本相关性和类型相关性、以及所述关键词中分词对应的词权重和所述第二概率分布函数,确定所述关键词对应的搜索结果中兴趣点的排序值。

可选的,在根据所述排序值展示所述搜索结果中兴趣点前,所述方法还包括:

根据所述搜索结果中兴趣点的排序值的差值,筛选出用于展示的兴趣点。

第二方面,本申请实施例提供了一种兴趣点排序装置,所述装置包括获取单元、第一确定单元和第二确定单元:

所述获取单元,用于获取用于搜索兴趣点的关键词;

所述第一确定单元,用于对所述关键词进行分词,并确定所述关键词中分词对应的词权重,所述关键词中任一个分词对应的词权重用于标识这个分词与所述关键词所体现搜索目的的相关程度;

所述第二确定单元,用于根据所述关键词中分词对应的词权重,确定所述关键词对应的搜索结果中兴趣点的排序值。

可选的,所述第一确定单元,具体用于:

根据点击模型确定所述关键词中分词对应的词权重,所述点击模型是根据用户历史搜索数据训练得到的,所述用户历史搜索数据包括历史关键词和通过历史关键词选择的兴趣点。

可选的,所述第一确定单元,还具体用于:

在所述确定所述关键词中分词对应的词权重之后,根据所述关键词中分词对应的词权重,确定所述搜索结果中兴趣点分别与所述关键词的文本相关性;

所述第二确定单元,具体用于:

根据所述搜索结果中兴趣点分别与所述关键词的文本相关性,确定所述关键词对应的搜索结果中兴趣点的排序值。

可选的,所述第一确定单元,还具体用于:

确定所述搜索结果中兴趣点分别与所述关键词的类型相关性;所述搜索结果中任一个兴趣点与所述关键词的类型相关性,用于标识这个兴趣点所属实体类型与所述关键词所属实体类型的相关程度;

所述第二确定单元,还具体用于:

根据所述搜索结果中兴趣点分别与所述关键词的文本相关性和类型相关性,确定所述关键词对应的搜索结果中兴趣点的排序值。

可选的,所述第一确定单元,还具体用于:

确定所述目标兴趣点属于实体类型集合中各个实体类型的第一概率分布函数,目标兴趣点为所述搜索结果中的任一个兴趣点;

确定所述关键词属于实体类型集合中各个实体类型的第二概率分布函数;

根据所述第一概率分布函数和第二概率分布函数确定所述目标兴趣点与所述关键词的类型相关性。

可选的,所述第一确定单元,还具体用于:

根据所述目标兴趣点的后缀词特征,确定所述目标兴趣点属于实体类型集合中各个实体类型的第一概率分布函数。

可选的,所述第二确定单元,还具体用于:

根据所述搜索结果中兴趣点分别与所述关键词的文本相关性和类型相关性、以及所述关键词中分词对应的词权重和所述第二概率分布函数,确定所述关键词对应的搜索结果中兴趣点的排序值。

可选的,所述第二确定单元,还具体用于:

在根据所述排序值展示所述搜索结果中兴趣点前,根据所述搜索结果中兴趣点的排序值的差值,筛选出用于展示的兴趣点。

第三方面,本申请实施例提供了一种兴趣点排序设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

获取用于搜索兴趣点的关键词;

对所述关键词进行分词,并确定所述关键词中分词对应的词权重,所述关键词中任一个分词对应的词权重用于标识这个分词与所述关键词所体现搜索目的的相关程度;

根据所述关键词中分词对应的词权重,确定所述关键词对应的搜索结果中兴趣点的排序值。

可选的,所述处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

根据点击模型确定所述关键词中分词对应的词权重,所述点击模型是根据用户历史搜索数据训练得到的,所述用户历史搜索数据包括历史关键词和通过历史关键词选择的兴趣点。

可选的,所述处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

在所述确定所述关键词中分词对应的词权重之后,根据所述关键词中分词对应的词权重,确定所述搜索结果中兴趣点分别与所述关键词的文本相关性;

根据所述搜索结果中兴趣点分别与所述关键词的文本相关性,确定所述关键词对应的搜索结果中兴趣点的排序值。

可选的,所述处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

确定所述搜索结果中兴趣点分别与所述关键词的类型相关性;所述搜索结果中任一个兴趣点与所述关键词的类型相关性,用于标识这个兴趣点所属实体类型与所述关键词所属实体类型的相关程度;

根据所述搜索结果中兴趣点分别与所述关键词的文本相关性和类型相关性,确定所述关键词对应的搜索结果中兴趣点的排序值。

可选的,所述处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

确定所述目标兴趣点属于实体类型集合中各个实体类型的第一概率分布函数,目标兴趣点为所述搜索结果中的任一个兴趣点;

确定所述关键词属于实体类型集合中各个实体类型的第二概率分布函数;

根据所述第一概率分布函数和第二概率分布函数确定所述目标兴趣点与所述关键词的类型相关性。

可选的,所述处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

根据所述目标兴趣点的后缀词特征,确定所述目标兴趣点属于实体类型集合中各个实体类型的第一概率分布函数。

可选的,所述处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

根据所述搜索结果中兴趣点分别与所述关键词的文本相关性和类型相关性、以及所述关键词中分词对应的词权重和所述第二概率分布函数,确定所述关键词对应的搜索结果中兴趣点的排序值。

可选的,所述处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

在根据所述排序值展示所述搜索结果中兴趣点前,根据所述搜索结果中兴趣点的排序值的差值,筛选出用于展示的兴趣点。

第四方面,本申请实施例提供了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如第一方面中的一个或多个所述的兴趣点排序方法。

由上述技术方案可以看出,在获取用于搜索兴趣点的关键词时,可以确定所述关键词中分词对应的词权重。关键词一般包括一个或多个分词,任一个分词的词权重可以标识这个分词与关键词所体现搜索目的的相关程度,也就是说,一个分词的词权重越高,这个分词就与关键词所体现搜索目的越相符,故在确定所述关键词对应的搜索结果中兴趣点的排序值的过程中,可以通过词权重作为调整兴趣点的排序值的依据,由于排序值是用于展示兴趣点时展示位置先后的依据,故在依据通过词权重确定出的排序值进行兴趣点排序时,优先展示的兴趣点与高词权重分词相关性较大,与关键词所体现搜索目的更相符,降低了误导用户的可能,提高了用户的搜索体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种兴趣点排序方法流程图;

图2为本申请实施例提供的一种兴趣点排序装置结构图;

图3为本申请实施例提供的一种终端设备300的框图;

图4为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图,对本申请的实施例进行描述。

目前,根据字符重复程度确定关键词所对应poi的排序的方式,很可能对用户造成误导,带来不好的用户搜索体验。可见,如何提高poi的排序效果是目前亟需解决的问题。

为此,本申请实施例提供了一种兴趣点排序方法,该方法的核心思想为将关键词中分词对应的词权重作为搜索结果中poi的排序依据。其中,关键词的分词可以为关键词中包括的字或词,例如:“北京师范大学”这一关键词可以包括“北京”、“师范”和“大学”这三个分词。每一个分词的词权重用于标识这个分词与关键词所体现的搜索目的的相关程度,即,如果一个分词的词权重越高,则表明该分词与关键词所体现的搜索目的就越相符。例如:对于“北京师范大学”这个关键词,所体现出的搜索目的为北京师范大学,而不是北京邮电大学、或者北京理工大学等其他北京xx大学。因此,“师范”这一分词相对于“北京”、“大学”,更符合“北京师范大学”这一关键词所体现的搜索目的,“师范”这一分词对应的词权重也会分别高于“北京”和“大学”这两个分词对应的词权重。

其中,本申请实施例提供的兴趣点排序方法具体为:在获取用于搜索poi的关键词后,确定出关键词中每一个分词对应的词权重;并根据关键词中分词对应的词权重,确定出搜索结果中poi的排序值。该排序方法可以应用于处理设备,处理设备可以为终端、计算机、服务器等。

根据关键词中分词对应的词权重确定搜索结果中poi的排序值时,可以根据搜索结果中的poi与关键词中高词权重分词的相关性的大小,进而确定出搜索结果中poi的排序值。例如:如果搜索结果中的某一poi与关键词中高词权重分词的相关性较大,则表示这个poi与关键词所体现的搜索目的的相关程度较高,可以将该poi的排序值相对调高;如果搜索结果中的某一poi与关键词中高词权重分词的相关性较小,则表示这个poi与关键词所体现的搜索目的的相关程度较低,可以将该poi的排序值相对调低。

下面以具体事例进行说明:对于“北京师范大学”这一关键词,其中的“师范”这一分词的词权重最高。若搜索结果poi中包括“北京师范大学”、“北京邮电大学”,对于poi“北京师范大学”,由于其中包括有“师范”这一高词权重分词,因此可以表示该poi与高词权重分词的相关性较大,则该poi与“北京师范大学”这一关键词所体现的搜索目的的相关程度较高,从而可以将该poi“北京师范大学”的排序值相对调高;而对于搜索结果中poi“北京邮电大学”,由于其中不包括有“师范”这一高词权重分词,因此可以表示该poi与关键词中的高词权重分词的相关性较小,则该poi与“北京师范大学”这一关键词所体现的搜索目的的相关程度较低,可以将该北京邮电大学的poi的排序值相对调低。

或者,比如针对于“炸鸡”这一关键词,其中的高词权重分词可以是“炸鸡”,那么,若搜索出的poi中包括“xx鸡排店”和“xx啤酒馆”,由于poi“xx鸡排店”与高词权重分词“炸鸡”的相关性更大,表示该poi与“炸鸡”这一关键词所体现的搜索目的的相关程度较高,由此可以将该poi的排序值相对调高;由于poi“xx啤酒馆”与高词权重分词“炸鸡”的相关性更小,表示该poi与“炸鸡”这一关键词所体现的搜索目的的相关程度较低,由此可以将该poi的排序值相对调低。

由于poi的排序值越高,就表明该poi与关键词中高词权重分词的相关性大,则该poi与关键词所体现搜索目的就越相符。因此,可以根据搜索结果中poi的排序值的高低,进行poi的排序,使得具有较高排序值的poi排在优先展示的位置上。这样,使得优先展示的poi与高词权重分词相关性更大,即与关键词所体现的搜索目的更为相符,从而降低了误导用户的可能,提高了用户的搜索体验。

接下来结合图1说明本申请实施例提供的兴趣点排序方法,所述方法包括:

s101:获取用于搜索兴趣点的关键词。

这里所述的关键词可以为用户向电子地图中输入的、且用于体现用户搜索目的的任意的字符串,比如关键词可以为“北京师范大学”这一字符串。在用户输入关键词后,电子地图获取该用于搜索兴趣点的关键词。

s102:对所述关键词进行分词,并确定所述关键词中分词对应的词权重。

电子地图在获取关键词之后,可以对获取的关键词进行分词,即将关键词划分为一个或多个字或词,并确定出该关键词中每个分词对应的词权重。其中,针对于为关键词进行分词后所得到的分词,它可以为关键词包括的任意一个字或词,需要说明的是,本申请实施例不限定对关键词进行分词的粒度,对于电子地图中的关键词,通常可以以单个词语的粒度进行划分,比如:可以以单个词语的粒度,将“北京师范大学家属楼”这一关键词被划分为“北京”、“师范”、“大学”和“家属楼”这四个分词。

其中,关键词中任一分词对应的词权重,可以用于标识这个分词与关键词所体现搜索目的的相关程度。而且,如果一个分词的词权重越高,则表明该分词与关键词所体现的搜索目的就越相符。例如:对于“北京师范大学”这个关键词,所体现出的搜索目的为北京师范大学,而不是北京邮电大学、或者北京理工大学等其他北京xx大学。因此,“师范”这一分词相对于“北京”、“大学”,更符合“北京师范大学”这一关键词所体现的搜索目的,“师范”这一分词对应的词权重也会分别高于“北京”和“大学”这两个分词对应的词权重。

在一种可能的实现方式中,确定关键词中每个分词对应的词权重分方法可以是,预先训练一个点击模型,使其能够实现对输入的关键词确定出该关键词中每个分词的词权重的功能。这样,根据该点击模型,就可以对步骤s101中获得的关键词确定出该关键词中每个分词对应的词权重。

上述点击模型的训练方法可以为,收集并清洗亿级的用户历史搜索数据,其中,用户历史搜索数据可以是用户输入的历史关键词和用户通过历史关键词所选择的poi。其中,历史关键词可以是用户历史输入的关键词,应用这些历史搜索数据中包含的历史关键词与用户通过历史关键词选择的poi之间的点击关系,并利用机器学习模型的泛化能力,进而训练出点击模型。

s103:根据关键词中分词对应的词权重,确定所述关键词对应的搜索结果中兴趣点的排序值。

关键词对应的搜索结果中poi的排序值,可以为用于表示该poi与关键词所体现的搜索目的的相关程度的分值。

在本申请实施例中,可以根据关键词中每一个分词对应的词权重,确定该关键词对应的搜索结果中每个poi的排序值。

由于关键词中每个分词的词权重可以标识这个分词与关键词所体现搜索目的的相关程度,也就是说,一个分词的词权重越高,这个分词就与关键词所体现搜索目的越相符。因此在确定所述关键词对应的搜索结果中poi的排序值的过程中,可以通过词权重作为调整兴趣点的排序值的依据,由于排序值是用于展示兴趣点时展示位置先后的依据,故在依据通过词权重确定出的排序值进行兴趣点排序时,优先展示的兴趣点与高词权重分词相关性较大,与关键词所体现搜索目的更相符,降低了误导用户的可能,提高了用户的搜索体验。

需要说明的是,本申请实施例不限定根据关键词中分词对应的词权重,确定关键词对应的搜索结果中poi的排序值的具体方式,可以根据不同的确定需求选择、设置适应性的确定方式。

针对于步骤103,本申请实施例提供了多种可能的poi排序值的确定方式,接下来一一进行介绍。

第一种确定方式:根据文本相关性确定poi的排序值。

在本方式中,在完成步骤s102,也就是确定出关键词中分词对应的词权重之后,可以根据关键词中分词对应的词权重这一特征,确定出搜索结果中每个poi与关键词的文本相关性。其中,poi与关键词的文本相关性可以用于表示poi与关键词之间在文本方面的关联程度。poi与关键词的文本相关性越高,表示它们之间在文本方面的关联程度越高。从而,根据搜索结果中每一poi与关键词的文本相关性,进而确定出搜索结果中每一poi的排序值。

通过将关键词中分词对应的词权重作为确定poi与关键词的在文本方面的关联程度、即文本相关性的重要依据,这样,若一个poi具有关键词中高词权重的分词,则该poi与关键词在文本方面的关联程度、即文本相关性会相对较高,进而确定出的该poi的排序值也相对较高;若一个poi不包括关键词中高词权重的分词,则该poi与关键词的在文本方面的关联程度、即文本相关性会相对较低,进而确定出的该poi的排序值也相对较低,从而,可以使得确定出的poi的排序值更能充分的体现出关键词所体现的搜索目的。

此外,为了保证poi与关键词的文本相关性能够更为准确、全面的体现出关键词与poi之间在文本方面的关联程度,可以在除了将关键词中分词对应的词权重作为确定poi与关键词的文本相关性的依据外,还可以将poi与关键词的文本相似度、语义相似度、语素相似度、以及最长公共子串(longestcommonsubstring,lcs)相似度等依据考虑在内。也就是说,可以根据关键词中分词对应的词权重、一个poi与关键词的文本相似度、语义相似度、语素相似度、以及lcs相似度这些特征,确定出该poi与关键词的文本相关性。

其中,上述的文本相似度可以是poi与关键词在文本内容方面的相似程度;语义相似度可以是poi与关键词在所表达的语义方面的相似度;语素相似度可以为poi与关键词在语素方面的相似度,语素可以为语言中最小的音义结合体;lcs相似度可以为poi与关键词在最长公共子串方面的相似程度。

在具体的实现中,对于一个poi与关键词的文本相似度、语义相似度、语素相似度、以及lcs相似度,可以由预先训练出的相应的计算模型获得。其中,每种计算模型可以根据与其相关的计算方法训练得到。下面仅以语义相似度计算模型的训练为例进行说明:基于神经网络语言模型,将亿级训练语料作为训练样本,利用多层神经元进行特征抽取,以word2vec多维向量的形式表达语义信息,从而对样本的文本内容信息进行深层次的挖掘,进而训练得出对文本信息的语义理解程度较高的语义相似度计算模型。其中,word2vec可以为用于产生词向量的模型。

根据关键词中分词对应的词权重、poi与关键词的文本相似度、语义相似度、语素相似度、以及lcs相似度,确定poi与关键词的文本相关性的方法可以为,预先训练一个文本相关性计算模型,该文本相关性计算模型可以实现根据输入的关键词中分词对应的词权重、poi与关键词的文本相似度、语义相似度、语素相似度、以及lcs相似度,确定出该poi与关键词的文本相关性。

其中,对于文本相关性计算模型的训练方法可以为,为了减小poi或者关键词为短文本时需要模型处理短文本信息的复杂性、以及为了应对用户输入的关键词的多样性,可以基于梯度提升树(gradientboostingdecisiontree,gbdt)模型,并且在进行样本训练的过程中,通过对样本误差进行多层次的拟合迭代,和对样本的不断的补足调整,以及利用神经网络模型的强大泛化能力,进而训练出该文本相关性计算模型。通过该文本相关性计算模型计算poi与关键词的文本相关性,可以有效弥补通过传统的特征计算方式处理短文本信息时的不足。

第二种确定方法:根据文本相关性和类型相关性确定poi的排序值。

在本方式中,在上述确定出搜索结果中每个poi与关键词的文本相关性的基础上,还可以确定出搜索结果中每个poi与关键词的类型相关性。这里所述的poi与关键词的类型相关性,可以用于标识这个poi所属的实体类型与关键词所属的实体类型的相关程度。其中,实体可以为地图数据中的各种客观存在且可相互区别的事物,比如“北京师范大学”可以为一个实体。而实体类型可以是为这些实体所划分的类别。比如“北京师范大学”这一实体所属的实体类型可以为“学校”。本申请实施例不限定实体类型的划分粒度,比如:按照较大的粒度划分,实体类型可以为学校、体育场馆、公司、住宅区等,按照较小的粒度划分,实体类型可以为小学、中学、大学、羽毛球馆、乒乓球馆、篮球馆等。

对于poi与关键词的类型相关性,如果该poi与关键词的类型相关性越高,则表示该poi所属的实体类型与关键词所属的实体类型越相近。例如:对于“北京师范大学”这一关键词,其所属的实体类型为“学校”,且根据该关键词搜索出的poi包括有“北京师范大学”和“北京师范大学家属楼”,那么,由于poi“北京师范大学”所属的实体类型为“学校”,其与关键词所属的实体类型相同,因此poi“北京师范大学”与关键词的类型相关性相对较高,而对于poi“北京师范大学家属楼”,由于其所属的实体类型为“住宅区”,即与关键词所属的实体类型相差较远,因此poi“北京师范大学家属楼”与关键词的类型相关性较低。

在一种可能的实现方式中,搜索结果中的一个poi与关键词的类型相关性的确定方法可以为,当需要计算搜索结果中的其中一个poi与关键词的类型相关性时,可以将该poi记为目标兴趣点,确定出该目标兴趣点属于实体类型集合中各个实体类型的第一概率分布函数,以及确定出关键词属于实体类型集合中各个实体类型的第二概率分布函数。其中,实体类型集合可以是预设的、且包括有较为全面的实体类型的集合,比如:实体类型集合可以为一个包括“学校、住宅区、体育场馆”。则,确定目标兴趣点属于实体类型集合中各个实体类型的第一概率分布函数,也就是确定出目标兴趣点属于实体类型集合中包括的每个实体类型时对应的概率分布函数;比如确定出“北京师范大学”这一目标兴趣点属于实体类型集合中“学校”这一实体类型的概率为80%,属于实体类型集合中“住宅区”这一实体类型的概率为15%,属于实体类型集合中“体育场馆”这一实体类型的概率为5%。确定关键词属于实体类型集合中各个实体类型的第二概率分布函数,也就是确定出关键词属于实体类型集合中包括的每个实体类型时对应的概率分布函数。

对于目标兴趣点属于实体类型集合中各个实体类型的第一概率分布函数的确定,在一种可能的实现方式中,可以根据该目标兴趣点的后缀词特征进行确定。其中,目标兴趣点的后缀词特征可以是与目标兴趣点的后缀词相关的特征,例如:“北京师范大学”的后缀词特征可以为“大学”,“北京师范大学家属楼”的后缀词特征可以为“家属楼”,那么,可以理解的是,相比于根据目标兴趣点的完整特征确定目标兴趣点的实体类型而言,仅根据目标兴趣点的后缀词特征可以更为高效、准确的确定出该目标兴趣点的实体类型。比如:对于“北京师范大学家属楼”这一目标兴趣点,当计算机在根据“北京师范大学家属楼”这一完整特征确定其所属的实体类型时,可以根据其该“北京师范大学家属楼”中的“北京师范大学”确定出该目标兴趣点可能属于“学校”这一实体类型,以及根据其中的“家属楼”还可以确定出该目标兴趣点可能属于“住宅区”这一实体类型,这样,由于还需要确定出该“北京师范大学家属楼”具体属于“学校”或者“住宅区”中的哪一实体类型,这样就降低了确定“北京师范大学家属楼”所属的实体类型的效率;而若仅根据其后缀词特征“家属楼”,即可更为准确且高效的确定出该“北京师范大学家属楼”属于“住宅区”的实体类型。由此可见,根据目标兴趣点的后缀词特征,可以更高效、准确的确定出目标兴趣点的第一概率分布函数。

相应的,也可以基于关键词的后缀词特征,确定出关键词的第二概率分布函数,从而提升实体类型的确定效率。

在具体的实现中,可以预先训练出概率分布函数计算模型,使其可以实现对输入的关键词或者目标兴趣点,确定出该关键词或者目标兴趣点属于实体类型集合中各个实体类型的概率分布函数的功能,通过该概率分布函数计算模型,可以确定出关键词的第二概率分布函数、以及目标兴趣点的第一概率分布函数。

这里所述的概率分布函数计算模型的训练方法比如可以是,将千万级别的poi数据库作为机器学习模型的训练样本,通过挖掘poi数据库中每一个poi的后缀词特征,并利用互信息计算出后缀词特征与实体类型集合中包括的每个实体类型的相关性,以确定出每一个poi的概率分布函数,并利用神经网络模型的强大泛化能力,进而训练出该概率分布函数计算模型。其中,互信息可以是一个随机变量中包含的关于另一个随机变量的信息量。这样,该概率分布函数计算模型可以根据所输入的关键词或者目标兴趣点的后缀词特征,进而确定出关键词的第二概率分布函数、以及目标兴趣点的第一概率分布函数。

或者,该概率分布函数计算模型的训练方法比如还可以是:将前述中的海量的用户历史搜索数据作为机器学习模型的训练样本,通过对用户历史输入的历史关键词和用户通过该历史关键词所选择的poi的对应关系进行解析,分析出历史关键词所体现的搜索目的,并根据该历史关键词体现的搜索目的,确定出该历史关键词与实体类型集合中包括的每个实体类型的相关性,以及利用神经网络模型的强大泛化能力,进而训练出概率分布函数计算模型。这样,该概率分布函数计算模型可以对输入的关键词或者目标兴趣点,通过分析关键词或者目标兴趣点所体现的搜索目的,进而确定出关键词的第二概率分布函数、以及目标兴趣点的第一概率分布函数。

这样,在确定目标兴趣点的第一概率分布函数和关键词的第二概率分布函数之后,根据目标兴趣点的第一概率分布函数和关键词的第二概率分布函数,确定出该目标兴趣点与关键词的类型相关性。其中,该目标兴趣点与关键词的类型相关性的具体确定方法比如可以是,通过对第一概率分布函数和第二概率分布函数根据交叉熵的方式进行计算,从而确定出两个概率分布函数之间的距离,进而确定出该目标兴趣点与关键词的类型相关度。其中,交叉熵可以为一种度量两个概率分布间的差异性信息的计算方式。

可以理解的是,对于搜索结果中的任意一个poi,都可以将其记为目标兴趣点,并且根据上述方法,确定出每一个poi与关键词的类型相关性。

在确定出搜索结果中每一个poi与关键词的类型相关性后,可以根据搜索结果中每一个poi与关键词的文本相关性和类型相关性,确定出关键词对应的搜索结果中每一个poi的排序值。

该第二种poi的排序值的确定方法,除了poi与关键词的文本相关性外,还将poi与关键词的类型相关性作为确定poi排序值的一个维度特征,也就是说,当有两个poi分别与关键词的文本相关性相同时,如果一个poi与关键词的类型相关性越高,表示该poi与关键词所属的实体类型越接近,则确定该poi具有较高的排序值;如果一个poi与关键词的类型相关性越低,表示该poi与关键词所属的实体类型相差较大,则确定该poi具有较低的排序值。这样,将poi与关键词的类型相关性也作为确定poi排序值的依据,从而保证了排序值能够更为准确的表示出poi与关键词所体现的搜索目的的相关程度。

第三种确定方法:根据文本相关性、类型相关性、关键词中分词对应的词权重、以及第二概率分布函数确定poi的排序值。

在本方式中,在上述确定出搜索结果中每一个poi与关键词的文本相关性、类型相关性和第二概率分布函数、以及关键词中分词对应的词权重的基础上,可以根据搜索结果中每一个poi与关键词的文本相关性和类型相关性、第二概率分布函数,以及关键词中分词对应的词权重,以确定出关键词对应的搜索结果中每一个poi的排序值。

该第三种poi的排序值的确定方法,除了poi与关键词的文本相关性和类型相关性外,还将关键词中分词对应的词权重、以及关键词的第二概率分布函数作为确定poi排序值的维度特征。由于关键词中分词对应的词权重可以较大程度的表示出关键词所体现的搜索目的,关键词的第二概率分布函数可以较大程度的表示出关键词所体现的搜索目的的实体类型,也就是说,这两个参数都较大程度的体现出了用户的搜索目的,因此将这两个特征作为确定poi的排序值的维度特征,能够加强用户的搜索目的在确定poi的排序值时的影响。

前述介绍的三种根据关键词中分词对应的词权重确定poi的排序值的方法,它们的具体实现方式可以为,通过预先训练一个排序值确定模型,使其能够实现将输入的影响poi的排序值的一个或多个维度特征进行有效融合,从而确定出一个综合的排序值的功能。

这样,对于第一种确定方法,可以将搜索结果中每一个poi与关键词的文本相关性输入至该排序值确定模型中,该排序值确定模型就可以根据每一个poi与关键词的文本相关性特征,确定并输出每一个poi的排序值。对于第二种确定方法,可以将搜索结果中每一个poi与关键词的文本相关性和类型相关性都输入至该排序值确定模型中,该排序值确定模型就可以对每一个poi的文本相关性和类型相关性这两个维度特征进行有效融合,确定并输出搜索结果中每一个poi的综合的排序值。对于第三种确定方法,可以将搜索结果中每一个poi与关键词的文本相关性、类型相关性、关键词的第二概率分布函数,以及关键词中分词对应的词权重都输入至该排序值确定模型中,该排序值确定模型就可以对每一个poi的文本相关性、类型相关性、关键词的第二概率分布函数,以及关键词中分词对应的词权重这四个维度特征进行有效融合,确定并输出搜索结果中每一个poi的综合的排序值。

其中,上述的排序值确定模型的训练方法可以为,基于learning2rank机器学习排序模型,并利用神经网络模型的拟合能力,进而训练出该排序模型。

此外,为了更全面、准确的确定出搜索结果中每一个poi的排序值,还可以在前述三种方法的基础上,加入其它影响poi排序值的维度特征,比如:可以为poi的等级、热度信息、评论数等与poi的属性相关的维度特征;以及用户的地域、城市、距离等与用户的地理位置相关的维度特征,等等。这样,将影响poi排序值的多个维度特征进行有效融合,从而能够更为全面、准确的确定出搜索结果中每一个poi的排序值。

在完成确定搜索结果中每一个poi的排序值之后,电子地图可以根据这些poi的排序值的高低顺序,为这些poi进行排序。可以理解的是,根据关键词搜索出的poi中,可能会出现一些poi的排序值较高、一些poi的排序值较低的情形,也就是说,一些poi与关键词所体现的搜索目的的相关程度较高,而一些poi与关键词所体现的搜索目的的相关程度较低,因此,可以在将搜索结果中的poi进行展示之前,筛选出与关键词所体现的搜索目的的相关程度较高,即排序值较高的poi,并将这些poi展示给用户。

在一种可能的实现方式中,从搜索结果中筛选排序值较高的poi的方法可以为,在根据poi的排序值对搜索结果中的poi进行展示之前,可以根据搜索结果中poi的排序值的差值,筛选出用于展示的poi。例如:搜索结果中的poi包括有a、b、c、d、e、f,且确定出的这些poi的排序值分别为:92、90、89、40、38、36,根据排序值将这些poi进行排序后的顺序为:a、b、c、d、e、f,则,可以假设排序值与poi中的最大排序值相差小于50的poi作为用于展示的poi,这样,因为poia、b、c的排序值分别与poia的排序值的差值小于50,所以就可以筛选出a、b、c这些排序值较高的poi,作为用于向用户展示的poi。

上述筛选排序值较高的poi的方式,可以根据用户的不同的搜索需求,动态的选取poi展示的门限,并过滤掉不符合用户搜索需求的poi,以对展示结果进行精简,从而调整了用户的视野范围,提升了用户体验。

此外,为了应对地图搜索排序时的高并发和低响应时间的挑战,本申请实施例中将地图搜索排序时涉及的计算分为在线实时计算部分和离线计算部分,其中,离线训练前述介绍的实现不同功能的模型,在线实时计算用户当前的关键词搜索、以及poi排序值的计算等,从而降低在线的计算量和时间。而且,优化这些模型的解码程序,从而可以对搜索结果中的多个poi进行并行解码,从而大幅降低了系统的响应时间。

基于图1对应的实施例提供的兴趣点排序方法,本申请实施例提供一种兴趣点排序方法装置,参见图2,该图示出了本申请实施例提供的一种兴趣点排序方法装置结构图,如图2所示,所述装置包括获取单元201、第一确定单元202和第二确定单元203:

所述获取单元201,用于获取用于搜索兴趣点的关键词;

所述第一确定单元202,用于对所述关键词进行分词,并确定所述关键词中分词对应的词权重,所述关键词中任一个分词对应的词权重用于标识这个分词与所述关键词所体现搜索目的的相关程度;

所述第二确定单元203,用于根据所述关键词中分词对应的词权重,确定所述关键词对应的搜索结果中兴趣点的排序值。

可选的,所述第一确定单元202,还具体用于:

根据点击模型确定所述关键词中分词对应的词权重,所述点击模型是根据用户历史搜索数据训练得到的,所述用户历史搜索数据包括历史关键词和通过历史关键词选择的兴趣点。

可选的,所述第一确定单元202,还具体用于:

在所述确定所述关键词中分词对应的词权重之后,根据所述关键词中分词对应的词权重,确定所述搜索结果中兴趣点分别与所述关键词的文本相关性;

所述第二确定单元203,具体用于:

根据所述搜索结果中兴趣点分别与所述关键词的文本相关性,确定所述关键词对应的搜索结果中兴趣点的排序值。

可选的,所述第一确定单元202,还具体用于:

确定所述搜索结果中兴趣点分别与所述关键词的类型相关性;所述搜索结果中任一个兴趣点与所述关键词的类型相关性,用于标识这个兴趣点所属实体类型与所述关键词所属实体类型的相关程度;

所述第二确定单元,还具体用于:

根据所述搜索结果中兴趣点分别与所述关键词的文本相关性和类型相关性,确定所述关键词对应的搜索结果中兴趣点的排序值。

可选的,所述第一确定单元202,还具体用于:

确定所述目标兴趣点属于实体类型集合中各个实体类型的第一概率分布函数,目标兴趣点为所述搜索结果中的任一个兴趣点;

确定所述关键词属于实体类型集合中各个实体类型的第二概率分布函数;

根据所述第一概率分布函数和第二概率分布函数确定所述目标兴趣点与所述关键词的类型相关性。

可选的,所述第一确定单元202,还具体用于:

根据所述目标兴趣点的后缀词特征,确定所述目标兴趣点属于实体类型集合中各个实体类型的第一概率分布函数。

可选的,所述第二确定单元203,还具体用于:

根据所述搜索结果中兴趣点分别与所述关键词的文本相关性和类型相关性、以及所述关键词中分词对应的词权重和所述第二概率分布函数,确定所述关键词对应的搜索结果中兴趣点的排序值。

可选的,所述第二确定单元203,还具体用于:

在根据所述排序值展示所述搜索结果中兴趣点前,根据所述搜索结果中兴趣点的排序值的差值,筛选出用于展示的兴趣点。

综上,在获取用于搜索兴趣点的关键词时,可以确定所述关键词中分词对应的词权重。关键词一般包括一个或多个分词,任一个分词的词权重可以标识这个分词与关键词所体现搜索目的的相关程度,也就是说,一个分词的词权重越高,这个分词就与关键词所体现搜索目的越相符,故在确定所述关键词对应的搜索结果中兴趣点的排序值的过程中,可以通过词权重作为调整兴趣点的排序值的依据,由于排序值是用于展示兴趣点时展示位置先后的依据,故在依据通过词权重确定出的排序值进行兴趣点排序时,优先展示的兴趣点与高词权重分词相关性较大,与关键词所体现搜索目的更相符,降低了误导用户的可能,提高了用户的搜索体验。

基于前述提供的兴趣点排序方法和装置,本实施例提供一种兴趣点排序设备,兴趣点排序设备可以是终端设备,图3是根据一示例性实施例示出的一种终端设备300的框图。例如,终端设备300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图3,终端设备300可以包括以下一个或多个组件:处理组件302,存储器304,电源组件306,多媒体组件308,音频组件310,输入/输出(i/o)的接口312,传感器组件314,以及通信组件316。

处理组件302通常控制终端设备300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件302可以包括一个或多个处理器320来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件302可以包括一个或多个模块,便于处理组件302和其他组件之间的交互。例如,处理部件302可以包括多媒体模块,以方便多媒体组件308和处理组件302之间的交互。

存储器304被配置为存储各种类型的数据以支持在终端设备300的操作。这些数据的示例包括用于在装置300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。

电源组件306为终端设备300的各种组件提供电力。电源组件306可以包括电源管理系统,一个或多个电源,及其他与为装置300生成、管理和分配电力相关联的组件。

多媒体组件308包括在所述终端设备300和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件308包括一个前置摄像头和/或后置摄像头。当终端设备300处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件310被配置为输出和/或输入音频信号。例如,音频组件310包括一个麦克风(mic),当装置300处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中,音频组件310还包括一个扬声器,用于输出音频信号。

i/o接口312为处理组件302和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件314包括一个或多个传感器,用于为终端设备300提供各个方面的状态评估。例如,传感器组件314可以检测到终端设备300的打开/关闭状态,组件的相对定位,例如所述组件为终端设备300的显示器和小键盘,传感器组件314还可以检测终端设备300或终端设备300一个组件的位置改变,用户与终端设备300接触的存在或不存在,终端设备300方位或加速/减速和终端设备300的温度变化。传感器组件314可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件314还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件316被配置为便于终端设备300和其他设备之间有线或无线方式的通信。终端设备300可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信部件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件316还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。

在示例性实施例中,终端设备300可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器304,上述指令可由终端设备300的处理器320执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种兴趣点排序方法,所述方法包括:

获取用于搜索兴趣点的关键词;

对所述关键词进行分词,并确定所述关键词中分词对应的词权重,所述关键词中任一个分词对应的词权重用于标识这个分词与所述关键词所体现搜索目的的相关程度;

根据所述关键词中分词对应的词权重,确定所述关键词对应的搜索结果中兴趣点的排序值。

图4是本发明实施例中服务器的结构示意图。该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,cpu)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。

服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,一个或一个以上键盘456,和/或,一个或一个以上操作系统441,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-onlymemory,缩写:rom)、ram、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1