一种挖掘地图兴趣点POI的方法和装置与流程

文档序号:16329840发布日期:2018-12-19 06:07阅读:333来源:国知局
一种挖掘地图兴趣点POI的方法和装置与流程

本发明涉及电子地图技术领域,具体涉及一种挖掘地图兴趣点poi的方法和装置。

背景技术

poi(pointofinterest,兴趣点)是指用户感兴趣或对用户来说有实际用途的特定的地理位置点。在地理信息系统中,一个poi可以是一个商铺、一个公交站,一个学校等,拥有大量丰富且准确的poi通常被认为是电子地图产品的核心竞争力。

目前,电子地图的poi主要由地图提供商定期提供,地图提供商人工收集海量poi后将收集的poi标注在电子地图上。而实际上,每天都会有大量的poi新点产生,按照地图提供商提供poi的速度很难满足地图产品的需求,poi新点的挖掘及时性差。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的挖掘地图兴趣点poi的方法和装置。

依据本发明的一个方面,提供了一种挖掘地图兴趣点poi的方法,包括:

获取预设时间段内产生的地图垂直搜索日志,组成第一搜索日志集合;

对第一搜索日志集合进行过滤处理,得到第二搜索日志集合;

对第二搜索日志集合中的各搜索日志中的查询词进行完善处理,得到新的poi。

根据本发明的另一个方面,提供了一种挖掘地图兴趣点poi的装置,包括:

日志获取单元,适于获取预设时间段内产生的地图垂直搜索日志,组成第一搜索日志集合;

日志过滤单元,适于对第一搜索日志集合进行过滤处理,得到第二搜索日志集合;

新点挖掘单元,适于对第二搜索日志集合中的各搜索日志中的查询词进行完善处理,得到新的poi。

根据本发明的又一个方面,提供了一种电子设备,该电子设备包括:处理器;以及,被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行根据本发明一个方面所述的方法的步骤。

根据本发明的再一个方面,提供了一种计算机可读存储介质,计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现本发明一个方面所述的方法的步骤。

本发明的技术方案,通过获取预设时间段内产生的地图垂直搜索日志,组成第一搜索日志集合,对第一搜索日志集合进行过滤处理,得到第二搜索日志集合,对第二搜索日志集合中的各搜索日志中的查询词进行完善处理,得到新的poi。由于用户在使用电子地图时,每天都会产生地图垂直搜索日志,基于此,从大量的地图垂直搜索日志中自主、及时的发掘高质量的poi新点,扩大了地图产品的poi覆盖率并提高了poi挖掘效率和及时性,满足了用户需求,提高地图产品的竞争力。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了根据本发明一个实施例的挖掘地图兴趣点poi的方法的流程示意图;

图2示出了根据本发明一个实施例的地图搜索结果示意图;

图3示出了根据本发明一个实施例的另一地图搜索结果示意图;

图4示出了根据本发明一个实施例的挖掘地图兴趣点poi的装置的框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的挖掘地图兴趣点poi的方法的流程示意图,参见图1,本实施例的挖掘地图兴趣点poi的方法包括下列步骤:

步骤s101,获取预设时间段内产生的地图垂直搜索日志,组成第一搜索日志集合;

这里的预设时间段,比如每月。即,本步骤中按月为周期获取一个月内产生的地图垂直搜索日志,将这些地图垂直搜索日志组成第一搜索日志集合。基于第一搜索日志集合以得到新的poi。从而与现有技术中主要靠地图提供商提供poi数据且数据提供周期以季度为单位相比,能够根据地图使用中产生的日志数据及时、有效的挖掘新的poi,实现了基于用户反馈(即用户的地图搜索日志)来及时扩充高质量poi新点的效果,拓展了poi新点挖掘新路径。

步骤s102,对第一搜索日志集合进行过滤处理,得到第二搜索日志集合;

步骤s103,对第二搜索日志集合中的各搜索日志中的查询词进行完善处理,得到新的poi。

由图1所示可知,本实施例的挖掘地图兴趣点的方法,通过获取预设时间段内产生的地图垂直搜索日志,进行过滤处理,基于过滤后得到的第二搜索日志集合对搜索日志中的查询词进行完善处理得到新的poi。从而可以基于海量的用户使用日志数据,主动、及时的挖掘出新的poi,提高了poi的挖掘速度,并且经过过滤处理过滤掉低质量的日志也保证了挖掘出的新的poi的准确性。

在本发明的一个实施例中,前述步骤s102中对第一搜索日志集合进行过滤处理,得到第二搜索日志集合包括:对第一搜索日志集合中的每条搜索日志,判断该搜索日志中的查询词是否有地图需求,如果有地图需求则将该搜索日志放入第二搜索日志集合中,如果没有地图需求则过滤掉该搜索日志。

这里的有地图需求是指用户的搜索查询需求是指向搜索地图的,而非指向地图之外。考虑到现有的地图产品的功能十分丰富,可以满足用户的多种搜索查询需求,比如,对快递的查询需求,对路线的查询需求,对拥堵状况的查询需求等。这些查询需求对于挖掘poi新点来说,可以被认为是干扰数据,因此,本实施例中通过地图需求这一过滤条件,将那些没有地图需求的搜索查询日志过滤掉,从而减少了数据处理量,并保证了挖掘的poi新点的质量。

而判断一条搜索日志中的查询词是否有地图需求的一个具体实施方式是通过调用预设的地图需求打分接口来获取该搜索日志中的查询词的得分;根据该搜索日志中的查询词的得分确定是否有地图需求。

也就是说,本发明一个实施例中,通过一个打分机制判断当前搜索日志中的查询词是否有地图需求。举例而言,如果调用预设的地图需求打分接口来获取的当前搜索日志中的查询词的得分为“score:288”,即地图需求打分接口返回有效得分,说明当前搜索日志有地图需求。如果地图需求打分接口返回“无有效得分”,说明当前搜索日志没有地图需求,这些搜索日志将会被过滤掉而不会进入到后续的流程中。

在本发明的一个实施例中,前述步骤s102中对第一搜索日志集合进行过滤处理,得到第二搜索日志集合包括:预设一个或多个查询词排除类型,对第一搜索日志集合中的每条搜索日志,判断该搜索日志中的查询词是否属于查询词排除类型,如果属于则过滤掉该搜索日志,如果不属于则将该搜索日志放入第二搜索日志集合中。

这里的查询词排除类型是指在挖掘poi新点过程中不感兴趣的查询词类型,例如,公交线路类型(如402路),地铁线路类型(如地铁10号线)和路线类型(如a地点到b地点)。这些查询词通常也不是待挖掘的poi新点对应的查询词,所以,本实施例预设一个或多个查询词排除类型,然后将第一搜索日志集合中的每搜索日志的查询词和预设的一个或者多个查询词排除类型进行一一比较,判断搜索日志的查询词是否属于查询词排除类型,如果属于查询词排除类型就把这条搜索日志过滤掉,如果不属于查询词排除类型,那么把该搜索日志放入第二搜索日志集合中。第二搜索日志集合中的搜索日志是可靠性和准确性比较高的那些搜索日志,可能被用来生成新的poi。

在本发明的一个实施例中,如果要挖掘新的poi点,就需要将搜索日志中的查询词与线上已经存在的poi对应的查询词相同的搜索日志过滤掉,从而只留下那些与线上已经存在的poi对应的查询词不同的,可能挖掘出新的poi的搜索日志。因而,前述步骤s102中对第一搜索日志集合进行过滤处理,得到第二搜索日志集合还包括:对第一搜索日志集合中的每条搜索日志,判断该搜索日志中的查询词是否为已知poi对应的查询词,如果是则过滤掉该搜索日志,如果不是则将该搜索日志放入第二搜索日志集合中。

而判断该搜索日志中的查询词是否为已知poi对应的查询词的一个具体实施方式是,将该搜索日志中的查询词输入到poi数据检索引擎,根据poi数据检索引擎的返回结果判断该搜索日志中的查询词是否为已知poi对应的查询词;其中,poi数据检索引擎是根据线上已知的poi数据搭建的。

也就是说,本实施例中利用一个根据线上已知poi数据搭建的数据检索引擎,将当前搜索日志中的查询词输入到poi数据检索引擎中,poi数据检索引擎检索后会返回结果,如果收到poi数据检索引擎返回的与已知poi对应的查询词相同的结果,则将此搜索日志过滤掉。否则,保留搜索日志。这样可以过滤掉线上已经存在的poi对应的查询词,留下的搜索日志中的查询词有很大概率就是新的poi对应的查询词。

经过上面的过滤处理后,可以得到第二搜索日志集合,一个实施例中可以直接根据第二搜索日志集合中的搜索日志中的查询词生成新的poi。但是,考虑到第二搜索日志集合中的搜索日志数量仍然较大,为了进一步降低数据处理量,并提高新的poi的质量,本发明一个实施例中在得到第二搜索日志集合之后,并在对第二搜索日志集合中的各搜索日志中的查询词进行完善处理的步骤之前,进一步包括:对第二搜索日志集合中的各搜索日志的查询词进行优先级排序;则所述对第二搜索日志集合中的各搜索日志中的查询词进行完善处理包括:按照各查询词的优先级排序顺序对其进行完善处理。

即,通过对第二搜索日志集合中的各搜索日志的查询词进行优先级排序,然后按照各查询词的优先级排序顺序对其进行完善处理。比如,第二搜索日志集合中的一条搜索日志中的查询词(奇虎360)的优先级为一级,而另一条搜索日志中的查询词(奇虎360附近的美食)的优先级为二级,那么,后续在完善poi新点对应的查询词时,先完善高优先级的查询词,即奇虎360这一查询词,在此之后,完善奇虎360附近的美食这一查询词。如此,能够将更加高质量的poi新点对应的查询词尽快完善出来,并得到挖掘的poi新点,提高了poi新点的挖掘速度和效率。

本发明一个实施例中提供了对第二搜索日志集合中的各搜索日志的查询词进行优先级排序的实施方式,具体的,从第二搜索日志集合中的各搜索日志中分别提取字节数字段的值;字节数字段表示用户搜索时服务器返回的字节数;如果字节数字段的值小于第一字节数阈值,则为对应的搜索日志中的查询词分配高优先级;如果字节数字段的值大于第二字节数阈值,则为对应的搜索日志中的查询词分配低优先级;第二字节数阈值大于第一字节数阈值。

需要说明的是,第二搜索日志集合中的各搜索日志中均包含一个字节数字段,该字段记录了用户使用查询词在地图上搜索时,服务器返回的字节数。比如,用户使用查询词奇虎360附近的美食在在地图上搜索时,服务器返回的字节数为30(即,字节数字段的值为30)大于预设的第二字节数阈值12,那么即可为对应的搜索日志中的查询词(即,奇虎360附近的美食)分配低优先级。而如果用户使用查询词奇虎360在在地图上搜索时,服务器返回的字节数为8(即,字节数字段的值为8)小于第一字节数阈值10,则为对应的搜索日志中的查询词(即,奇虎360)分配高优先级。

之所以通过服务器返回的字节数的大小来为查询词分配不同的优先级是因为,当用户的查询词更趋近于一个poi新点时,服务器找到的poi结果数相应的很小,即满足查询条件的结果数量少,这也说明查询词很有可能是一个精准的poi。而如果用户的查询词更偏离poi新点,比如仅仅是一个返查询,那么服务器找到的poi结果数相应的就会很大,即满足查询条件的结果数量多。基于此,可以对第二搜索日志集合中的各搜索日志的查询词进行优先级排序。从而更及时、准确的发掘出poi新点对应的查询词。

由上可知,本实施例的方法以地图垂直搜索日志为基础,利用查询词分析和数据检索引擎过滤等手段,高效的从预定时期内产生的(例如,每月)海量日志中挖掘出可能成为poi新点的查询词。

下面结合一个具体的示例对挖掘地图兴趣点poi的方法的步骤进行说明。

步骤s201,获取日志数据。

本实施例中,以月为周期,获取线上地图垂直搜索日志,该地图垂直搜索日志记录有用户的查询词以及城市等信息。

步骤s202,筛选出有地图需求的查询词。

每次处理时输入一条日志,通过一个打分机制判断当前搜索日志中的查询词是否有地图需求。

例如,当前要处理的查询词为“中国乡镇企业协会”,调用预设的地图需求打分接口http://xx.qihoo.net/get_score?q=中国乡镇企业协会获取该查询词的需求得分score。根据该搜索日志中的查询词的得分判断是否有地图需求。比如,得到的结果是“score:288”,即返回有效得分,则说明该搜索日志中的查询词有地图需求。相反,如果查询词为“快递查询”,调用预设的地图需求打分接口后返回“无有效得分”,说明无地图需求,这些搜索日志中的查询词就不会进入到后续的流程中。

步骤s203,过滤不感兴趣类型的查询词。

预设一个或多个查询词排除类型(即,不感兴趣的查询词类型),利用查询词分析技术来分析步骤s202中通过打分的数据,将不感兴趣的类型的查询词过滤掉,如“公交”,“路线”等。

例如:当前要处理的查询词和城市信息的组合为“402路长沙”,判断该搜索日志中的查询词是否属于查询词排除类型,如果属于则过滤掉该搜索日志。具体的,本实施例中调用接口“http://xx.qihoo.net/qp?q=402路&c=长沙”,如果接口返回“bustype(bus)type:orig|402路公交线路{"queryinfo":{"route_info":{"tag":"","type":46,"trigger_type":0}}}”。则说明是一个“公交线路”类型的查询词,属于不感兴趣的查询词类型,则将该查询词所在的搜索日志过滤掉,即这类查询词也不会进入后续流程中。

步骤s204,过滤线上已经存在的poi对应的查询词。

本步骤中的处理是,将经过以上步骤的查询词输入到poi数据检索引擎中,该poi数据检索引擎是利用线上数据搭建的一个数据检索引擎,可以过滤掉线上已经存在的poi对应的查询词。留下的查询词被认为有很大概率是poi对应的查询词。

例如,调用下述接口,将查询词输入到poi数据检索引擎中。

http://xx.qihoo.net/search.htm??count=10&nouniq=1&param=sep_fuzzy:0|word_rank_rate:1|sep_title:0|sep_dint:0|sep_synm:1|sep_uniq:parentid&filter=0&start=0&kw=content|(奇虎360)city|(北京)&ics=utf-8

根据poi数据检索引擎返回的结果分析线上是否已经存在该查询词对应的poi,若存在则将此查询词过滤掉。

步骤s205,根据对应的查询词生成疑似新poi。

通过之前的几个步骤,得到的查询词已经初步可用,但搜索日志和查询词的数量依然较大。为提高使用效率,本步骤中进一步处理,即,对第二搜索日志集合中搜索日志中的的查询词分配优先级,优先完善高优先级的查询词。

需要说明的是,原始地图垂直搜索日志中有一个字节数字段标识了用户搜索时服务器返回的字节数,这个字段信息可以用来为查询词分配优先级。图2示出了根据本发明一个实施例的地图搜索结果示意图,图3示出了根据本发明一个实施例的另一地图搜索结果示意图。参见图2,当用户使用查询词“奇虎360”在地图上搜索时,服务器返回的字节数相对较少,只包含一个poi点(北京奇虎科技有限公司)的相关数据,说明服务器精准返回了某个poi。

参见图3,当用户使用查询词“奇虎360附近的美食”在地图上搜索时,服务器返回的字节数相对较多,包含了三个poi点(一个是360食堂,一个是怡乐餐厅,还有一个是赵生记汤包馆酒仙桥店)的相关数据。这就说明此查询词是一个泛查询,不是对某个特定poi的检索,对应的查询词优先级可以往后排。如此,通过设置字节数阈值,并将服务器返回结果的字节数和字节数阈值比较即可确定查询词的优先级。

步骤s206,完善查询词信息,得到新poi。

在本步骤中,对筛选出的第二搜索日志集合中的各搜索日志中的查询词进行完善处理,得到新的poi。具体的完善处理比如是通过一些爬虫手段从互联网页面中抓取与查询词相关的信息,比如地址信息,以完善查询词的信息,从而得到新poi。

后续,可以将经过上述步骤挖掘出的质量较高的新poi标注在电子地图上,实现扩充电子地图产品poi覆盖率,提高电子地图竞争力的目的。

图4示出了根据本发明一个实施例的挖掘地图兴趣点poi的装置的框图,参见图4,本实施例的挖掘地图兴趣点poi的装置400包括:

日志获取单元401,适于获取预设时间段内产生的地图垂直搜索日志,组成第一搜索日志集合;

日志过滤单元402,适于对第一搜索日志集合进行过滤处理,得到第二搜索日志集合;

新点挖掘单元403,适于对第二搜索日志集合中的各搜索日志中的查询词进行完善处理,得到新的poi。

在本发明的一个实施例中,日志过滤单元402,具体适于对第一搜索日志集合中的每条搜索日志,判断该搜索日志中的查询词是否有地图需求,如果有地图需求则将该搜索日志放入第二搜索日志集合中,如果没有地图需求则过滤掉该搜索日志。

在本发明的一个实施例中,判断该搜索日志中的查询词是否有地图需求包括:通过调用预设的地图需求打分接口来获取该搜索日志中的查询词的得分;根据该搜索日志中的查询词的得分确定是否有地图需求。

在本发明的一个实施例中,日志过滤单元402,具体适于预设一个或多个查询词排除类型;对第一搜索日志集合中的每条搜索日志,判断该搜索日志中的查询词是否属于查询词排除类型,如果属于则过滤掉该搜索日志,如果不属于则将该搜索日志放入第二搜索日志集合中。

在本发明的一个实施例中,日志过滤单元402,具体适于对第一搜索日志集合中的每条搜索日志,判断该搜索日志中的查询词是否为已知poi对应的查询词,如果是则过滤掉该搜索日志,如果不是则将该搜索日志放入第二搜索日志集合中。

在本发明的一个实施例中,判断该搜索日志中的查询词是否为已知poi对应的查询词包括:将该搜索日志中的查询词输入到poi数据检索引擎,根据poi数据检索引擎的返回结果判断该搜索日志中的查询词是否为已知poi对应的查询词;其中,所述poi数据检索引擎是根据线上已知的poi数据搭建的。

在本发明的一个实施例中,该装置进一步包括:优先级排序单元,适于在得到第二搜索日志集合之后,并在所述对第二搜索日志集合中的各搜索日志中的查询词进行完善处理的步骤之前,对第二搜索日志集合中的各搜索日志的查询词进行优先级排序;所述新点挖掘单元,具体适于按照各查询词的优先级排序顺序对其进行完善处理。

在本发明的一个实施例中,优先级排序单元,具体适于从第二搜索日志集合中的各搜索日志中分别提取字节数字段的值;所述字节数字段表示用户搜索时服务器返回的字节数;如果所述字节数字段的值小于第一字节数阈值,则为对应的搜索日志中的查询词分配高优先级;如果所述字节数字段的值大于第二字节数阈值,则为对应的搜索日志中的查询词分配低优先级;所述第二字节数阈值大于所述第一字节数阈值。

本发明实施例中还提供了一种电子设备,该电子设备包括:处理器;以及,被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行前述挖掘地图兴趣点poi的方法的步骤。

本发明实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现前述挖掘地图兴趣点poi的方法的步骤。

需要说明的是:

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的检测域名劫持的装置和系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1