一种地理位置敏感的搜索引擎方法和系统的制作方法

文档序号:6524536阅读:276来源:国知局
一种地理位置敏感的搜索引擎方法和系统的制作方法
【专利摘要】一种地理位置敏感的网页检索方法、搜索引擎方法和搜索引擎系统。首先云端服务器在离线状态下计算各网页关于选定地理热点的地理相关性,并结合网络爬取单元获取的网络链接结构,计算各网页针对每个地理热点的重要性得分,将所述得分作为一个字段记录在每个网页的元数据中,将各网页的元数据存储在服务器的空间数据库中;用户在线查询时,服务器通过自然语言处理解析出查询语句的地理范围,并根据与地理热点之间的距离计算查询语句关于地理热点的地理相关性,同时从空间数据库中调取各网页关于相应地理热点的得分值,在线计算各网页针对特定查询的得分值并将结果降序排列,在用户端输出检索结果。
【专利说明】一种地理位置敏感的搜索引擎方法和系统
【技术领域】
[0001]本发明提供一种搜索引擎方法和系统,具体涉及一种考虑网页地理位置信息及链接关系的网页检索方法,并提供了相应的搜索引擎系统,属于地理信息检索领域。
【背景技术】
[0002]随着信息技术的发展,互联网已经成为重要的数据来源,近年来云技术的普及在解决数据共享问题的同时,也给信息挖掘和知识发现带来严峻的考验。在大数据时代如何有效挖掘出高相关性、高可靠性的数据显得尤为重要。根据Mark Sanderson等人的研究(Sanderson M, Kohler J.Analyzing geographic queries[C]//SIGIR Workshop onGeographic Information Retrieval.2004, 2), 15%-19% 的网页搜索查询都是地理相关的,基于地理信息的网页检索具有很大的研究价值和实际意义。
[0003]传统的网页排序方法主要采用PageRank算法(Page L, Brin S,Motwani R, etal.The PageRank citation ranking !bringing order to the web [J].1999),该算法基于网页链接关系计算每个网页的排序得分,同时根据主题进行加权,对于一般主题相关的查询能够返回满意的结果,但却无法根据检索词与网页间地理相关性进行排序;Bruno Martins 等人对地理信息检索的研究(Martins B, Calado P.Learning to rankfor geographic information retrieval[C]//Proceedings of the6th Workshop onGeographic Information Retrieval.ACM, 2010:21)则是针对文档的,最终结果以地理相关性和文本相关性进行排序,该方法缺少对网络结构的考虑,无法过滤掉垃圾网页;SaeidAsadi 等人的工作(Asadi S,Zhou X,Yang G.Using local popularity of web resourcesfor geo-ranking of search engine results[J].World Wide Web, 2009, 12(2):149-170)将不属于查询范围的网页从网络结构图中直接删除,对地理相关性的判定不精确,同时对网络结构图的修改也使垃圾网页不能很好地剔除。目前还没有一种方法能够很好地兼顾地理相关性和网页链接关系。

【发明内容】

[0004]术语定义:“地理热点”也称为POI (Point of Interest,兴趣点),是空间位置已知、在现实世界中具有明确标识的地点,例如一栋房子、一个商铺、一个邮筒、一个公交站等。“网页的地理范围”指网页包含的地理名词所对应空间坐标的点集;“关键词的地理范围”指查询语句对应的空间点集;“基于地理信息的搜索”指用户输入地理关键词,希望返回的网页地理范围与关键词的地理范围最邻近,并且返回的网页能包含可靠的信息(非垃圾网页)。
[0005]本发明的目的是提供一种新的网页重要性评价方法和搜索引擎方法及系统,综合考虑网页包含的地理位置信息和网页的链接关系对网页进行评分,在用户进行地理信息检索时能实时提供与查询语句地理范围最邻近、最权威的网页。
[0006]本发明提供的技术方案如下:[0007]本发明首先提供一种地理位置敏感的网页检索方法,其特征是,首先云端服务器在离线状态下计算各网页关于选定地理热点的地理相关性,并结合网络爬取单元获取的网络链接结构,计算各网页针对每个地理热点的重要性得分,将所述得分作为一个字段记录在每个网页的元数据中,将各网页的元数据存储在服务器的空间数据库中;用户在线查询时,服务器通过自然语言处理解析出查询语句的地理范围,并根据与地理热点之间的距离计算查询语句关于地理热点的地理相关性,同时从空间数据库中调取各网页关于相应地理热点的得分值,在线计算各网页针对特定查询的得分值并将结果降序排列,在用户端输出检索结果。
[0008]本发明同时提供一种地理位置敏感的搜索引擎方法,其特征是,包括如下步骤:
[0009]S1、离线计算各网页关于地理热点的得分,执行如下操作:
[0010]SlOl:选取POI库中的地理热点作为参考点;
[0011]S102:利用云端服务器对网络中各网页进行信息爬取,对爬取获得的网页内容进行地理标注,获得每个网页的地理范围;或者采用自然语言处理方法提取出网页包含的地名,并与地名库进行匹配,获得每个网页的地理范围;
[0012]S103:对于每个地理热点,网页的地理相关性与网页地理范围中各点出现的频率成正比,与各点和地理热点之间的空间距离的幂成反比,由此在服务器端计算各网页针对地理热点的地理相关性;
[0013]S104:利用 网络爬虫获取网页间的链接关系;根据网页间的链接关系,构建网络结构图的邻接矩阵A,其中A的行、列分别对应相应编号的网页,A中元素的值表示网页间的链接关系;
[0014]S105:对于每个地理热点,根据各网页的链接关系以及关于该地理热点的地理相关性,基于PageRank算法进行改进,基于网页包含的地理范围对网页进行加权,计算各网页关于地理热点的得分;
[0015]S2、在线计算查询语句与地理热点的地理相关性,执行如下操作:
[0016]S201:利用云端服务器对查询语句进行自然语言处理,获取查询语句的地理范围;
[0017]S202:对于每个地理热点,在线计算查询语句的地理相关性,其中,查询语句地理范围中各点的地理相关性与其相对于地理热点的空间距离的幂成反比,整个查询语句的地理相关性为其地理范围中各点地理相关性之和;
[0018]S3、结合离线计算和在线计算,得出各网页关于检索词的得分并排序输出。
[0019]其中,步骤S3包括:
[0020]S301:调用数据库中存储的各网页对每个地理热点的得分,乘以查询语句对相应地理热点的地理相关性,并对各个地理热点的得分结果进行累和,得出各网页关于查询语句的最终得分;
[0021]S302:根据网页的最终得分进行降序排列,并返回结果列表。
[0022]步骤S103具体包括:
[0023]在网页i中,包含M个地理位置{fPl,fp2,fp3,…fpM},任意点位m在网页中出现
的频率为tmSm点对应的地理名词在网页中出现的次数,1\为网页中总词数;m点与地

?理热点j的距离为dmj ;r为经验值;m点关于地理热点j的相关性权重Wmlj如下计算:
【权利要求】
1.一种地理位置敏感的网页检索方法,其特征是,首先云端服务器在离线状态下计算各网页关于选定地理热点的地理相关性,并结合网络爬取单元获取的网络链接结构,计算各网页针对每个地理热点的重要性得分,将所述得分作为一个字段记录在每个网页的元数据中,将各网页的元数据存储在服务器的空间数据库中;用户在线查询时,服务器通过自然语言处理解析出查询语句的地理范围,并根据与地理热点之间的距离计算查询语句关于地理热点的地理相关性,同时从空间数据库中调取各网页关于相应地理热点的得分值,在线计算各网页针对特定查询的得分值并将结果降序排列,在用户端输出检索结果。
2.—种地理位置敏感的搜索引擎方法,其特征是,包括如下步骤: 51、离线计算各网页关于地理热点的得分,执行如下操作: SlOl:选取POI库中的地理热点作为参考点; S102:利用云端服务器对网络中各网页进行信息爬取,对爬取获得的网页内容进行地理标注,获得每个网页的地理范围;或者采用自然语言处理方法提取出网页包含的地名,并与地名库进行匹配,获得每个网页的地理范围; 5103:对于每个地理热点,网页的地理相关性与网页地理范围中各点出现的频率成正t匕,与各点和地理热点之间的空间距离的幂成反比,由此在服务器端计算各网页针对地理热点的地理相关性; 5104:利用网络爬虫获取网页间的链接关系;根据网页间的链接关系,构建网页链接关系图的邻接矩阵A,其中A的行、列分别对应相应编号的网页,A中元素的值表示网页间的链接关系; S105:对于每个地理热点,根据各网页的链接关系以及关于该地理热点的地理相关性,基于PageRank算法进行改 进,基于网页包含的地理范围对网页进行加权,计算各网页关于地理热点的得分; 52、在线计算查询语句与地理热点的地理相关性,执行如下操作: 5201:利用云端服务器对查询语句进行自然语言处理,获取查询语句的地理范围; 5202:对于每个地理热点,在线计算查询语句的地理相关性,其中,查询语句地理范围中各点的地理相关性与其相对于地理热点的空间距离的幂成反比,整个查询语句的地理相关性为其地理范围中各点地理相关性之和; 53、结合离线计算和在线计算,得出各网页关于检索词的得分并排序输出。
3.如权利要求2所述的搜索引擎方法,其特征是,步骤S3包括: 5301:调用数据库中存储的各网页对每个地理热点的得分,乘以查询语句对相应地理热点的地理相关性,并对各个地理热点的得分结果进行累和,得出各网页关于查询语句的最终得分; 5302:根据网页的最终得分进行降序排列,并返回结果列表。
4.如权利要求2所述的搜索引擎方法,其特征是,步骤S103具体包括: 在网页i中,包含M个地理位置,设为{fp1; fp2, fp3,…fpM},任意点位m在网页中出现的频率为tmSm点对应的地理名词在网页中出现的次数,Ti为网页中总词数;m点与

I地理热点j的距离为dmj ;r为经验值;m点关于地理热点j的相关性权重Wmlj如下计算:
5.如权利要求4所述的搜索引擎方法,其特征是,步骤S105具体包括: 对于每个地理热点,根据各网页的链接关系以及关于该地理热点的地理相关性,基于PageRank算法进行改进,通过对网页地理位置进行加权,计算各网页关于地理热点的得分,计算公式如下:
6.如权利要求5所述的搜索引擎方法,其特征是,步骤S202具体包括: 对于每个地理热点,在线计算查询语句的地理相关性,其中,查询语句地理范围中各点的地理相关性与其相对于地理热点的空间距离的幂成反比,整个查询语句的地理相关性为其地理范围中各点地理相关性之和;对于查询语句地理范围点集Q中第t个点qt,其关于地理热点j的地理相关性计算公式如下:
7.如权利要求6所述的搜索引擎方法,其特征是,步骤S3中,调用数据库中存储的各网页对每个地理热点的得分,乘以查询语句对相应地理热点的地理相关性,并对各个地理热点的得分结果进行累和,得出各网页关于检索词的最终得分;网页i关于查询语句Query的相关性得分GPRi计算公式如下:
8.—种地理位置敏感的搜索引擎系统,其特征是,包括云端服务器;搜索器、索引器、检索器、用户接口和分布式空间数据库;其中, 所述的云端服务器,为位于云端的一台或多台计算机设备,提供数据检索所需的计算和存储平台; 所述的搜索器,主要负责从一个起始URL集合开始,顺着URL中的超链接以宽度优先、深度优先或启发式方式循环地在互联网中发现信息,抓取网页的链接关系以及网页的地理范围; 所述的索引器,主要负责理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,根据网页链接关系及网页涉及的地理位置,计算各网页对于指定地理热点的得分; 所述的检索器,对用户查询语句进行解析,根据其的地理范围,计算出查询语句与地理热点的地理相关度,并调用索引器的计算结果,最终进行网页与查询的地理位置敏感的相关度评价,对将要输出的结果进行排序,并实现用户相关性反馈机制; 所述的用户接口,接受用户查询输入、显示查询结果,提供基本的人机交互操作界面; 所述的分布式空间数据库,用于存储系统日志、地理热点的空间及属性信息、各网页关于地理热点的得分。
9.如权利要求8所述的搜索引擎系统,其特征是,所述的搜索器,负责网页链接信息和地理位置信息的爬取,并将这些信息传入到所述的索引器进行离线处理,计算每个网页关于地理热点的得分并将其记录在所述的分布式空间数据库中。
10.如权利要求8所述的搜索引擎系统,其特征是,当浏览者从所述的用户接口输入查询语句时,所述的检索器对查询语句进行解析,获取其所包含的地理位置信息,并根据所述的分布式空间数据库中的地理热点计算查询语句与地理热点的地理相关性,之后结合各网页的离线得分情况,计算出网页对于查询语句的最终得分,将结果降序排列返回到用户接口进行显示。
【文档编号】G06F17/30GK103678629SQ201310704016
【公开日】2014年3月26日 申请日期:2013年12月19日 优先权日:2013年12月19日
【发明者】姜丹, 高勇, 李浩然, 刘家骏, 郭潇, 程静 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1