基于移动设备的可视Web对象搜索引擎方法

文档序号:6423518阅读:138来源:国知局
专利名称:基于移动设备的可视Web对象搜索引擎方法
技术领域
本发明涉及可视Web对象搜索引擎,尤其是涉及一种基于移动设备的可视Web对象搜索引擎方法。
背景技术
目前,信息物理系统(Cyber Physical System,简称CPS)正受到国内外计算机领域工作者们的广泛关注。CPS是在环境感知的基础上,深入融合计算、通信和控制能力的可控可信可扩展的网络化物理设备系统,通过计算进程和物理进程相互影响的反馈循环实现深入融合和实时交互来增加或扩展新的功能,以安全、高效和实时的方式监测或者控制一个物理实体。本发明就是一个以移动设备(比如手机、GPS导航仪等)为载体的CPS搜索引擎,通过融合Web对象的物理可视性与语义相关性,搜索引擎返回用户视野范围内与查询关键词密切相关的Web对象,并能够根据用户位置的变化动态更新搜索结果。在传统信息检索技术和空间数据库查询技术的基础上,针对海量Web对象设计高效的索引、检索、排序机制是构建本系统的关键。在信息检索领域,常见的全文搜索引擎采用倒排文件对Web对象进行索引。搜索引擎通过爬虫从互联网提取各个网站的信息(以网页文字为主),建立网页数据库以及关键词与网页之间的对应关系,用户输入关键词进行检索时,搜索引擎从索引数据库中找到匹配该关键词的网页,并按一定的排列顺序返回结果。在空间数据库领域,常见的索引方法包括网格、四叉树和R树等,这些空间索引通常以层次型的结构组织空间对象,从而支持高效的空间查询。以被业界广泛采用的R树为例,空间上位置相近的数据点被聚类到最小包围盒里,这些最小包围盒又根据空间局部性递归的进行聚类,直到到达根节点。在空间索引结构的基础上,研究者们提出了多种多样的空间查询方法,比如范围查询、最近邻查询、反向最近邻查询、可视查询等。目前的主流数据库管理系统都已经能够高效支持空间索引的建立以及空间查询的处理,比如Maplnfo的 Spatialffare> Oracle 白勺 Spatial^ IBM DB2 白勺 Spatial Extender, \)JsR MySQL 白勺 Spatial Extensions等,这些空间查询引擎被广泛应用于地理信息系统、计算机辅助设计、多媒体信息系统以及数据仓库等。上述空间数据库引擎和信息检索平台只能片面地处理空间查询或语义查询,为了处理空间-关键词搜索,必须综合利用空间索引与文本索引,一种方法是先通过空间索引得到满足空间查询条件的候选对象,然后通过文本索引过滤不满足关键词查询条件的对象,最后得到同时满足空间和文本条件的结果集。另一种方法则与之相反,即先通过关键词的筛选,再利用空间信息进一步提炼,以得到最终结果。但是,无论是先空间再文本,还是先文本再空间的过滤方式,在中间过程中都会产生大量的候选对象,这是影响查询性能的主要瓶颈。针对此缺陷,近年来研究者们提出了若干种混合索引机制,比如在R-Tree的节点中附加上签名的IR2树索引,以及在R树的节点中附加倒排文件索引指针的顶树索引等等,在这些混合型索引的基础上,结合最好优先策略,可以高效地获取离用户欧氏距离较近且文本内容较匹配的Web对象。混合索引的提出较好地解决了空间位置与文本属性融合的问题,但是研究者们所提出的查询处理方法只是简单地以绝对欧式距离作为空间匹配程度的标准,而在CPS框架下,用户感兴趣的通常只是其视野范围内的对象,相对于欧氏距离,可视程度是一种更合适的物理匹配程度衡量标准,如何以移动设备为载体,融合Web对象的可视性与语义信息从而支持海量Web对象的可视检索是一个新的课题。

发明内容
本发明的目的在于提供一种基于移动设备的可视Web对象搜索引擎方法。本发明解决其技术问题采用的技术方案的步骤如下
1)使用爬虫对互联网Web对象进行抓取,并针对移动用户对地理位置和语义信息的检索需求,对信息空间中的海量Web对象,包括网页、多媒体、移动用户、实时微博和虚拟社区建立数据模型;
2)根据所建立的数据模型,对所抓取的空间Web对象的地理位置信息以及语义信息进行特征识别和智能提取,并在服务器端构建地理词典和海量Web对象数据库;
3)在海量Web对象数据库的基础上,建立无缝融合空间信息与语义信息的顶树索引;
4)接收移动用户的可视Web对象查询请求,在服务器端利用已有的顶树索引,结合用户的当前位置和查询关键词集合,获取前K个最匹配用户查询条件的可视Web对象,排序后发送给客户端;
5)客户端接收服务器所返回的K个可视Web对象,并以三种模式即二维视图、三维视图和列表视图在终端移动设备呈现给用户;
6)当用户所处位置或朝向发生变化时,服务器实时响应这些变化并更新结果列表。步骤1)中所述的建立数据模型针对可视Web对象查询需求,融合了 Web对象的空间属性与语义属性。步骤幻中所述的Web对象地理位置信息提取与海量Web对象数据库建立方式为 提取网页文本中的地理引用,将地址、电话号码和邮政编码转化成相应的空间坐标,在此基础上使用地理编码映射技术对每一个Web对象进行位置编码和数据清洗,并在服务器端选用DBMS构建海量Web对象数据库。步骤3)中所述的顶树索引结构结合了主流空间索引结构R树和主流文本索引倒排文件结构,融合每一个Web对象的空间信息和语义信息,支持Web对象高效的插入、删除和更新操作。步骤4)中所述的Web对象检索机制以线性加权方式融合Web对象的可视性大小和语义相关程度,以此作为信息物理排序值,采用最好优先方法对顶树索引进行查询,得到前K个信息物理排序值最大的Web对象。步骤5)中所述的对返回的K个可视Web对象查询结果呈现包括二维视图、三维视图和列表视图三种模式,用户能在三种模式间自由切换。步骤6)中所述的实时响应用户位置与朝向变化的方式如下服务器处理用户在起始位置的可视查询时,预测在下一时间段内可能的目标结果,并作为候选Web对象结果集缓存在服务器端,当用户的移动终端设备组件的GPS模块和传感器感应到用户位置与朝向的变化时,发送给服务器,服务器直接从预先计算好的候选Web对象集中获取更新后的结果呈现给用户,以“所见即所得”的方式返回搜索结果,此过程无须重新遍历顶树索引。本发明具有的有益效果是
本发明利用空间数据库技术和信息检索技术,无缝融合Web对象的可视信息与语义信息,提供一个基于移动设备的可视Web对象搜索引擎,以一种“所见即所得”的方式呈现给与用户查询条件匹配度较高的Web对象。且通过服务器端的预计算与缓存,系统保障了良好的实时性和交互性,可提供良好的用户体验。


图1是本发明实施步骤的流程框图。图2是基于移动平台的可视Web对象搜索引擎工作的原理框图。
具体实施例方式下面结合附图和实施例对本发明做进一步说明。如图1所示,本发明工作流程如下
1)使用爬虫对互联网Web对象进行抓取,并针对移动用户对地理位置和语义信息的检索需求,对信息空间中的海量Web对象,包括网页、多媒体、移动用户、实时微博和虚拟社区建立数据模型。针对Web对象的复杂性与异构性,此数据模型合理融合Web对象的空间位置、文本和图片等多重属性。2)根据所建立的数据模型,对所抓取的空间Web对象的地理位置信息以及语义信息进行特征识别和智能提取,并在服务器端构建地理词典和海量Web对象数据库。在选择 DBMS平台时,如果对可视Web对象查询性能要求较高,可选用Oracle ;如果对可视Web对象查询要求较低,可选用Mysql。3)在海量Web对象数据库的基础上,建立无缝融合空间信息与语义信息的顶树索引。顶树索引是一种混合型索引,在R树的基础上融合了倒排文件,支持基于位置的Web 对象查询。4)接收移动用户的可视Web对象查询请求,在服务器端利用已有的顶树索引,结合用户的当前位置和查询关键词集合,获取前K个最匹配用户查询条件的可视Web对象,排序后发送给客户端。排序机制融合了 Web对象的可视性和语义相关性。幻客户端接收服务器所返回的K个可视Web对象,并以三种模式即二维视图、三维视图和列表视图在终端移动设备呈现给用户。二维视图以平面地图为载体,呈现K个Web 对象;三维视图以用户移动设备所拍摄的实体街景为载体,呈现K个Web对象;列表视图以有序列表的方式呈现K个Web对象。6)当用户所处位置或朝向发生变化时,服务器实时响应这些变化并更新结果列表。服务器预先缓存可视Web对象查询结果,提高了对位置或朝向变化响应的实时性,保证良好的用户体验。图2是基于移动平台的可视Web对象搜索引擎工作的原理框图,描述了本搜索引擎的架构,现结合图2对上述工作流程进一步阐述。
步骤1)中所述的建立数据模型针对可视Web对象查询需求,融合了 Web对象的空间属性与语义属性,可以满足后续索引建立和查询处理的要求。步骤2、中所述的Web对象地理位置信息提取与海量Web对象数据库建立方式为 提取网页文本中的地理引用,将地址、电话号码和邮政编码转化成相应的空间坐标,在此基础上使用地理编码映射技术对每一个Web对象进行位置编码和数据清洗,并在服务器端选用DBMS构建海量Web对象数据库。在图2所示的系统整体架构中,Web对象数据库位于最底层,为上层索引建立、查询处理和排序模块提供支持。在选择DBMS时,可以根据实际应用需求而定,如果对可视Web对象查询性能要求较高,可选用Oracle ;如果对可视Web对象查询要求较低,可选用Mysql。步骤3)中所述的顶树索引结构结合了主流空间索引结构R树和主流文本索引倒排文件结构,融合每一个Web对象的空间信息和语义信息,支持Web对象高效的插入、删除和更新操作。在图2所示的系统架构中,IR树索引结构建立在最底层的Web对象数据库之上。步骤4)中所述的Web对象检索机制以线性加权方式融合Web对象的可视性大小和语义相关程度,以此作为信息物理排序值,采用最好优先方法对顶树索引进行查询,得到前K个信息物理排序值最大的Web对象。图2所示的系统架构中,Web对象检索与排序模块负责根据线性加权排序函数对Web对象检索与排序。步骤幻中所述的对返回的K个可视Web对象查询结果呈现包括二维视图、三维视图和列表视图三种模式,用户能可以在三种模式间自由切换。图2所示的系统架构中,查询交互模块提供了三种模式的接口。步骤6)中所述的实时响应用户位置与朝向变化的方式如下服务器处理用户在起始位置的可视查询时,预测在下一时间段内可能的目标结果,并作为候选Web对象结果集缓存在服务器端,当用户的移动终端设备组件的GPS模块和传感器感应到用户位置与朝向的变化时,发送给服务器,服务器直接从预先计算好的候选Web对象集中获取更新后的结果呈现给用户,以“所见即所得”的方式返回搜索结果,此过程无须重新遍历顶树索引。 在图2所示的系统架构中,Web对象检索与排序模块在处理可视Web对象检索的同时,预先缓存潜在的可视Web对象,提高了对位置或朝向变化响应的实时性,保证良好的用户体验。
权利要求
1.一种基于移动设备的可视Web对象搜索引擎方法,其特征在于该方法的步骤如下1)使用爬虫对互联网Web对象进行抓取,并针对移动用户对地理位置和语义信息的检索需求,对信息空间中的海量Web对象,包括网页、多媒体、移动用户、实时微博和虚拟社区建立数据模型;2)根据所建立的数据模型,对所抓取的空间Web对象的地理位置信息以及语义信息进行特征识别和智能提取,并在服务器端构建地理词典和海量Web对象数据库;3)在海量Web对象数据库的基础上,建立无缝融合空间信息与语义信息的顶树索引;4)接收移动用户的可视Web对象查询请求,在服务器端利用已有的顶树索引,结合用户的当前位置和查询关键词集合,获取前K个最匹配用户查询条件的可视Web对象,排序后发送给客户端;5)客户端接收服务器所返回的K个可视Web对象,并以三种模式即二维视图、三维视图和列表视图在终端移动设备呈现给用户;6)当用户所处位置或朝向发生变化时,服务器实时响应这些变化并更新结果列表。
2.根据权利要求1所述的一种基于移动设备的可视Web对象搜索引擎方法,其特征在于步骤1)中所述的建立数据模型针对可视Web对象查询需求,融合了 Web对象的空间属性与语义属性。
3.根据权利要求1所述的一种基于移动设备的可视Web对象搜索引擎方法,其特征在于步骤2~)中所述的Web对象地理位置信息提取与海量Web对象数据库建立方式为提取网页文本中的地理引用,将地址、电话号码和邮政编码转化成相应的空间坐标,在此基础上使用地理编码映射技术对每一个Web对象进行位置编码和数据清洗,并在服务器端选用 DBMS构建海量Web对象数据库。
4.根据权利要求1所述的一种基于移动设备的可视Web对象搜索引擎方法,其特征在于步骤3)中所述的顶树索引结构结合了主流空间索引结构R树和主流文本索引倒排文件结构,融合每一个Web对象的空间信息和语义信息,支持Web对象高效的插入、删除和更新操作。
5.根据权利要求1所述的一种基于移动设备的可视Web对象搜索引擎方法,其特征在于步骤4)中所述的Web对象检索机制以线性加权方式融合Web对象的可视性大小和语义相关程度,以此作为信息物理排序值,采用最好优先方法对顶树索引进行查询,得到前K个信息物理排序值最大的Web对象。
6.根据权利要求1所述的一种基于移动设备的可视Web对象搜索引擎方法,其特征在于步骤幻中所述的对返回的K个可视Web对象查询结果呈现包括二维视图、三维视图和列表视图三种模式,用户能在三种模式间自由切换。
7.根据权利要求1所述的一种基于移动设备的可视Web对象搜索引擎方法,其特征在于步骤6)中所述的实时响应用户位置与朝向变化的方式如下服务器处理用户在起始位置的可视查询时,预测在下一时间段内可能的目标结果,并作为候选Web对象结果集缓存在服务器端,当用户的移动终端设备组件的GPS模块和传感器感应到用户位置与朝向的变化时,发送给服务器,服务器直接从预先计算好的候选Web对象集中获取更新后的结果呈现给用户,以“所见即所得”的方式返回搜索结果,此过程无须重新遍历顶树索引。
全文摘要
本发明公开了一种基于移动设备的可视Web对象搜索引擎方法。该方法的步骤如下利用爬虫对Web对象进行抓取,针对Web对象的空间属性与语义属性设计数据模型并建立Web对象数据库,并在此基础上建立IR树索引。在处理用户的可视Web对象检索请求时,加入物理因素(如位置、朝向、视角等)的影响,融合Web对象的可视信息与语义信息,以一种“所见即所得”的方式返回搜索结果。本发明并能够随着用户位置或朝向的变化动态更新搜索结果,让用户产生身临其境的体验,从而将物理世界与数字信息世界紧密地结合起来。
文档编号G06F17/30GK102193996SQ20111011385
公开日2011年9月21日 申请日期2011年5月4日 优先权日2011年5月4日
发明者寿黎但, 张超, 胡天磊, 陈刚, 陈珂 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1