一种基于地理时空数据的移动信息搜索及知识发现系统的制作方法

文档序号:7928803阅读:150来源:国知局
专利名称:一种基于地理时空数据的移动信息搜索及知识发现系统的制作方法
技术领域
本发明涉及一种移动信息搜索及知识发现系统,尤其是涉及一种基于地理时空数据的移动信息搜索及知识发现系统。
背景技术
空间位置及其连带的时间信息是反映人类日常生活行为的重要因素。在移动互联网应用高速发展的今天,新一代智能信息服务通过位置时空信息可以更好地理解用户行为,继而不断提升其服务质量。近年来,定位技术与移动互联网相结合,形成了一类称之为 “基于位置的服务(Location-Based Service, LBS)(也称位置服务)”的新型移动计算服务模式。这些服务以卫星定位、无线网络定位等多种方式为基础获取用户时空信息,并对大众时空数据进行分析挖掘,最终在用户智能手机、PDA、PND等移动终端设备上实现对用户的自适应表达,满足用户周边兴趣点搜索导航、信息获取、社会交流等广泛需求,是下一代智慧地球及智能社会的核心组件。LBS技术及服务模式已经衍生出了一个蓬勃发展的,以兴趣及创意为核心价值观的新兴信息产业。人类的日常生产生活天然地产生了大量位置时空数据。通过定位技术将这些数据搜集并分析,最终以服务的形式反馈回人类社会,将有效指导人类社会活动。在网络计算即将出现深层变革的今天,位置信息不再只停留在数据层面,而具有丰富的社会属性和社会意义。位置时空信息的引入,必然改变当前诸多信息系统带给人们的用户体验,使得人类信息系统朝着智能化和普适化的方向迈进。传统LBS主要集中在位置导航相关应用方面,相应的位置信息、热点事件、兴趣事件等依靠专门方法和专业人员进行维护,这种模式严重制约了位置服务的发展空间。事实上现有的互联网海量信息中存在着大量的位置信息元数据,现有的基于计算机网络的信息发布及获取模式也天然携带了位置元素。因此,位置服务本身并不缺少位置背后的社会信息,而是缺少一个有效整合和挖掘这些信息的知识本体及挖掘方法。当前地理时空围栏是LBS服务的一个重要应用模式。传统地理围栏技术主要用于位置区域监控。本发明将地理围栏技术延伸为时空位置围栏技术,并用于信息搜索及知识发现。因此,传统的由专家构建围栏的模式已经不适合新型LBS服务的需求。

发明内容
本发明主要解决将位置信息引入网络信息搜素,形成自适应用户位置的移动信息搜素所存在的技术问题;提供了一种在公众定位导航设备普及的情况下(如智能手机),根据用户当前的坐标、时间、高度、方向等位置数据以及地理围栏的社会关联性挖掘结果,重新组织并提供用户感兴趣的网络信息,形成基于用户位置的信息自适应表达的一种基于地理时空数据的移动信息搜索及知识发现系统。本发明的上述技术问题主要是通过下述技术方案得以解决的 一种基于地理时空数据的移动信息搜索及知识发现系统,其特征在于,包括信息搜索服务器采用Hadoop并行集群架构,运用网络爬虫采集工具进行并行网络信息的采集,根据网络信息爬行入口生成若干爬行任务,依照Hadoop并行集群架构划分给各处理机去获取页面,并对页面文件进行格式解析,爬行深度由系统设置;
知识发现服务器根据用户定义将地理区域划分为若干位置围栏,同时接收上述信息搜索服务器采集的网络信息,通过位置知识本体对其中包含有多个位置围栏及其附属的相关概念的位置知识进行挖掘提取后给网络信息增加与该位置知识对应的位置标签,并将其以索引形式存储到知识发现服务器数据池中,该知识发现服务器根据网络信息的位置标签,将网络信息摘要映射到各个已设置好的位置围栏中,所述网络信息的摘要包括标题, 时间,正文前若干字,出处网址URL,所述正文前若干字根据用户设定;
信息推送服务器将根据用户所在位置与上述知识发现服务器数据池中的位置知识本体中各个位置围栏的归属匹配结果,从所述知识发现服务器数据池中提取符合该位置的网络信息摘要,组织该网络信息摘要的发布顺序,对用户实现基于位置的网络信息自适应推送;
客户端通过GPS定位芯片获得用户所在位置信息,并利用无线网络将位置信息发送给信息推送服务器,同时能接收所述信息推送服务器所推送的网络信息摘要,并将其显示在所述客户端上。本发明涉及一种基于位置的移动信息搜索和知识发现系统,以位置微博的形式体现。系统分为服务器软件和客户端软件两部分组成。本发明客户端基于Android和ios智能手机设备(两个实现版本),能够获取用户当前所在的坐标、时间、高度、方向等位置数据,并能通过3G网络将这些数据提供给服务器。客户端同时能从服务器下载用户感兴趣的或用户周边的地理围栏网络信息的摘要,用于通过移动客户端浏览信息。本发明能够建立“中心-区域式”围栏或者地理多边形围栏。地理围栏可由用户通过手机客户端自行设置,也可通过从网络信息中提取的位置信息自动设置。“中心-区域式”围栏以一个地理坐标为圆心,以半径确定围栏范围。地理多边形围栏根据地图标注的实际道路、建筑属性进行设置。地理围栏采用树形层次化管理,并提供一种多粒度分层聚类方法,根据地理围栏的社会属性及围栏在同一网页中出现的次数等,将围栏进行聚类归并,形成聚类层次树。本发明服务端基于Hadoop体系结构,具有并行数据采集、分析、索引和存储的云计算特征。系统能对中、英文两种语言进行网页全文检索和语言分析,提取网页信息中的位置关键字,并结合位置领域本体标注网页信息的多个位置标签。本发明能在一个具体的知识范畴下,根据位置领域本体,自动搜索和提取该知识范畴下涉及位置的相关信息,建立若干地理围栏并将这些信息归并到相应的地理围栏中。 系统能根据用户提供的具体知识范畴和用户搜索信息的位置、时间等相关数据,将与该知识范畴相关的网络信息进行重新组织。通过地理围栏社会属性的动态关联性挖掘组件,建立该知识范畴下网络信息与用户当前所处环境的关联度排序。并根据这种关联度将该知识范畴下的信息提供给用户,形成自适应表达。用户通过智能手机客户端软件进行浏览。在上述的一种基于地理时空数据的移动信息搜索及知识发现系统,所述的信息搜索服务器包括一个预设的爬行数据库以及一个海量数据抓取模块,所述的海量数据抓取模块包括
网页追踪单元将用户设定的网页URL地址注入到所述爬行数据库中,实现以该网页为入口的网络信息采集,爬行由该入口地址开始深度遍历有链接的网页,爬行最大深度由用户定义;
内容获取单元根据爬虫爬行规则根据上述网页追踪单元设定的网页进行访问网页信息,将网页内容进行下载,获取网络信息内容;
格式解析单元根据上述下载的网络信息进行格式解析,分析页面的HTML格式,提取页面标题、正文及相关元数据内容,形成网络信息摘要,存储到一个设置在格式解析单元内的文本数据库中;
爬行数据库更新单元若发现上述内容获取单元中的网页URL地址有更新,则将其更新的网络URL地址存储到上述爬行数据库中。在上述的一种基于地理时空数据的移动信息搜索及知识发现系统,所述的知识发现服务器包括
位置围栏管理模块根据用户设定,将地理位置划分为若干位置围栏,并基于关联挖掘算法是确定两两位置围栏的关联度;
中文分词模块所述中文分词模块内建一个通用语境下的中文辞典,然后通过词表切分并根据该中文辞典获得上述设置在格式解析单元内的文本数据库中网络信息的词汇元素;
索引建立模块根据所述中文分词模块获取的关键词建立以8位字节为基础的逆序索引文件格式,建立索引文件,并将索引文件进行存储;
检索模块根据位置知识本体运用布尔操作、模糊以及分组查询方式针对上述文本数据库中网络信息中的位置知识的查询,如果网络信息含有某些位置围栏相关的词汇,则将此网络信息标注该位置围栏的位置标签,将文本信息的摘要映射到位置围栏中,所述文本信息的摘要包括标题,时间,正文前若干字,出处网址URL,所述正文前若干字根据用户设定。在上述的一种基于地理时空数据的移动信息搜索及知识发现系统,所述的位置围栏管理模块中进行地理位置划分的具体方法为所述位置围栏由用户通过客户端或者从网络信息中提取的位置知识设置“中心-区域式”围栏或者地理多边形围栏,所述“中心-区域式”围栏为以一个地理坐标为圆心,以半径确定围栏范围,即记录围栏名称,围栏中心点 GPS坐标,围栏半径即可;所述地理多边形围栏根据地图标注的实际道路、建筑属性进行设置,即记录围栏的各个顶点GPS坐标;
该位置围栏管理模块基于关联挖掘算法是确定两两位置围栏的关联度的具体步骤如下建立位置围栏的关联度矩阵
,其中每一项^表示位置围栏i和J·的关联度,取0 1之间的小数,系统最初由管理
员根据常识为任意两个围栏设置一个默认的关联度,其中
权利要求
1.一种基于地理时空数据的移动信息搜索及知识发现系统,其特征在于,包括信息搜索服务器采用Hadoop并行集群架构,运用网络爬虫采集工具进行并行网络信息的采集,根据网络信息爬行入口生成若干爬行任务,依照Hadoop并行集群架构划分给各处理机去获取页面,并对页面文件进行格式解析,爬行深度由系统设置;知识发现服务器根据用户定义将地理区域划分为若干位置围栏,同时接收上述信息搜索服务器采集的网络信息,通过位置知识本体对其中包含有多个位置围栏及其附属的相关概念的位置知识进行挖掘提取后给网络信息增加与该位置知识对应的位置标签,并将其以索引形式存储到知识发现服务器数据池中,该知识发现服务器根据网络信息的位置标签,将网络信息摘要映射到各个已设置好的位置围栏中,所述网络信息的摘要包括标题, 时间,正文前若干字,出处网址URL,所述正文前若干字根据用户设定;信息推送服务器将根据用户所在位置与上述知识发现服务器数据池中的位置知识本体中各个位置围栏的归属匹配结果,从所述知识发现服务器数据池中提取符合该位置的网络信息摘要,组织该网络信息摘要的发布顺序,对用户实现基于位置的网络信息自适应推送;客户端通过GPS定位芯片获得用户所在位置信息,并利用无线网络将位置信息发送给信息推送服务器,同时能接收所述信息推送服务器所推送的网络信息摘要,并将其显示在所述客户端上。
2.根据权利要求1所述的一种基于地理时空数据的移动信息搜索及知识发现系统, 其特征在于,所述的信息搜索服务器包括一个预设的爬行数据库以及一个海量数据抓取模块,所述的海量数据抓取模块包括网页追踪单元将用户设定的网页URL地址注入到所述爬行数据库中,实现以该网页为入口的网络信息采集,爬行由该入口地址开始深度遍历有链接的网页,爬行最大深度由用户定义;内容获取单元根据爬虫爬行规则根据上述网页追踪单元设定的网页进行访问网页信息,将网页内容进行下载,获取网络信息内容;格式解析单元根据上述下载的网络信息进行格式解析,分析页面的HTML格式,提取页面标题、正文及相关数据内容,形成网络信息摘要,存储到一个设置在格式解析单元内的文本数据库中;爬行数据库更新单元若发现上述内容获取单元中的网页URL地址有更新,则将其更新的网络URL地址存储到上述爬行数据库中。
3.根据权利要求1所述的一种基于地理时空数据的移动信息搜索及知识发现系统,其特征在于,所述的知识发现服务器包括位置围栏管理模块根据用户设定,将地理位置划分为若干位置围栏,并基于关联挖掘算法是确定两两位置围栏的关联度;中文分词模块所述中文分词模块内建一个通用语境下的中文辞典,然后通过词表切分并根据该中文辞典获得上述设置在格式解析单元内的文本数据库中网络信息的词汇元素;索引建立模块根据所述中文分词模块获取的关键词建立以8位字节为基础的逆序索引文件格式,建立索引文件,并将索引文件进行存储;检索模块根据位置知识本体运用布尔操作、模糊以及分组查询方式针对上述文本数据库中网络信息中的位置知识的查询,如果网络信息含有某些位置围栏相关的词汇,则将此网络信息标注该位置围栏的位置标签,将文本信息的摘要映射到位置围栏中。
4.根据权利要求1所述的一种基于地理时空数据的移动信息搜索及知识发现系统, 其特征在于,所述的位置围栏管理模块中进行地理位置划分的具体方法为所述位置围栏由用户通过客户端或者从网络信息中提取的位置知识设置“中心-区域式”围栏或者地理多边形围栏,所述“中心-区域式”围栏为以一个地理坐标为圆心,以半径确定围栏范围, 即记录围栏名称,围栏中心点GPS坐标,围栏半径即可;所述地理多边形围栏根据地图标注的实际道路、建筑属性进行设置,即记录围栏的各个顶点GPS坐标;该位置围栏管理模块基于关联挖掘算法是确定两两位置围栏的关联度的具体步骤如下建立位置围栏的关联度矩阵%,其中每一项G表示位置围栏i和J·的关联度,取0 1之间的小数,系统最初由管理员根据常识为任意两个围栏设置一个默认的关联度,其中f为默认围栏i,j同时出现在同一网络信息的次数,此后根据知识发现服务器统计的两个围栏同时出现在一则网络信息中的次数《来调整关联度,同时出现次数越多的围栏则关联度越高,其中 (^ai+d-rg/rf—,并根据用户设定的调整周期进行每个周期的调整计算。
5.根据权利要求1所述的一种基于地理时空数据的移动信息搜索及知识发现系统,其特征在于,所述的客户端包括客户端通信模块构建Socket用于维护客户端与服务器之间的无线网络通信; 客户位置定位及位置信息发送模块客户端调用移动智能手持设备中的GPS和陀螺仪接口,获取当前位置坐标、时间、速度、高度、方向信息,组装后发送给服务器; 客户信息接收模块收取服务器发送来的网络信息摘要,显示该摘要; 验证模块用于处理客户端与服务器之间用户身份认证;数据加密模块对网络通信中所传递信息进行加密,确保信道安全及用户位置隐私。
6.根据权利要求3所述的一种基于地理时空数据的移动信息搜索及知识发现系统,其特征在于,所述的信息推送服务器包括用户位置识别及位置围栏归属判定模块服务器通过接收用户位置坐标信息,鉴别用户所在或附近的位置围栏;信息自适应组织模块服务器根据用户当前位置,优先组织与用户位置最相关的位置围栏中的网络信息摘要,并依据上述已经建立的位置围栏的关联度依次组织其他位置围栏中的网络信息摘要,网络信息摘要存放与消息队列中等待发出;信息推送模块根据消息队列中的内容,将组织好的网络信息摘要发送给客户端。
7.根据权利要求4所述的一种基于地理时空数据的移动信息搜索及知识发现系统,其特征在于,所述位置围栏管理模块采用多粒度分层聚类方法的对于位置围栏进行管理,具体操作步骤如下所述的位置围栏采用树形层次化管理,并根据地理围栏的社会属性及围栏在同一网页中出现的次数,将围栏进行聚类归并,形成聚类层次树,具体方法如下步骤7. 1,以用户设定的一个位置围栏为叶子节点,通过分析两两围栏的出现在同一网络信息、出现在同一用户轨迹顺序、位置围栏所属机构的关联性,位置围栏所属机构包括单位性质、活跃人群、用地性质,利用基于基于关联度的聚类算法,对这些围栏集合进行层次化聚类先将各个围栏作为围栏层次树的叶子层!處!,根据层次聚类的一般思路,每处理一次,得到高一层的聚类结果!\···,亀终层位置围栏层次众兑_|Z2:尤/23_丨_|4:/1,层次聚类是一个公开的大众知晓的聚类算法,其核心是聚类对象两两关联度;步骤7. 2,在不同的社会范畴尺度上,将相近的停留点划分到同一个聚类,聚类层次树,树中的节点代表不同的围栏聚类,不同层次表示不同的地理空间尺度及其所属的社会关系范畴;随后,将不同用户的轨迹映射到这棵树的各个层次,就可以将不同的聚类连接起来,从而得到不同的图模型。
8.根据权利要求4所述的一种基于地理时空数据的移动信息搜索及知识发现系统,其特征在于,所述信息自适应组织模块以及信息推送模块针对A层位置围栏层次树进行信息自适应组织以及信息推送的具体步骤如下设基于A层位置围栏层次树丨£2:U2,一丨-IV/ 的信息重组及自适应表达推送算法,其中#表示第J层中的第i个围栏;步骤8. 1 由信息自适应组织模块根据用户客户端定位结果,调用围栏归属判断算法,获得与用户当前最近的围栏;步骤8. 2 将归属于力的信息摘要压入信息推送队列MSG Queue ;步骤8. 3 如果力存在子树,则后序遍历其子树各节点,依次将信息摘要压入信息推送队列 MSG Queue ;步骤8.4 如果Z不存在子树,则返回其父节点;步骤8. 5 重复以上过程,形成从特定叶子节点开始的全书遍历;越先进入MSG Queue 消息被认为是与用户当前位置越相关的信息;步骤8. 6:由信息推送模块将信息摘要以出栈方式推送至用户手机客户端。
全文摘要
本发明涉及一种基于地理时空数据的移动信息搜索及知识发现系统。本发明客户端基于Android和ios智能手机设备(两个实现版本),能够获取用户当前所在的坐标、时间、高度、方向等位置数据,并能通过3G网络将这些数据提供给服务器。客户端能从服务器下载用户感兴趣的或用户周边的地理围栏中网络信息的摘要。服务器亦能够根据所搜索到的网络信息与用户位置的关系密切程度,向客户端推送用户与用户所在位置最密切的网络信息摘要。优点如下在公众定位导航设备普及的情况下,根据用户当前的坐标、时间等位置数据以及位置围栏的社会关联性挖掘结果,重新组织网络信息,形成基于用户位置的网络信息自适应表达。
文档编号H04W4/02GK102291435SQ20111019908
公开日2011年12月21日 申请日期2011年7月15日 优先权日2011年7月15日
发明者周宇, 李玉, 王霞仙, 郭迟 申请人:武汉大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1