一种互联网自定义地理信息搜索及萃取网络架构及方法与流程

文档序号:36967372发布日期:2024-02-07 13:15阅读:28来源:国知局
一种互联网自定义地理信息搜索及萃取网络架构及方法与流程

本发明属于互联网领域,具体涉及一种互联网自定义地理信息搜索及萃取方法。


背景技术:

1、互联网发展已逐步进入“web 3.0”时代,互联网用户可以通过门户网站搜索获得超过pb级的兴趣信息,经过知识关联、逻辑发现等数据分析后,零碎化的互联网信息可以二次开发,为探测感知提供更可靠的先验知识。地理信息是以地理位置为关系内核的所有相关信息的总和,随着探测感知技术的不断发展,地理信息已不再仅仅局限于经纬度坐标、高程这些三维信息,而是已经扩展到图像、文字、属性,甚至是历史事件等高维信息空间。当前,全球范围的信息化产业格局已经基本定型,而在未来信息智能领域,迫切需要我们国家从信息搜索大国成为优质信息服务大国,因此,构建泛在地理信息获取与融合能力,增强对地理空间掌握能力迫在眉睫。

2、首先,地理空间信息智能感知应在大数据时代完成互联网门户网站的数据清洗。互联网是世界已经进入信息化、智能化的起点,是当今全球最大的开放信息源。对于地理信息而言,互联网已经成为最大的资源宝库,价值信息无处不在。全球范围内大型互联网服务商(如亚马逊、谷歌和苹果)掌握着通过直接销售、商业数据中介商、营销企业和社交媒体搜集和提供的信息,其中蕴含了大量的社会经济、政治事件、军事等有关的信息;科学联盟和跨国商业投资发射入轨的高定期再访率卫星获取了全球的全动态视频和光电图像,揭示了区域与城市的规模及特征;开放网络(互联网)与深层网络(高端商业、工业和学术交流网络)中记录了海量的网络交易信息。如何即时发现、快速汇集、自动清洗这些公开数据,已经成为情报信息服务国家安全的紧要任务。

3、其次,全球多源异构地理空间信息需要构建高水平数据治理能力。全球地理空间具有显著的分散化、碎片化特征,如何将这些信息有机结合到一起,是当前包括美国在内的全球互联网技术强国正在竞争的战略技术高点,其包含的军事、商业内容也是全球第三代地理空间情报的核心能力之一。全球泛在地理空间信息数据具有形态多样、来源众多、时空异构、语义复杂、更新频繁、质量参差等特点,是一个真正意义上的异构大数据。如何对庞杂无序的数据进行有序管理,使其变成高质量的地理空间价值情报产品,必须解决大数据统一存储、时空统一组织、语义动态关联、多维高效排序、高性能管理调度、持续动态更新等一系列技术难题。

4、最后,多源地理空间情报信息必须进行挖掘利用和融合增值。地理空间价值情报工作的核心任务就是发掘知识,重点在于准确地预测行为及态势。当前,智能分析技术可以通过数据聚合以及在数据中发现曾经隐藏的规律和相互联系,发现多源信息中蕴含的相互依赖关系和深层特征。这种融合多源信息的深度挖掘和增值分析数据,可以刻画政治经济态势等信息的热点、异常、轨迹和态势,对于更加全面深刻地反映战略层面和战术层面的全貌,具有更大的价值。基于自动化技术、人工智能技术,研究开发更加聚焦和智能的计算模型,以便更早、更快地综合和利用多模态、多变量、多主体地理空间情报数据,从而对其进行连续评估和呈现,并为军事决策提供信息参考,对于全球泛在地理空间情报信息的深度利用,具有至关重要的价值。


技术实现思路

1、为此,本发明提出了一种互联网自定义地理信息快速搜索与萃取网络架构及方法,通过主题设置,完成对兴趣区域内的相关地理信息、关键事件的数据采集、数据监听、数据存储等任务,形成互联网地理信息搜索模块,支持对自定义主题,如军事设施、医院、政府机构、港口等的地名地址兴趣点数据的获取,同时还能够支持历史相关事件的相关摘要爬取,并以excel、csv格式存入数据库中。主要实现以下功能:

2、(1)基于自然语言理解的地理信息汇集

3、整合国内外主流搜索引擎技术,研究地理信息网站自动发现技术,实现支持对50%以上的地理信息网站进行自动收录;针对互联网地理信息的多态特征,研究地理信息动态更新高效探测技术,实现包括地理底图(包括矢量、地形、卫星影像)、地理标注(包括兴趣点图层)、地名地址、数据服务、地图图片等至少五种类型信息的探测。

4、(2)互联网环境下地理情报信息快速关联

5、研究先验知识、自学习预测模型、信息订购机制相结合的地理情报信息源主动探测、成果实体特征标引技术,实现对地理情报数据的自动发现和语义关联;研究面向主题特征海量异构数据形式化描述模型与基于位置的海量异构数据结构化表达方法,在语义和知识层次上,实现海量、连续异构数据的位置关联、主题关联。

6、(3)存储程序

7、解析监听程序缓存的有效数据,存入mysql数据库。采用“元搜索+垂直搜索”的方式,开发网页收录引擎,实现从互联网网站中收录与地名地址及其变化有关的网页信息,再通过将中文分词引擎,形成本项目所需的“分词词典”。最后,利用“时空分析+主题特征”的匹配抽取方法,面向网络新闻中的地理要素变化事件信息,对事件类型、时间、地点、主体等关键信息进行抽取,形成信息库。

8、本发明的互联网自定义地理信息搜索及萃取网络架构,包括基础数据层、运行支撑层和业务应用层三个架构层;其中,基础数据层用于支持网络众源信息获取、清洗与整合,得到兴趣业务的基础数据,包括基础参考库、数据源网址库、特征提取模板库和特征词库;运行支撑层为业务应用层提供数据获取及整合的基础运行环境,包括数据整合处理模块和互联网地理信息获取模块;业务应用层提供对poi信息提取的业务功能,包括数据源输入及清洗模块、匹配策略选择模块、多源匹配度计算模块、变化信息提取模块、结果输出与导出模块。

9、在所述基础数据层进行建库,具体包括运行日志库、基础资料库、获取资源库和整合成果库;所述运行日志库包括所搜代理库、抓取任务库和日志数据库;所述基础资料库包括poi搜索特征词库、重点网站列表库、特征提取模板库和基础参考库,其中所述重点网站列表库是用以存储重点搜索的网站及专题门户地址入口,包括网站名称、url地址、网站归属单位、网站内容覆盖地区信息;所述特征提取模板库用以存储每个网站中主题信息的自动抽取方式,包括:地址遍历模式、预处理方式、抽取字段及规则、存储地址;所述获取资源库包括变化线索库、poi实体库和地名地址库;所述整合成果库包括poi数据整合成果库和地名地址数据整合成果库。

10、现阶段,对于大多位于深网网络中的poi数据,通用搜索引擎和普通深网爬行方法难以实现poi数据的有效获取。其主要原因在于poi数据种类繁多,不同的网站所使用的分类体系不尽相同,而检索接口作为访问深网poi数据库的唯一入口,需要提交检索词才能访问深网poi数据资源,构建最大查询覆盖的候选检索词集合成为了一个重要挑战,此外,对于深网poi数据查询而言,空间范围是一个必备的输入条件,在深网poi获取的实际执行过程中,爬虫若提交的空间范围过大,绝大多数后台数据服务范围往往不能返回符合条件的全部结果列表,如何实现对全部地理范围数据的“全量获取”也是一个亟待解决的难点问题。

11、本发明的互联网自定义地理信息搜索及萃取方法进行网络数据获取时,首先根据要素样本进行分类目录整理和分类特征词抽取得到候选检索词,通过候选检索词初步构建poi搜索特征词库,然后利用贪婪式探测搜索、检索词优化降维等方式实现poi搜索词库的完善与优化,形成最终的poi搜索特征词库并进行网络搜索和萃取。再引入空间自适应剖分的空间剖分方式,进行poi搜索范围的自适应选取。最后利用逐步逼近poi搜索的最大覆盖最优解,实现对深网poi信息的全量获取,大幅度提高深网poi数据的召回率与采集效率,其对于丰富地理信息资源、提升空间信息服务与内容管理能力具有重要意义。

12、本发明采用开放式、可扩展的元搜索引擎架构,实现对国内外主流搜索引擎的整合,构建地理信息元搜索技术框架;根据互联网泛在地理信息的内容特征、结构特征与宿主特征,设计基于语义的信息遍历模型和内容匹配模型,实现对国内外地理信息网站的自动、持续和精确收录。面向矢量、影像、地名、地址、位置信息、地理标注、地理数据服务等多模式互联网地理信息,开展地理信息类型自动判别、共性特征高效提取、多态属性深度解析与噪声信息过滤等模型与方法研究,实现跨网站、跨语言、跨类型地理信息的动态解析与深度萃取。具体实施技术途径如图1所示。

13、通过构建互联网环境下地理情报数据内容与分类体系,设计地理情报数据的数据接口、互操作规范和语义描述标准;通过研究先验知识、自学习预测模型、信息订购机制相结合的地理情报信息源主动探测、成果实体特征标引技术,实现对地理情报数据的自动发现和语义关联;通过研究面向地理信息门户的典型要素数据发现技术,实现元数据、实体数据、数据论文、关联应用案例的自动联结与可用性评估;通过研究面向主题特征海量异构数据形式化描述模型与基于位置的海量异构数据结构化表达方法,在语义和知识层次上,实现海量、连续异构数据的位置关联、主题关联。

14、使用爬虫程序从互联网门户网站上搜索网页文本、关联文件、规划图件、事件新闻等,然后通过文本内容、文件实体、搜索事件、关联要素、爬取时间、来源网站等类别来进行存储。以内容具有高公信力,包含丰富地理要素信息,有明确更新主体,可以确保信息定时更新的公共底图服务平台(如百度、腾讯、谷歌等,表1所示)为主要参考信息源,通过网络信息采集、属性信息清晰等自动化处理步骤,形成以地名、地址为核心的地理要素数据和更新变化线索,保证了网络地理信息情报搜索的准确性和实效性。

15、本发明的有益效果在于

16、实现对深网poi信息的全量获取,大幅度提高深网poi数据的召回率与采集效率,对于丰富地理信息资源、提升空间信息服务与内容管理能力具有重要意义。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1