一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台的制作方法

文档序号:6518955阅读:424来源:国知局
一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台的制作方法
【专利摘要】一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台,包括如下步骤:(1)基础准备工作:建立分词库与片段库;建立匹配凭据库;同时建立高效索引引擎;(2)作业准备:自动完成待匹配门址数据的接纳、管理、检核等工作;(3)匹配作业:基于非结构化数据的中文语义解读技术、数据仓储挖掘和地址匹配技术,对数据准备阶段做好的任务包进行加工处理;(4)审核校验:完成待审任务包的领取、检查校核、批误、确错等作业,在完成校核工作后提交作业经理进行审核入库或者提交作业人员消除错误;(5)终校入库:将完成的作业按照内容不同分别进行入库处理。该专利具有自动化程度高,操作简单易学等优点。
【专利说明】一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台
【技术领域】
[0001]本发明涉及一种地址数据匹配挖掘平台,尤其是一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台。
【背景技术】
[0002]地址匹配指建立地理位置坐标与给定地址一致性的过程。也是指在地图上找到并标明每条地址所对应的位置。地址匹配要求能够将任何数据移植到空间坐标系中,这个过程包括对数据的准确分类和注册,以及使所有的数据能够与一个空间坐标系建立关联。
[0003]这些工作如以人工的方式在地图数据中加以标示的话,将会需要相当的人力物力,而且存在较大的主观因素,不易检查其正确性。如果这些地址资料通过地址匹配功能,和GIS联系则可以很快在地图上标示要素在空间的分布情况,以及周围的公共设施等。因此,地理匹配在城市空间定位和分析领域内具有非常广泛的应用。
[0004]中国现有的地名、地址体系异常复杂,地名相对混乱、无序,规律性低和缺乏统一的标准。市场上同类产品通常依据地址字符串智能地匹配出地理坐标值。但是地址编码管理器采用的地址模型太过复杂,加上软件功能开发太过简单,在具体应用中地址匹配率很低,匹配准确性差,通常不超过10%,仍需通过大量的人工现场采集来提高匹配的准确率。

【发明内容】

[0005]为解决上述问题,本发明提供了一种自动化程度高,操作简单易学基于大数据仓储、挖掘技术的地址数据匹配挖掘平台。
[0006]实现本发明目的的一种自动化程度高的基于大数据仓储、挖掘技术的地址数据匹配挖掘平台,包括如下步骤:
[0007](1)基础准备工作:建立基于地址门址的、具有空间属性的分词库与片段库;建立基于海量非结构化数据的多层级的匹配凭据库;同时建立基于地理空间信息平台的高效索引引擎;
[0008](2)作业准备:自动完成待匹配门址数据的接纳、管理、检核等工作,并根据工程进度需要提交作业计划书,将项目任务分解成为满覆盖的作业包;分配好的作业包,将作为匹配作业阶段的最小工作单元而进行下一步的工作。
[0009](3)匹配作业:基于非结构化数据的中文语义解读技术、数据仓储挖掘和地址匹配技术,对数据准备阶段做好的任务包进行加工处理,实现文本地址到地理位置的转变;该阶段包括上图作业、人工查误、纠误等一系列作业流程,以先进的技术和严格的管理保证了地址匹配的准确性,在完成作业内容后,匹配结果还将提交检校人员进行审核。
[0010](4)审核校验:完成待审任务包的领取、检查校核、批误、确错等作业,在完成校核工作后提交作业经理进行审核入库或者提交作业人员消除错误。
[0011](5)终校入库:将完成的作业按照内容不同分别进行入库处理,已经确认无误的数据,在入库的同时还将进行反编码,实现本文数据仓库与地理数据的一一对应,一方面可以把历史匹配结果投放进入匹配凭据库,作为新门址的匹配依据,同时还可以为应用系统的各种查询定位操作做好准备。
[0012]本产品采用基于大数据仓储、挖掘的地址匹配技术来进行地址的检索、定位。核心技术包含了元数据仓储、非结构化数据全文检索引擎、要素层级匹配法、正则表达式法以及基于自然语言理解的中文地址匹配法,来建立空间关系地址模型、地址库逻辑模型,实现了地址信息的空间知识表达。
[0013]本产品的发明可以大大提高自动匹配的效率,减少以往人工采集地理位置的工作,节约大量人力物力。
【专利附图】

【附图说明】
[0014]图1为本发明的总体流程图【具体实施方式】
[0015]如图1所示,本发明的一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台,包括如下步骤:
[0016](1)基础准备工作:建立基于地址门址的、具有空间属性的分词库与片段库;建立基于海量非结构化数据的多层级的匹配凭据库;同时建立基于地理空间信息平台的高效索引引擎;
[0017](2)作业准备:自动完成待匹配门址数据的接纳、管理、检核等工作,并根据工程进度需要提交作业计划书,将项目任务分解成为满覆盖的作业包;分配好的作业包,将作为匹配作业阶段的最小工作单元而进行下一步的工作。
[0018](3)匹配作业:基于非结构化数据的中文语义解读技术、数据仓储挖掘和地址匹配技术,对数据准备阶段做好的任务包进行加工处理,实现文本地址到地理位置的转变;该阶段包括上图作业、人工查误、纠误等一系列作业流程,以先进的技术和严格的管理保证了地址匹配的准确性,在完成作业内容后,匹配结果还将提交检校人员进行审核。
[0019](4)审核校验:完成待审任务包的领取、检查校核、批误、确错等作业,在完成校核工作后提交作业经理进行审核入库或者提交作业人员消除错误。
[0020](5)终校入库:将完成的作业按照内容不同分别进行入库处理,已经确认无误的数据,在入库的同时还将进行反编码,实现本文数据仓库与地理数据的一一对应,一方面可以把历史匹配结果投放进入匹配凭据库,作为新门址的匹配依据,同时还可以为应用系统的各种查询定位操作做好准备。
[0021]上面所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神前提下,本领域普通工程技术人员对本发明技术方案做出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
【权利要求】
1.一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台,其特征在于:包括如下步骤:(1)基础准备工作:建立基于地址门址的、具有空间属性的分词库与片段库;建立基于海量非结构化数据的多层级的匹配凭据库;同时建立基于地理空间信息平台的高效索引引擎;(2)作业准备:自动完成待匹配门址的接纳、管理、检核等工作,并根据工程进度需要提交作业计划书,将项目任务分解成为满覆盖的作业包;分配好的作业包,将作为匹配作业阶段的最小工作单元而进行下一步的工作;(3)匹配作业:基于非结构化数据的中文语义解读技术、数据仓储挖掘和地址匹配技术,对数据准备阶段做好的任务包进行加工处理,实现文本地址到地理位置信息的转变;该阶段包括上图作业、人工查误、纠误等一系列作业流程,以先进的技术和严格的管理保证了地址匹配的准确性,在完成作业内容后,匹配结果还将提交检校人员进行审核;(4)审核校验:完成待审任务包的领取、检查校核、批误、确错等作业,在完成校核工作后提交作业经理进行审核入库或者提交作业人员消除错误;(5)终校入库:将完成的作业按照内容不同分别进行入库处理,已经确认无误的数据,在入库的同时还将进行反编码,实现本文数据仓库与地理数据的一一对应,另一方面可以把历史匹配结果投放进入匹配凭据库,作为新门址的匹配依据,同时还可以为应用系统的各种查询定位操作做好准备。
【文档编号】G06F17/30GK103744854SQ201310567022
【公开日】2014年4月23日 申请日期:2013年11月15日 优先权日:2013年11月15日
【发明者】张鹏, 曾汀, 朱军 申请人:北京正图数创信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1