地名地址数据智能解析系统的制作方法

文档序号:16919340发布日期:2019-02-19 19:13阅读:642来源:国知局
地名地址数据智能解析系统的制作方法

本发明涉及地名地址的规范标准、数据的拆分标准化、地址层级的智能匹配算法的相关的地址数据处理与解析检索领域,尤其是涉及一种地名地址数据智能解析系统。



背景技术:

地名地址,地名是具体位置的名称说明,地址是描述一个位置的从省市开始到详细门牌或房号信息,然而中国的地址都是一长串没有任何分隔的文本串,需要进行分段解析后进行具体定位。地址根据其描述的范围是由不同的层级界定,不同的城市对于地址的与命名有所不同,城市特征比较明显。省、市、区、街道办、乡镇、楼栋号、单元号和房号,相对规则比较统一和明确,地址级别中的小区级名称由开发商自命名,命名无规律,需要收集其命名或别名集合进行界定,配合一套智慧的地址拆分算法,先将地址标准化拆分定级后,再进行逐级匹配。

地址是跨行业数据进行不同业务数据关联的唯一标识。例如,现在各行业数据中,在用户注册开通业务时,都会登记其地址信息,或是在投建用户关联设施或是服务时,登记所处地址和位置地址信息。在进行多维度数据分析时,需要将不同业务数据进行关联处理,就必须要使用地址解析系统。在跨行业对接地址时,存在以下问题:

(1)地址层级划分或地址分类不同。

(2)同一位置地址或地名描述不同。

(3)地址的编写方式或表述差异很大。

(4)实际地址名称或门牌号命名各城市差异很大。



技术实现要素:

本发明提供了一种地名地址数据智能解析系统,其目的是解决目前地名地址规范不够标准与体系不够完善,以及地址解析不够精准和匹配地址主要是兴趣点(poi-pointofinterest)或地名上匹配的问题。特拟定一套完整的地名地址标准体系,依据地址标准,通过人工收集、机器学习与知识积累,构建地址拆分的分词库,并研发新型地址拆分算法,同时根据拆分结果进行地址逐级的智能匹配,最后输出地址解析后的结果。另外,在地址解析性能与并发性上针对于大数量的访问,提供高性能与稳定性的支持。其技术方案如下所述:

一种地名地址数据智能解析系统,采用基础匹配的地址解析,包括下列步骤:

(1)预先建立储存有专利名址数据状态属性与别名属性对应关系的关联数据库,形成专利数据库;

(2)提供知识积累的分词库和别名库;

(3)用户输入地址后,通过地址拆分模块进行地址层级分类归属处理,将非结构化的地址标准化,形成标准化的地址数据;

(4)采用地址解析匹配模块将标准化的地址数据进行与专利数据库的数据逐级匹配操作,根据匹配结果和匹配的准确度进行数据返回。

进一步的,步骤(3)中,所述分词库和别名库含盖每个层级地址的尽可能丰富的关键字、名字和别名,拆分模块调用分词库和别名库,通过分词与别名作为拆分关键字,将非结构化的地址标准化。

进一步的,步骤(3)中,所述拆分模块包括分词管理子模块,所述分词管理子模块对分词所用的关键字进行筛选与维护;拆分模块还包括别名维护子模块,所述别名维护子模块对地址每个级别进行筛选与别名、常用名、归属上级别名维护。

所述分词管理子模块包括分词调整的维护管理子模块、分词词典程序加载子模块、分词查询检索子模块。

所述别名维护子模块包括别名新增、别名修改、别名删除、别名检索、使用状态维护各模块,用于别名级别的管理。

所述拆分模块将非结构化的地址标准化的步骤包括提取城市的拆分、提取行政区的拆分、提取街道办事处的拆分、提取小区的拆分、提取楼栋的拆分、提取单元的拆分、提取层和户拆分,按照拟定的地址规范进行标准化地址,通过分词和别名等关键字,逐级抽取地址的各层级形成标准化后的地址信息。

进一步的,步骤(4)中,地址解析匹配模块的匹配方法步骤如下所述:

将标准化的地址,逐级匹配,先进行城市和行政区的匹配,将地址归属在某个行政区划范围内;

再通过道路号或街道办名称或小区与楼栋位置,通过空间点面计算判断其归属街道办事处进行匹配;

根据区域范围内的小区名或小区别名或路道号等,与专利地址库的小区进行匹配;

根据匹配上的小区,找其下级楼栋信息,进行匹配,同理进行单元和户的匹配。

针对个别城市地址直接到单元的,需要针对此类做匹配顺序调整,先匹配单元级别,再往上查找楼栋或小区。

进一步的,匹配方法中还包括:

地址空间匹配使用坐标进行邻近、包含等关系进行空间的点面包含计算和道路相邻计算匹配;

中文解析为拼音进行拼音匹配,以及拼音首字母匹配;

匹配歧义处理,根据拆分词元所在文字地址的位置以及相邻词元的级别进行歧义分析,获取拼接后结果进行对应的分级匹配处理;

匹配同义词处理,根据中文词典同义词进行同义词识别,进行同义词与对应级别地址互等;

匹配繁体字处理,根据繁体字和简体字对应关系进行转化,使用转化后简体字进行对应级别地址互等;

匹配字符全角半角以及特殊字符符号处理,全角半角根据计算机字符类型进行统一转换为半角,使用统一字符符号字典将同类字符符号归类转换为归类后字符展现,最后使用转换后字符进行对应级别地址互等;

文本相似度匹配,使用文本相似度分析进行相关对比,获取不相似部分进行规则分析进行匹配;

文本拆分规则,根据不同城市地址规则模型,进行不同级别地址拼接进行匹配。

此外,除了采用基础匹配的地址解析,还能够采用积累匹配、外围接口、空间匹配、poi匹配的地址解析,积累匹配、外围接口、空间匹配、poi匹配的数据补入到专利数据库,所述积累匹配返回是指通过积累的历史匹配结果读取返回,所述外围接口返回是指通过外接平台外的记录数据获取结果后读取返回,所述空间匹配返回是指通过空间坐标进来匹配返回,所述poi匹配返回是指通过兴趣点识别进行匹配后读取返回;

所述空间匹配中会涉及到坐标所属的坐标系不同,解析系统中的坐标转换模块将地址的空间位置信息,进行常用坐标系转换

本发明通过制定地名地址的层级标准(省-市-区-街道-门牌号/小区-楼栋-单元-层-户),积累一个丰富的别名体系与别名库,研发出一套针对各城市特性差异的地址拆分与匹配算法,能够高效且准确的进行地址解析,同时可以进行多坐标系的坐标输出。

附图说明

图1是地址解析总流程图;

图2是地址拆分流程示意图;

图3是地址匹配流程示意图。

具体实施方式

为了实现上述目的,本发明提供一种地名地址数据智能解析系统,是一种地名地址可自动解析的智能系统,能够对大批量非结构化地址进行解析,如图1所示,在数据处理平台上,用户输入地址后,返回的解析地址可以采用积累匹配返回、基础匹配返回、外围接口返回、空间匹配返回、poi(兴趣点)匹配返回。所述积累匹配返回是指通过积累的历史匹配结果读取返回,所述外围接口返回是指通过外接平台外的记录数据获取结果后读取返回,所述空间匹配返回是指通过空间坐标进来匹配返回,所述poi匹配返回是指通过兴趣点识别进行匹配后读取返回,所述基础匹配返回是指通过对用户输入的地址进行拆分解析等操作后读取返回。

所述积累匹配可以根据街道办接口,小区、楼栋、单元、户接口,逆地址解析,城市识别接口,楼盘地址接口完成历史匹配,并读取返回。

其中,逆地址解析是指地址从小到大的顺序,整合成地域范围从大到小的顺序。

不管哪种匹配方式,最终都要实现楼栋单元层户匹配。

在实际使用时,除了积累匹配是根据历史数据进行实现,其他的匹配方式都会留下对应的操作历史数据,进而为积累匹配完成数据基础。

其中的基础匹配的地址解析操作,包括:全量地址存储的专利地址库、将非结构化的地址标准化的分词库和别名库、地址拆分分段处理模块(简称拆分模块)、地址解析匹配模块。

操作时,在数据处理平台通过拆分模块调用分词库和别名库,将非结构化的地址标准化,传送给地址解析匹配模块与专利地址库进行匹配,获取最终的地址解析结果。

所述专利地址库是地名地址解析的目标数据的全国地名地址数据库,所述分词库与别名库都为拆分的知识学习与积累数据库,所述拆分模块预先将待解析地址即非结构化的地址进行标准化处理,为地址解析匹配模块做好数据预处理,所述地址解析匹配模块与专利地址库相连。

以下是各部分的介绍:

专利地址库是建立核心有专利地名地址数据的数据库,含盖全量地址数据,并做好地址标准化处理,以及空间处理数据。

建立各层级地址数据的分词库和别名库,含盖每个层级地址的尽可能丰富的关键字、名字和别名。

拆分模块,通过分词与别名作为拆分关键字,进行将非结构化的地址进行标准化和结构化处理,得到地址的层级化数据。

匹配模块,将标准化后的地址,通过连接专利地址库进行匹配算法进行检索地址库,将最终匹配后的结果进行返回。所述匹配算法是实现表述一致或者尽量达到最接近表述。

优选地,拆分模块包括有分词管理子模块,所述分词管理子模块可以对分词所用的关键字进行筛选与维护。

优选地,拆分模块还包括别名维护子模块,所述别名维护子模块可以对地址每个级别进行筛选与别名、常用名、归属上级别名维护。

优选地,所述数据处理平台为地址处理与地址匹配,以及数据知识积累的人工作业平台。

优选地,在空间匹配中会涉及到坐标所属的坐标系不同,坐标转换模块,将地址的空间位置信息,进行常用坐标系(墨卡托、百度、高德、wgs84等坐标系之前互相转换)转换。

本发明首先预先建立储存有专利名址数据状态属性与别名属性对应关系的关联数据库,再提供知识积累的分词库和别名库,通过地址拆分模块进行地址层级分类归属处理,结合智能匹配技术将标准化的地址数据进行与专利名址库数据逐级匹配,根据匹配结果和匹配的准确度进行数据返回。

优选的,所述拆分模块的分词管理子模块包括分词调整的维护管理子模块、分词词典程序加载子模块、分词查询检索子模块。

优选的,所述别名维护子模块包括别名新增、别名修改、别名删除、别名检索、使用状态维护,别名级别的管理。

优选的,所述拆分模块包括提取城市的拆分、提取行政区的拆分、提取街道办事处的拆分、提取小区的拆分、提取楼栋的拆分、提取单元的拆分、提取层和户拆分,按照拟定的地址规范进行标准化地址。见图2。通过分词和别名等关键字,逐级抽取地址的各层级标准化后的地址信息。

优选的,所述匹配模块包括城市匹配、行政区匹配、街道办事处匹配、小区匹配、路牌号匹配、楼栋匹配、单元匹配、层和户匹配。见图3。

将标准化的地址,逐级匹配,先进行城市和行政区的匹配,将地址归属在某个行政区划范围内;

再通过道路号或街道办名称或小区与楼栋位置,通过空间点面计算判断其归属街道办事处进行匹配;

根据区域范围内的小区名或小区别名或路道号等,与专利地址库的小区进行匹配;

根据匹配上的小区,找其下级楼栋信息,进行匹配,同理进行单元和户的匹配。

其中,针对个别城市(如上海)地址直接到单元的,需要针对此类做匹配顺序调整,先匹配单元级别,再往上查找楼栋或小区。

优选的,所述与匹配方法相关的匹配,地址空间匹配使用坐标(点、线、面)进行邻近、包含等关系进行空间的点面包含计算和道路相邻计算匹配。

优选的,所述与匹配方法相关的匹配,中文解析为拼音进行拼音匹配,以及拼音首字母匹配。

优选的,所述与匹配方法相关的匹配歧义处理,根据拆分词元所在文字地址的位置以及相邻词元的级别进行歧义分析,获取拼接后结果进行对应的分级匹配处理。

优选的,所述与匹配方法相关的匹配同义词处理,根据中文词典同义词进行同义词识别,进行同义词与对应级别地址互等。

优选的,所述与匹配方法相关的匹配繁体字处理,根据繁体字和简体字对应关系进行转化,使用转化后简体字进行对应级别地址互等。

优选的,所述与匹配方法相关的匹配字符全角半角以及特殊字符符号处理,全角半角根据计算机字符类型进行统一转换为半角,使用统一字符符号字典将同类字符符号归类转换为归类后字符展现,最后使用转换后字符进行对应级别地址互等。

优选的,所述与匹配方法相关的文本相似度匹配,使用文本相似度分析进行相关对比,获取不相似部分进行规则分析进行匹配。

优选的,所述与匹配方法相关的文本拆分规则,根据不同城市地址规则模型,进行不同级别地址拼接进行匹配。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1