基于字符串匹配的身份证住址信息解析方法及系统的制作方法_3

文档序号:9349988阅读:来源:国知局
dr3 = {乌鲁木齐市水磨沟区}(操作:匹配“区”,舍弃“区”后的子字符串);
将addr3与高速存储介质中的规整化地址条目进行匹配,得到其规整化地址为“新疆维吾尔自治区乌鲁木齐市水磨沟区”,相应的地址代码为“650105”。
[0032]
Address: {河南省汗市宜阳县董王庄乡南岭村}(不存在的地址) addrl = {河南汗市宜阳县董王庄乡南岭村}(操作:读入地址字符串); addr2 = {汗市宜阳县董王庄乡南岭村}(操作:匹配并删除“河南”); addr3 = {汗市宜阳县}(操作:匹配“县”,舍弃“县”的子字符串);
将addr3与高速存储介质中的规整化地址条目进行匹配,无法获取其地址,将该地址字符串做末端截取:addr3 = {汗市};
将addr3与高速存储介质中的规整化地址条目再次进行匹配,仍无法获取其地址,继续将改地址字符串做末端截取,addr3 = {};
关键字为空,返回无法解析。
[0033]可见,本发明可采用现有的省市县区代码大全数据,基于此的字符串截取匹配完成身份证住址信息解析。
[0034]具体实施时,还可以采用模块化方式提供相应系统。本发明实施例提供一种基于字符串匹配的身份证住址信息解析系统,包括以下模块:
代码存储模块,用于首先获得全国省市县区及其对应代码,作为初始的地址条目进行规整化处理,包括将省市县及区进行分离,规整后的地址代码条目持久存入数据库中;
初始化模块,用于将数据库中所有规整化的地址代码条目读入存储介质中,对每个地址代码条目同时用两种映射方式存储,一种是设从高级到低级依次为省、市、县、区,取地址代码条目中最低级别的字段与代码的字典映射,记为映射A ;另一种是代码到省市县全称的映射,记为映射B ;
信息输入模块,用于读入一条身份证住址信息的字符串; 关键信息提取模块,用于对当前读入的这条身份证住址信息的字符串进行处理,只保留区、县和市相应关键字,得到关键信息串;
分级匹配模块,设从低级到高级依次为区、县、市,将关键信息提取模块所得关键信息串从低级到高级依次进行匹配截取,包括以下子模块,
初始子串提取子申吴块,用于从关键?目息串中,提取最低级的子串;
查询匹配子模块,用于将当前所取子串与存储介质中的规整化地址代码条目进行查询匹配,
如果匹配成功则根据映射A返回对应的代码,结束对当前读入的这条身份证住址信息匹配结果,根据映射B由代码检索到相应规范的省市县全称,结束分级匹配模块工作,命令迭代判断模块工作;
否则命令子串更新子模块工作;
子串更新子模块,用于舍弃当前的子串,从关键信息串中,按照区、县、市的顺序,提取尚一级的子串,
如果提取失败,匹配失败,结束分级匹配模块工作,命令迭代判断模块工作;
如果提取成功则命令查询匹配子模块工作,直到匹配成功或匹配失败;
迭代判断模块,用于判断如果还需继续进行身份证地址解析,命令信息输入模块读入下一条身份证住址信息的字符串进行处理,否则结束系统工作。
[0035]各模块实现可参见相应步骤,本发明不予赘述。
[0036]以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围内。
【主权项】
1.一种基于字符串匹配的身份证住址信息解析方法,其特征在于:包括以下步骤, 步骤1,首先获得全国省市县区及其对应代码,作为初始的地址条目进行规整化处理,包括将省市县及区进行分离,规整后的地址代码条目持久存入数据库中; 步骤2,初始化,包括将数据库中所有规整化的地址代码条目读入存储介质中,对每个地址代码条目同时用两种映射方式存储,一种是设从高级到低级依次为省、市、县、区,取地址代码条目中最低级别的字段与代码的字典映射,记为映射A ;另一种是代码到省市县全称的映射,记为映射B ; 步骤3,读入一条身份证住址信息的字符串; 步骤4,对当前读入的这条身份证住址信息的字符串进行处理,只保留区、县和市相应关键字,得到关键ig息串; 步骤5,设从低级到高级依次为区、县、市,将步骤4所得关键信息串从低级到高级依次进行匹配截取,包括以下子步骤, 步骤5.1,从关键信息串中,提取最低级的子串; 步骤5.2,将当前所取子串与存储介质中的规整化地址代码条目进行查询匹配, 如果匹配成功则根据映射A返回对应的代码,结束对当前读入的这条身份证住址信息匹配结果,根据映射B由代码检索到相应规范的省市县全称,结束本步骤进入步骤6 ;否则进入步骤5.3 ; 步骤5.3,舍弃当前的子串,从关键信息串中,按照区、县、市的顺序,提取高一级的子串, 如果提取失败,匹配失败,结束本步骤进入步骤6 ; 如果提取成功则返回执行步骤5.2,直到匹配成功或匹配失败; 步骤6,如果还需继续进行身份证地址解析,返回步骤3读入下一条身份证住址信息的字符串进行处理,否则结束流程。2.—种基于字符串匹配的身份证住址信息解析系统,其特征在于:包括以下模块, 代码存储模块,用于首先获得全国省市县区及其对应代码,作为初始的地址条目进行规整化处理,包括将省市县及区进行分离,规整后的地址代码条目持久存入数据库中; 初始化模块,用于将数据库中所有规整化的地址代码条目读入存储介质中,对每个地址代码条目同时用两种映射方式存储,一种是设从高级到低级依次为省、市、县、区,取地址代码条目中最低级别的字段与代码的字典映射,记为映射A ;另一种是代码到省市县全称的映射,记为映射B ; 信息输入模块,用于读入一条身份证住址信息的字符串; 关键信息提取模块,用于对当前读入的这条身份证住址信息的字符串进行处理,只保留区、县和市相应关键字,得到关键信息串; 分级匹配模块,设从低级到高级依次为区、县、市,将关键信息提取模块所得关键信息串从低级到高级依次进行匹配截取,包括以下子模块, 初始子串提取子申吴块,用于从关键?目息串中,提取最低级的子串; 查询匹配子模块,用于将当前所取子串与存储介质中的规整化地址代码条目进行查询匹配, 如果匹配成功则根据映射A返回对应的代码,结束对当前读入的这条身份证住址信息匹配结果,根据映射B由代码检索到相应规范的省市县全称,结束分级匹配模块工作,命令迭代判断模块工作; 否则命令子串更新子模块工作; 子串更新子模块,用于舍弃当前的子串,从关键信息串中,按照区、县、市的顺序,提取尚一级的子串, 如果提取失败,匹配失败,结束分级匹配模块工作,命令迭代判断模块工作; 如果提取成功则命令查询匹配子模块工作,直到匹配成功或匹配失败; 迭代判断模块,用于判断如果还需继续进行身份证地址解析,命令信息输入模块读入下一条身份证住址信息的字符串进行处理,否则结束系统工作。
【专利摘要】本发明公开了一种基于字符串匹配的身份证住址信息解析方法及系统,首先获得全国省市县区及其对应代码,将所有规整化的地址代码条目读入存储介质中,对每个地址代码条目同时用两种映射方式存储,一种是取地址代码条目中最低级别的字段与代码的字典映射,另一种是代码到省市县全称的映射;读入一条身份证住址信息的字符串进行处理,只保留区、县和市相应关键字得到关键信息串,将关键信息串从低级到高级依次进行匹配截取,根据两种映射得到相应代码及相应规范的省市县全称。本发明能够非常有效可靠地自动获取详细的省市县信息,节约大量人力劳动,解决了身份证住址信息不规整的问题,防止数字化个人信息出现误差,保证后续应用准确性。<b />
【IPC分类】G06F17/30
【公开号】CN105069056
【申请号】CN201510445546
【发明人】吴钊, 胡春阳, 谷琼
【申请人】湖北文理学院
【公开日】2015年11月18日
【申请日】2015年7月24日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1