一种房屋地址相似度分析方法及装置与流程

文档序号:23901270发布日期:2021-02-09 13:39阅读:181来源:国知局
一种房屋地址相似度分析方法及装置与流程

[0001]
本申请涉及通信技术领域,尤其涉及一种房屋地址相似度分析方法及装置。


背景技术:

[0002]
在涉及到房屋地址的房产、公积金等领域中,需要判断历史房产数据的房屋是否与当前数据的房屋是否为同一套房屋来执行后续业务的流程,早期阶段由人工通过对比历史房产数据与当前房产数据的房屋地址属性来判断是否为同一套房屋。随着业务量的增多,房屋数据量的不断扩大,人工成本也随之增大。


技术实现要素:

[0003]
本申请提供了一种房屋地址相似度分析方法及装置,使之能应用于实际房屋地址比对的场景中,有效降低人工比对地址的成本,提高房屋地址比对的效率。
[0004]
本申请提供一种房屋地址相似度分析方法,包括:将两房屋地址按照省市区与街道栋号楼层分别进行分割;从街道栋号楼层中提取街道栋号楼层数字字母部分,分别计算两房屋地址省市区部分的第一相似度与两房屋地址街道栋号楼层数字字母部分的第二相似度;根据房屋地址中省市区部分与街道栋号楼层部分的比重确定最终相似度,根据最终相似度执行房屋地址审核。
[0005]
如上所述的房屋地址相似度分析方法,其中,将房屋地址按照省市区与街道栋号楼层分别进行分割,具体包括如下子步骤:若房屋地址首个文字前存在非文字符号,则去除房屋地址首个文字前的符号;若房屋地址中存在第一类特殊符号,则将房屋地址中存在的第一类特殊符号统一替换为第一预设符号;从房屋地址中提取街道栋号楼层部分和省市区部分;若分离出的街道栋号楼层部分和省市区部分中存在第二类特殊符号,则去除街道栋号楼层部分和省市区部分中的第二类特殊符号;若省市区部分中存在括号,则提取出省市区部分中的括号文本,删除其中的括号并保留文字部分;若省市区部分中能够匹配到特定字符串,则将特定字符串替换为空字符。
[0006]
如上所述的房屋地址相似度分析方法,其中,利用正则匹配算法"[ \\da-za-z\r\n\t,,。
·
..;;::、!@$%*^`~=+&'\"|_\\-/]"从房屋地址中检索首个文字前的符号,去除房屋地址首个文字前的符号。
[0007]
如上所述的房屋地址相似度分析方法,其中,若房屋地址中存在第一类特殊符号
“ー
_-—”,则将房屋地址中存在的第一类特殊符号统一替换为第一预设符号
“-”

[0008]
如上所述的房屋地址相似度分析方法,其中,利用正则匹配算法"([0-9a-z一二三四五六七八九十东西南北甲乙丙]+([\\#\\-一-—/\\\\]|幢栋|栋|橦|幢|座|号楼|号|
楼|\\#楼|单元|门|梯|层|组|室|房|户){1,2})+"将街道栋号楼层部分提取出来,其他部分作为省市区部分。
[0009]
如上所述的房屋地址相似度分析方法,其中,若从房屋地址分离出的街道栋号楼层部分和省市区部分中存在第二类特殊符号"\r\n\t,,。
·
..;;::、!@$%*^`~=+&'\"|_-/",则去除省市区部分和街道栋号楼层部分出现的第二类特殊符号。
[0010]
如上所述的房屋地址相似度分析方法,其中,利用正则匹配算法提取出省市区部分中的括号文本,删除其中的括号并保留文字部分。
[0011]
如上所述的房屋地址相似度分析方法,其中,利用正则匹配算法"[0-9a-za-z\\#]+(单元|楼|室|层|米|户|\\#)"将省市区部分匹配到的字符串替换为空字符;以及利用正则匹配算法"[一二三四五六七八九十]+(单元|楼|室|层|米|户)"将省市区部分匹配到的字符串替换为空字符。
[0012]
如上所述的房屋地址相似度分析方法,其中,为房屋地址中的省市区部分设置第一比重,为街道栋号楼层设置第二权重,计算最终相似度=省市区部分相似度*第一比重+街道栋号楼层部分*第二比重。
[0013]
本申请还提供一种房屋地址相似度分析装置,所述装置执行上述任一项所述的房屋地址相似度分析方法。
[0014]
本申请实现的有益效果如下:本申请通过分析实际地址的特征,利用正则匹配算法提取出省市区部分和街道栋号楼层的数字部分的特征,能更有针对性的计算出房屋地址的相似度,提高房屋地址比对的效率。
附图说明
[0015]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0016]
图1是本申请实施例一提供的一种房屋地址相似度分析方法流程图;图2是利用正则匹配算法将房屋地址按照省市区与街道栋号楼层分别进行分割方法流程图;图3是本申请实施例二提供的一种房屋地址相似度分析装置示意图。
具体实施方式
[0017]
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0018]
实施例一本申请实施例一提供一种房屋地址相似度分析方法,如图1所述,包括如下步骤:步骤110、将两房屋地址按照省市区与街道栋号楼层分别进行分割;
在房屋地址比对审核场景中,一般输入的房屋地址呈现的格式为省、市、区、街道、栋号、楼层结构,例如“北京路28号5栋2单元3号”与“北京路28号6栋2单元3号”,若直接计算两房屋地址所有信息的相似度,则这两个地址的相似度会很高,然而从实际房屋地址可知这两个地址是完全不同的,因此本申请按照房屋地址所呈现的格式将房屋地址按照省市区与街道栋号楼层分别进行分割;具体地,利用正则匹配算法将房屋地址按照省市区与街道栋号楼层分别进行分割,如图2所示,具体包括如下子步骤:步骤210、若房屋地址首个文字前存在非文字符号,则去除房屋地址首个文字前的符号;由于输入的房屋地址是由省市区和街道栋号楼层依次组成,在输入的房屋地址的省市区文字符号之前可能存在与房屋地址无关的符号信息,如数字、字母、空格或其他非文字类符号等,而省市区都是采用文字表示,因此在省市区文字前的非文字符号认为是无意义符号,将其去除。例如“^北京路28号5栋2单元3号”,首个文字“北”前的“^”为与房屋地址无关的符号信息;具体地,利用正则匹配算法"[ \\da-za-z\r\n\t,,。
·
..;;::、!@$%*^`~=+&'\"|_\\-/]"从房屋地址中检索首个文字前的这些符号,包括匹配数字\d、小写字母a-z、大写字母a-z、回车符\r、换行符\n、跳格符\t、标点符号(,。
·
..;;::、!)、其他非文字类符号“@$%*^`~=+&'\"|_\\-/”,若存在则去除房屋地址首个文字前的这些符号。
[0019]
步骤220、若房屋地址中存在第一类特殊符号,则将房屋地址中存在的第一类特殊符号统一替换为第一预设符号;在输入的房屋地址中可能存在第一类特殊符号
“ー
_-—”,利用正则匹配算法"[

_-—/]|(
--
)"将"

_-—"替换为第一预设符号"-",方便后续对房屋地址信息的识别;例如“北京路—28号5栋2单元3号”,将“—”替换为
“-”
;另外需要说明的是,若存在多个连续的第一类特殊符号,则将这些符号统一替换为一个第一预设符号,例如“北京路——28号5栋2单元3号”,则将“——”替换为
“-”

[0020]
步骤230、从房屋地址中提取街道栋号楼层部分和省市区部分;具体地,利用正则匹配算法"([0-9a-z一二三四五六七八九十东西南北甲乙丙]+([\\#\\-一-—/\\\\]|幢栋|栋|橦|幢|座|号楼|号|楼|\\#楼|单元|门|梯|层|组|室|房|户){1,2})+"将街道栋号楼层部分提取出来,例如“北京路28号5栋2单元3号”的街道栋号楼层部分提取出为“28号5栋2单元3号”,其他部分“北京路”则作为省市区部分。
[0021]
步骤240、若分离出的街道栋号楼层部分和省市区部分中存在第二类特殊符号,则去除街道栋号楼层部分和省市区部分中的第二类特殊符号;从房屋地址分离出的街道栋号楼层部分和省市区部分中可能存在第二类特殊符号"\r\n\t,,。
·
..;;::、!@$%*^`~=+&'\"|_-/",包括回车符\r、换行符\n、跳格符\t、标点符号(,。
·
..;;::、!)、其他非文字类符号“@$%*^`~=+&'\"|_\\-/”,去除省市区部分和街道栋号楼层部分出现的上述第二类特殊符号;例如输入地址“北京路@28号5栋2单元3号”分离出的街道栋号楼层部分为“28号5栋2单元3号”,剩余的部分为省市区部分“北京路@”,去除省市区部分的第二类特殊符号“@”。
[0022]
步骤250、若省市区部分中存在括号,则提取出省市区部分中的括号文本,删除其中的括号并保留文字部分;
具体地,利用正则匹配算法提取出省市区部分中的括号文本,删除其中的括号并保留文字部分。
[0023]
步骤260、若省市区部分中能够匹配到特定字符串,则将特定字符串替换为空字符;具体地,利用正则匹配算法"[0-9a-za-z\\#]+(单元|楼|室|层|米|户|\\#)"将省市区部分匹配到的字符串替换为空字符;以及利用正则匹配算法"[一二三四五六七八九十]+(单元|楼|室|层|米|户)"将省市区部分匹配到的字符串替换为空字符。
[0024]
返回参见图1,步骤120、从街道栋号楼层中提取街道栋号楼层数字字母部分,分别计算两房屋地址省市区部分的第一相似度与两房屋地址街道栋号楼层数字字母部分的第二相似度;本申请实施例中,具体采用分词算法按顺序从街道栋号楼层中提取街道栋号楼层数字字母部分,优选采用ik智能分词算法,该算法使用正向迭代最细粒度切分算法逐字识别词元,例如输入“笔记本电脑”,单个“笔”字也是字典中的一个词,“笔”是词元也是前缀,加入词元“笔”,继续下一个词“记”,可以识别出“笔记”,将“笔记”加入“笔记”词元,并作为前缀继续发现“笔记本”是词元,“笔记本”作为前缀,以此类推,由此将街道栋号楼层部分依次进行分词;例如,街道栋号楼层为“28号5栋2单元3号”,利用分词算法分别分割出街道“28号”、栋号“5栋”、楼层“2单元”“3号”。
[0025]
其中,分别计算两房屋地址省市区部分的第一相似度与两房屋地址街道栋号楼层数字字母部分的第二相似度,具体包括:

对于两房屋地址省市区部分:对于多个不同的文本或者短文本对话信息计算相似度的方法,将文本中词语映射到向量空间,形成文本中文字和向量数据的映射关系,然后通过计算不同向量的差异来计算文本的相似度;具体地,应用余弦相似度计算向量空间中两个向量夹角的余弦值,也即两个向量的相似度,具体应用下式计算两房屋地址的省市区部分的第一相似度:其中,x
i
为第一房屋地址省市区部分向量数据,y
i
为第二房屋地址省市区部分向量数据,n为向量数据的个数。
[0026]

对于两房屋地址街道栋号楼层部分:将街道栋号楼层中提取出的数字字母部分组成一个字符串,应用余弦相似度计算两房屋地址街道栋号楼层的数字字母部分组成的字符串的相似度,具体应用下式计算两房屋地址的街道栋号楼层部分的第二相似度:
其中,a
i
为第一房屋地址街道栋号楼层部分组成的字符串中的字符,b
i
为第二房屋地址街道栋号楼层部分组成的字符串中的字符,m为字符串中字符的个数;可选地,在计算两房屋地址街道栋号楼层部分相似度时,还可以对提取出的每一个字符计算相似度,然后计算每个字符相似度的均值,将其作为两房屋地址的街道栋号楼层部分的第二相似度。
[0027]
步骤130、根据房屋地址中省市区部分与街道栋号楼层部分的比重确定最终相似度,根据最终相似度执行房屋地址审核;具体地,房屋地址中省市区部分和街道栋号楼层部分的比重可根据实际业务情况进行划分,计算最终相似度=省市区部分相似度*第一比重+街道栋号楼层部分*第二比重;例如在公积金中心业务中,由于大部分房屋地址中会存在街道栋号楼层部分相同,省市区部分差异较大的情况,因此可以设置省市区部分和街道栋号楼层部分比重为3:7;例如“黄甲镇王家场下街19号附金叶苑一期号3栋5单元6楼4号”和“双流县黄甲街道19号3栋5单元6层4号”,通过正则匹配算法提取得到省市区部分为“黄甲镇王家场下街附金叶苑一期号”和“双流县黄甲街道”,街道栋号楼层部分为“18号2栋2单元3楼4号”和“18号2栋2单元3层4号”,对比省市区部分的相似度可得0%,而对比街道栋号楼层部分的相似度可得100%,根据省市区部分和街道栋号楼层部分比重为3:7得出最终相似度为;根据房屋地址中省市区部分与街道栋号楼层部分的比重确定最终相似度之后,优选设置公积金中心实际业务中两地址最终相似度在100%时只需系统审核,相似度在99%到70%时需要人工审核,相似度在70%以下时则需重新输入地址。
[0028]
实施例二本申请实施例二提供一种房屋地址相似度分析装置,如图3所示,包括房屋地址分割模块31、相似度计算模块32和房屋地址审核模块33;房屋地址分割模块31将两房屋地址按照省市区与街道栋号楼层分别进行分割;相似度计算模块32从街道栋号楼层中提取街道栋号楼层数字字母部分,分别计算两房屋地址省市区部分的第一相似度与两房屋地址街道栋号楼层数字字母部分的第二相似度;房屋地址审核模块33根据房屋地址中省市区部分与街道栋号楼层部分的比重确定最终相似度,根据最终相似度执行房屋地址审核。
[0029]
以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1