本申请涉及自然语言处理,特别是涉及一种地址匹配方法、终端设备以及计算机存储介质。
背景技术:
1、地址是社会发展中必不可少的地理信息资源,与人们的日常活动密切相关。而随着信息技术的发展,数据的存储、分析、共享相关的技术都不断开拓提升,使得地址在医疗、公安等许多行业中的重要应用价值进一步彰显。地址匹配是地理信息数据处理领域中受到广泛关注的一个问题。地址匹配是指将待检索的非结构化的地址通过一定的技术与地址底库中存有的数据进行匹配,进而将其转化为空间地理坐标信息,便于在地图上进行定位。
2、相关技术中地址匹配的方式准确性较低。
技术实现思路
1、本申请提供一种地址匹配方法、终端设备以及计算机存储介质。
2、本申请采用的一个技术方案是提供一种地址匹配方法,地址匹配方法包括:
3、获取待匹配的地址;
4、将待匹配的地址输入至地址匹配模型中,得到待匹配的地址对应的待匹配句向量;
5、利用待匹配句向量与多个基准地址对应的句向量得到语义相似度;以及利用待匹配的地址与多个基准地址得到字面相似度;
6、基于语义相似度和字面相似度,从多个基准地址中确定出与待匹配的地址匹配的目标地址。
7、其中,利用待匹配句向量与多个基准地址对应的句向量得到语义相似度,包括:
8、利用待匹配句向量分别与多个基准地址对应的句向量进行余弦相似度计算,得到多个余弦相似度,并将余弦相似度作为语义相似度。
9、其中,利用待匹配的地址与多个基准地址得到字面相似度,包括:
10、利用待匹配的地址分别与多个基准地址进行编辑距离相似度计算,得到多个编辑距离相似度,并将编辑距离相似度作为字面相似度。
11、其中,基于语义相似度和字面相似度,从多个基准地址中确定出与待匹配的地址匹配的目标地址,包括:
12、确定每一基准地址对应的和值,和值为基准地址对应的余弦相似度与编辑距离相似度之和;
13、将最大和值对应的基准地址作为与待匹配的地址匹配的目标地址。
14、其中,将待匹配的地址输入至地址匹配模型中,得到待匹配的地址对应的待匹配句向量之前,包括:
15、对待匹配的地址按照行政区划分,至少得到目标行政区和详细地址;
16、将待匹配的地址输入至地址匹配模型中,得到待匹配的地址对应的待匹配句向量,包括:
17、将详细地址输入至地址匹配模型中,得到待匹配的地址对应的待匹配句向量。
18、其中,利用待匹配句向量与多个基准地址对应的句向量得到语义相似度,包括:
19、利用目标行政区对多个基准地址进行筛选,得到筛选后的基准地址;
20、利用待匹配句向量与筛选后的基准地址对应的句向量得到语义相似度;
21、利用待匹配的地址与多个基准地址得到字面相似度,包括:
22、利用详细地址与筛选后的基准地址中的详细地址得到字面相似度。
23、其中,获取待匹配的地址之前,包括:
24、获取地址匹配训练样本;训练样本包括第一样本、第二样本和第三样本;其中,第一样本和第二样本匹配,第一样本和第三样本不匹配;
25、基于地址匹配训练样本对地址匹配模型进行训练,得到训练后的地址匹配模型。
26、其中,获取地址匹配训练样本,包括:
27、获取多个原始待处理地址;
28、对每一原始待处理地址按照行政区划分,至少得到目标行政区和详细地址;
29、按照目标行政区进行合并,得到对应的详细地址集合;
30、在详细地址集合中确定出目标详细地址与其余详细地址的编辑距离相似度;将编辑距离相似度大于预设值的其余详细地址作为待处理详细地址;和/或在详细地址集合中确定出目标详细地址具有相同关键词的其余详细地址;将其余详细地址作为待处理详细地址;
31、响应于待处理详细地址和目标详细地址存在同一地点时,将目标详细地址作为第一样本,待处理详细地址作为第二样本,将任一不同地点的其余详细地址作为第三样本。
32、本申请采用的另一个技术方案是提供一种终端设备,终端设备包括存储器以及与存储器连接的处理器;
33、其中,存储器用于存储程序数据,处理器用于执行程序数据以实现如上述的地址匹配方法。
34、本申请采用的另一个技术方案是提供一种计算机存储介质,计算机存储介质用于存储程序数据,程序数据在被计算机执行时,用以实现如上述的地址匹配方法。
35、本申请的有益效果是:在地址匹配的过程中考虑了待匹配地址和多个目标地址在语义和字面上的相似性,结合语义相似度和字面相似度得到了地址匹配结果,提升地址匹配的准确性。
1.一种地址匹配方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述利用所述待匹配句向量与多个基准地址对应的句向量得到语义相似度,包括:
3.根据权利要求2所述的方法,其特征在于,所述利用所述待匹配的地址与多个基准地址得到字面相似度,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述语义相似度和所述字面相似度,从所述多个基准地址中确定出与所述待匹配的地址匹配的目标地址,包括:
5.根据权利要求1所述的方法,其特征在于,所述将所述待匹配的地址输入至地址匹配模型中,得到所述待匹配的地址对应的待匹配句向量之前,包括:
6.根据权利要求5所述的方法,其特征在于,所述利用所述待匹配句向量与多个基准地址对应的句向量得到语义相似度,包括:
7.根据权利要求1所述的方法,其特征在于,所述获取待匹配的地址之前,包括:
8.根据权利要求7所述的方法,其特征在于,所述获取地址匹配训练样本,包括:
9.一种终端设备,其特征在于,所述终端设备包括处理器、与所述处理器连接的存储器,其中,
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序指令,所述程序指令被执行时实现如权利要求1至8任一项所述的方法。