地址匹配方法、装置及存储介质与流程

文档序号:37428981发布日期:2024-03-25 19:19阅读:6来源:国知局
地址匹配方法、装置及存储介质与流程

本技术涉及地址识别匹配领域,具体涉及一种地址匹配方法、装置及存储介质。


背景技术:

1、在物流和地图等场景中,来自不同领域(用水,用电,社保,旅馆,寄递等等)获得的地址,本质上是用户在具体业务范围内采集和使用的地址。比如用水的地址,则是用水部门上门采集信息时保存的地址。寄递地址,则是用户在收发快递时产生的地址。通过一定的匹配算法,可以把来自不同数据源的地址关联到同一个地址下,从而将多个不同来源地址所携带的属性或者特征进行融合,产生巨大的价值。由于地址的数量巨大,现有地址匹配的方法需要依次对所有地址进行匹配,计算量巨大效率较低。


技术实现思路

1、本技术旨在提供一种基于地址文本的地址文本匹配方法、装置及存储介质,旨在解决现有技术下的地址匹配效率较低的问题。

2、第一方面,本技术实施例提供一种地址匹配方法,所述方法包括:

3、获取待匹配的目标业务地址和多个第一标准地址,所述目标业务地址来源于外部业务平台,所述多个第一标准地址中存在,与所述目标业务地址之间至少部分地址信息相同的第一标准地址,所述第一标准地址为符合预设地址规范的地址;

4、分别确定所述目标业务地址对应的目标业务地址主体,和所述多个第一标准地址对应的多个标准地址主体;

5、在所述多个标准地址主体中,确定与所述目标业务地址主体匹配的目标标准地址主体;

6、根据所述目标标准地址主体对应的标准地址,确定与所述目标业务地址匹配的目标标准地址;

7、其中,所述目标业务地址主体的字符长度小于所述目标业务地址的字符长度,各标准地址主体的字符长度小于相应的所述第一标准地址对应的字符长度。

8、在一种可能的实施例中,在获取待匹配的目标业务地址和多个第一标准地址之前,所述方法还包括:

9、对待匹配的初始业务地址和多个初始标准地址中的特殊字符和错误字符进行替换,得到第一业务地址和多个第二标准地址;

10、去除所述第一业务地址和所述多个第二标准地址中的无用字符,得到第二业务地址和多个第三标准地址;

11、对所述第二业务地址和所述多个第三标准地址中的大小写字符进行替换,得到第三业务地址和多个第四标准地址;

12、若所述第三业务地址和所述多个第四标准地址中出现一个汉字加多个0的字符串,将多个0转变为一个0,得到所述目标业务地址和所述多个第一标准地址。

13、在一种可能的实施例中,所述分别确定所述目标业务地址对应的目标业务地址主体,和所述多个第一标准地址对应的多个标准地址主体,包括:

14、根据预设地址分级策略,对所述目标业务地址进行多个层级地址拆分,得到多个层级的业务地址分词;

15、根据所述预设地址分级策略,对所述多个第一标准地址进行多个层级地址拆分,得到多个层级的标准地址分词集合,每个标准地址分词集合对应一个第一标准地址,每个标准地址分词集合包括多个层级的标准地址分词;

16、根据所述多个层级业务地址分词和所述多个标准地址分词集合,确定所述目标业务地址对应的目标业务地址主体,和所述多个第一标准地址对应的多个标准地址主体。

17、在一种可能的实施例中,所述根据所述多个层级业务地址分词和所述多个标准地址分词集合,确定所述目标业务地址对应的目标业务地址主体,和所述多个第一标准地址对应的多个标准地址主体,包括:

18、剔除所述多个层级业务地址分词中第一预设地址层级的,第一数量的业务地址分词,并抽取第二预设地址层级的第二数量的业务地址分词,得到所述目标业务地址对应的目标业务地址主体;

19、以所述多个标准地址分词集合中,任意标准地址分词集合为目标标准地址分词集合;

20、剔除所述目标标准地址分词集合中第三预设地址层级的,第三数量的标准地址分词,并抽取第四预设地址层级的第四数量的标准地址分词,得到所述目标标准地址分词集合对应的目标标准地址主体,以得到多个标准地址主体。

21、在一种可能的实施例中,所述在所述多个标准地址主体中,确定与所述目标业务地址主体匹配的目标标准地址主体,包括:

22、分别确定所述多个标准地址主体,与所述目标业务地址主体的相似度,得到多个地址主体相似度;

23、以所述多个地址主体相似度中任意地址主体相似度为目标地址主体相似度;

24、判断所述目标地址主体相似度是否不小于预设地址主体相似度阈值;

25、若所述目标地址主体相似度是否不小于预设地址主体相似度阈值,则确定所述目标标准地址主体与所述目标业务地址主体匹配。

26、在一种可能的实施例中,所述根据所述目标标准地址主体对应的标准地址,确定与所述目标业务地址匹配的目标标准地址,包括:

27、所述根据所述目标标准地址主体对应的标准地址,确定与所述目标业务地址匹配的目标标准地址,包括:

28、确定所述目标标准地址主体对应的多个候选第一标准地址;

29、对各个候选第一标准地址进行分别压缩,得到压缩后的多个第五标准地址,一个候选第一标准地址对应一个第五标准地址;

30、对所述多个第五标准地址分别进行拆分,得到多个父级标准地址和多个子级标准地址,一个第五标准地址对应一个父级标准地址和一个子级标准地址,且所述多个父级标准地址对应的地址层级相同;

31、在所述多个父级标准地址中,确定与目标业务地址匹配的目标父级标准地址;

32、确定所述目标父级标准地址对应的多个第一子级标准地址;

33、根据地址相似度在所述多个第一子级标准地址中,确定与所述目标业务地址匹配的目标子级标准地址;

34、根据所述目标父级标准地址和所述目标子级标准地址,确定与所述目标业务地址匹配的目标第五标准地址。

35、在一种可能的实施例中,所述在所述多个候选第一标准地址中,确定与所述目标业务地址匹配的目标第一标准地址还包括:

36、确定所述目标第五标准地址对应的压缩前的部分候选第一标准地址,为多个候选第六标准地址;

37、在所述多个候选第六标准地址中,根据精准匹配方式确定与所述目标业务地址匹配的目标第一标准地址。

38、在一种可能的实施例中,所述在所述多个候选第六标准地址中,根据精准匹配方式确定与所述目标业务地址匹配的目标第一标准地址,包括:

39、对所述目标业务地址和所述多个候选第六标准地址进行aoi级精准匹配,确定与所述目标业务地址匹配的多个候选第七标准地址;

40、对所述目标业务地址和所述多个候选第七标准地址进行楼栋级精准匹配,确定与所述目标业务地址匹配的多个候选第八标准地址;

41、对所述目标业务地址和所述多个候选第八标准地址进行完全精准匹配,确定与所述目标业务地址完全匹配的目标候选第八标准地址,所述目标候选第八标准地址为所述目标第一标准地址。

42、第二方面,本技术实施例提供一种地址匹配装置,所述装置包括:

43、地址获取模块,用于获取待匹配的目标业务地址和多个第一标准地址,所述第一业务地址来源于外部业务平台,所述多个第一标准地址中存在与所述第一业务地址之间至少部分地址信息相同的第一标准地址,所述多个第一标准地址为符合预设地址规范的地址;

44、地址主体确定模块,用于分别确定所述目标业务地址对应的目标业务地址主体,和所述多个第一标准地址对应的多个标准地址主体;

45、地址主体匹配模块,用于在所述多个标准地址主体中,确定与所述目标业务地址主体匹配的目标标准地址主体;

46、地址匹配模块,用于根据所述目标标准地址主体对应的标准地址,确定与所述目标业务地址匹配的目标标准地址;

47、其中,所述目标业务地址主体的字符长度小于所述目标业务地址的字符长度,各所述标准地址主体的字符长度小于相应的所述第一标准地址对应的字符长度。

48、第三方面,本技术还提供一种电子设备,所述电子设备包括:

49、一个或多个处理器;

50、存储器;以及

51、一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现第一方面中任一项所述的地址匹配方法。

52、第四方面,本技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行第一方面任一项所述的地址匹配方法中的步骤。

53、本技术提供一种地址匹配方法、装置及存储介质,包括:获取待匹配的目标业务地址和多个第一标准地址,第一业务地址来源于外部业务平台,多个第一标准地址与第一业务地址之间至少部分地址信息相同;分别确定目标业务地址对应的目标业务地址主体,和多个第一标准地址对应的多个标准地址主体;在多个标准地址主体中,确定与目标业务地址主体匹配的目标标准地址主体;根据目标标准地址主体对应的标准地址,确定与目标业务地址匹配的目标标准地址。本技术中确定每个地址文本对应的可以代表地址的地址主体,首先利用地址主体进行匹配,再利用完整的地址进行匹配;由于地址主体的字符长度小于完整地址的字符长度,因此进行匹配的字符减少,可以有效提高地址匹配的效率。同时由于地址主体可以代表地址,还利用完整地址进行了二次匹配,因此在提高地址匹配效率的同时也可以保证地址匹配的精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1