基于文本相似度计算的地址库数据处理方法和控制系统与流程

文档序号:28197113发布日期:2021-12-25 02:22阅读:110来源:国知局
基于文本相似度计算的地址库数据处理方法和控制系统与流程

1.本公开涉及通信技术领域,尤其涉及一种基于文本相似度计算的地址库数据处理方法和控制系统。


背景技术:

2.电商交易是当下市场进行商品交易的流行方式,用户在电商平台保存地址信息、下单、支付等,即可等待电商卖家发货。因此,电商经济为用户日常生活带来了即为方便的购物体验。
3.用户的地址数据,是电商物流等环节中的一项必不可少的数据。申请人发现,用户在电商平台进行交易的初期,在对接电商过程中,买家和卖家的地址不能直接给电商直接用,因为a企业的采购商城需要对接b企业的采购商城,a企业的地址不能在b企业采购商城直接使用,需要做一层转换。
4.因此,有必要提供一种方法将两者的地址数据进行转换,使得转换后的地址信息可以直接匹配并用于电商的使用平台。


技术实现要素:

5.有鉴于此,本公开提出了一种基于文本相似度计算的地址库数据处理方法和控制系统,通过将地址进行一层转换,可以精装且快速的匹配两个地址库,使得转换后的地址可以直接应用于电商平台,加快电商平台信息交流和物流对接速度。
6.根据本公开的一方面,提供了一种基于文本相似度计算的地址库数据处理方法,包括如下步骤:s1、获取第一地址库数据和第二地址库数据,并根据所述第一地址库数据建立按照地址层级排序的映射数据表;s2、根据所述映射数据表,从所述映射数据表获取所有与所述第二地址库数据中的源地址同级的映射地址,并将所有映射地址的集合作为地址映射集;s3、将所述第二地址库数中的源地址与所述地址映射集中的每一个地址进行相似度计算;s4、根据相似度计算结果排序,将相似度最大值的地址作为所述源地址的目标地址。
7.在一种可能的实现方式中,优选地,所述从所述映射数据表获取所有与所述第二地址库数据中的源地址同级的映射地址,并将所有映射地址的集合作为地址映射集,包括:查询所述源地址在所述映射数据表中是否存在父级地址数据:是,则寻址结束;否,则判断父编码是否等于零。
8.在一种可能的实现方式中,优选地,还包括:如果判断父编码等于零,则获取所述源地址在所述映射数据表中的所有子地址;
根据所有子地址,获取映射在所述第一地址库数据中的所有子地址名称;将所有所述子地址名称与用户地址名称匹配,并将匹配结果记入有序列表。
9.在一种可能的实现方式中,优选地,还包括:获取所述有序列表中的匹配得分最大值的子地址名称和对应所述子地址名称的位置信息;判断所述匹配得分最大值是否为零;如果匹配得分最大值不为零,则根据所述匹配得分最大值的子地址名称的位置信息,获得目标地址;将目标地址保存至数据库。
10.在一种可能的实现方式中,优选地,还包括:获取所述有序列表中的匹配得分最大值的子地址名称和对应所述子地址名称的位置信息;判断所述匹配得分最大值是否为零;如果匹配得分最大值为零,则寻址结束。
11.在一种可能的实现方式中,优选地,还包括:如果判断父编码不等于零,则获取所述映射数据表中存在的下一个所述父级地址数据;判断所述父级地址数据是否存在:如果存在,则获取所述源地址在所述映射数据表中的所有子地址;根据所有子地址,获取映射在所述第一地址库数据中的所有子地址名称;将所有所述子地址名称与用户地址名称匹配,并将匹配结果记入有序列表;如果不存在,则执行结束。
12.在一种可能的实现方式中,优选地,还包括:获取所述有序列表中的匹配得分最大值的子地址名称和对应所述子地址名称的位置信息;判断所述匹配得分最大值是否为零;如果匹配得分最大值不为零,则根据所述匹配得分最大值的子地址名称的位置信息,获得目标地址;将目标地址保存至数据库。
13.在一种可能的实现方式中,优选地,还包括:获取所述有序列表中的匹配得分最大值的子地址名称和对应所述子地址名称的位置信息;判断所述匹配得分最大值是否为零;如果匹配得分最大值为零,则寻址结束。
14.在一种可能的实现方式中,优选地,所述父级地址数据包括在所述映射数据表中的省级地址数据、市级地址数据和县级地址数据。
15.在一种可能的实现方式中,优选地,根据本公开的另一方面,一种控制系统,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行所述可执行指令时实现上述所述的一种基于文本
相似度计算的地址库数据处理方法。
16.本发明技术效果:本技术通过获取第一地址库数据和第二地址库数据,并根据所述第一地址库数据建立按照地址层级排序的映射数据表;根据所述映射数据表,从所述映射数据表获取所有与所述第二地址库数据中的源地址同级的映射地址,并将所有映射地址的集合作为地址映射集;将所述第二地址库数中的源地址与所述地址映射集中的每一个地址进行相似度计算;根据相似度计算结果排序,将相似度最大值的地址作为所述源地址的目标地址。能够通过相似度计算,从映射地址表中获取不同地址层级的精准地址信息数据,通过将地址进行一层转换,可以精装且快速地匹配两个地址库,使得转换后的地址可以直接应用于电商平台,加快电商平台信息交流和物流对接速度。
17.根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
18.包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
19.图1示出为本发明基于文本相似度计算的地址库数据处理方法的实施流程示意图;图2示出为本发明按照地址层级匹配各地级地址的总流程示意图;图3示出为本发明执行省级寻址的执行流程示意图;图4示出为本发明按照父编码进行寻址的实施流程示意图。
具体实施方式
20.以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
21.在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
22.另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
23.实施例1如图1所示,提供了一种基于文本相似度计算的地址库数据处理方法,包括如下步骤:s1、获取第一地址库数据和第二地址库数据,并根据所述第一地址库数据建立按照地址层级排序的映射数据表;本技术需要转换第一用户和第二用户的地址库数据,其中,第一用户可以是买家或者商户,第二用户可以是商户或者电商平台上经营者,采用本实施例,可以根据电商项目或者市场环境灵活设定第一用户和第二用户的身份,本处不做限制。
24.如图2所示,本实施例,将第一地址库数据作为a企业的地址的全数据,将第二地址库数据作为b企业的地址的全数据,全数据即包括一个企业地址的所有的省市区县地址,比如获取a企业的地址的全数据,获取的是a企业地址的各个地级地址数据,包括省市区县的地址信息。
25.首先需要准备数据,获得a企业的地址的全数据和b企业的地址的全数据,分别作为第一地址库数据和第二地址库数据;本技术需要将b企业的地址经过本方法转换为a企业可以直接用于电商平台的地址,以此从省级、市级、县级和镇级,进行地址查询、映射匹配,最终获得一个和a企业的地址相匹配的转换地址,以此作为a企业对应b企业的电商应用地址,以此建立地址映射而进行电商物流;因此,本技术首先建立一个地址映射表,按照地址层级“省市县镇”的排序方式,根据第一地址库数据建立地址映射数据表,地址映射数据表中包含a企业的地址编码和b企业的地址编码关系,地址映射数据表可以是通过表格或者其他方式建立,各级地址1对1对应建立即可,通过表格建立两个地址之间的映射表格的方式为常规手段,本处不再赘述。其中,a企业的地址库,可以包含不同地址的地址数据,具体根据需求设定即可。
26.此外,地址映射表需要建立a

b地址之间的映射匹配关系,映射匹配关系在表中体现为:每行数据为 a地址编码
ꢀ‑ꢀ
b地址编码,地址编码由用户在程序设定时进行具体设定;映射匹配关系便于在再查询匹配地址映射表时,可以根据映射匹配关系索引到相关联的地址数据,即根据映射匹配关系,从a企业的地址库找到对应b企业的地址信息,采集这些在地址映射表中的数据作为转化后的地址数据;映射匹配关系可以由用户根据市场需求和自定义方式进行设定,本处不做限制。在映射匹配关系设置好后,将其配置并存储在数据库或者内存中即可。
27.s2、根据所述映射数据表,从所述映射数据表获取所有与所述第二地址库数据中的源地址同级的映射地址,并将所有映射地址的集合作为地址映射集;在进行映射地址数据匹配获取时,根据数据库中的匹配关系,可以按照地址层级“省市县镇”的排序方式,逐级从地址映射表中获得关联的地址信息,其中,每次获取的地址数据信息,是根据同级地址来获取的,如b企业地址中的省级,映射获取时对应的是地址映射表中的省级映射结果;逐一映射获取所有满足的地址信息即可。
28.其中,从所述映射数据表获取所有与所述第二地址库数据中的源地址同级的映射地址,具体是根据源地址的类型而匹配出所有的同级地址数据,比如,当源地址为第二地址库数据中的一个地址的省级地址如浙江省,那么此时根据映射关系从映射数据表获取所有对应该源地址的省级映射地址,映射地址可能包含多个,将这些都是省级的映射地址集合作为一个地址映射集;依次获取源地址为市级、县级和镇级的地址映射集即可。对于每个地址集,需要获得一个最匹配的地址,比如一个市级地址映射集,包含多个省的不同市级地址或者一个省下面的多个市级地址,就需要按照相似度计算方式获得最相似的那个地址,以此作为最匹配的地级地址,按照此方式获得映射匹配的最佳地址。
29.本实施例,以省为例,将b企业的省级地址如江苏省,从地址映射表中索引出来,将b的省级地址和地址映射表中的所有满足映射匹配关系的省进行匹配,经过相似度计算而获得最大相似度值的省即作为b的省级地址在地址映射表中的替换地址,以此将b企业的省
级地址信息转换为映射后的替换省级地址了;如此,逐一获取市、县、镇的地址即可。
30.本技术在每一级地级地址匹配时,需要在横向匹配每一层的地级地址后,针对该地级地址,纵向以此映射匹配下一级即子级的映射地址;如图2所示,在执行一个“省级”映射匹配,即执行一个从映射匹配后的省级地址,对该省级下的市级地址、省级下的县级地址和省级下的镇级地址进行映射匹配之后,还需要执行下一个省,需要对下一个省下面的所有的市级地址、下一个省下面的所有的县级地址和下面的所有的镇级地址进行映射匹配,获得匹配的市级地址、县级地址和镇级地址;执行下一个省直到所有省匹配完成,在省级地址映射匹配之后,进一步按照上述方法获取满足条件的省级地址下面的所有的市级地址、满足条件的省级地址下面的所有的县级地址和满足条件的省级地址下面的所有的镇级地址。
31.s3、将所述第二地址库数中的源地址与所述地址映射集中的每一个地址进行相似度计算;所述相似度计算,具体为:根据文本相似度计算方式,计算所述每层地址级别所对应的地址与所述地址映射集中的每一个地址的相似度值。第二地址库数中的源地址指的是需要和地址映射表中地址进行计算的地址,如b企业的省级地址。
32.本实施例,根据python的 text2vec包下的文本相似度,来计算相似度值;如,将b企业地址中的省级信息和地址映射表中的所有满足匹配关系的省进行相似度计算,需要将b企业地址中的省级信息和地址映射表中的所有满足匹配关系的每一个省进行相似度计算,计算后取相似度最大的那个地址,作为和b地址库中此省匹配的省。
33.需要说明的是,本技术对市级、县级和镇级地址的映射匹配,是按照“省级以下的”所有该级地址进行的映射匹配的,比如所有省级以下的市级地址、省级以下的县级地址等。
34.s4、根据相似度计算结果排序,将相似度最大值的地址作为所述源地址的目标地址。
35.具体的,将b企业地址按照地址层级分组,进行匹配,然后以此执行相似度计算、匹配地级地址:如图3所示,先匹配省级,根据相似度计算,匹配成功,获得映射匹配后的省级信息,然后进行下一级市级的地址匹配;按照上述步骤,市级匹配完毕,匹配县级地址,最后匹配镇级地址;最终获得一个各级地级相似度最大值的地址作为所述源地址的目标地址。
36.根据上述计算方式,根据相似度计算结果,可以得到相似度值,将相似度值输入数据库的排序列表,可以得到相似度计算结果排序,按照地址分级,将相似度最大值的地址作为所述源地址的目标地址。
37.如图4所示,在一种可能的实现方式中,优选地,所述从所述映射数据表获取所有与所述第二地址库数据中的源地址同级的映射地址,并将所有映射地址的集合作为地址映射集,包括:查询所述源地址在所述映射数据表中是否存在父级地址数据:是,则寻址结束;否,则判断父编码是否等于零。
38.在映射表中寻址时,是按照上述地级层级来逐一查取的,因此需要首先寻址判断是否具有父编码,即一级编码/父级编码,有父级编码则表明有对应的地级地址,比如寻址时判断有父编码,则表示存在一级地址,根据父级编码判断存在省级地址,寻址后再寻找父级下一级的市级地址即位于父级编码下的子级编码,即市级地址(二级编码)。依次循环而
寻址获得其他地址。
39.其中,在地址存储的时候每个地址都会有父编码,例如:name: 海淀区 code :110108 parent_code :110100,其获取的方式可以放在内存中也可以查询数据库获取,也可以在数据库中查询获取,查询源地址时,即可根据该地址储存位置,查看对应的父编码。查询并判断编码的类型,是程序上的常规技术手段,本处不再赘述。
40.当判断所述映射数据表中存在父级地址数据,则表示有对应的映射地址,寻址成功,结束寻址;如图4所示,当对b企业地址进行映射寻址时,若是进行匹配时,直接获得对应的映射地址,则直接将其作为b企业转换后的地址数据,用于a企业作为电商的应用地址;当判断所述映射数据表中不存在父级地址数据,则表示未匹配到对应的父级地址,此时需要判断父编码是否等于零,进而进一步地判断寻址。
41.父级编码的储存和编排方式等由用户进行编辑设定,对应的一级地级地址是省级或者市级或者县级可以根据映射规则进行编辑。本实施例根据父级编码进行映射寻址,其可以在映射匹配到对应地址时直接获取转换后的地址数据。也可以在地址无法直接映射匹配到的情况下通过逐级寻址匹配到相似数据,进行按级寻址,可以提高寻址精度。
42.在一种可能的实现方式中,优选地,还包括:如果判断父编码等于零,则获取所述源地址在所述映射数据表中的所有子地址;父编码的编辑和级别设定由用户设定即可;当寻址判断一处的父编码等于零时,即表明发现此处的父级地址不匹配,此时就需要在映射表中逐一寻址,直到寻址发现父编码不等于零时,结束寻址;因此,父编码等于零时,需要可以从映射表中获取此地址并根据此父级地址映射获取所述源地址在所述映射数据表中的所有子地址,进行逐一匹配计算,根据匹配得分将所有的匹配结果排序进行判断,当判断还存在下一个地址,即再次进行匹配得分计算并排序;如图4所示,可以根据b企业地址的省级名称,根据父级即省级编码获得省级映射地址,并进一步寻址获得所有在地址映射表中的省级下面的所有市级a企业子地址;并根据所有子地址,获取映射在所述第一地址库数据中的所有子地址名称;获取对应的a企业地址的子地址名称;将所有所述子地址名称与用户地址名称匹配,并将匹配结果记入有序列表。
43.本技术将所有寻址的a企业地址子地址名称和商户公司地址的名称进行匹配,可以按照上述文本相似度计算方式进行计算,将匹配结果计算并有序输出。可以在父级编码寻址逻辑下,获得所有相关的地级地址数据,在父级编码为零的情况下,可以按照寻址流程映射匹配出所有省级以下地级地址数据并执行下一个省级寻址流程,实现从纵向到横向的全程寻址匹配,提高地址匹配精度。
44.在一种可能的实现方式中,优选地,还包括:获取所述有序列表中的匹配得分最大值的子地址名称和对应所述子地址名称的位置信息;在有序列表中,可以查询出匹配得分最大值的子地址名称,并获得对应的子地址名称的位置信息,以便根据位置信息获取地址信息。
45.在匹配计算时,需要判断所述匹配得分最大值是否为零;如果匹配得分最大值不为零,则将匹配值排序,以此将地址的相似度值计算排序,并根据所述匹配得分最大值的子地址名称的位置信息,获得目标地址;目标地址即为相似度最大的映射地址,根据最大得分的位置找到最匹配的a企业地址,将此地址作为b企业的映射地址;将最匹配的a企业地址编辑脚本经过数据持久化处理后,将其保存至数据库。
46.按照匹配分值排序,可以快速获得分值排序结果,进而获知最大分值即最匹配的地址位置,提高寻址效率;在最大值为零时,即不匹配而寻址结束。
47.在一种可能的实现方式中,优选地,还包括:获取所述有序列表中的匹配得分最大值的子地址名称和对应所述子地址名称的位置信息;判断所述匹配得分最大值是否为零;如果匹配得分最大值为零,则寻址结束。
48.若是在排序计算匹配分值的最大值为零,表明映射出的地址在相似度上不符合要求,则此时执行结束,寻址失败。
49.在一种可能的实现方式中,优选地,所述父级地址数据包括在所述映射数据表中的省级地址数据、市级地址数据和县级地址数据。
50.本实施例,需要从省级依次寻址,因此,父级编码设定的级别设定省市县即可。
51.如图4所示,在将匹配得分记录在有序列表中后,表明一个映射地址的得分记录完毕,此时需要判断是否有多个映射地址,若是有多个,则需要将下一个的映射地址匹配得分继续记录在有序列表中。
52.需要说明的是,尽管以省级映射方式作为示例介绍了如上寻址模式和文本相似度计算,但本领域技术人员能够理解,本公开应不限于此。事实上,用户完全可根据个人喜好和/或实际应用场景灵活设定映射匹配关系,只要可以按照本技术提供的按照地址层级逐一寻址即可。
53.这样,通过相似度计算,从映射地址表中获取不同地址层级的精准地址信息数据,通过将地址进行一层转换,可以精装且快速的匹配两个地址库,使得转换后的地址可以直接应用于电商平台,加快电商平台信息交流和物流对接速度。
54.实施例2基于上述实施例1提供的一种基于文本相似度计算的地址库数据处理方法,如图4所示,在一种可能的实现方式中,优选地,还包括:如果判断父编码不等于零,则获取所述映射数据表中存在的下一个所述父级地址数据;当寻址发现此处的父编码不等于零,表明此处的父级地址存在,获取此处对应的映射地址即对应的a企业地址,依次寻址判断是否还有其他地址存在;若是寻址发现不存在其他匹配的地址,则寻址结束;若是判断所述父级地址数据是否存在:如果存在,则获取所述源地址在所述映射数据表中的所有子地址,即获取所有a企业地址的子地址;根据所有子地址,获取映射在所述第一地址库数据中的所有a企业地址的子地址名称;将所有所述子地址名称与用户地址名称匹配,并将匹配结果记入有序列表;将所有寻址的a企业地址子地址名称和商户公司地址的名称进行匹配,可以按照上述文本相似度计算方式进行计算,将匹配结果计算并有序输出。
55.如果不存在,则执行结束。
56.在一种可能的实现方式中,优选地,还包括:获取所述有序列表中的匹配得分最大值的子地址名称和对应所述子地址名称的
位置信息;判断所述匹配得分最大值是否为零;如果匹配得分最大值不为零,则根据所述匹配得分最大值的子地址名称的位置信息,获得目标地址;将目标地址保存至数据库。
57.在一种可能的实现方式中,优选地,还包括:获取所述有序列表中的匹配得分最大值的子地址名称和对应所述子地址名称的位置信息;判断所述匹配得分最大值是否为零;如果匹配得分最大值为零,则寻址结束。
58.上述按照匹配得分进行有序排列而获取最匹配的子地址名称的位置信息,详见实施例1,本实施例,不再赘述。
59.实施例3更进一步地,根据本公开的另一方面,还提供了一种控制系统。
60.本公开实施例控制系统包括处理器以及用于存储处理器可执行指令的存储器。其中,处理器被配置为执行可执行指令时实现前面实施例1或2任一所述的一种基于文本相似度计算的地址库数据处理方法。
61.此处,应当指出的是,处理器的个数可以为一个或多个。同时,在本公开实施例的控制系统中,还可以包括输入装置和输出装置。其中,处理器、存储器、输入装置和输出装置之间可以通过总线连接,也可以通过其他方式连接,此处不进行具体限定。
62.存储器作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序和各种模块,如:本公开实施例的一种基于文本相似度计算的地址库数据处理方法所对应的程序或模块。处理器通过运行存储在存储器中的软件程序或模块,从而执行控制系统的各种功能应用及数据处理。
63.输入装置可用于接收输入的数字或信号。其中,信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置可以包括显示屏等显示设备。
64.以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1