地址信息处理方法和装置、存储介质及电子设备与流程

文档序号:23053173发布日期:2020-11-25 17:29阅读:来源:国知局

技术特征:

1.一种地址信息处理方法,其特征在于,所述方法包括:

确定第一地址字符串中第一路名句段和第一小区名句段,确定第二地址字符串中的第二路名句段和第二小区名句段;

计算所述第一路名句段和所述第二路名句段的第一相似度,并计算所述第一小区名句段和所述第二小区名句段的第二相似度;

若所述第一相似度高于第一相似度阈值,且所述第二相似度高于第二相似度阈值,确定所述第一地址字符串与所述第二地址字符串对应相同的小区。

2.根据权利要求1所述的方法,其特征在于,确定地址字符串中的路名句段和小区名句段,包括:

查找所述地址字符串中属于预设分句词集的分句词,其中,所述预设分句词集包括以下类型分句词:行政区名分句词、路名分句词、小区名分句词、数词分句词、量词分句词;

将所述分句词作为分句的起始词和/或截止词,对所述地址字符串进行句段划分处理,得到由所述起始词开始和/或以所述截止词结束的一个或多个句段;

根据得到的每一所述句段中包括的所述分句词,以及所述分句词与句段类型的对应关系,从多个所述句段中确定所述路名句段和所述小区名句段;

其中,所述分句词与句段类型的对应关系,包括:

包括所述路名分句词的句段为所述路名句段;

包括所述小区名分句词的句段为所述小区名句段。

3.根据权利要求2所述的方法,其特征在于,

所述行政区名分句词包括以下任意字符或字符组合:区、镇、街道、街道办、街道办事处、新区、工业区、工业园、开发区;

所述路名分句词包括以下任意字符或字符组合:路、大街、大道、街、社区、街区;

所述小区名分句词包括以下任意字符或字符组合:村、新村、邨、新邨、小区、公寓、花园、家园、府邸、公馆、山庄、街坊;

所述量词分句词包括以下任意字符或字符组合:号、弄、段、层、室、单元、栋、幢、期;

所述数词分句词包括以下任意字符或字符组合:阿拉伯数字、中文数字、罗马数字、英文大写字母、英文小写字母、中文天干字符。

4.根据权利要求2所述的方法,其特征在于,所述分句词与句段类型的对应关系,包括:

包括数词分句词,以及在所述数词分句词之后,与所述数词分句词之间无间隔字符的量词分句词的句段为号句段;

所述确定地址字符串中的小区名句段,包括:

判断所述地址字符串中是否存在路号句段,所述路号句段为在所述路名句段之后,且与所述路名句段无间隔字符的所述号句段;

若所述地址字符串中存在所述路号句段,则将在所述路号句段之后,且在所述路号句段之后的首位数词分句词之前的字符串确定为所述小区名句段;

若所述地址字符串中不存在所述路号句段,则将在所述路名句段之后,且在所述路名分句词之后的首位数词分句词之前的字符串确定为所述小区名句段。

5.根据权利要求2所述的方法,其特征在于,在确定所述第一地址字符串与所述第二地址字符串对应相同的小区之后,所述方法还包括:

获取第一数词序列和第二数词序列,所述第一数词序列为所述第一地址字符串中所述第一小区名句段之后按原有顺序排列的数词分句词组成的数词序列,所述第二数词序列为所述第二地址字符串中所述第二小区名句段之后按原有顺序排列的数词分句词组成的数词序列;

判断所述第一数词序列与所述第二数词序列中相同序列位的所述数词分句词是否为对应同一词义的数词;

若为对应同一词义的数词,则确定所述第一地址字符串与所述第二地址字符串对应相同的地址。

6.根据权利要求4所述的方法,其特征在于,在确定所述第一地址字符串与所述第二地址字符串对应相同的小区之后,所述方法还包括:

将所述第一路名句段和所述第一路名句段后的第一路号句段组成的第一路名组合句段、所述第二路名句段和所述第二路名句段后的第二路号句段组成的第二路名组合句段、所述第一小区名句段和所述第二小区名句段对应存入小区名数据库;

所述小区名数据库用于,在接收到用户输入的目标地址信息时在所述小区名数据库中查找与所述目标地址信息匹配的小区名或路名。

7.根据权利要求1-6任一项所述的方法,其特征在于,计算第一句段和第二句段的相似度,包括:

根据所述第一句段和所述第二句段的相同字符数的数目和目标交换操作次数确定所述相似度;

其中,所述目标交换操作次数为,重复执行将任意两字符互换字符位置的字符交换操作,直至将所述第一句段中的目标字符的排列顺序,调整至与所述第二句段中的所述目标字符的排列顺序一致时,所需的最少的字符交换操作次数;

所述目标字符为在所述第一句段中和所述第二句段中均存在的字符。

8.根据权利要求7所述的方法,其特征在于,所述根据所述第一句段和所述第二句段的相同字符数的数目和目标交换操作次数确定所述相似度,包括:

确定所述第一句段和所述第二句段的相同字符数的数目与在所述第一句段和所述第二句段中出现过的字符总量的比值为相交相似度;

确定所述目标字符数目与所述目标操作次数的差值与所述目标字符数目的比值为顺序相似度;

所述相似度为所述相交相似度和所述顺序相似度的乘积。

9.一种地址信息处理装置,其特征在于,所述装置包括:

确定模块,用于确定第一地址字符串中第一路名句段和第一小区名句段,确定第二地址字符串中的第二路名句段和第二小区名句段;

计算模块,用于计算所述第一路名句段和所述第二路名句段的第一相似度,并计算所述第一小区名句段和所述第二小区名句段的第二相似度;

处理模块,用于若所述第一相似度高于第一相似度阈值,且所述第二相似度高于第二相似度阈值,确定所述第一地址字符串与所述第二地址字符串对应相同的小区。

10.根据权利要求9所述的装置,其特征在于,所述确定模块,包括:

查找子模块,用于查找所述地址字符串中属于预设分句词集的分句词,其中,所述预设分句词集包括以下类型分句词:行政区名分句词、路名分句词、小区名分句词、数词分句词、量词分句词;

分句子模块,用于将所述分句词作为分句的起始词和/或截止词,对所述地址字符串进行句段划分处理,得到由所述起始词开始和/或以所述截止词结束的一个或多个句段;

确定子模块,用于根据得到的每一所述句段中包括的所述分句词,以及所述分句词与句段类型的对应关系,从多个所述句段中确定路名句段和小区名句段;

其中,所述分句词与句段类型的对应关系,包括:

包括所述路名分句词的句段为所述路名句段;

包括所述小区名分句词的句段为所述小区名句段。

11.根据权利要求10所述的装置,其特征在于,所述分句词与句段类型的对应关系,包括:包括数词分句词,以及在所述数词分句词之后,与所述数词分句词之间无间隔字符的量词分句词的句段为号句段;

所述确定子模块,还用于判断所述地址字符串中是否存在路号句段,所述路号句段为在所述路名句段之后,且与所述路名句段无间隔字符的所述号句段;若所述地址字符串中存在所述路号句段,则将在所述路号句段之后,且在所述路号句段之后的首位数词分句词之前的字符串确定为所述小区名句段;若所述地址字符串中不存在所述路号句段,则将在所述路名句段之后,且在所述路名分句词之后的首位数词分句词之前的字符串确定为所述小区名句段。

12.根据权利要求10所述的装置,其特征在于,所述装置还包括:

获取模块,用于获取第一数词序列和第二数词序列,所述第一数词序列为所述第一地址字符串中所述第一小区名句段之后按原有顺序排列的数词分句词组成的数词序列,所述第二数词序列为所述第二地址字符串中所述第二小区名句段之后按原有顺序排列的数词分句词组成的数词序列;

判断模块,用于判断所述第一数词序列与所述第二数词序列中相同序列位的所述数词分句词是否为对应同一词义的数词;若为对应同一词义的数词,则确定所述第一地址字符串与所述第二地址字符串对应相同的地址。

13.根据权利要求11所述的装置,其特征在于,所述装置还包括:

存储模块,用于将所述第一路名句段和所述第一路名句段后的第一路号句段组成的第一路名组合句段、所述第二路名句段和所述第二路名句段后的第二路号句段组成的第二路名组合句段、所述第一小区名句段和所述第二小区名句段对应存入小区名数据库;所述小区名数据库用于,在接收到用户输入的目标地址信息时在所述小区名数据库中查找与所述目标地址信息匹配的小区名或路名。

14.根据权利要求9-13任一项所述的装置,其特征在于,计算模块,包括:

计算子模块,用于根据第一句段和第二句段的相同字符数的数目和目标交换操作次数确定所述相似度;其中,所述目标交换操作次数为,重复执行将任意两字符互换字符位置的字符交换操作,直至将所述第一句段中的目标字符的排列顺序,调整至与所述第二句段中的所述目标字符的排列顺序一致时,所需的最少的字符交换操作次数;所述目标字符为在所述第一句段中和所述第二句段中均存在的字符。

15.根据权利要求14所述的装置,其特征在于,所述计算子模块,用于:确定所述第一句段和所述第二句段的相同字符数的数目与在所述第一句段和所述第二句段中出现过的字符总量的比值为相交相似度;确定所述目标字符数目与所述目标操作次数的差值与所述目标字符数目的比值为顺序相似度;所述相似度为所述相交相似度和所述顺序相似度的乘积。

16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。

17.一种电子设备,其特征在于,包括:

存储器,其上存储有计算机程序;

处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-8中任一项所述方法的步骤。


技术总结
本公开涉及一种地址信息处理方法和装置,存储介质及电子设备,所述方法包括确定第一地址字符串中第一路名句段和第一小区名句段,确定第二地址字符串中的第二路名句段和第二小区名句段;计算所述第一路名句段和所述第二路名句段的第一相似度,并计算所述第一小区名句段和所述第二小区名句段的第二相似度;若所述第一相似度高于第一相似度阈值,且所述第二相似度高于第二相似度阈值,确定所述第一地址字符串与所述第二地址字符串对应相同的小区。

技术研发人员:周立勇;周立
受保护的技术使用者:深圳中兴飞贷金融科技有限公司
技术研发日:2019.05.22
技术公布日:2020.11.24
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1