一种银行字符串相似比较方法、装置、系统和介质与流程

文档序号:31733498发布日期:2022-10-05 02:45阅读:92来源:国知局
一种银行字符串相似比较方法、装置、系统和介质与流程

1.本技术涉及计算机技术领域,特别涉及一种银行字符串相似比较方法、装置、系统和介质。


背景技术:

2.随着银行数据的越来越多,为了提高银行的数据质量,对于银行字符串的相似比较有着越来越重要的战略意义。
3.然而根据传统的银行字符串的相似比较方法,比较精度有限,无法解决非常相似字符串但是含义完全不同的问题。因此,如何提高银行字符串相似比较的精度,提高银行的数据质量,是本领域需要解决的技术问题。


技术实现要素:

4.有鉴于此,本技术的目的在于提供一种银行字符串相似比较方法、装置、系统和介质,可以提高银行字符串相似比较的精度,提高银行的数据质量。
5.提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
6.为实现上述目的,本技术有如下技术方案:
7.第一方面,本技术实施例提供了一种银行字符串相似比较方法,包括:
8.将第一字符串和第二字符串按照第一预设字数进行切词,以得到所述第一字符串对应的各个第一字段和所述第二字符串对应的各个第二字段;
9.将各个所述第一字段与各个所述第二字段之间进行比较,以得到第一相同字段和第一不同字段;所述第一不同字段包括所述第一字段中的第一子字段和所述第二字段中的第二子字段;
10.根据所述第一相同字段和所述第一不同字段,计算得到第一相似度;
11.将所述第一子字段和所述第二子字段按照第二预设字数进行切词,以得到所述第一子字段对应的各个第三字段和所述第二子字段对应的各个第四字段;
12.将各个所述第三字段与各个所述第四字段之间进行比较,以得到第一相同子字段和第一不同子字段;
13.根据所述第一相同子字段和所述第一不同子字段,计算得到第二相似度;
14.根据所述第一相似度的第一权重因子和所述第二相似度的第二权重因子,结合所述第一相似度和所述第二相似度,计算得到总相似度。
15.在一种可能的实现方式中,所述根据所述第一相同字段和所述第一不同字段,计算得到第一相似度,包括:
16.将所述第一相同字段的数量和所述第一不同字段的数量的和作为第一总字段数;
17.将所述第一相同字段的数量占所述第一总字段数的比例作为第一相似度。
18.在一种可能的实现方式中,所述根据所述第一相同子字段和所述第一不同子字段,计算得到第二相似度,包括:
19.将所述第一相同子字段的数量和所述第一不同子字段的数量的和作为第二总字段数;
20.将所述第一相同子字段的数量占所述第二总字段数的比例作为第二相似度。
21.在一种可能的实现方式中,所述根据所述第一相似度的第一权重因子和所述第二相似度的第二权重因子,结合所述第一相似度和所述第二相似度,计算得到总相似度,包括:
22.所述总相似度=所述第一相似度
×
所述第一权重因子+所述第二相似度
×
所述第二权重因子。
23.第二方面,本技术实施例提供了一种银行字符串相似比较装置,包括:
24.第一切词单元,用于将第一字符串和第二字符串按照第一预设字数进行切词,以得到所述第一字符串对应的各个第一字段和所述第二字符串对应的各个第二字段;
25.第一比较单元,用于将各个所述第一字段与各个所述第二字段之间进行比较,以得到第一相同字段和第一不同字段;所述第一不同字段包括所述第一字段中的第一子字段和所述第二字段中的第二子字段;
26.第一计算单元,用于根据所述第一相同字段和所述第一不同字段,计算得到第一相似度;
27.第二切词单元,用于将所述第一子字段和所述第二子字段按照第二预设字数进行切词,以得到所述第一子字段对应的各个第三字段和所述第二子字段对应的各个第四字段;
28.第二比较单元,用于将各个所述第三字段与各个所述第四字段之间进行比较,以得到第一相同子字段和第一不同子字段;
29.第二计算单元,用于根据所述第一相同子字段和所述第一不同子字段,计算得到第二相似度;
30.总计算单元,用于根据所述第一相似度的第一权重因子和所述第二相似度的第二权重因子,结合所述第一相似度和所述第二相似度,计算得到总相似度。
31.在一种可能的实现方式中,所述第一计算单元,具体用于:
32.将所述第一相同字段的数量和所述第一不同字段的数量的和作为第一总字段数;
33.将所述第一相同字段的数量占所述第一总字段数的比例作为第一相似度。
34.在一种可能的实现方式中,所述第二计算单元,具体用于:
35.将所述第一相同子字段的数量和所述第一不同子字段的数量的和作为第二总字段数;
36.将所述第一相同子字段的数量占所述第二总字段数的比例作为第二相似度。
37.在一种可能的实现方式中,所述总计算单元,具体用于:计算所述总相似度;
38.所述总相似度=所述第一相似度
×
所述第一权重因子+所述第二相似度
×
所述第二权重因子。
39.第三方面,本技术实施例提供了一种银行字符串相似比较系统,包括:
40.存储器,用于存储计算机程序;
是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
52.需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
53.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
54.正如背景技术中的描述,随着银行数据的越来越多,为了提高银行的数据质量,对于银行字符串的相似比较有着越来越重要的战略意义。
55.然而根据传统的银行字符串的相似比较方法,比较精度有限,无法解决非常相似字符串但是含义完全不同的问题。因此,如何提高银行字符串相似比较的精度,提高银行的数据质量,是本领域需要解决的技术问题。
56.经申请人研究发现,各个国家的银行对于银行客户重名的检查是监管的关键一环,例如,英国于2010年开始实施金融服务赔偿计划,作为英国监管着重审查的关键一环,客户重名的检查对客户单一视图(scv-single customer view)有着越来越重要的战略意义。目前伦敦/英子行下的重复客户主要通过excel下的vba筛选(visual basic,自动筛选)+人工排查,严重影响英国监管对银行数据质量的判定。
57.传统的相似算法一般分为两种,一种为编辑距离(edit distance)算法,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似越大。
58.另一种为余弦相似性算法,是通过计算两个向量的夹角余弦值来评估他们的相似。对于两个向量,可以想象成空间中的两条线段,都是从原点([0,0,...])出发,指向不同的方向。两条线段之间形成一个夹角:如果夹角为0度,则意味着方向相同、线段重合;如果夹角为90度,意味着形成直角,方向完全不相似;如果夹角为180度,意味着方向正好相反。因此,可以通过夹角的大小,来判断向量的相似程度。夹角越小,就代表越相似。
[0059]
然而利用传统的相似算法,无法解决非常相似字符串但是含义完全不同的问题,例如

南山区科苑路中国人民银行’与

南山区科苑路中国工商银行’,差别为

人民’、

工商’,但是根据相似算法,想个词相似度非常高,不能够准确的进行银行字符串的相似度计算。
[0060]
为了解决以上技术问题,本技术实施例提供了一种银行字符串相似比较方法、装置、系统和介质,可应用于金融领域或其他领域。该方法包括:将第一字符串和第二字符串按照第一预设字数进行切词,以得到第一字符串对应的各个第一字段和第二字符串对应的各个第二字段;将各个第一字段与各个第二字段之间进行比较,以得到第一相同字段和第一不同字段;第一不同字段包括第一字段中的第一子字段和第二字段中的第二子字段;根据第一相同字段和第一不同字段,计算得到第一相似度;将第一子字段和第二子字段按照第二预设字数进行切词,以得到第一子字段对应的各个第三字段和第二子字段对应的各个第四字段;将各个第三字段与各个第四字段之间进行比较,以得到第一相同子字段和第一不同子字段;根据第一相同子字段和第一不同子字段,计算得到第二相似度;根据第一相似
度的第一权重因子和第二相似度的第二权重因子,结合第一相似度和第二相似度,计算得到总相似度。从而可以通过两次切词进行比较计算相似度,可以更好处理相同词特别多,但是含义完全不一致的情况,提高银行字符串相似比较的精度,提高银行的数据质量。
[0061]
示例性方法
[0062]
参见图1所示,为本技术实施例提供的一种银行字符串相似比较方法的流程图,包括:
[0063]
s101:将第一字符串和第二字符串按照第一预设字数进行切词,以得到所述第一字符串对应的各个第一字段和所述第二字符串对应的各个第二字段。
[0064]
在本技术实施例中,可以将第一字符串和第二字符串按照第一预设字数进行切词,以得到第一字符串对应的各个第一字段和第二字符串对应的各个第二字段。
[0065]
其中,切词指的是指的是将一个文字序列切分成一个一个单独的词,举例来说,第一字符串可以为:[南山区科苑路中国人民银行],第二字符串可以为:[南山区科苑路中国工商银行]。
[0066]
需要说明的是,本技术实施例在此不对第一预设字数进行具体限定,具体可由本领域技术人员根据实际情况进行设定。
[0067]
举例来说,对于上述[南山区科苑路中国人民银行]和[南山区科苑路中国工商银行],第一预设字数可以为2,即按照两个字两个字进行切词,当切词后,得到的各个第一字段可以为:[南山,山区,区科,科苑,苑路,路中,中国,国人,人民,民银,银行],得到的各个第二字段可以为:[南山,山区,区科,科苑,苑路,路中,中国,国工,工商,商银,银行]。
[0068]
s102:将各个所述第一字段与各个所述第二字段之间进行比较,以得到第一相同字段和第一不同字段;所述第一不同字段包括所述第一字段中的第一子字段和所述第二字段中的第二子字段。
[0069]
在本技术实施例中,在进行了第一次切词后,可以将各个第一字段与各个第二字段之间进行比较,以得到第一相同字段和第一不同字段。
[0070]
其中,第一不同字段包括第一字段中的第一子字段和第二字段中的第二子字段。
[0071]
举例来说,可以将各个第一字段:[南山,山区,区科,科苑,苑路,路中,中国,国人,人民,民银,银行],与,各个第二字段:[南山,山区,区科,科苑,苑路,路中,中国,国工,工商,商银,银行],之间进行比较。
[0072]
其中第一相同字段为:[南山,山区,区科,科苑,苑路,路中,中国,银行],第一不同字段包括第一字段中的第一子字段:[国人,人民,民银]和第二字段中的第二子字段:[国工,工商,商银]。
[0073]
s103:根据所述第一相同字段和所述第一不同字段,计算得到第一相似度。
[0074]
在本技术实施例中,当比较得到了第一相同字段和第一不同字段后,可以根据第一相同字段和第一不同字段,计算得到第一相似度。
[0075]
在一种可能的实现方式中,可以将第一相同字段的数量和第一不同字段的数量的和作为第一总字段数,将第一相同字段的数量占第一总字段数的比例作为第一相似度。
[0076]
举例来说,第一相同字段为:[南山,山区,区科,科苑,苑路,路中,中国,银行]数量为8,第一不同字段的数量为3,此时只需计算第一字段或第二字段中的任意一个的不同字段的数量作为第一不同字段数量即可,第一总字段数为:8+3=11,此时第一相似度即可以
为8/11。
[0077]
s104:将所述第一子字段和所述第二子字段按照第二预设字数进行切词,以得到所述第一子字段对应的各个第三字段和所述第二子字段对应的各个第四字段。
[0078]
在本技术实施例中,可以将第一子字段和第二子字段按照第二预设字数进行切词,以得到第一子字段对应的各个第三字段和第二子字段对应的各个第四字段。
[0079]
即经过了一次切词,相似度计算的准确度不高,为了提高相似度计算的准确度,还可以进行二次切词,举例来说,第一子字段为[国人,人民,民银],第二子字段为[国工,工商,商银]。
[0080]
需要说明的是,本技术实施例在此不对第二预设字数进行具体限定,具体可由本领域技术人员根据实际情况进行设定。
[0081]
举例来说,可以将第二预设字数设置为1,第一子字段切词后得到的第三字段为:[国,人,人,民,民,银],第二子字段切词后得到的第四字段为:[国,工,工,商,商,银]。
[0082]
s105:将各个所述第三字段与各个所述第四字段之间进行比较,以得到第一相同子字段和第一不同子字段。
[0083]
在本技术实施例中,可以将各个第三字段与各个第四字段之间进行比较,以得到第一相同子字段和第一不同子字段。
[0084]
举例来说,可以将第三字段[国,人,人,民,民,银],与,第四字段[国,工,工,商,商,银]之间进行比较。此时,第一相同子字段可以为[国,银],第一不同子字段可以包括第三字段中的[人,人,民,民]和第四字段中的[工,工,商,商]。
[0085]
s106:根据所述第一相同子字段和所述第一不同子字段,计算得到第二相似度。
[0086]
在本技术实施例中,可以根据第一相同子字段和第一不同子字段,计算得到第二相似度。
[0087]
在一种可能的实现方式中,可以将第一相同子字段的数量和第一不同子字段的数量的和作为第二总字段数,将第一相同子字段的数量占第二总字段数的比例作为第二相似度。
[0088]
举例来说,第一相同子字段可以为[国,银]数量为2,第一不同子字段包括第三字段中的[人,人,民,民]和第四字段中的[工,工,商,商],不同字段数量为4,即此时第二总字段数为6,此时第二相似度即可以为2/6=1/3。
[0089]
s107:根据所述第一相似度的第一权重因子和所述第二相似度的第二权重因子,结合所述第一相似度和所述第二相似度,计算得到总相似度。
[0090]
在本技术实施例中,可以根据第一相似度的第一权重因子和第二相似度的第二权重因子,结合第一相似度和第二相似度,计算得到总相似度。
[0091]
需要说明的是,本技术实施例在此对第一权重因子和第二权重因子的大小不作具体限定,具体可由本领域技术人员根据实际情况进行设定。
[0092]
在一种可能的实现方式中,可以令总相似度=第一相似度
×
第一权重因子+第二相似度
×
第二权重因子。
[0093]
举例来说,可以设置第一权重因子为60%,第二权重因子可以设置为30%,根据上述举例中的第一相似度为8/11,第二相似度为1/3。总相似度=8/11
×
60%+1/3
×
30%=0.536363
……

[0094]
通过两次切词,并设置不同的权重因此,可以更能体现两个字符串之间的相似度。
[0095]
本技术实施例提供了一种银行字符串相似比较方法,可应用于金融领域或其他领域。该方法包括:将第一字符串和第二字符串按照第一预设字数进行切词,以得到第一字符串对应的各个第一字段和第二字符串对应的各个第二字段;将各个第一字段与各个第二字段之间进行比较,以得到第一相同字段和第一不同字段;第一不同字段包括第一字段中的第一子字段和第二字段中的第二子字段;根据第一相同字段和第一不同字段,计算得到第一相似度;将第一子字段和第二子字段按照第二预设字数进行切词,以得到第一子字段对应的各个第三字段和第二子字段对应的各个第四字段;将各个第三字段与各个第四字段之间进行比较,以得到第一相同子字段和第一不同子字段;根据第一相同子字段和第一不同子字段,计算得到第二相似度;根据第一相似度的第一权重因子和第二相似度的第二权重因子,结合第一相似度和第二相似度,计算得到总相似度。从而可以通过两次切词进行比较计算相似度,可以更好处理相同词特别多,但是含义完全不一致的情况,提高银行字符串相似比较的精度,提高银行的数据质量。
[0096]
示例性装置
[0097]
参见图2所示,为本技术实施例提供的一种银行字符串相似比较装置的示意图,包括:
[0098]
第一切词单元201,用于将第一字符串和第二字符串按照第一预设字数进行切词,以得到所述第一字符串对应的各个第一字段和所述第二字符串对应的各个第二字段;
[0099]
第一比较单元202,用于将各个所述第一字段与各个所述第二字段之间进行比较,以得到第一相同字段和第一不同字段;所述第一不同字段包括所述第一字段中的第一子字段和所述第二字段中的第二子字段;
[0100]
第一计算单元203,用于根据所述第一相同字段和所述第一不同字段,计算得到第一相似度;
[0101]
第二切词单元204,用于将所述第一子字段和所述第二子字段按照第二预设字数进行切词,以得到所述第一子字段对应的各个第三字段和所述第二子字段对应的各个第四字段;
[0102]
第二比较单元205,用于将各个所述第三字段与各个所述第四字段之间进行比较,以得到第一相同子字段和第一不同子字段;
[0103]
第二计算单元206,用于根据所述第一相同子字段和所述第一不同子字段,计算得到第二相似度;
[0104]
总计算单元207,用于根据所述第一相似度的第一权重因子和所述第二相似度的第二权重因子,结合所述第一相似度和所述第二相似度,计算得到总相似度。
[0105]
在一种可能的实现方式中,所述第一计算单元,具体用于:
[0106]
将所述第一相同字段的数量和所述第一不同字段的数量的和作为第一总字段数;
[0107]
将所述第一相同字段的数量占所述第一总字段数的比例作为第一相似度。
[0108]
在一种可能的实现方式中,所述第二计算单元,具体用于:
[0109]
将所述第一相同子字段的数量和所述第一不同子字段的数量的和作为第二总字段数;
[0110]
将所述第一相同子字段的数量占所述第二总字段数的比例作为第二相似度。
[0111]
在一种可能的实现方式中,所述总计算单元,具体用于:计算所述总相似度;
[0112]
所述总相似度=所述第一相似度
×
所述第一权重因子+所述第二相似度
×
所述第二权重因子。
[0113]
本技术实施例提供了一种银行字符串相似比较装置,可应用于金融领域或其他领域。利用该装置的方法包括:将第一字符串和第二字符串按照第一预设字数进行切词,以得到第一字符串对应的各个第一字段和第二字符串对应的各个第二字段;将各个第一字段与各个第二字段之间进行比较,以得到第一相同字段和第一不同字段;第一不同字段包括第一字段中的第一子字段和第二字段中的第二子字段;根据第一相同字段和第一不同字段,计算得到第一相似度;将第一子字段和第二子字段按照第二预设字数进行切词,以得到第一子字段对应的各个第三字段和第二子字段对应的各个第四字段;将各个第三字段与各个第四字段之间进行比较,以得到第一相同子字段和第一不同子字段;根据第一相同子字段和第一不同子字段,计算得到第二相似度;根据第一相似度的第一权重因子和第二相似度的第二权重因子,结合第一相似度和第二相似度,计算得到总相似度。从而可以通过两次切词进行比较计算相似度,可以更好处理相同词特别多,但是含义完全不一致的情况,提高银行字符串相似比较的精度,提高银行的数据质量。
[0114]
在上述实施例的基础上,本技术实施例提供了一种银行字符串相似比较系统,包括:
[0115]
存储器,用于存储计算机程序;
[0116]
处理器,用于执行所述计算机程序时实现如上述银行字符串相似比较方法的步骤。
[0117]
在上述实施例的基础上,本技术实施例还提供了一种计算机可读介质,所述计算机可读介质上存储有计算机程序,所述计算机程序被处理执行时实现如上述银行字符串相似比较方法的步骤。
[0118]
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
[0119]
上述计算机可读介质可以是上述系统中所包含的;也可以是单独存在,而未装配
入该系统中。
[0120]
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。
[0121]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
[0122]
以上所述仅是本技术的优选实施方式,虽然本技术已以较佳实施例披露如上,然而并非用以限定本技术。任何熟悉本领域的技术人员,在不脱离本技术技术方案范围情况下,都可利用上述揭示的方法和技术内容对本技术技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本技术技术方案的内容,依据本技术的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本技术技术方案保护的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1