一种商户名称匹配方法、装置及计算机可读存储介质与流程

文档序号:32399457发布日期:2022-12-02 18:30阅读:72来源:国知局
一种商户名称匹配方法、装置及计算机可读存储介质与流程

1.本发明属于数据处理领域,具体涉及一种商户名称匹配方法、装置及计算机可读存储介质。


背景技术:

2.本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.商户的相关信息往往分布于多个数据源中,例如商户的基本信息以及交易信息在支付平台数据库中,而商户的工商信息需要用到外部的数据源,因此需要将不同数据源的数据进行关联操作。然而各个数据源字段都不统一,且各个数据源数据录入方式都不一样,使用常规数据库操作关联各个数据源耗时较长,且精准度一般。
4.因此,不同数据源之间数据难以匹配的问题是一个亟待解决的问题。


技术实现要素:

5.针对上述现有技术中存在的问题,提出了一种商户名称匹配方法、装置及计算机可读存储介质,利用这种方法、装置及计算机可读存储介质,能够解决上述问题。
6.本发明提供了以下方案。
7.第一方面,提供一种商户名称匹配方法,包括:根据企业商户名称并利用近似文本算法从外部数据库提取一个或多个候选商户名称;提取企业商户名称和每个候选商户名称之间的最长公共子序列和次长公共子序列;根据最长公共子序列和次长公共子序列,并利用语义规则判断每个候选商户名称的匹配度,以精确匹配出目标企业商户名称。
8.在一种实施方式中,方法之前,还包括:获取商户名称,利用商户分类模型确定商户名称的类型,类型包括:企业商户名称和个人商户名称。
9.在一种实施方式中,针对个人商户名称,方法还包括:从个人商户名称中提取人名关键词;根据人名关键词并利用近似文本算法从外部数据库提取一个或多个候选商户名称;根据人名关键词从一个或多个候选商户中精准匹配出目标个人商户名称。
10.在一种实施方式中,根据企业商户名称并利用近似文本算法从外部数据库提取一个或多个候选商户名称,还包括:利用elasticsearch数据库对企业商户名称进行模糊查询,拉取相似度排序最高前n个商户名称作为候选商户名称。
11.在一种实施方式中,根据最长公共子序列和次长公共子序列,并利用语义规则判断每个候选商户名称的匹配度,还包括:判断最长公共子序列长度是否超过企业商户名称长度的一半;若未超过企业商户名称长度的一半,则候选商户名称不匹配。
12.在一种实施方式中,还包括:若最长公共子序列的长度超过企业商户名称长度的一半,判断候选商户是否符合以下第一语义规则:第一语义规则包括:最长公共子序列与企业商户名称的长度相同,或者最长公共子序列与次长公共子序列的长度之和与企业商户名称的长度相同;企业商户名称包含地址词;候选商户名称去除最长公共子序列和次长公共
子序列之后,长度小于预设值和/或包含设定关键词;其中,目标企业商户名称为多个候选商户名称中唯一符合第一语义规则的候选商户名称。
13.在一种实施方式中,还包括:若最长公共子序列的长度超过企业商户名称长度的一半,则判断候选商户是否符合以下第二语义规则:第二语义规则包括:最长公共子序列与企业商户名称的长度相同,或者最长公共子序列与次长公共子序列的长度之和与企业商户名称的长度相同;候选商户名称包含括号并且括号位于企业商户名称之后;候选商户名称中右括号为最后一个字符;其中,目标企业商户名称为多个候选商户名称中唯一符合第二语义规则的候选商户名称。
14.在一种实施方式中,还包括,训练商户分类模型的步骤,包括:获取大量商户名称样本,使用jieba分词算法对商户名称样本进行分词;利用词频-逆向文件频率算法对分词后的商户名称样本进行文本向量化;将文本向量化后的商户名称样本按比例划分生成训练集及测试集;利用训练集和测试集,训练xgboost分类模型,得到商户分类模型。
15.在一种实施方式中,从个人商户名称中提取人名关键词,还包括:对个人商户名称进行分词;利用预先训练的词性标注模型对分词后的各个词汇进行词性标注,词性标注至少包括人名;提取词性标注为人名的词语作为人名关键词。
16.在一种实施方式中,还包括:判断词性标注为人名的词语的长度是否小于预设值,若不是,则不继续匹配。
17.在一种实施方式中,根据人名关键词并利用近似文本算法从外部数据库提取一个或多个候选商户名称,还包括:利用elasticsearch数据库对人名关键词进行模糊查询,拉取相似度排序最高前n个商户名称作为候选商户名称。
18.在一种实施方式中,其中,目标个人商户名称为多个候选商户名称中唯一与人名关键词完全匹配的候选商户名称。
19.第二方面,提供一种商户名称匹配装置,其特征在于,被配置为用于执行如第一方面的方法,包括:候选模块,根据企业商户名称并利用近似文本算法从外部数据库提取一个或多个候选商户名称;提取模块,用于提取企业商户名称和每个候选商户名称之间的最长公共子序列和次长公共子序列;匹配模块,用于根据最长公共子序列和次长公共子序列,并利用语义规则判断每个候选商户名称的匹配度,以精确匹配出目标企业商户名称。
20.第三方面,提供一种商户名称匹配装置,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行:如第一方面的方法。
21.第四方面,提供一种计算机可读存储介质,计算机可读存储介质存储有程序,当程序被多核处理器执行时,使得多核处理器执行如第一方面的方法。
22.上述实施方式的优点之一,能够实现更精准的商户名称匹配。
23.本发明的其他优点将配合以下的说明和附图进行更详细的解说。
24.应当理解,上述说明仅是本发明技术方案的概述,以便能够更清楚地了解本发明的技术手段,从而可依照说明书的内容予以实施。为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举例说明本发明的具体实施方式。
附图说明
25.通过阅读下文的示例性实施方式的详细描述,本领域普通技术人员将明白本文所述的优点和益处以及其他优点和益处。附图仅用于示出示例性实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的标号表示相同的部件。在附图中:
26.图1为根据本发明一实施方式的商户名称匹配设备的结构示意图;
27.图2为根据本发明一实施方式的商户名称匹配方法的流程示意图;
28.图3为根据本发明一实施方式的商户名称匹配方法的流程示意图;
29.图4为根据本发明一实施方式的商户名称匹配方法的流程示意图;
30.图5为根据本发明一实施方式的商户名称分类模型的训练流程示意图;
31.图6为根据本发明一实施方式的商户名称匹配方法的流程示意图;
32.图7为根据本发明一实施方式的商户名称匹配装置的结构示意图。
33.在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
34.下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
35.在本技术实施方式的描述中,应理解,诸如“包括”或“具有”等术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不旨在排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在的可能性。
36.除非另有说明,“/”表示或的意思,例如,a/b可以表示a或b;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。
37.术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术实施方式的描述中,除非另有说明,“多个”的含义是两个或两个以上。
38.下面将参考附图并结合实施方式来详细说明本发明。
39.首先参见图1,其示意性示出了其中可以使用根据本公开的示例性实现方式的环境100的示意图。
40.图1示出了根据本公开的实施方式的计算设备100的示例的示意图。需要说明的是,图1即可为商户名称匹配方法的硬件运行环境的结构示意图。本发明实施方式基于商户名称匹配设备可以是pc,便携计算机等终端设备。
41.如图1所示,该商户名称匹配设备可以包括:处理器1001,例如cpu,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的
存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
42.本领域技术人员可以理解,图1中示出的商户名称匹配设备结构并不构成对商户名称匹配设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
43.如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及商户名称匹配程序。其中,操作系统是管理和控制商户名称匹配设备硬件和软件资源的程序,支持商户名称匹配程序以及其它软件或程序的运行。
44.在图1所示的商户名称匹配设备中,用户接口1003主要用于接收第一终端、第二终端和监管终端发送的请求、数据等;网络接口1004主要用于连接后台服务器与后台服务器进行数据通信;而处理器1001可以用于调用存储器1005中存储的商户名称匹配程序,并执行以下操作:
45.根据企业商户名称并利用近似文本算法从外部数据库提取一个或多个候选商户名称。提取企业商户名称和每个候选商户名称之间的最长公共子序列和次长公共子序列。根据最长公共子序列和次长公共子序列,并利用语义规则判断每个候选商户名称的匹配度,以精确匹配出目标企业商户名称。
46.由此,能够实现更为精准的多数据源之间的商户名称匹配。
47.图2示出了根据本公开的实施方式的用于执行商户名称匹配方法的流程图。该方法例如可以由如图1所示的计算设备100来执行。应当理解的是,方法200还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
48.步骤210,根据企业商户名称并利用近似文本算法从外部数据库提取一个或多个候选商户名称。
49.步骤220,提取企业商户名称和每个候选商户名称之间的最长公共子序列和次长公共子序列。
50.步骤230,根据最长公共子序列和次长公共子序列,并利用语义规则判断每个候选商户名称的匹配度,以精确匹配出目标企业商户名称。
51.本技术实施例中,利用公共子序列算法对待匹配的企业商户名称以及每个候选商户名称进行匹配。其中,除了提取企业商户名称和每个候选商户名称之间的最长公共子序列的长度及内容之外,还提取了次长公共子序列的长度及内容。其中,可以利用最长公共子序列的长度及内容在待匹配的企业商户名称以及候选商户名称中的占比来判断待匹配的企业商户名称与候选商户名称是否相似。而提取次长公共子序列的长度和内容,则可以避免由于字符分割而造成公共子序列不连续的情况,避免了信息量的损失,例如“贵港供电局”和“贵港市供电局”中最长公共子序列为供电局而次长公共子序列为贵港,若只考虑最长公共子序列则会造成匹配不精准,此时引入最长公共子序列和次长公共子序列的合集,能够避免了类似的信息缺失,能更精准匹配相似的商户名称。
52.可选地,该外部数据库可以是工商数据库,比如elasticsearch数据库。本技术实施例对此不作具体限制,也可以采用其他存储商户名称信息的外部数据库。
53.可选地,在步骤220中,可以通过维护一个长度为2的数组分别记录最长公共子序列长度和次长公共子序列长度,并在动态规划过程中迭代更新最长公共子序列长度和次长
公共子序列长度从而能够在结果返回最长公共子序列和次长公共子序列的内容和长度。
54.可选地,在步骤220之前,首先可以判断在该多个候选商户名称中,是否存在与待匹配的企业商户名称完全相同的候选商户名称,若该多个候选商户名称中存在唯一名称相同的一个候选商户名称,则返回该候选商户名称作为匹配结果,否则进入该步骤220。由此,可以简化后续的匹配过程。
55.在一种实施方式中,为提取到相似度效果最好的候选商户名称,上述步骤210可以进一步包括:利用elasticsearch数据库对企业商户名称进行模糊查询,拉取相似度排序最高前n个商户名称作为候选商户名称。
56.具体地,可以基于elasticsearch数据库自带的近似文本查询命令查询与企业商户名称相似的内容,其中分词器设置为专用于中文分词的ik分词器,然后取最相似的前20个商户名称作为候选商户。
57.图3是本发明另一示例性实施方式示出的商户名称匹配方法的流程示意图,本实施方式在图2所示实施方式的基础上,进一步扩展了上述步骤230的过程。
58.在一种实施方式中,上述步骤230,还可以包括:
59.步骤231,判断最长公共子序列长度是否超过企业商户名称长度的一半;
60.步骤232,若最长公共子序列的长度未超过企业商户名称长度的一半,则候选商户名称不匹配。
61.具体地,在进行根据语义规则来判断两个商户名称是否能精准匹配之前。首先判断该提取出的最长公共子序列长度是否占待匹配的企业商户名称的长度一半以上,若未达到一半以上则不作匹配。若达到一半则按照第一语义规则和第二语义规则进行语义匹配,若满足条件且候选商户中没有其余商户匹配上这两个规则,则返回匹配结果。
62.在一种实施方式中,在上述步骤231之后,若最长公共子序列的长度超过企业商户名称长度的一半,则可以进一步进行语义判断,具体可以包括:
63.步骤233,若最长公共子序列的长度超过企业商户名称长度的一半,判断候选商户是否符合以下第一语义规则。
64.步骤234,将多个候选商户名称中唯一符合第一语义规则的候选商户名称作为目标企业商户名称。
65.其中,上述第一语义规则包括:最长公共子序列与企业商户名称的长度相同,或者最长公共子序列与次长公共子序列的长度之和与企业商户名称的长度相同;企业商户名称包含地址词;候选商户名称去除最长公共子序列和次长公共子序列之后,长度小于预设值和/或包含设定关键词。
66.上述第一语义规则主要适用于入库时信息缺失的问题,例如,在工商数据库中的“上海市宝山区国好百货店”录入本地的数据库中遗漏了“上海市”等地址关键词,仅留下了“宝山区国好百货店”,或者工商数据库中的“武汉市汉阳区小叶牛腩王面馆”录入本地的数据库时遗漏了“武汉市”和“面馆”,仅留下了“汉阳区小叶牛腩王”等情况。为了实现这类型的匹配,采用了上述第一语义规则。首先判断待匹配的企业商户名称是该候选商户名称的子集,即最长公共子序列的长度=企业商户名称的长度,或者最长公共子序列的长度+次长公共子序列的长度=企业商户名称的长度;其次判断,企业商户名称包含词性为ns表示地点的词语。最后判断,候选商户名称去掉该待匹配的企业商户名称的最长公共子序列和次
长公共子序列后,剩余长度小于或等于4或者包含诸如“公司”、“厂”、“店”、“馆”等关键词。若某一候选商户名称均符合且唯一符合上述第一语义规则,则认为该候选商户名称为目标企业商户名称。
67.在一种实施方式中,可替代或并联上述步骤233,在上述步骤231之后,还可以包括:
68.步骤235,若最长公共子序列的长度超过企业商户名称长度的一半,则判断候选商户是否符合以下第二语义规则。
69.步骤236,将多个候选商户名称中唯一符合第二语义规则的候选商户名称作为目标企业商户名称。
70.其中,其中第二语义规则包括:最长公共子序列与企业商户名称的长度相同,或者最长公共子序列与次长公共子序列的长度之和与企业商户名称的长度相同;候选商户名称包含括号并且括号位于企业商户名称之后;候选商户名称中右括号为最后一个字符。
71.上述第二语义规则主要适用于商户别名的情况,比如,“常州市肿瘤医院”和“常州市肿瘤医院(常州市第四人民医院)”,实际上这两种商户名称需要实现匹配,为了实现这类型的匹配,采用了上述第二语义规则。例如,首先判断待匹配的企业商户名称是该候选商户名称的子集,即最长公共子序列与企业商户名称的长度相同,或者最长公共子序列与次长公共子序列的长度之和与企业商户名称的长度相同,其次判断,该候选商户名称中是否是包含括号并且括号紧跟其中的企业商户名称之后,最后判断该候选商户名称中右括号是否为最后一个字符。若某一候选商户名称均符合且唯一符合上述第二语义规则,则认为该候选商户名称为目标企业商户名称。
72.图4是本发明另一示例性实施方式示出的商户名称匹配方法的流程示意图,本实施方式在图2所示实施方式的基础上,进一步扩展了商户匹配方法的过程。
73.如图4所示,在上述步骤210之前,本实施方式提供的方法可以包括以下步骤:
74.步骤110,获取商户名称;
75.步骤120,利用预先训练好的商户分类模型确定商户名称的类型。该类型包括:企业商户名称和个人商户名称。
76.本技术实施例针对商户名称利用商户分类模型进行分类,对于个人商户名称和企业商户名称分别使用不同的逻辑进行匹配。能够适应个人商户名称和企业商户名称的不同特点进行更精准地匹配。
77.在一种实施方式中,在步骤120之前或之中,还可以包括,训练该商户分类模型的步骤。
78.图5是本发明另一示例性实施方式示出的商户分类模型训练方法的流程示意图。训练步骤具体可以包括:
79.步骤410,获取大量商户名称样本;
80.步骤420,使用jieba分词算法对商户名称样本进行分词;
81.步骤430,利用词频-逆向文件频率算法对分词后的商户名称样本进行文本向量化;
82.步骤440,将文本向量化后的商户名称样本按比例划分生成训练集及测试集;
83.步骤450,利用训练集和测试集,训练xgboost分类模型,得到商户分类模型。
84.在上述步骤420中,由于汉语并没有类似英语中空格等符号可以对文本进行分割,分词对于分类效果有影响,因此可以使用jieba分词来对文本进行分词。
85.在上述步骤430中,词频-逆向文件频率(tf-idf)算法是一种特征向量化算法,可以体现词语在语料库里的重要程度。通过首先计算每个词汇出现的词频tf(t,d),其中t指的是词汇,d指的是描述理由,然后计算词汇的逆向文件频率其中df9t,d)指的是包含词语t的描述理由总数。|d|是描述理由总条数。
86.例如,通过以下公式计算tfidf:tfidf9t,d,d0=tf(t,d)*idf(t,d)。可以将基于tfidf值排名前500的词汇将每个商户名称转化为向量。
87.在上述步骤440中,可以按比例划分训练集及测试集,例如,可以将上述转化为向量的商户名称,按照7:3的比例进行划分,随机抽样70%的描述理由向量作为训练集、再取剩余30%的描述理由向量作为测试集。
88.在上述步骤450中,为了训练xgboost分类模型,可以首先设置xgboost的迭代次数m、最大深度、学习率、l2正则化项、可微损失函数、λ、γ等参数,并初始化模型,然后用上述7:3划分的训练集训练xgboost分类模型。
89.最后,将待匹配的商户名称输入训练好的商户名称分类模型中,得出该商户名称是个人商户名称还是企业商户名称。
90.在一种实施方式中,仍参考图4,当该商户名称经过商户分类模型被判断为个人商户名称时,在上述步骤120之后,该方法还包括:
91.步骤310,从个人商户名称中提取人名关键词;
92.步骤320,根据人名关键词并利用近似文本算法从外部数据库提取一个或多个候选商户名称;
93.步骤330,根据人名关键词从一个或多个候选商户中精准匹配出目标个人商户名称。
94.图6是本发明另一示例性实施方式示出的商户名称匹配方法的流程示意图,本实施方式在图2所示实施方式的基础上,进一步扩展了上述步骤310的过程。
95.在一种实施方式中,上述步骤310中,具体可以包括:
96.步骤311,对个人商户名称进行分词;
97.步骤312,利用预先训练的词性标注模型对分词后的各个词汇进行词性标注;
98.其中,词性标注至少包括人名。可选地,词性标注还可以分为:普通名词、人名、地名、形容词、动词、符号等等类别,本技术对此不作具体限制。
99.步骤313,提取词性标注为人名的词语作为人名关键词。
100.在一种实施方式中,在上述步骤333中,还可以包括:判断词性标注为人名的词语的长度是否小于预设值,若不是,则不继续匹配。例如,若词性标注为人名的词语的长度小于等于4则提取人名关键词,否则就不作匹配。
101.在一种实施方式中,为提取到相似度效果最好的候选商户名称,上述步骤320可以进一步包括:利用elasticsearch数据库对人名关键词进行模糊查询,拉取相似度排序最高前n个商户名称作为候选商户名称。
102.例如,可以基于elasticsearch数据库自带的近似文本查询命令查询与人名关键
词相似的内容,其中分词器设置为专用于中文分词的ik分词器,然后取最相似的前20个商户名称作为候选商户。
103.在一种实施方式中,在步骤330中,目标个人商户名称为多个候选商户名称中唯一与人名关键词完全匹配的候选商户名称。
104.例如,将每个候选商户与该人名关键词进行匹配,将该多个候选商户中唯一能完全匹配该人名关键词的候选商户名称作为该目标个人商户名称。
105.以下结合具体示例,对上述实施方式进行示例性描述:
106.实施例一:
107.对于个人商户“商户_丁朋举”而言,首先利用商户名称分类模型对该商户名称的分类结果为[0.9341345,0.0658655]其中较大值为0.9341345,因此商户分类结果为第一种类别-个人商户。
[0108]
然后,提取“商户_丁朋举”中的人名关键词,具体可以先对“商户_丁朋举”进行分词,然后利用词性标注模型进行词性标注,得到结果为('商户','n'),('_','x'),('丁朋举','nr'),其中'n'为普通名称词性标注,'x'为符号词性标注,'nr'为人名词性标注,提取其中词性为nr的丁朋举作为人名关键词进行后续匹配。
[0109]
之后,根据提取的人名关键词“丁朋举”匹配目标个人商户名称,以“丁朋举”为人名关键词查询elasticsearch数据库后获取20个语义最为相似的商户,分别为['丁朋举','绿园区丁朋举货运户','鄢陵马坊北丁庄朋举板厂','宝丰县丁朋举米线热干面店','宋朋举','刘朋举','廖朋举','王朋举','李朋举','杨朋举','闫朋举','周朋举','程朋举','孙朋举','雷朋举','钟朋举','熊朋举','曹朋举','赖朋举','牛朋举'],发现仅有第一个商户能精准匹配关键词且在其他候选商户名称中没有与之重复的商户名,因此匹配成功返回匹配结果“丁朋举”。
[0110]
实施例二:
[0111]
对于企业商户“汉阳区小叶牛腩王”而言,首先利用商户名称分类模型对该商户名称的分类结果为[0.2995307,0.7004692]其中较大值为0.7004692,因此商户分类结果为第二种类别-企业商户。
[0112]
然后,以“汉阳区小叶牛腩王”为关键词查询elasticsearch数据库后获取20个语义最为相似的商户,分别为['武汉市汉阳区小叶牛腩王面馆','王小叶','合浦牛腩王粉店','玉林市玉州区牛腩王牛腩粉店','澧县小叶龙虾王','澄迈仁兴王宏月牛腩店','武汉市汉阳区小叶副食商店','琼海嘉积王丰牛腩店','南宁市浓香牛腩王粉店','武汉市汉阳区小叶宫廷糕点店','王小叶
‑‑
金石镇松枫路','武汉市汉阳区山水笨笨牛腩店','博白县王宝牛腩粉店','武汉市汉阳区小叶子服装厂','武汉市汉阳区荷小叶小吃店','贵阳观山湖牛腩王牛肉粉面馆','樊城区王清辉牛腩面馆','成华区王小叶商贸部','云梦县王齐牛腩面荘','徐闻县王宏玉牛腩店']。
[0113]
然后,计算待匹配的企业商户名称与每个候选商户的最长公共子序列长度,分别为[8,2,3,3,2,2,5,2,3,5,2,3,2,3,3,3,2,2,2,2],其中符合最长公共子序列长度占待匹配的企业商户名称一半以上阈值的仅有'武汉市汉阳区小叶牛腩王面馆'与'武汉市汉阳区小叶副食商店'两家。对这两家进行语义规则匹配后发现,“武汉市汉阳区小叶牛腩王面馆”符合上述第一语义规则a,“武汉市汉阳区小叶副食商店”不符合上述任一种语义规则,符合
各项条件的有且仅有一家候选商户,因此返回匹配结果。
[0114]
需要说明的是,本实施方式中未作详细说明的步骤可以参考图2所示实施方式中相关步骤中的描述,此处不再赘述。
[0115]
在本说明书的描述中,参考术语“一些可能的实施方式”、“一些实施方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式或示例以及不同实施方式或示例的特征进行结合和组合。
[0116]
关于本技术实施方式的方法流程图,将某些操作描述为以一定顺序执行的不同的步骤。这样的流程图属于说明性的而非限制性的。可以将在本文中所描述的某些步骤分组在一起并且在单个操作中执行、可以将某些步骤分割成多个子步骤、并且可以以不同于在本文中所示出的顺序来执行某些步骤。可以由任何电路结构和/或有形机制(例如,由在计算机设备上运行的软件、硬件(例如,处理器或芯片实现的逻辑功能)等、和/或其任何组合)以任何方式来实现在流程图中所示出的各个步骤。
[0117]
基于相同的技术构思,本发明实施方式还提供一种商户名称匹配装置,用于执行上述任一实施方式所提供的商户名称匹配方法。图7为本发明实施方式提供的一种商户名称匹配装置结构示意图。
[0118]
如图7所示,装置700包括:
[0119]
候选模块710,根据企业商户名称并利用近似文本算法从外部数据库提取一个或多个候选商户名称;
[0120]
提取模块720,用于提取企业商户名称和每个候选商户名称之间的最长公共子序列和次长公共子序列;
[0121]
匹配模块730,用于根据最长公共子序列和次长公共子序列,并利用语义规则判断每个候选商户名称的匹配度,以精确匹配出目标企业商户名称。
[0122]
需要说明的是,本技术实施方式中的装置可以实现前述方法的实施方式的各个过程,并达到相同的效果和功能,这里不再赘述。
[0123]
根据本技术的一些实施方式,提供了商户名称匹配方法的非易失性计算机存储介质,其上存储有计算机可执行指令,该计算机可执行指令设置为在由处理器运行时执行:上述实施方式所述的方法。
[0124]
本技术中的各个实施方式均采用递进的方式描述,各个实施方式之间相同相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。尤其,对于装置、设备和计算机可读存储介质实施方式而言,由于其基本相似于方法实施方式,所以其描述进行了简化,相关之处可参见方法实施方式的部分说明即可。
[0125]
本技术实施方式提供的装置、设备和计算机可读存储介质与方法是一一对应的,因此,装置、设备和计算机可读存储介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述装置、设备和计算机可读存储介质的有益技术效果。
[0126]
本领域内的技术人员应明白,本发明的实施方式可提供为方法、装置(设备或系统)、或计算机可读存储介质。因此,本发明可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机可读存储介质的形式。
[0127]
本发明是参照根据本发明实施方式的方法、装置(设备或系统)、和计算机可读存储介质的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0128]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0129]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0130]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0131]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0132]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0133]
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1