一种分类方法及装置的制造方法

文档序号:10624952阅读:309来源:国知局
一种分类方法及装置的制造方法
【专利摘要】本发明涉及数据分类领域,公开了一种分类方法及装置,包括:获取待归类对象的名称;将所述待归类对象的名称与对应关系表中的关键词进行匹配,若匹配成功,则获取所述对应关系表中与所述待归类对象的名称相匹配的关键词所对应的对象类别,所述对应关系表用于存储关键词与对象类别的对应关系;将获取到的对象类别确定为所述待归类对象的类别;其中,所述对应关系由以下方式得到:获取样本对象的名称以及所述样本对象的类别;根据所述样本对象的名称得到关键词,根据得到的关键词与对应的样本对象的类别,得到所述对应关系表。本发明用以将未细分的对象进行更细致的分类。
【专利说明】
一种分类方法及装置
技术领域
[0001]本发明涉及数据分类领域,尤其涉及一种分类方法及装置。
【背景技术】
[0002]目前,金融行业内部进行商户分类,是根据商户类别码(简称MCC码)进行划分。MCC码由收单机构为特约商户设置,用于标明银联卡交易环境、所在商户的主营业务范围和行业归属,是判断境内跨行交易商户结算手续费标准的主要依据;也是开展银联卡交易行业分析和报告,银联卡业务风险管理和控制的重要基础数据之一。
[0003]MCC码参照ISO国际标准《金融零售业商户类别码》进行制定,保障了银行卡在跨国跨境使用时以相同的方式标记商户行业。但是仅通过MCC码进行商户类别划分,会造成商户分类粒度过大,无法细分商户的情况。
[0004]如对于餐饮业,现有的MCC码中,仅将商户分为就餐场所和餐馆、饮酒场所(酒吧、酒馆、夜总会、鸡尾酒大厅、迪斯科舞厅)、便民餐饮店等几类。而随着商户的日益增多,需要对商户进行更深入的数据挖掘,金融行业中现有的商户分类已满足不了要求,需要将商户进行更详细的分类。

【发明内容】

[0005]本发明实施例提供一种分类方法及装置,用以将未细分的对象进行更细致的分类。
[0006]本发明实施例提供的分类方法包括:
[0007]获取待归类对象的名称;
[0008]将所述待归类对象的名称与对应关系表中的关键词进行匹配,若匹配成功,则获取所述对应关系表中与所述待归类对象的名称相匹配的关键词所对应的对象类别,所述对应关系表用于存储关键词与对象类别的对应关系;
[0009]将获取到的对象类别确定为所述待归类对象的类别;
[0010]其中,所述对应关系表由以下方式得到:
[0011]获取样本对象的名称以及所述样本对象的类别;
[0012]根据所述样本对象的名称得到关键词,根据得到的关键词与对应的样本对象的类别,得到所述对应关系表。
[0013]较佳地,所述待归类对象已被初始归类,且初始归类为N级类别,从第一级至第N级类别范围依次缩小;所述对应关系表中的对象类别具有M级类别,从第一级至第M级类别范围依次缩小,其中M ^ N,且所述对应关系表中的对象类别中第k级类别的颗粒度小于初始归类的第k级类别的颗粒度,Kk^M;
[0014]所述将获取到的对象类别确定为所述待归类对象的类别,包括:将与所述待归类对象的名称相匹配的关键词在所述对应关系表中对应的对象类别中的第N+P级类别至第M级类别,确定为所述待归类对象的第N+P级类别至第M级类别,OΜ-Ν。
[0015]较佳地,所述将与所述待归类对象的名称相匹配的关键词在所述对应关系表中对应的对象类别中的第N+P级类别至第M级类别,确定为所述待归类对象的第N+1级类别至第M级类别之后,还包括:
[0016]将所述关键词在所述对应关系表中对应的对象类别的第一级类别与所述待归类对象的第一级类别相比较,若不匹配,则将所述关键词在所述对应关系表中对应的样本对象的第一级类别设置为所述待归类对象的第一级类别。
[0017]较佳地,所述根据所述样本对象的名称得到关键词,具体包括:
[0018]将所述样本对象的名称与词库中的词条进行匹配,得到第一组分词和第二组分词,所述第一组分词中包含的字串为所述样本对象的名称中与词条相匹配的字串,所述第二组分词中包含的字串为单字;将所述第一组分词和所述第二组分词中的无效字串进行过滤,得到关键词。
[0019]较佳地,所述将所述待归类对象的名称与对应关系表中的关键词进行匹配,包括:将所述待归类对象的名称与对应关系表中的关键词进行比对,若所述待归类对象的名称中包含关键词,则所述待归类对象的名称与所述关键词匹配成功。
[0020]较佳地,所述方法应用于金融服务系统,所述待归类对象为金融服务系统中的客户。
[0021]—种分类装置,包括:获取模块、匹配模块、读取模块、归类模块和处理模块;
[0022]所述获取模块,用于获取待归类对象的名称;
[0023]所述匹配模块,用于将所述待归类对象的名称与对应关系表中的关键词进行匹配;
[0024]所述读取模块,用于当所述待归类对象的名称与所述对应关系表中的关键词匹配成功后,获取所述对应关系表中与所述待归类对象的名称相匹配的关键词所对应的对象类另IJ,所述对应关系表用于存储关键词与对象类别的对应关系;
[0025]所述归类模块,用于将获取到的对象类别确定为所述待归类对象的类别;
[0026]其中,所述对应关系表由以下方式得到:所述获取模块获取样本对象的名称以及所述样本对象的类别;所述处理模块根据所述样本对象的名称得到关键词,根据得到的关键词与对应的样本对象的类别,得到所述对应关系表。
[0027]较佳地,所述待归类对象已被初始归类,且初始归类为N级类别,从第一级至第N级类别范围依次缩小;所述对应关系表中的对象类别具有M级类别,从第一级至第M级类别范围依次缩小,其中M ^ N,且所述对应关系表中的对象类别中第k级类别的颗粒度小于初始归类的第k级类别的颗粒度,Kk^M;
[0028]所述归类模块,还用于将与所述待归类对象的名称相匹配的关键词在所述对应关系表中对应的对象类别中的第N+P级类别至第M级类别,确定为所述待归类对象的第N+P级类别至第M级类别,O彡P彡M-N。
[0029]较佳地,还包括检测模块,用于:将所述关键词在所述对应关系表中对应的对象类别的第一级类别与所述待归类对象的第一级类别相比较,若不匹配,则将与所述关键词在所述对应关系表中对应的样本对象的第一级类别匹配的待归类对象的第一级类别设置为所述待归类对象的第一级类别。
[0030]较佳地,所述处理模块,具体用于:将所述样本对象的名称与词库中的词条进行匹配,得到第一组分词和第二组分词,所述第一组分词中包含的字串为所述样本对象的名称中与词条相匹配的字串,所述第二组分词中包含的字串为单字;将所述第一组分词和所述第二组分词中的无效字串进行过滤,得到关键词。
[0031]较佳地,所述匹配模块,用于:将所述待归类对象的名称与对应关系表中的关键词进行比对,若所述待归类对象的名称中包含关键词,则所述待归类对象的名称与所述关键词匹配成功。
[0032]较佳地,所述装置应用于金融服务系统,所述待归类对象为金融服务系统中的客户。
[0033]本发明实施例中,将样本对象的名称进行处理,得到关键词,同一样本对象的关键词与其类别相对应,由此可得到对应关系表,即可通过查找关键词,找到与之相对应的样本对象的类别。由此,可依据关键词将待归类对象按样本对象的分类方法进行进一步分类,具体为,将待归类对象的名称与关键词相匹配,若匹配成功,则表示待归类对象可被归类为该关键词代表的样本对象的类别,即将关键词对应的样本对象的类别作为该待归类对象的类别。因此,若待归类对象未被归类,样本对象已被分类,则可按照样本对象的分类方法对待归类对象进行分类;或样本对象具有至少二级类别,而待归类对象只有一级类别,则本发明实施例可依据样本对象的第二级类别对归为一级类别的待归类对象进行更细致的分类;再或者,样本对象和待归类对象进行相同级别的分类,但待归类对象的类别的分类颗粒度大于样本对象的类别的分类颗粒度,则可将样本对象的类别作为待分类对象的类别,从而满足待归类对象的分类要求。
【附图说明】
[0034]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0035]图1为本发明实施例中分类方法的流程图;
[0036]图2为本发明实施例的应用场景的示意图;
[0037]图3为本发明实施例中商户分类方法的流程图;
[0038]图4为本发明实施例中商户分类方法的对应关系表建立的流程图;
[0039]图5为本发明实施例中又一商户分类方法的对应关系表建立的流程图;
[0040]图6为本发明实施例中又一商户分类方法的流程图;
[0041]图7为本发明实施例中分类装置的结构图。
【具体实施方式】
[0042]为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0043]为了将未细分的对象进行更细致的分类,本发明实施例提供了一种分类方法,该方法的流程如图1所示,包括:
[0044]SlOl:获取待归类对象的名称;
[0045]S102:将所述待归类对象的名称与对应关系表中的关键词进行匹配,若匹配成功,则执行步骤S103 ;
[0046]S103:获取所述对应关系表中与所述待归类对象的名称相匹配的关键词所对应的对象类别,所述对应关系表用于存储关键词与对象类别的对应关系;
[0047]S104:将获取到的对象类别确定为所述待归类对象的类别。
[0048]其中,所述对应关系表由以下方式得到:
[0049]获取样本对象的名称以及所述样本对象的类别;
[0050]根据所述样本对象的名称得到关键词,根据得到的关键词与对应的样本对象的类别,得到所述对应关系表。
[0051]本发明实施例中,将样本对象的名称进行处理,得到关键词,同一样本对象的关键词与其类别相对应,由此可得到对应关系表,即可通过查找关键词,找到与之相对应的样本对象的类别。由此,可依据关键词将待归类对象按样本对象的分类方法进行进一步分类,具体为,将待归类对象的名称与关键词相匹配,若匹配成功,则表示待归类对象可被归类为该关键词代表的样本对象的类别,即将关键词对应的样本对象的类别作为该待归类对象的类别。因此,若待归类对象未被归类,样本对象已被分类,则可按照样本对象的分类方法对待归类对象进行分类;或样本对象具有至少二级类别,而待归类对象只有一级类别,则本发明实施例可依据样本对象的至少二级类别对归为一级类别的待归类对象进行更细致的分类;再或者,样本对象具有二级类别,待归类对象也具有二级类别,但待归类对象的第二级类别的分类颗粒度大于样本对象的第二级类别的分类颗粒度,则可将样本对象的第二级类别作为待分类对象的第二级类别,从而满足待归类对象的分类要求。
[0052]在上述分类方法中,若所述待归类对象已被初始归类,且初始归类为N级类别,从第一级至第N级类别范围依次缩小;所述对应关系表中的对象类别具有M级类别,从第一级至第M级类别范围依次缩小,其中M ^ N,且所述对应关系表中的对象类别中第k级类别的颗粒度小于初始归类的第k级类别的颗粒度,Kk^M;
[0053]则步骤S104包括:将与所述待归类对象的名称相匹配的关键词在所述对应关系表中对应的对象类别中的第N+P级类别至第M级类别,确定为所述待归类对象的第N+P级类别至第M级类别,O彡P彡M-N。
[0054]举例来说,待归类对象已具有二级类别,而对应关系表中的对象类别具有三级类另IJ,且对应关系表中的第二级类别的分类颗粒度小于初始归类的第二级类别的分类颗粒度,即对应关系表中的第二级类别比初始归类的第二级类别的分类更为细致,则若待归类对象的名称与对应关系表中的关键词匹配成功,则可将对应关系表中的关键词对应的对象类别的第二级类别和第三级类别,确定为待归类对象的第二级类别和第三级类别。同时,待归类对象的原第一级类别保持不变。
[0055]按上述方法将待归类对象进行更细致的分类后,还可过根据新的分类对待归类对象的原分类进行检测,具体为:将所述关键词在所述对应关系表中对应的对象类别的第一级类别与所述待归类对象的第一级类别相比较,若不匹配,则将与所述关键词在所述对应关系表中对应的样本对象的第一级类别匹配的待归类对象的第一级类别设置为所述待归类对象的第一级类别。
[0056]由于待归类对象已具有二级类别,可根据与待归类对象相匹配的关键词在对应关系表中对应的第一级类别对待归类对象的原第一级类别进行校正,若两者匹配,则表示待归类对象的原第一级类别无误,保持不变;若两者不匹配,则表示待归类对象的原第一级类别有误,需对待归类对象进行检测,将与对应关系表中的第一级类别相匹配的待归类对象的第一级类别设置为待归类对象的第一级类别。
[0057]较佳地,根据所述样本对象的名称得到关键词,具体包括:将所述样本对象的名称与词库中的词条进行匹配,得到第一组分词和第二组分词,所述第一组分词中包含的字串为所述样本对象的名称中与词条相匹配的字串,所述第二组分词中包含的字串为单字;将所述第一组分词和所述第二组分词中的无效字串进行过滤,得到关键词。
[0058]即将样本对象的名称进行分词,然后进行数据清洗,得到关键词。具体来说,将样本对象的名称与词库中的词条进行匹配,将样本对象的名称中与词库中的某些词条匹配成功的词组放入第一组分词中,剩下样本对象的名称中未匹配成功的则拆为单字,放入第二组分词中。然后对分词结果进行数据清洗,将分词结果中的无效字段、符号、乱码和通用词语等删去,从而得到关键词。
[0059]此外,较佳地,步骤S102可以包括:将所述待归类对象的名称与对应关系表中的关键词进行比对,若所述待归类对象的名称中包含关键词,则所述待归类对象的名称与所述关键词匹配成功。
[0060]本发明实施例的应用场景为金融服务系统,所述待归类对象为金融服务系统中的客户,可以适用于对金融行业中的商户进行更细致的分类,所适用的系统架构如图2所示,包括第一网站服务器101、第二网站服务器102、商户分类装置103以及内部数据库104。第一网站服务器101和第二网站服务器102为已将商户进行细致分类的网站,可从网站服务器上获取样本商户信息;内部数据库104中存储的是按MCC码进行归类的商户信息,如银行内部的数据库。
[0061]具体的,第一网站服务器101和第二网站服务器102可为代表不同商业领域的服务器,如第一网站服务器101内包含的商户为餐饮服务业的,第二网站服务器102内包含的商户为零售业的;第一网站服务器101和第二网站服务器102也可以都是电商服务平台,SP包含多个商业领域,如淘宝、大众点评等。网站服务器的数量和类型本实施例中均不做具体规定,以实际使用情况来定。
[0062]商户分类装置103获取第一网站服务器101和第二网站服务器102的商户分类信息作为样本商户信息,对样本商户的名称进行处理得到关键词,根据关键词和样本商户的类别建立对应关系表;从内部数据库104获取待识别的商户信息,将其与对应关系表中的关键词进行匹配处理,匹配成功后,更新内部数据库104中待识别的商户的类别信息。
[0063]为了将金融行业中按照MCC码进行分类的商户进行进一步地细分类,本发明实施例提供了一种商户分类的方法,该方法的流程如图3所示,可以包括如下步骤:
[0064]S201、获取待归类商户的名称;
[0065]S202、将待归类商户名称与对应关系中的关键词进行匹配,若匹配成功则执行步骤 S203 ;
[0066]S203、获取对应关系表中与待归类商户的名称相匹配的关键词所对应的商户类别;
[0067]S204、将获取到的商户类别确定为待归类商户的类别。
[0068]其中,对应关系表由以下步骤获得,如图4:
[0069]S301、获取样本商户的信息,所述样本商户信息中包括商户的名称和商户的类别;
[0070]S302、处理样本商户信息中的商户的名称,得到关键词,根据关键词与对应的样本商户的类别,得到对应关系表。
[0071]现有技术中,某些行业内部,如银行,是按照MCC码对商户进行分类,商户的类别很少,难以满足现阶段商户分类的要求。本发明实施例中,通过获取其它的商户分类方式,将按照MCC码进行粗分类的商户按照获取到的分类方式进一步地细分类,具体可以有两种处理方式:一种是将按照MCC码分类的商户类别作为一级类别,将获取到的其它的商户分类作为该商户一级类别下的二级类别,甚至三级、四级更多级别的类别,由此在原有的商户分类基础上,对商户进行更详细的分类,细化了商户的类别,增加了商户数据的价值,可以挖掘出更多更有用的商户信息。另一种可以将获取到的其它的商户分类方式作为按照MCC码分类的补充,通过引入其它的商户类别,增加了银行等行业内部的商户的分类方式,丰富了商户的分类,丰富了对商户进行分析的参考信息。
[0072]在步骤S201中,具体获取样本的商户信息的方式可以为,通过API (应用程序编程接口,Applicat1n Programming Interface),导入样本商户的信息。API是一些预先定义的函数,目的是为应用程序和/或开发者提供基于某软件或硬件得以访问一组例程的能力,而开发者无需访问源码或理解内部工作机制的细节。
[0073]基于互联网的应用正变得越来越普及,有更多的站点将自身的资源开放给开发者来调用。如大众点评中已对商户进行了细致的分类,以餐饮业为例,在大众点评中分类为“美食”,“美食”分类下有“江浙菜”、“川菜”、“日本菜”、“西餐”等细分类,即商户与分类已相对应,每个餐饮类的商户已进行详细分类,而每个餐饮类的详细分类下有多个商户,这种对应可以是商户名称与商户类别的对应。本发明实施例通过API,将大众点评中的商户名称和与之对应的商户类别进行下载,获取样本商户的信息,如“苏浙汇(东方路店)”对应的分类为“江浙菜”,将“苏浙汇(东方路店)”、“美食”、“江浙菜”作为一条商户信息进行保存。
[0074]进一步地,步骤S202可以为:将样本商户的名称与词库中的词条进行匹配,将样本商户名称中匹配成功的字串作为一组分词,将匹配失败的字串分成单字作为一组分词;根据预设的无效字段清洗每组分词,将符合所述无效字段的组分词删除;将清洗后的组分词作为关键词。
[0075]仍以“苏浙汇(东方路店)”为例。首先,将商户名称“苏浙汇(东方路店)”进行分词,具体可以使用现有的分词软件,如街霸中文分词,将“苏浙汇(东方路店)”与词库中的词条进行匹配,如词库中之前已收录“苏浙汇”这一词条,则将“苏浙汇”作为一组分词,分词结果为“苏浙汇”、“东方路”、“店”,将此作为情况I ;若为情况2,即词库中未收录“苏浙汇”这一词条,则将“苏”、“浙”、“汇”分别作为一组分词,分词结果为“苏”、“浙”、“汇”、“东方路”、“店”。接着,对分词结果进行数据清洗,即根据预设的无效字段清洗每组分词,将分词中的无效字段、符号、通用词语等删去,如“苏浙汇(东方路店)”中,可将“东方路”、“店”、“汇”这类通用词语删去,同时删去商户名称中的括号等符号。最后,情况I中留下的组分词为“苏浙汇”,作为关键词;情况2中留下的组分词为“苏”、“浙”,即为关键词,即“苏浙汇”或“苏”、“浙”与商户类别“江浙菜”相对应。
[0076]之后,步骤S204中,将待识别商户的名称与各关键词进行匹配,可以包括:将待识别商户的名称与关键词进行比对,若待识别的商户的名称中包含关键词,则待识别的商户的名称与所述关键词匹配成功。
[0077]具体来说,步骤S202中将商户的名称进行分词和数据清洗后形成关键词,通过步骤S204将关键词与银行内部存储的商户的名称进行比对。在情况I中,将“苏浙汇”与银行内部存储的商户的名称进行对比,如银行内部存储的商户的名称为“南京东路苏浙汇”,其中包含“苏浙汇”这一组分词,则表明该商户的名称与“苏浙汇”这一关键词匹配成功。或者在情况2中,如银行内部存储的商户的名称为“大连路姑苏小菜”,其中包含“苏”这一分词,表明该商户的名称与“苏”这一关键词匹配成功。
[0078]相应地,银行内部存储的待识别商户的名称与关键词匹配成功后,则可将关键词对应的商户的至少第二级类别做为待识别商户的类别,即在情况I中,关键词“苏浙汇”对应的商户类别为“美食”、“江浙菜”,则将“江浙菜”作为“南京东路苏浙汇”的二级类别。由此,“南京东路苏浙汇”的商户类别的一级类别为“餐饮业”,二级类别为“江浙菜”。同理,情况2中“大连路姑苏小菜”的一级类别为“餐饮业”,二级类别为“江浙菜”。
[0079]还有一种情况,如某个商户可以对应不止一个同级别的商户类别,例如银行内部存储的待识别的商户的名称为“五角场四川香天下火锅”,其中包含关键词“四川”、“火锅”,关键词“四川”对应商户类别“川菜”,关键词“火锅”对应商户类别“火锅”,则将“川菜”、“火锅”均作为“四川香天下火锅”的二级类别。进一步地,若商户具有三级类别、四级类别等更细致的分类类别,可将所有的分类类别均作为银行内部存储的待识别的商户的类别。
[0080]将待识别的商户进行新的分类之后,还可以利用新的分类对待识别商户的原有分类进行检验,具体可为:将所述待识别商户的第一级类别与关键词在对应关系表中对应的商户类别的第一级类别相比较,若不匹配,则与关键词在对应关系表中对应的样本商户的第一级类别设置为待识别的商户的第一级类别。
[0081]具体来说,首先可以建立一个第二对应关系表,即将样本商户的第一级类别和按MCC码分类的商户的第一级类别进行对应,将关键词与样本商户的类别的对应关系表作为第一对应关系表。若待识别商户的第一级类别与关键词在第一对应关系表中对应的第一级类别不匹配,则需查找第二对应关系表,找到关键词在第一对应关系表中对应的第一级类另Ij,所对应的按MCC码分类的商户的第一级类别,并替换原有的待识别商户的第一级类别。
[0082]举例来说,将待识别商户分类为某二级类别,如“江浙菜”,而银行内部存储的该待识别商户按MCC码进行分类的第一级类别为“零售业”,第二级类别“江浙菜”明显不是第一级类别“零售业”的细分类。因此需建立样本商户的第一级类别和按MCC码进行分类的第一级类别的对应表,如,将样本商户的第一级类别中的“美食”与按MCC码进行分类的第一级类别中的“餐饮业”相对应。通过查找上述对应表,将按MCC码进行分类的商户的第一级类别设置为与第一级类别“美食”对应的第一级类别“餐饮业”。通过以上方式,有效解决了MCC的套用问题,针对现有市场上商户套用MCC以降低刷卡手续费的现象,通过商户的名称是否包含细分类的关键词组,判断出该商户所属行业,可以有效防范商户MCC套用。另一种处理方法可以是,待识别的商户与关键词相匹配得出的第一级分类为“美食”,而银行内部存储的一级分类为“零售业”,两者不一致,则需更改该商户的第一级分类。
[0083]为了更清楚地理解本发明,下面以具体实例对上述流程进行详细描述,可以包括建立对应关系表和进行商户分类。建立对应关系表的具体流程如图5所示:
[0084]S401、通过大众点评网的API,导入样本商户。如“望湘园(人民广场店)”,第一级类别为“美食”,第二级类别为“湘菜”。
[0085]S402、将获得的所有商户的名称与词库中的词条进行匹配,将匹配成功的字串作为一组分词,将匹配失败的单字作为一组分词,则“望湘园(人民广场店)”得到的分词为“望”、“湘”、“园”、“人民广场”、“店”。
[0086]S403、根据预设的无效字段清洗每组分词,将符合所述无效字段的组分词删除,SP将“望”、“园”、“人民广场”、“店”以及左右括号删去。
[0087]S404、将清洗后的组分词作为关键词,即将“湘”作为关键词,可代表第一级类别“美食”以及第二级类别“湘菜”。
[0088]S405、建立关键词与对应的样本商户的类别的对应关系表。
[0089]建立对应关系表后,可依据对应关系表对银行内部的商户进行进一步分类,如图6所示:
[0090]S501、获取待识别商户的名称,即商户分类装置103从银行内部数据库104中获取商户的名称,如“湘乐汇”。
[0091]S502、将待识别商户的名称与对应关系表的各关键词进行匹配,即将待识别商户的名称与关键词进行对比,若待识别商户的名称中包含步骤S304中得到的关键词,则表明匹配成功。如“湘乐汇”中包含了关键词“湘”,则表明商户的名称“湘乐汇”与“湘”匹配成功。
[0092]S503、将匹配成功的关键词在对应关系表中对应的第二级类别作为待识别商户的名称对应的第二级类别,即将第二级类别“湘菜”作为“湘乐汇”的第二级类别。
[0093]S504、通过待识别商户的第二级类别检验存储的待识别商户的第一级类别是否正确。
[0094]基于相同的技术构思,本发明实施例还提供一种分类装置,如图7所示,包括:获取模块1、匹配模块2、读取模块3、归类模块4和处理模块5 ;
[0095]获取模块1,用于获取待归类对象的名称;
[0096]匹配模块2,用于将所述待归类对象的名称与对应关系表中的关键词进行匹配;
[0097]读取模块3,用于当所述待归类对象的名称与所述对应关系表中的关键词匹配成功后,获取所述对应关系表中与所述待归类对象的名称相匹配的关键词所对应的对象类另IJ,所述对应关系表用于存储关键词与对象类别的对应关系;
[0098]归类模块4,用于将获取到的对象类别确定为所述待归类对象的类别;
[0099]其中,所述对应关系表由以下方式得到:
[0100]获取模块I获取样本对象的名称以及所述样本对象的类别;
[0101]处理模块5根据所述样本对象的名称得到关键词,根据得到的关键词与对应的样本对象的类别,得到所述对应关系表。
[0102]较佳地,所述待归类对象已被初始归类,且初始归类为N级类别,从第一级至第N级类别范围依次缩小;所述对应关系表中的对象类别具有M级类别,从第一级至第M级类别范围依次缩小,其中M ^ N,且所述对应关系表中的对象类别中第k级类别的颗粒度小于初始归类的第k级类别的颗粒度,Kk^M;
[0103]归类模块4,还用于将与所述待归类对象的名称相匹配的关键词在所述对应关系表中对应的对象类别中的第N+P级类别至第M级类别,确定为所述待归类对象的第N+P级类别至第M级类别,O彡P彡M-N。
[0104]较佳地,装置还包括检测模块,用于:将所述关键词在所述对应关系表中对应的对象类别的第一级类别与所述待归类对象的第一级类别相比较,若不匹配,则将与所述关键词在所述对应关系表中对应的样本对象的第一级类别匹配的待归类对象的第一级类别设置为所述待归类对象的第一级类别。
[0105]较佳地,所述处理模块5,具体用于:将所述样本对象的名称与词库中的词条进行匹配,得到第一组分词和第二组分词,所述第一组分词中包含的字串为所述样本对象的名称中与词条相匹配的字串,所述第二组分词中包含的字串为单字;将所述第一组分词和所述第二组分词中的无效字串进行过滤,得到关键词。
[0106]较佳地,匹配模块2,用于:将所述待归类对象的名称与对应关系表中的关键词进行比对,若所述待归类对象的名称中包含关键词,则所述待归类对象的名称与所述关键词匹配成功。
[0107]较佳地,所述装置应用于金融服务系统,所述待归类对象为金融服务系统中的客户。
[0108]从上述内容可以看出:本发明实施例中,将样本对象的名称进行处理,得到关键词,同一样本对象的关键词与其类别相对应,由此可得到对应关系表,即可通过查找关键词,找到与之相对应的样本对象的类别。由此,可依据关键词将待归类对象按样本对象的分类方法进行进一步分类,具体为,将待归类对象的名称与关键词相匹配,若匹配成功,则表示待归类对象可被归类为该关键词代表的样本对象的类别,即将关键词对应的样本对象的类别作为该待归类对象的类别。因此,若待归类对象未被归类,样本对象已被分类,则可按照样本对象的分类方法对待归类对象进行分类;或样本对象具有至少二级类别,而待归类对象只有一级类别,则本发明实施例可依据样本对象的第二级类别对归为一级类别的待归类对象进行更细致的分类;再或者,样本对象和待归类对象进行相同级别的分类,但待归类对象的类别的分类颗粒度大于样本对象的类别的分类颗粒度,则可将样本对象的类别作为待分类对象的类别,从而满足待归类对象的分类要求。
[0109]本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0110]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0111]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0112]尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0113]显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
【主权项】
1.一种分类方法,其特征在于,包括: 获取待归类对象的名称; 将所述待归类对象的名称与对应关系表中的关键词进行匹配,若匹配成功,则获取所述对应关系表中与所述待归类对象的名称相匹配的关键词所对应的对象类别,所述对应关系表用于存储关键词与对象类别的对应关系; 将获取到的对象类别确定为所述待归类对象的类别; 其中,所述对应关系表由以下方式得到: 获取样本对象的名称以及所述样本对象的类别; 根据所述样本对象的名称得到关键词,根据得到的关键词与对应的样本对象的类别,得到所述对应关系表。2.如权利要求1所述的方法,其特征在于,所述待归类对象已被初始归类,且初始归类为N级类别,从第一级至第N级类别范围依次缩小;所述对应关系表中的对象类别具有M级类别,从第一级至第M级类别范围依次缩小,其中M ^ N,且所述对应关系表中的对象类别中第k级类别的颗粒度小于初始归类的第k级类别的颗粒度,Kk^M; 所述将获取到的对象类别确定为所述待归类对象的类别,包括: 将与所述待归类对象的名称相匹配的关键词在所述对应关系表中对应的对象类别中的第N+P级类别至第M级类别,确定为所述待归类对象的第N+P级类别至第M级类别,O彡P彡M-N03.如权利要求2所述的方法,其特征在于,所述将与所述待归类对象的名称相匹配的关键词在所述对应关系表中对应的对象类别中的第N+P级类别至第M级类别,确定为所述待归类对象的第N+1级类别至第M级类别之后,还包括: 将所述关键词在所述对应关系表中对应的对象类别的第一级类别与所述待归类对象的第一级类别相比较,若不匹配,则将所述关键词在所述对应关系表中对应的样本对象的第一级类别设置为所述待归类对象的第一级类别。4.如权利要求1所述的方法,其特征在于,所述根据所述样本对象的名称得到关键词,具体包括: 将所述样本对象的名称与词库中的词条进行匹配,得到第一组分词和第二组分词,所述第一组分词中包含的字串为所述样本对象的名称中与词条相匹配的字串,所述第二组分词中包含的字串为单字; 将所述第一组分词和所述第二组分词中的无效字串进行过滤,得到关键词。5.如权利要求1所述的方法,其特征在于,所述将所述待归类对象的名称与对应关系表中的关键词进行匹配,包括: 将所述待归类对象的名称与对应关系表中的关键词进行比对,若所述待归类对象的名称中包含关键词,则所述待归类对象的名称与所述关键词匹配成功。6.如权利要求1至5任一所述的方法,其特征在于,所述方法应用于金融服务系统,所述待归类对象为金融服务系统中的客户。7.一种分类装置,其特征在于,包括:获取模块、匹配模块、读取模块、归类模块和处理丰吴块; 所述获取模块,用于获取待归类对象的名称; 所述匹配模块,用于将所述待归类对象的名称与对应关系表中的关键词进行匹配; 所述读取模块,用于当所述待归类对象的名称与所述对应关系表中的关键词匹配成功后,获取所述对应关系表中与所述待归类对象的名称相匹配的关键词所对应的对象类别,所述对应关系表用于存储关键词与对象类别的对应关系; 所述归类模块,用于将获取到的对象类别确定为所述待归类对象的类别; 其中,所述对应关系表由以下方式得到: 所述获取模块获取样本对象的名称以及所述样本对象的类别; 所述处理模块根据所述样本对象的名称得到关键词,根据得到的关键词与对应的样本对象的类别,得到所述对应关系表。8.如权利要求7所述的装置,其特征在于,所述待归类对象已被初始归类,且初始归类为N级类别,从第一级至第N级类别范围依次缩小;所述对应关系表中的对象类别具有M级类别,从第一级至第M级类别范围依次缩小,其中M ^ N,且所述对应关系表中的对象类别中第k级类别的颗粒度小于初始归类的第k级类别的颗粒度,Kk^M; 所述归类模块,还用于将与所述待归类对象的名称相匹配的关键词在所述对应关系表中对应的对象类别中的第N+P级类别至第M级类别,确定为所述待归类对象的第N+P级类别至第M级类别,O彡P彡M-N09.如权利要求8所述的装置,其特征在于,还包括检测模块,用于: 将所述关键词在所述对应关系表中对应的对象类别的第一级类别与所述待归类对象的第一级类别相比较,若不匹配,则将与所述关键词在所述对应关系表中对应的样本对象的第一级类别匹配的待归类对象的第一级类别设置为所述待归类对象的第一级类别。10.如权利要求7所述的装置,其特征在于,所述处理模块,具体用于: 将所述样本对象的名称与词库中的词条进行匹配,得到第一组分词和第二组分词,所述第一组分词中包含的字串为所述样本对象的名称中与词条相匹配的字串,所述第二组分词中包含的字串为单字; 将所述第一组分词和所述第二组分词中的无效字串进行过滤,得到关键词。11.如权利要求7所述的装置,其特征在于,所述匹配模块,用于: 将所述待归类对象的名称与对应关系表中的关键词进行比对,若所述待归类对象的名称中包含关键词,则所述待归类对象的名称与所述关键词匹配成功。12.如权利要求7至11任一所述的装置,其特征在于,所述装置应用于金融服务系统,所述待归类对象为金融服务系统中的客户。
【文档编号】G06Q50/12GK105989184SQ201510527902
【公开日】2016年10月5日
【申请日】2015年8月25日
【发明人】刘为怀
【申请人】中国银联股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1