本发明涉及互联网数据处理技术领域,具体涉及一种自动确定机构的所属行业类别的方法存储设备及终端。
背景技术:
机构(含企业、政府机构、事业单位等)的所属行业在判断一个机构的类型、经营状况、以及未来的发展趋势方面具有较高的参考价值,特别是在贷款资质考察和审批环节尤为重要。为了统一分类标准,国家颁布了《国民经济行业分类gb/t4754-2011》的国家标准,标准规定了全社会经济活动的分类与代码,共分为4个类别层次,分别是门类、大类、中类、小类,最细的层次(小类)共有1094个类别。具体到一个实际的机构,该如何准确的判定其属于哪个行业类别,属于目前业界研究的重要课题。
目前常见的机构行业分类信息,主要为政府有关部门(如工商管理局)在机构设立或年检的时候收集的信息,主要由机构自己进行申报,再由政府部门审核的方式完成。由于人工分类的主观性较强,加上申报人员对国标行业标准本身的理解程度不一样,导致不少机构被划分到了错误的行业类别,且人工分类的效率较低,需要花费较大的人力、物力、财力,给实际应用带来巨大的干扰。
因此,现有技术还有待于改进和发展。
技术实现要素:
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种自动确定机构的所属行业类别的方法存储设备及终端,旨在通过对机构的描述内容进行特征词提取,并将特征词在机构的描述内容中的位置作为用于确定机构所属行业类别的附加特征,根据预设的分类器组计算出经两次筛选后所剩下的特征词属于各行业类别的条件概率,结合附加特征综合分析,确定机构的所属行业类别,完成分类处理。提高了判别机构所属行业类别的准确度,提升了机构的行业类别分类效率,有效降低了机构被划分到错误行业类别的风险,确保了分类标准的统一。
本发明解决技术问题所采用的技术方案如下:
一种自动确定机构的所属行业类别的方法,其中,所述方法包括:
步骤a、获取机构的描述内容,对所述机构的描述内容进行分词处理,并构建词库;
步骤b、从所述词库中提取特征词,并将所述特征词在机构的描述内容中的位置特征作为用于确定机构所属行业类别的附加特征;
步骤c、分别计算所述特征词的熵值以及逆向文档频率idf值,对所述特征词进行两次筛选;
步骤d、根据预设的分类器组计算出经两次筛选后所剩下的特征词属于各行业类别的条件概率,同时结合所述附加特征综合分析,确定所述机构的所属行业类别,完成分类处理。
所述的自动确定机构的所属行业类别的方法,其中,所述步骤a之前还包括:
步骤s、预先设置用于计算出所述特征词属于各行业类别的条件概率的分类器组,所述分类器组包括:分类器1、分类器2……分类器n,每个分类器对应一个行业类别。
所述的自动确定机构的所属行业类别的方法,其中,所述分类器组是由训练样本集经两次筛选特征词后,根据朴素贝叶斯原理进行模型训练构建而成;每个分类器包含特征词与其对应的所属行业类别的概率关系。
所述的自动确定机构的所属行业类别的方法,其中,所述训练样本集为若干经人工分类且已核实过的机构信息;所述机构信息包括:各机构的描述内容与其对应的所属行业类别。
所述的自动确定机构的所属行业类别的方法,其中,所述步骤a具体包括:
步骤a1、获取输入的机构的描述内容,所述机构的描述内容为机构的名称、经营范围或其他描述;
步骤a2、对所述机构的描述内容采用逆向最大匹配法进行分词处理,并将经分词处理后获得的词汇构建成词库。
所述的自动确定机构的所属行业类别的方法,其中,所述步骤b具体包括:
步骤b1、根据布尔模型表示方法从所述词库中提取特征词;
步骤b2、获取提取的特征词在机构的描述内容中的位置特征,并将其作为用于确定机构所属行业类别的附加特征。
所述的自动确定机构的所属行业类别的方法,其中,所述步骤c具体包括:
步骤c1、计算提取的特征词的信息熵的大小,将熵值小的特征词筛除;
步骤c2、进一步计算经初步筛除后的特征词的逆向文档频率idf值,将idf值小的特征词筛除;计算idf值的公式为:
步骤c3、获取经两次筛除后所剩下的特征词。
所述的自动确定机构的所属行业类别的方法,其中,所述步骤d具体包括:
步骤d1、根据预设的分类器组计算经两次筛选后所剩下的特征词属于各行业类别的条件概率;
步骤d2、结合计算出的条件概率与所述附加特征进行综合分析,筛选出条件概率最大的行业类别且特征词的附加特征符合此行业类别的业务范围,则此行业类别为所述机构的所属行业类别;
步骤d3、根据所述机构的所属行业类别,自动将所述机构划分至对应的行业类别,完成分类处理。
一种存储设备,其上存储有多条指令,其中,所述指令适于由处理器加载并执行,以实现上述任一项所述自动切换键盘的方法。
一种终端,其中,包括:处理器、与处理器通信连接的存储设备,
所述存储设备适于存储多条指令,所述处理器适于调用所述存储设备中的指令,以执行实现上述任一项所述自动确定机构的所属行业类别的方法。
本发明的有益效果:本发明通过对机构的描述内容进行特征词提取,并将特征词在机构的描述内容中的位置作为用于确定机构所属行业类别的附加特征,根据预设的分类器组计算出经两次筛选后所剩下的特征词属于各行业类别的条件概率,结合附加特征综合分析,确定机构的所属行业类别,完成分类处理。提高了判别机构所属行业类别的准确度,提升了机构的行业类别分类效率,有效降低了机构被划分到错误行业类别的风险,确保了分类标准的统一。
附图说明
图1是本发明的自动确定机构的所属行业类别的方法的较佳实施例的流程图。
图2是本发明的自动确定机构的所属行业类别的终端装置的较佳实施例的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明的自动确定机构的所属行业类别的方法的较佳实施例的流程图。所述自动确定机构的所属行业类别的方法包括以下步骤:
步骤s100、获取机构的描述内容,对所述机构的描述内容进行分词处理,并构建词库。
较佳地,所述步骤s100具体包括:
步骤s101、获取输入的机构的描述内容,所述机构的描述内容为机构的名称、经营范围或其他描述;
步骤s102、对所述机构的描述内容采用逆向最大匹配法进行分词处理,并将经分词处理后获得的词汇构建成词库。
具体地,当用户输入某一机构的描述内容时,所述描述内容可以为机构的名称、经营范围或者其他描述,对所述机构的描述内容采用逆向最大匹配法进行分词处理。所谓分词处理就是将连续的字序列按照一定的规范切分成一个一个单独的词汇的过程。常用的中文分词处理方法有正向最大匹配法、逆向最大匹配法、最少切分、双向最大匹配法等,本发明采用逆向最大匹配法对所述机构的描述内容进行分词处理,可以分词更多的词汇。例如将“我不知道你在说什么”进行分词处理,如果使用正向最大匹配法进行分词处理的结果是:“我、不知道、你、在、说什么”,而使用逆向最大匹配法进行分词处理的结果是:“我、不、知道、你、在、说、什么”,由此可见,采用逆向最大匹配法可以切分出更多的词汇,提高分词的准确性,便于后续的识别与特征词的提取。
进一步地,将经过分词处理后获得的词汇构建成词库,例如上述例子中使用逆向最大匹配法进行分词处理的结果是:“我、不、知道、你、在、说、什么”,将这些词汇组成一个词库,便于后续的步骤中进行特征词汇的提取与筛选,给用户提供了方便。
步骤s200、从所述词库中提取特征词,并将所述特征词在机构的描述内容中的位置特征作为用于确定机构所属行业类别的附加特征。
较佳地,所述步骤s200具体包括:
步骤s201、根据布尔模型表示方法从所述词库中提取特征词;
步骤s202、获取提取的特征词在机构的描述内容中的位置特征,并将其作为用于确定机构所属行业类别的附加特征。
具体地,当经过分词处理后获得的词汇构建成词库之后,从所述词库中提取特征词。常用的提取特征词的方法有布尔模型表示法、向量空间模型表示法等,但是常用的布尔模型表示方法只是用最简单的0和1表示特征词,即文档中是否包含某个词汇,每个词与其它词之间具有同样的权重,当该文档中宝包含某个词汇则返回为真,即特征词为1。而向量空间模型表示方法一般采用tf-id(termfrequency–inversedocumentfrequency,一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度)归一化技术表示特征词,即同时考虑某个词汇在本文档出现的频率,和在其他文档出现的频率,词汇在本文档出现的次数越多,同时在所有文档中出现得越少,则该特征词的所能反映的文本特征越明显。
而在实际应用中,用于识别所述机构属于什么行业的文本信息主要集中在机构名称和经营范围,在实际业务中,机构的命名和经营范围的申报是严格按照政府机构的约定进行的,并且特征词在文本中出现的位置比其出现的次数等更有代表性,如:“华南理工大学”属于“普通高等教育”行业,但“华南理工大学大学城小卖部”属于“其他综合零售”行业,尽管后者的特征词“大学”出现了2次,但这个词在反映行业特征方面比不上出现在文本结尾的“小卖部”。由此可看出,通过确定某个词汇出现的次数来提取特征词并不准确,所以单使用布尔模型表示方法或者向量空间模型表示方法均不能满足要求。因此,本发明在利用布尔模型表示方法从所述词库中提取特征词之后,获取所述特征词在机构的描述内容中的位置特征,并将其作为用于确定机构所属行业类别的附加特征。
具体地,01表示所述特征词在机构的描述内容中处于开头位置;02表示所述特征词在机构的描述内容中处于非开头的前50%的位置;03表示所述特征词在机构的描述内容中处于非结尾的后50%的位置;
04表示所述特征词在机构的描述内容中处于结尾位置。例如上述例子中,“华南理工大学”的特征词“大学”的位置特征为“大学04”。
将特征词在机构的描述内容中的位置特征作为特征词的一部分,有利于增加提取特征词的精确性,避免提取错误的特征词,使得在后续的步骤中更好的确定所述特征词所对应的行业类别。
步骤s300、分别计算所述特征词的熵值以及逆向文档频率idf值,对所述特征词进行两次筛选。
较佳地,所述步骤s300具体包括:
步骤s301、计算提取的特征词的信息熵的大小,将熵值小的特征词筛除;
步骤s302、进一步计算经初步筛除后的特征词的逆向文档频率idf值,将idf值小的特征词筛除;计算idf值的公式为:
步骤s303、获取经两次筛除后所剩下的特征词。
具体地,当所述特征词被提取之后,对所述特征词计算信息熵(某种特定信息的出现概率),熵值越大则代表该特词在文本中越重要,所以,本发明将熵值小的特征词初步筛除。为了提高特征词提取的准确性,以便能够准确地判定机构的所属行业类别,本发明对经过初步筛选的特征词进行二次筛选,二次筛选的方法采用计算特征词的逆向文档频率idf(inversedocumentfrequency,指某一个特定的词语在该文件中出现的频率)值,常用的计算idf公式为:
步骤s400、根据预设的分类器组计算出经两次筛选后所剩下的特征词属于各行业类别的条件概率,同时结合所述附加特征综合分析,确定所述机构的所属行业类别,完成分类处理。
较佳地,所述步骤s400具体包括:
步骤s401、根据预设的分类器组计算经两次筛选后所剩下的特征词属于各行业类别的条件概率;
步骤s402、结合计算出的条件概率与所述附加特征进行综合分析,筛选出条件概率最大的行业类别且特征词的附加特征符合此行业类别的业务范围,则此行业类别为所述机构的所属行业类别;
步骤s403、根据所述机构的所属行业类别,自动将所述机构划分至对应的行业类别,完成分类处理。
具体地,当提取的特征词经过两次筛选后,根据预先设置的分类器组分别计算经两次筛选后所剩下的特征词属于各行业类别的条件概率。较佳地,本发明在步骤s100之前还包括:
步骤s、预先设置用于计算出所述特征词属于各行业类别的条件概率的分类器组,所述分类器组包括:分类器1、分类器2……分类器n,每个分类器对应一个行业类别;
所述分类器组是由经两次筛选特征词的训练样本集根据朴素贝叶斯原理进行模型训练构建而成;
所述训练样本集为若干经人工分类且已核实过的机构信息,所述机构信息包括:各机构的描述内容与其对应的所属行业类别。
进一步具体地,预先从数据系统中选取若干经人工分类且已核实过的机构信息,所述机构信息包括:各机构的描述内容与其对应的所属行业类别,将这些已经确定了行业类别的机构信息作为模型训练的训练样本集。同样地,分别对每个机构的描述内容进行分词处理和特征词的提取,此处分词处理的方式同样采用逆向最大匹配法,特征词的提取方式同样采用布尔模型表示方法并将特征词在机构的描述内容中的位置特征作为用于确定机构所属行业类别的附加特征。特征词提取后,对提取的特征词进行两次筛选,两次筛选的方式同样与上述步骤s300中的一样,分别计算特征词的信息熵与idf值,筛选出最具代表性的特征词。最后根据朴素贝叶斯原理对经两次筛选特征词的训练样本集进行模型训练,从而构建多个分类器,包括分类器1、分类器2……分类器n,每个分类器对应一个行业类别;使得每个分类器包含特征词与其所属行业类别的概率关系。具体的所述朴素贝叶斯原理为:设
,根据上述公式就可计算出特征词在个属于各行业类别的条件概率。通过构建若干个分类器,使得可以快速的分析出特征词属于各行业的条件概率。
较佳地,为了更加准确的判别出筛选出的最具代表性的特征词的所属行业类别,本发明在计算条件概率后,结合计算出的条件概率与所述特征词在机构描述内容中的的位置特征(即附加特征)进行综合分析,筛选出条件概率最大的行业类别且特征词的附加特征符合此行业类别的业务范围,则判定此行业类别就为所述机构的所属行业类别。例如,要需要确定“华南理工大学”的行业类别,经两次筛选后的特征词为“大学”,通过分类器计算其属于“普通高等教育”行业的条件概率最大,并且附加特征“大学04”与“普通高等教育”行业的业务范围相吻合,所以确定“普通高等教育”行业就为“华南理工大学”的所属行业类别。通过计算特征词属于各行业的条件概率,并结合附加特征进行综合分析,可以准确的判断所述机构的行业类别,增加了判别的准确度。根据确定的所述机构的所属行业类别,自动将所述机构划分至对应的行业类别,完成分类处理。
具体地,根据实际的应用,通过本发明可实现:
(1)效率提升:针对已经人工分类好的200万笔机构名称和经营范围进行模型训练,按照数据来源(2个,机构名称和经营范围)、行业等级(4个等级,门类、大类、中类和小类)共训练8个模型,由优化前的约24小时缩减到约12个小时(使用同样的训练程序及计算机资源)。
(2)分类效果提升:随机抽取5000个人工分类的机构信息,对比本发明和人工分类的结果,准确率由优化前的54%提升到了76%,同时,在整个系统中加入业务经验判断规则环节,可以达到85%的分类准确率,符合实际业务应用要求。
基于上述实施例,本发明还公开了一种终端。如图2所示,包括:处理器(processor)10、与处理器连接的存储设备(memory)20;其中,所述处理器10用于调用所述存储设备20中的指令,以执行上述实施例所提供的方法,例如执行:
步骤s100、获取机构的描述内容,对所述机构的描述内容进行分词处理,并构建词库;
步骤s200、从所述词库中提取特征词,并将所述特征词在机构的描述内容中的位置特征作为用于确定机构所属行业类别的附加特征;
步骤s300、分别计算所述特征词的熵值以及逆向文档频率idf值,对所述特征词进行两次筛选;
步骤s400、根据预设的分类器组计算出经两次筛选后所剩下的特征词属于各行业类别的条件概率,同时结合所述附加特征综合分析,确定所述机构的所属行业类别,完成分类处理。
本发明实施例还提供一种存储设备,所述存储设备上存储计算机指令,所述计算机指令使所述计算机执行上述实施例所提供的方法。
综上所述,本发明提供的一种自动确定机构的所属行业类别的方法存储设备及终端,方法包括:获取机构的描述内容,对机构的描述内容进行分词处理,并构建词库;从词库中提取特征词,并将特征词在机构的描述内容中的位置特征作为用于确定机构所属行业类别的附加特征;分别计算特征词的熵值以及逆向文档频率idf值,对特征词进行两次筛选;根据预设的分类器组计算出经两次筛选后所剩下的特征词属于各行业类别的条件概率,同时结合附加特征综合分析,从而确定机构的所属行业类别,完成分类处理。本发明通过对机构的描述内容进行特征词提取,并将特征词在机构的描述内容中的位置作为用于确定机构所属行业类别的附加特征,根据预设的分类器组计算出经两次筛选后所剩下的特征词属于各行业类别的条件概率,结合附加特征综合分析,确定机构的所属行业类别,完成分类处理。提高了判别机构所属行业类别的准确度,提升了机构的行业类别分类效率,有效降低了机构被划分到错误行业类别的风险,确保了分类标准的统一。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。