战略性新兴产业分类方法及装置、存储介质和电子设备与流程

文档序号:29932220发布日期:2022-05-07 13:00阅读:108来源:国知局
战略性新兴产业分类方法及装置、存储介质和电子设备与流程

1.本发明涉及信息分类技术领域,特别是涉及一种战略性新兴产业分类方法及装置、计算机可读存储介质和电子设备。


背景技术:

2.战略性新兴产业是以重大技术突破和重大发展需求为基础,对经济社会全局和长远发展具有重大引领带动作用,知识技术密集、物质资源消耗少、成长潜力大、综合效益好的产业,包括:新一代信息技术产业、高端装备制造产业、新材料产业、生物产业、新能源汽车产业、新能源产业、节能环保产业、数字创意产业、相关服务业等9大领域。《战略性新兴产业分类(2018)》为战略性新兴产业的分类提供了标准和依据。
3.目前,一般通过专家对企业的战略性新兴产业类别进行人工标注,一方面,人工标注对专家的依赖度强,需要专家具有充足的领域知识;另一方面,标注难度较大,耗时耗力,成本较高。


技术实现要素:

4.有鉴于此,本技术实施例为解决背景技术中存在的至少一个问题而提供一种战略性新兴产业分类方法及装置、计算机可读存储介质和电子设备。
5.第一方面,本技术一实施例提供了一种战略性新兴产业分类方法,所述方法包括:
6.获取待分类的企业的相关信息;
7.根据所述相关信息,获得所述企业的战略性新兴产业分类的分类结果;其中,获得所述分类结果包括:
8.将所述相关信息输入经过训练的识别模型中,基于所述经过训练的识别模型获得所述分类结果;和/或,
9.基于分类规则对所述相关信息进行分类,获得所述分类结果;所述分类规则根据战略性新兴产业分类的分类体系而确定。
10.结合本技术的第一方面,在一可选实施方式中,所述获得所述分类结果具体包括:
11.将所述相关信息输入经过训练的识别模型中,基于所述经过训练的识别模型获得第一分类结果;所述第一分类结果包括与所述企业对应的战略性新兴产业分类的分类类别或第一信息,所述第一信息表征没有获得与所述企业对应的战略性新兴产业分类的分类类别;
12.对应于所述第一分类结果包括所述第一信息的情况,基于分类规则对所述相关信息进行分类,获得第二分类结果。
13.结合本技术的第一方面,在一可选实施方式中,所述基于分类规则对所述相关信息进行分类,获得所述分类结果,包括:
14.基于语义相似度模型确定与所述相关信息的相似度满足预设条件的战略性新兴产业分类的分类类别,根据所述分类类别获得所述分类结果;和/或,
15.根据战略性新兴产业分类的分类体系,确定至少一个满足分类要求的频繁项集;基于确定的所述频繁项集对所述相关信息进行分类,获得所述分类结果。
16.结合本技术的第一方面,在一可选实施方式中,所述基于分类规则对所述相关信息进行分类,获得所述分类结果,具体包括:
17.基于语义相似度模型确定与所述相关信息的相似度满足预设条件的战略性新兴产业分类的分类类别,根据所述分类类别获得第三分类结果;所述第三分类结果包括与所述企业对应的战略性新兴产业分类的分类类别或第三信息,所述第三信息表征没有获得与所述企业对应的战略性新兴产业分类的分类类别;对应于所述第三分类结果包括与所述企业对应的战略性新兴产业分类的分类类别的情况,将所述第三分类结果确定为第二分类结果;
18.对应于所述第三分类结果包括所述第三信息的情况,根据战略性新兴产业分类的分类体系,确定至少一个满足分类要求的频繁项集;基于确定的所述频繁项集对所述相关信息进行分类,获得第四分类结果;所述第四分类结果包括与所述企业对应的战略性新兴产业分类的分类类别或第四信息,所述第四信息表征没有获得与所述企业对应的战略性新兴产业分类的分类类别;对应于所述第四分类结果包括与所述企业对应的战略性新兴产业分类的分类类别的情况,将所述第四分类结果确定为第二分类结果。
19.结合本技术的第一方面,在一可选实施方式中,所述基于语义相似度模型确定与所述相关信息的相似度满足预设条件的战略性新兴产业分类的分类类别,根据所述分类类别获得所述分类结果,包括:
20.基于第一语义相似度模型确定与所述相关信息的相似度满足预设条件的战略性新兴产业分类的第一分类类别;
21.基于第二语义相似度模型确定与所述相关信息的相似度满足预设条件的战略性新兴产业分类的第二分类类别;
22.根据所述第一分类类别和所述第二分类类别确定第三分类结果;所述第三分类结果包括与所述企业对应的战略性新兴产业分类的分类类别或第三信息,所述第三信息表征没有获得与所述企业对应的战略性新兴产业分类的分类类别;
23.其中,对应于所述第一分类类别和所述第二分类类别存在交集的情况,所述第三分类结果包括与所述企业对应的所述战略性新兴产业分类的分类类别且所述战略性新兴产业分类的分类类别根据所述交集确定;对应于所述第一分类类别和所述第二分类类别不存在交集的情况,所述第三分类结果包括所述第三信息;
24.其中,对应于所述第三分类结果包括与所述企业对应的战略性新兴产业分类的分类类别的情况,将所述第三分类结果确定为第二分类结果。
25.结合本技术的第一方面,在一可选实施方式中,所述获得所述分类结果还包括:
26.基于人为预设规则对所述相关信息进行分类,获得第五分类结果;所述第五分类结果包括与所述企业对应的战略性新兴产业分类的分类类别或第五信息,所述第五信息表征没有获得与所述企业对应的战略性新兴产业分类的分类类别;
27.对应于所述第五分类结果包括与所述企业对应的战略性新兴产业分类的分类类别的情况,将所述第五分类结果作为确定的分类结果进行输出。
28.结合本技术的第一方面,在一可选实施方式中,所述第二分类结果包括与所述企
业对应的战略性新兴产业分类的分类类别或第二信息,所述第二信息表征没有获得与所述企业对应的战略性新兴产业分类的分类类别;
29.对应于所述第五分类结果包括所述第五信息,且所述第二分类结果包括与所述企业对应的战略性新兴产业分类的分类类别的情况,将所述第二分类结果作为确定的分类结果进行输出;
30.对应于所述第五分类结果包括所述第五信息,所述第二分类结果包括所述第二信息,且所述第一分类结果包括与所述企业对应的战略性新兴产业分类的分类类别的情况,将所述第一分类结果作为确定的分类结果进行输出;
31.对应于所述第五分类结果包括所述第五信息,所述第二分类结果包括所述第二信息,且所述第一分类结果包括所述第一信息的情况,所述分类结果为所述企业不属于战略性新兴产业。
32.结合本技术的第一方面,在一可选实施方式中,所述相关信息包括以下至少之一:企业名称、经营范围、简介。
33.结合本技术的第一方面,在一可选实施方式中,所述相关信息包括:企业名称、经营范围和简介;所述经过训练的识别模型包括经过训练的bert模型;在所述经过训练的bert模型中包括分别对应于所述企业名称、所述经营范围和所述简介的三个不同的segment embedding。
34.结合本技术的第一方面,在一可选实施方式中,所述将所述相关信息输入经过训练的识别模型中,基于所述经过训练的识别模型获得所述分类结果,包括:
35.将所述相关信息输入经过训练的识别模型中,经过输入嵌入,得到所述相关信息的各文本块的向量表示;
36.对所述各文本块的向量表示使用平均池化层进行处理,得到处理后的向量;根据所述处理后的向量进行分类,获得所述分类结果。
37.结合本技术的第一方面,在一可选实施方式中,所述经过训练的识别模型包括经过训练的bert模型;所述经过训练的bert模型的预训练过程包括:领域自适应预训练和/或任务自适应预训练。
38.结合本技术的第一方面,在一可选实施方式中,所述经过训练的bert模型的预训练过程包括任务自适应预训练;所述任务自适应预训练基于国民经济行业分类的标签信息进行。
39.第二方面,本技术一实施例提供了一种战略性新兴产业分类装置,包括:
40.获取模块,配置为获取待分类的企业的相关信息;
41.分类模块,配置为根据所述相关信息,获得所述企业的战略性新兴产业分类的分类结果;其中,获得所述分类结果包括:
42.将所述相关信息输入经过训练的识别模型中,基于所述经过训练的识别模型获得所述分类结果;和/或,
43.基于分类规则对所述相关信息进行分类,获得所述分类结果;所述分类规则根据战略性新兴产业分类的分类体系而确定。
44.第三方面,本技术一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令由电子设备的处理器执行时,使得所述电子设备能够执行
上述实施例中任意一项提供的战略性新兴产业分类方法。
45.第四方面,本技术一实施例提供了一种电子设备,所述电子设备包括:
46.处理器;
47.用于存储计算机可执行指令的存储器;
48.所述处理器,用于执行所述计算机可执行指令,以实现上述实施例中任意一项所述的战略性新兴产业分类方法。
49.本技术实施例所提供的战略性新兴产业分类方法及装置、计算机可读存储介质和电子设备,通过获取待分类的企业的相关信息;根据相关信息,获得企业的战略性新兴产业分类的分类结果;其中,获得分类结果包括:将相关信息输入经过训练的识别模型中,基于经过训练的识别模型获得分类结果;和/或,基于分类规则对相关信息进行分类,获得分类结果;分类规则根据战略性新兴产业分类的分类体系而确定;如此,根据待分类的企业的相关信息,实现对企业战略性新兴产业的自动分类,速度快,准确性高,大大节省了人力成本。
50.本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。
附图说明
51.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
52.图1为本技术一实施例提供的战略性新兴产业分类方法的应用场景示意图;
53.图2为本技术一实施例提供的战略性新兴产业分类方法的流程示意图;
54.图3为本技术一实施例提供的包含有待分类的企业的相关信息的网页页面图;
55.图4a为战略性新兴产业分类中除新材料产业以外的类别代码结构的示意图;
56.图4b为战略性新兴产业分类中新材料产业代码结构的示意图;
57.图5为一具体示例提供的战略性新兴产业分类方法的流程示意图;
58.图6为一具体示例提供的bert模型的框架结构示意图;
59.图7为本技术一实施例提供的战略性新兴产业分类装置的结构示意图;
60.图8为本技术一实施例提供的电子设备的结构示意图。
具体实施方式
61.为使本发明的技术方案和有益效果能够更加明显易懂,下面通过列举具体实施例的方式,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
62.本技术实施例提供的战略性新兴产业方法具体可以应用在电子设备中,该电子设备可以是终端或服务器等设备。
63.可以理解的是,本技术实施例提供的战略性新兴产业分类方法可以是在终端设备上执行,也可以是在服务器上执行,还可以由终端设备和服务器共同执行。以上举例不应理解为对本技术的限制。
64.图1所示为本技术一实施例提供的战略性新兴产业分类方法的应用场景示意图。
以终端设备和服务器共同执行战略性新兴产业分类方法为例,图1示出的场景包括服务器10以及与服务器10通信连接的终端设备20。示例性地,在实际应用过程中,终端设备20可以接收用户输入的指令,并将接收的指令发送至服务器10;该指令例如包括用于指示获得针对某企业的战略性新兴产业分类的分类结果的指令。服务器10用于获取待分类的企业的相关信息;根据相关信息,获得企业的战略性新兴产业分类的分类结果;并将分类结果输出至终端设备20;终端设备20可以基于接收到的分类结果进行相应的展示,从而呈现给用户。
65.终端设备20可以包括手机、智能电视、平板电脑、笔记本电脑、个人计算机(pc,personal computer)、可穿戴设备、或车载计算机等。终端设备20上还可以设置客户端,该客户端可以是应用程序客户端或者浏览器客户端等等。
66.下面,对本技术一实施例提供的战略性新兴产业分类方法进行简单的介绍。
67.图2所示为本技术一实施例提供的战略性新兴产业分类方法的流程示意图。如图所示,本技术实施例提供的战略性新兴产业分类方法包括如下步骤:
68.步骤210,获取待分类的企业的相关信息。
69.这里,步骤210可以通过电子设备执行。具体的,电子设备可以根据该企业的某一方面或某几方面信息而在网络上获取全部所需的相关信息;电子设备也可以获取由用户输入的待分类的企业的相关信息。
70.待分类的企业的相关信息可以包括以下至少之一:企业名称、经营范围、简介。在具体应用中,相关信息例如包括:企业名称、经营范围和简介。应当理解,本技术并不限于此,相关信息可以包括任意一方面或几方面能够作为战略性新兴产业分类依据的信息;例如,相关信息可以包括该企业的主营产品等。
71.图3为本技术一实施例提供的包含有待分类的企业的相关信息的网页页面图;如图所示,对于abc汽车有限公司,可以在网络上获取到与其相关的多方面信息,例如其法定代表人、统一社会信用代码、电话、官网、邮箱、地址等。考虑到确定战略性新兴产业分类的需要,作为一种可选的实施方式,具体选择以下相关信息:企业名称、经营范围和简介。这里,应当说明的是,相关信息并不局限于“企业名称”、“经营范围”或“简介”字段内的内容,即并不局限于图3所示的网页页面上公开的信息;具体内容为用于反映企业的名称、企业的经营范围和企业的简介的相关信息即可,如,某一网页展示的“公司名称”,显然也应当被认定为属于本技术实施例所述的企业名称方面的相关信息。
72.步骤220,根据相关信息,获得企业的战略性新兴产业分类的分类结果。
73.其中,获得分类结果包括:将相关信息输入经过训练的识别模型中,基于经过训练的识别模型获得分类结果;和/或,基于分类规则对相关信息进行分类,获得分类结果;分类规则根据战略性新兴产业分类的分类体系而确定。
74.步骤220同样可以通过电子设备执行。可以理解的,无论是基于经过训练的识别模型获得分类结果,还是基于分类规则对相关信息进行分类获得分类结果,亦或是基于二者获得分类结果,均是基于计算机技术而完成的自动分类方法。本技术实施例根据待分类的企业的相关信息,实现对企业是否属于战略性新兴产业、属于战略性新兴产业的哪一类别的自动分类,分类速度快,准确性高,大大节省了人力成本。
75.单独采用经过训练的识别模型获得分类结果的步骤,或者单独采用基于分类规则对相关信息进行分类获得分类结果的步骤,均可能获得一部分企业对应的战略性新兴产业
分类的分类类别;当然,采用单一的步骤存在漏识别的可能性。采用基于经过训练的识别模型和基于分类规则获得分类结果,可以提高识别的覆盖率。
76.《战略性新兴产业分类(2018)》是以《战略性新兴产业重点产品和服务指导目录(2016)》和国家其他相关文件为主线编制的,其以现行《国民经济行业分类》(gb/t 4754-2017)为基础,对其中符合“战略性新兴产业”特征的有关活动进行再分类,为战略性新兴产业的分类提供了标准和依据。该分类为独立的分类体系,采用线分类法、分层次和可变递增格式编码方法。该分类主体编码分为一、二、三层,新材料产业采用可变递增格式编码,增加至四层。所有编码分层用“.”隔开,每一层采用阿拉伯数字编码。图4a和图4b分别示出了战略性新兴产业分类中除新材料产业以外的类别代码结构和战略性新兴产业分类中新材料产业代码结构。除新材料产业以外的类别,第二层如果不再细分,则第三层代码补一位“0”。新材料产业第三层如果不再细分,则第四层代码补一位“0”。本分类第一层共有9个类别,第二层有40个类别,第三层有189个类别,第四层有166个类别。(倒数第二层如果不细分,则倒数第一次补0)。
77.本技术实施例中获得的分类结果可以是确定该企业属于第一层中的某个类别,也可以是确定该企业属于第二层中的某个类别,或者确定该企业属于第三层/第四层中的某个类别;换言之,本技术对具体分到哪一层级并不作具体限定;例如,分类结果包括战略性新兴产业分类中第二层的某个具体类别。其中,某一层中的某个类别具体可以通过上述代码的形式呈现,当然,也可以通过战略性新兴产业分类名称的形式呈现。
78.可以理解的,如果分类结果中包含具体类别,则表示该企业属于战略性新兴产业;反之,如果分类结果中不包含任一具体类别,则表示该企业不属于战略性新兴产业。
79.作为一种可选的实施方式,获得分类结果具体包括:
80.将相关信息输入经过训练的识别模型中,基于经过训练的识别模型获得第一分类结果;第一分类结果包括与企业对应的战略性新兴产业分类的分类类别或第一信息,第一信息表征没有获得与企业对应的战略性新兴产业分类的分类类别;
81.对应于第一分类结果包括第一信息的情况,基于分类规则对相关信息进行分类,获得第二分类结果。
82.可以理解的,先采用经过训练的识别模型进行分类,在没有获得对应的战略性新兴产业分类的分类类别时,再采用分类规则进行分类。在获得对应的战略性新兴产业分类的分类类别时,不再执行采用分类规则进行分类的步骤,存储第一分类结果。如此,可以通过经过训练的识别模型覆盖到相对较多的样本,而考虑到分类规则可以覆盖到的样本可能相对较少,因此,本实施例有利于提高分类的效率。
83.第一分类结果包括与企业对应的战略性新兴产业分类的分类类别或第一信息。如前所述,如果第一分类结果中包含与企业对应的战略性新兴产业分类的分类类别,则表示该企业属于战略性新兴产业;此时,第一分类结果中也包含了与第一信息相反的信息,即包含了表征获得与企业对应的战略性新兴产业分类的分类类别的信息,并包含了具体的类别信息。反之,如果第一分类结果中包含第一信息,则可理解为第一分类结果中不包含任一具体类别。此时,可以初步判断该企业不属于战略性新兴产业,当然,在获得分类结果的过程还包括基于分类规则进行分类的实施例中,如果基于分类规则获得了与企业对应的战略性新兴产业分类的分类类别,则更正该初步判断。
84.需要说明的是,与企业对应的战略性新兴产业分类的分类类别或第一信息以择一的方式出现在第一分类结果中,第一分类结果中不可能同时出现企业对应的战略性新兴产业分类的分类类别和第一信息,也不可能既不出现企业对应的战略性新兴产业分类的分类类别又不出现第一信息。
85.类似的,第二分类结果包括与企业对应的战略性新兴产业分类的分类类别或第二信息,第二信息表征没有获得与企业对应的战略性新兴产业分类的分类类别。第二分类结果中与企业对应的战略性新兴产业分类的分类类别和第二信息的关系与第一分类结果中的对应关系类似,这里不再赘述;另外,可以理解的,下文记载的第三分类结果、第四分类结果、第五分类结果中与企业对应的战略性新兴产业分类的分类类别和相对应的信息之间的关系也与第一分类结果中的对应关系类似。
86.作为一种可选的实施方式,基于分类规则对相关信息进行分类,获得分类结果,包括:基于语义相似度模型确定与相关信息的相似度满足预设条件的战略性新兴产业分类的分类类别,根据分类类别获得分类结果;和/或,根据战略性新兴产业分类的分类体系,确定至少一个满足分类要求的频繁项集;基于确定的频繁项集对相关信息进行分类,获得分类结果。
87.这里,语义相似度模型例如包括bm25和/tf-idf等。
88.bm25通常用来作为搜索相关性平分。其主要思想是对query进行语素解析,生成语素qi;然后,对于每个搜索结果d,计算每个语素qi与d的相关性得分,最后,将qi相对于d的相关性得分进行加权求和,从而得到query与d的相关性得分。
89.tf-idf(term frequency

inverse document frequency,词频-逆文本频率指数)是一种用于信息检索与数据挖掘的常用加权技术。tf是词频(term frequency),idf是逆文本频率指数(inverse document frequency)。词频指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件。逆向文件频率的主要思想是:如果包含词条t的文档越少,idf越大,则说明词条具有很好的类别区分能力。某一特定词语的idf,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。tf-idf等于tf与idf的乘积。
90.基于语义相似度模型确定与相关信息的相似度满足预设条件的战略性新兴产业分类的分类类别,具体可以为确定与相关信息的相似度最高的战略性新兴产业分类的分类类别。
91.根据战略性新兴产业分类的分类体系,确定至少一个满足分类要求的频繁项集,也是借助分类规则,根据某些行业会频繁出现某些关键词组合,而在其他行业均不频繁出现该些关键词组合的特点,对相关信息进行分类,获得分类结果。
92.可以理解的,单独采用基于语义相似度模型确定分类类别的步骤,或者单独采用确定的频繁项集对相关信息进行分类的步骤,均可能获得一部分企业对应的战略性新兴产业分类的分类类别;当然,采用单一的步骤存在漏识别的可能性。采用基于语义相似度模型和频繁项集确定分类类别,可以提高识别概率。
93.作为一种可选的具体实施方式,基于分类规则对相关信息进行分类,获得分类结果,具体包括:
94.基于语义相似度模型确定与相关信息的相似度满足预设条件的战略性新兴产业
分类的分类类别,根据分类类别获得第三分类结果;第三分类结果包括与企业对应的战略性新兴产业分类的分类类别或第三信息,第三信息表征没有获得与企业对应的战略性新兴产业分类的分类类别;对应于第三分类结果包括与企业对应的战略性新兴产业分类的分类类别的情况,将第三分类结果确定为第二分类结果;
95.对应于第三分类结果包括第三信息的情况,根据战略性新兴产业分类的分类体系,确定至少一个满足分类要求的频繁项集;基于确定的频繁项集对相关信息进行分类,获得第四分类结果;第四分类结果包括与企业对应的战略性新兴产业分类的分类类别或第四信息,第四信息表征没有获得与企业对应的战略性新兴产业分类的分类类别;对应于第四分类结果包括与企业对应的战略性新兴产业分类的分类类别的情况,将第四分类结果确定为第二分类结果。
96.这里,先基于语义相似度模型进行分类,在没有获得对应的战略性新兴产业分类的分类类别时,再采用频繁项集的方式进行分类。如果基于语义相似度模型进行分类获得了与企业对应的战略性新兴产业分类的分类类别,则不进行频繁项集规则分类的相关步骤,直接将获得的分类结果确定为第二分类结果。反之,根据战略性新兴产业分类的分类体系,确定至少一个满足分类要求的频繁项集;基于确定的频繁项集对相关信息进行分类,如果能够获得分类类别,将将基于该步骤获得的分类类别确定为第二分类结果。
97.例如,语料(待分类的企业的相关信息)里同时包括“太阳能”、“光伏”、和“发电”,则可以确定该企业属于太阳能产业,代码6.3。又如,语料中同时包含“原料药”和“药物”,则可以确定对应的企业属于生物医药产业,代码4.1。因为,包含上述关键词的组合在其他产业不常出现,甚至不会出现,所以可以确定频繁项集,并基于频繁项集对相关信息进行分类。
98.频繁项集可以包括至少两个关键词的组合。在确定频繁项集时,组合本身是否有效可以通过设定阈值的方式确定,并且设定的阈值会通过效果进行调整。如果阈值设定的太低,则可能出现分类结果不准确、有噪音等问题,而阈值设定太高虽然可以满足结果准确的效果,但能覆盖到的样本太少,分类效果不佳。
99.作为一种可选的具体实施方式,基于语义相似度模型确定与相关信息的相似度满足预设条件的战略性新兴产业分类的分类类别,根据分类类别获得分类结果,包括:
100.基于第一语义相似度模型确定与相关信息的相似度满足预设条件的战略性新兴产业分类的第一分类类别;
101.基于第二语义相似度模型确定与相关信息的相似度满足预设条件的战略性新兴产业分类的第二分类类别;
102.根据第一分类类别和第二分类类别确定第三分类结果;第三分类结果包括与企业对应的战略性新兴产业分类的分类类别或第三信息,第三信息表征没有获得与企业对应的战略性新兴产业分类的分类类别;
103.其中,对应于第一分类类别和第二分类类别存在交集的情况,第三分类结果包括与企业对应的战略性新兴产业分类的分类类别且战略性新兴产业分类的分类类别根据交集确定;对应于第一分类类别和第二分类类别不存在交集的情况,第三分类结果包括第三信息;
104.其中,对应于第三分类结果包括与企业对应的战略性新兴产业分类的分类类别的
情况,将第三分类结果确定为第二分类结果。
105.此外,本实施方式也不排除出现下述情况的可能:基于第一语义相似度模型没有得到与相关信息的相似度满足预设条件的战略性新兴产业分类的第一分类类别,而基于第二语义相似度模型得到了与相关信息的相似度满足预设条件的战略性新兴产业分类的第二分类类别;或者,基于第一语义相似度模型得到了与相关信息的相似度满足预设条件的战略性新兴产业分类的第一分类类别,而基于第二语义相似度模型没有得到与相关信息的相似度满足预设条件的战略性新兴产业分类的第二分类类别。换言之,基于第一语义相似度模型和第二语义相似度模型中的一者得到了分类类别,而另一者没有得到分类类别。那么,针对该些情况,在本实施方式中,第三分类结果包括第三信息。如此,在两种语义相似度模型结果不一致时,选择没有获得与企业对应的战略性新兴产业分类的分类类别作为第三分类结果,保证识别的准确率。当然,本技术也不排除将基于上述语义相似度模型中的一者得到的分类类别确定为第三分类结果的情况,从而,识别的准确率可能被降低,但识别的覆盖率被提高。
106.此外,本实施方式还不排除出现下述情况的可能:基于第一语义相似度模型没有得到与相关信息的相似度满足预设条件的战略性新兴产业分类的第一分类类别,且基于第二语义相似度模型没有得到与相关信息的相似度满足预设条件的战略性新兴产业分类的第二分类类别。换言之,基于第一语义相似度模型和第二语义相似度模型都没有得到分类类别。那么,第三分类结果包括第三信息。
107.可以理解的,本实施方式中,采用至少两种不同的语义相似度模型分别确定与相关信息的相似度满足预设条件的战略性新兴产业分类的分类类别,最后取其交集,如此,提高了分类的准确度。可以理解的,至少两种不同的语义相似度模型可以分别具有侧重点,换言之,分别具有各自的优点,也分别具有各自的缺点;将分别获得的结果取交集,可以尽可能避免单一语义相似度模型的缺点所带来的分类误差。
108.当然,本技术也不排除采用一种语义相似度模型确定分类类别的情况。如果基于该语义相似度模型能够确定与相关信息的相似度满足预设条件的战略性新兴产业分类的分类类别,则第三分类结果包括该分类类别;反之,如果基于该语义相似度模型确定不存在与相关信息的相似度满足预设条件的战略性新兴产业分类的分类类别,那么第三分类结果包括第三信息,即没有获得与所述企业对应的战略性新兴产业分类的分类类别。
109.第一语义相似度模型和第二语义相似度模型为两种不同的语义相似度模型。例如,第一语义相似度模型为bm25语义相似度模型,而第二语义相似度模型为tf-idf语义相似度模型;当然,本技术并不限于此。
110.与相关信息的相似度满足预设条件,具体例如为与相关信息的相似度最高。此外,本技术也不排除确定相似度阈值,与相关信息的相似度满足预设条件,具体为与相关信息的相似度高于相似度阈值的情况。
111.具体的,基于第一语义相似度模型确定与相关信息的相似度满足预设条件的战略性新兴产业分类的分类类别为a,将a作为预测候选分类类别;基于第二语义相似度模型确定与相关信息的相似度满足预设条件的战略性新兴产业分类的分类类别为b,同样将b作为预测候选分类类别;对a和b取交集,若存在交集,即存在相同的预测结果,则将该相同的预测结果确定为第二分类结果;反之,若不存在交集,如a和b不同,则此步骤没有获得与企业
对应的战略性新兴产业分类的分类类别。
112.作为一种可选的具体实施方式,获得分类结果还包括:
113.基于人为预设规则对相关信息进行分类,获得第五分类结果;第五分类结果包括与企业对应的战略性新兴产业分类的分类类别或第五信息,第五信息表征没有获得与企业对应的战略性新兴产业分类的分类类别;
114.对应于第五分类结果包括与企业对应的战略性新兴产业分类的分类类别的情况,将第五分类结果作为确定的分类结果进行输出。
115.这里,既执行与经过训练的识别模型获得分类结果和/或与基于分类规则获得分类结果的步骤,又执行基于人为预设规则对相关信息进行分类的步骤。对于已通过与经过训练的识别模型获得分类结果和/或与基于分类规则获得分类结果的步骤获得分类类别的情况,可以通过基于人为预设规则对相关信息进行分类的步骤再次确定分类类别,从而提高分类结果的准确性。
116.人为预设规则是人工根据经验总结出的规则,将其转换为计算机可识别的语言,形成一种预设的规则。
117.例如,企业名称里包含“保险”、“证券”、和“信贷”;并且,语料(即待分类的企业的相关信息)包含其他服务,又不包含智能机器、新能源等其他行业的关键词,则会预测为该企业属于其他相关服务,代码9.2。
118.作为一种可选的具体实施方式,第二分类结果包括与企业对应的战略性新兴产业分类的分类类别或第二信息,第二信息表征没有获得与企业对应的战略性新兴产业分类的分类类别;
119.对应于第五分类结果包括第五信息,且第二分类结果包括与企业对应的战略性新兴产业分类的分类类别的情况,将第二分类结果作为确定的分类结果进行输出;
120.对应于第五分类结果包括第五信息,第二分类结果包括第二信息,且第一分类结果包括与企业对应的战略性新兴产业分类的分类类别的情况,将第一分类结果作为确定的分类结果进行输出;
121.对应于第五分类结果包括第五信息,第二分类结果包括第二信息,且第一分类结果包括第一信息的情况,分类结果为企业不属于战略性新兴产业。
122.可以理解的,通过模型、规则算法获得分类结果有可能出现极少数不准确的情况,例如进行了错误分类;通过调整模型,不一定能够获得较好的效果。因此,本实施方式采用人为预设规则做强规则覆盖,对于通过人为预设规则能够确定的分类结果,则直接将该结果确定为最终输出结果;对于通过前序步骤确定出分类结果的情况,也采用通过人为预设规则所确定的分类结果覆盖前序分类结果,从而弥补前序步骤的不足。
123.具体示例:
124.图5为一具体示例提供的战略性新兴产业分类方法的流程示意图;如图所示,首先,将企业名称、经营范围、简介作为原始数据,输入到bert模型中做预测。bert模型预测的结果可以包括“可以打上战略新兴标签”(y)和“不可以打上战略新兴标签”(n)。
125.在具体应用中,“可以打上战略新兴标签”可以指可打上二级标签;“不可以打上战略新兴标签”可以指不可打上二级标签;其中,二级标签对应于战略性新兴产业分类的第二层。
126.在经过bert模型预测为“不可以打上战略新兴标签”的部分再使用规则类模型进行预测。其中,规则类模型可以有2个子模型:
127.a、关键词规则模型:
128.使用bm25语义相似度模型对企业的相关信息进行关键词加权,再与已有的《战略性新兴产业分类(2018)》对各第二层行业的关键词进行比对,选出最为相近的第二层行业,作为预测候选a。
129.使用tf-idf语义相似度模型再次对企业的相关信息进行关键词得分,再与已有的《战略性新兴产业分类(2018)》对各第二层行业的关键词进行比对,选出相似度最高的第二层行业作为预测候选b。
130.接下来,对预测候选a和预测候选b取交集后,将相同预测值作为这部分企业的第二层行业预测值。
131.b、频繁项集规则模型:
132.将某个行业频繁出现,而在其他行业均不频繁出现的关键词组合挑出,并使用这些关键词组合为这部分企业打上战略性新兴产业分类的第二层标签。
133.接下来,将由bert模型预测为“可以打上战略新兴标签”的企业,由规则类模型预测的企业,以及最后剩余的“不可以打上战略新兴标签”的企业合并,最后经过一层强规则覆盖,该部分强规则为人工规则,这批人工规则主要是经过人工抽查并校验过的特定关键词,如包含某些特定关键词,而同时不包含其他关键词的企业直接预测为某个行业;经过以上所有模型、规则的预测,即可得到所有属于战略性新兴产业的企业打上战略性新兴分类的第二层标签。当然,对于最后没有打上第二层标签的企业,则判断其不属于战略性新兴产业。
134.作为一种可选的具体实施方式,相关信息包括:企业名称、经营范围和简介;经过训练的识别模型包括经过训练的bert模型;在经过训练的bert模型中包括分别对应于企业名称、经营范围和简介的三个不同的segment embedding。
135.bert(bidirectional encoder representations from transformers,双向编码器表示)是一种预训练语言模型,bert模型采用了本领域较为流行的特征提取器transformer,同时还实现了双向语言模型,采众家之长使得它具有更好的性能。
136.而传统的文本分类方法(如svm,bayesian等机器学习方法)效果一般,此外,浅层神经网络(如fasttext、lstm、textcnn等)需要标注大量的训练样本。难以很好的应用到战略性新兴产业分类方法中。
137.当然,不应当理解为本技术实施例仅限于采用bert模型,本技术实施例也不排除electra(efficiently learning an encoder that classifies token replacements accurately,有效的学习能够准确分类被替代token的编码器)等。
138.在经过训练的bert模型中包括分别对应于企业名称、经营范围和简介的三个不同的segment embedding,例如,对应于企业名称的segment embedding为0,对应于简介的segment embedding为1,对应于经营范围的segment embedding为2。如此,通过采用不同的segment embedding,实现了对输入的企业名称、经营范围和简介进行区分,以便根据企业名称、经营范围和简介这三方面内容的重要性进行加权处理,提高识别的准确性。
139.作为一种可选的具体实施方式,将相关信息输入经过训练的识别模型中,基于经
过训练的识别模型获得分类结果,包括:将相关信息输入经过训练的识别模型中,经过输入嵌入,得到相关信息的各文本块的向量表示;对各文本块的向量表示使用平均池化层进行处理,得到处理后的向量;根据处理后的向量进行分类,获得分类结果。
140.可以理解的,本实施方式使用嵌入层,得到相关信息的各文本块的向量表示;使用平均池化层对各文本块的向量表示进行平均池化(pooling)处理,得到document embedding,document embedding作为公司文本的向量表示;基于document embedding进行分类,充分利用了整个序列的信息,结果更准确。
141.作为一种可选的具体实施方式,经过训练的识别模型包括经过训练的bert模型;经过训练的bert模型的预训练过程包括:领域自适应预训练和/或任务自适应预训练。
142.进一步的,经过训练的bert模型的预训练过程包括任务自适应预训练(task-adaptive pretraining);任务自适应预训练基于国民经济行业分类的标签信息进行。
143.此外,经过训练的bert模型的预训练过程还可以包括领域自适应预训练(domain-adaptive pretraining)。具体利用企业名称、经营范围、简介进行预训练,使得预训练模型更加领域化。
144.图6为一具体示例提供的bert模型的框架结构示意图;如图所示,该bert模型较通用的bert模型具有如下改进点:
145.第一方面,本具体示例基于bert框架的模型优化算法,将企业名称(公司名称)、经营范围、简介通过[sep]拼接成一段文本,同时考虑这三个字段重要性不同,通过不同的segment embedding来区分,然后利用bert来抽取相关特征,进行战略性新兴产业分类。即,本具体示例采用的bert模型通过[sep]及segment embedding区分不同的句子输入,同时利用相同的transformer layers,最后的document embedding作为公司文本的表征。
[0146]
而通常的做法是用cls对应的embedding作文本分类,本具体示例基于bert的输出序列再进行池化(pooling),充分利用整个序列的信息。
[0147]
第二方面,领域自适应预训练。尝试利用百万级的企业名称、经营范围、简介进行预训练,即在领域内的大规模无标注语料继续进行预训练,使得预训练模型更加领域化。
[0148]
第三方面,任务自适应预训练。由于现有的企业已经具有按照《国民经济行业分类》有门类、大类、中类、小类标签信息,利用百万级的带标签的数据进一步对bert模型进行预训练,再应用于下游任务——战略性新兴产业分类,含有迁移学习的思想。
[0149]
第四方面,关键词过滤无关信息。根据战略性新兴产业分类提取出各行业的关键词,过滤企业名称、经营范围、简介中的无关信息。此外,利用hanlp,根据细粒度词性,过滤地名、方位词、连词、机构后缀、拟声词、介词等虚词。
[0150]
例如,在bert模型中input部分,对于获取的待分类的企业的相关信息,一方面,去除其中的无关信息,如“此公司的经营范围是
……”
等通用模板内容;另一方面,去除其中的虚词;从而形成价值度更高的语料。
[0151]
对应的,获取待分类的企业的相关信息;根据相关信息,获得企业的战略性新兴产业分类的分类结果,具体包括:获取待分类的企业的相关信息;对相关信息进行过滤处理,根据过滤处理后的相关信息,获得企业的战略性新兴产业分类的分类结果。
[0152]
本技术实施例还提供了一种战略性新兴产业分类装置,请参考图7,该战略性新兴产业分类装置700包括:
[0153]
获取模块701,配置为获取待分类的企业的相关信息;
[0154]
分类模块702,配置为根据相关信息,获得企业的战略性新兴产业分类的分类结果;其中,获得分类结果包括:将相关信息输入经过训练的识别模型中,基于经过训练的识别模型获得分类结果;和/或,基于分类规则对相关信息进行分类,获得分类结果;分类规则根据战略性新兴产业分类的分类体系而确定。
[0155]
可选的,分类模块702,配置为将相关信息输入经过训练的识别模型中,基于经过训练的识别模型获得第一分类结果;第一分类结果包括与企业对应的战略性新兴产业分类的分类类别或第一信息,第一信息表征没有获得与企业对应的战略性新兴产业分类的分类类别;对应于第一分类结果包括第一信息的情况,基于分类规则对相关信息进行分类,获得第二分类结果。
[0156]
可选的,分类模块702,配置为基于语义相似度模型确定与相关信息的相似度满足预设条件的战略性新兴产业分类的分类类别,根据分类类别获得分类结果;和/或,根据战略性新兴产业分类的分类体系,确定至少一个满足分类要求的频繁项集;基于确定的频繁项集对相关信息进行分类,获得分类结果。
[0157]
可选的,分类模块702,配置为基于语义相似度模型确定与相关信息的相似度满足预设条件的战略性新兴产业分类的分类类别,根据分类类别获得第三分类结果;第三分类结果包括与企业对应的战略性新兴产业分类的分类类别或第三信息,第三信息表征没有获得与企业对应的战略性新兴产业分类的分类类别;对应于第三分类结果包括与企业对应的战略性新兴产业分类的分类类别的情况,将第三分类结果确定为第二分类结果;对应于第三分类结果包括第三信息的情况,根据战略性新兴产业分类的分类体系,确定至少一个满足分类要求的频繁项集;基于确定的频繁项集对相关信息进行分类,获得第四分类结果;第四分类结果包括与企业对应的战略性新兴产业分类的分类类别或第四信息,第四信息表征没有获得与企业对应的战略性新兴产业分类的分类类别;对应于第四分类结果包括与企业对应的战略性新兴产业分类的分类类别的情况,将第四分类结果确定为第二分类结果。
[0158]
可选的,分类模块702,配置为基于第一语义相似度模型确定与相关信息的相似度满足预设条件的战略性新兴产业分类的第一分类类别;基于第二语义相似度模型确定与相关信息的相似度满足预设条件的战略性新兴产业分类的第二分类类别;根据第一分类类别和第二分类类别确定第三分类结果;第三分类结果包括与企业对应的战略性新兴产业分类的分类类别或第三信息,第三信息表征没有获得与企业对应的战略性新兴产业分类的分类类别;其中,对应于第一分类类别和第二分类类别存在交集的情况,第三分类结果包括与企业对应的战略性新兴产业分类的分类类别且战略性新兴产业分类的分类类别根据交集确定;对应于第一分类类别和第二分类类别不存在交集的情况,第三分类结果包括第三信息;其中,对应于第三分类结果包括与企业对应的战略性新兴产业分类的分类类别的情况,将第三分类结果确定为第二分类结果。
[0159]
可选的,分类模块702,配置为基于人为预设规则对相关信息进行分类,获得第五分类结果;第五分类结果包括与企业对应的战略性新兴产业分类的分类类别或第五信息,第五信息表征没有获得与企业对应的战略性新兴产业分类的分类类别;对应于第五分类结果包括与企业对应的战略性新兴产业分类的分类类别的情况,将第五分类结果作为确定的分类结果进行输出。
[0160]
可选的,第二分类结果包括与企业对应的战略性新兴产业分类的分类类别或第二信息,第二信息表征没有获得与企业对应的战略性新兴产业分类的分类类别;分类模块702,配置为对应于第五分类结果包括第五信息,且第二分类结果包括与企业对应的战略性新兴产业分类的分类类别的情况,将第二分类结果作为确定的分类结果进行输出;对应于第五分类结果包括第五信息,第二分类结果包括第二信息,且第一分类结果包括与企业对应的战略性新兴产业分类的分类类别的情况,将第一分类结果作为确定的分类结果进行输出;对应于第五分类结果包括第五信息,第二分类结果包括第二信息,且第一分类结果包括第一信息的情况,分类结果为企业不属于战略性新兴产业。
[0161]
可选的,相关信息包括以下至少之一:企业名称、经营范围、简介。
[0162]
可选的,相关信息包括:企业名称、经营范围和简介;经过训练的识别模型包括经过训练的bert模型;在经过训练的bert模型中包括分别对应于企业名称、经营范围和简介的三个不同的segment embedding。
[0163]
分类模块702,配置为将相关信息输入经过训练的识别模型中,经过输入嵌入,得到相关信息的各文本块的向量表示;对各文本块的向量表示使用平均池化层进行处理,得到处理后的向量;根据处理后的向量进行分类,获得分类结果。
[0164]
可选的,经过训练的识别模型包括经过训练的bert模型;经过训练的bert模型的预训练过程包括:领域自适应预训练和/或任务自适应预训练。
[0165]
可选的,经过训练的bert模型的预训练过程包括任务自适应预训练;任务自适应预训练基于国民经济行业分类的标签信息进行。
[0166]
本技术实施例还提供了一种计算机可读存储介质。该计算机可读存储介质存储有指令,当该指令由电子设备的处理器执行时,使得电子设备能够执行如上述任一实施例的战略性新兴产业分类方法中的步骤。
[0167]
本技术实施例可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本技术的各个方面的计算机可读程序指令。计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本技术实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本技术的各个方面。
[0168]
计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。计算机可读存储介质是可以保持和存储由指令执行设备使用的指令的有形设备。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可
编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0169]
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0170]
这里参照根据本技术实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本技术的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0171]
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0172]
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0173]
本技术实施例还提供了一种电子设备。图8所示为本技术一实施例提供的电子设备的结构示意图。如图所示,该电子设备800包括:一个或多个处理器801和存储器802;存储器802中存储有计算机可执行指令;处理器801,用于执行计算机可执行指令,以实现如上述任一实施例的战略性新兴产业分类方法中的步骤。
[0174]
处理器801可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
[0175]
存储器802可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器1501可以运行程序指令,以实现上文的本技术的各个实施例的文本识别方法中的步骤以及/或者其他期望的功能。
[0176]
在一个示例中,电子设备800还可以包括:输入装置和输出装置,这些组件通过总线系统和/或其他形式的连接机构(图中未示出)互连。
[0177]
此外,输入装置还可以包括例如键盘、鼠标、麦克风等等。输出装置可以向外部输出各种信息,例如可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
[0178]
当然,为了简化,图8中仅示出了该电子设备800中与本技术有关的组件中的一部分,省略了诸如总线、输入装置/输出接口等组件。除此之外,根据具体应用情况,电子设备800还可以包括任何其他适当的组件。
[0179]
需要说明的是,本技术实施例提供的战略性新兴产业分类方法实施例、战略性新兴产业分类装置实施例、计算机可读存储介质实施例和电子设备实施例属于同一构思;各实施例所记载的技术方案中各技术特征之间,在不冲突的情况下,可以任意组合。
[0180]
应当理解,以上实施例均为示例性的,不用于包含权利要求所包含的所有可能的实施方式。在不脱离本公开的范围的情况下,还可以在以上实施例的基础上做出各种变形和改变。同样的,也可以对以上实施例的各个技术特征进行任意组合,以形成可能没有被明确描述的本发明的另外的实施例。因此,上述实施例仅表达了本发明的几种实施方式,不对本发明专利的保护范围进行限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1