一种企业信息分类方法及装置与流程

文档序号：11286499阅读：400来源：国知局

本发明涉及数据分析技术领域，尤其涉及一种企业信息分类方法及装置。

背景技术：

互联网技术的蓬勃发展，带动了科技、媒体、通信(technologymediatelecom，tmt)企业的井喷式增长，为了便于用户能从海量的企业信息中，迅速查询到所关注企业的相关信息，现有技术下，预先通过人工方式逐一录入海量的企业信息，然后，人工对录入的所有企业信息进行分类，获得分类结果，这样，用户就能基于分类结果，快速定位到所关注企业，进一步地获取到企业的相关信息。

显然，目前，仍采用人工方式，对大数据量的企业信息进行信息录入和信息分类，不仅无法及时更新企业信息，导致处理耗时加长，还容易造成企业信息分类不准确，进一步影响用户体验。

有鉴于此，需要设计一种新的企业信息分类方法以克服上述缺陷。

技术实现要素：

本发明实施例提供一种企业信息分类方法及装置，用以能及时录入海量的企业信息，并快速对其进行正确分类。

本发明实施例提供的具体技术方案如下：

一种企业信息分类方法，包括：

获取待分类企业信息，以及从所述待分类企业信息中提取符合设定规则的若干词语，并将每两个词语确定为一个词语对；

基于预设的耦合网络模型，分别确定每一个词语对在预设的每一种企业类型中对应的完整相关性，其中，完整相关性用于表征两个词语之间的语义关联度，所述每一种企业类型的企业级别相同；

分别基于所述每一个词语对在所述每一种企业类型中对应的完整相关性，确定各个词语对属于每一种企业类型的耦合概率，并将最大耦合概率对应的企业类型，确定为所述待分类企业信息在当前企业级别下的企业类型。

可选的，获取待分类企业信息之前，进一步包括：

获取若干条企业信息，并从所述若干条企业信息中筛选出符合设定筛选规则的若干条企业信息，组成训练样本集，其中，所述训练样本集中的每一条企业信息都已确定各自对应的企业类型；

按照所述训练样本集中各条企业信息各自对应的企业类型，将归属同一企业类型的各条企业信息确定为一个训练样本子集，其中，一个训练样本子集对应一种企业类型，各个训练样本子集各自对应的企业类型的企业级别相同；

分别针对每一个训练样本子集的每一条企业信息执行以下操作：

提取符合设定数目或设定数目范围的关键词，组成关键词集合；

将所述关键词集合中每两个关键词确定为一个关键词对，并分别计算每一个关键词对中两个关键词之间的完整相关性。

可选的，获取若干条企业信息，并从所述若干条企业信息中筛选出符合设定筛选规则的若干条企业信息，组成训练样本集，其中，所述训练样本集中的每一条企业信息都已确定各自对应的企业类型，包括：

采用预设的网络爬虫装置爬取若干条企业信息，以及分别从爬取到每一条企业信息中，提取各自包含的企业名称和企业简介信息，组成各自的信息对，并分别针对每一个信息对，执行以下操作：

采用句式分割，提取信息对的企业简介信息中包含的若干单句；

分别对每一个单句执行语义挖掘，提取各个单句各自包含的主谓宾成分，并基于所述各个单句各自包含的主谓宾成分，构造所述各个单句各自符合行业分类规则的正则句式；

筛选出确定存在至少一个正则句式的各个信息对，组成训练样本集，并分别针对所述训练样本集中的每一个信息对，执行以下操作：基于预设规则，从对应的至少一个正则句式中筛选出目标正则句式，并基于所述目标正则句式，确定对应的企业类型。

可选的，基于预设规则，从对应的至少一个正则句式中筛选出目标正则句式，并基于所述目标正则句式，确定对应的企业类型，包括：

按照所述至少一个正则句式在企业简介信息中的排序，将靠前的正则句式确定为目标正则句式，并基于所述目标正则句式，将相应信息对召回至相应的企业类型处；或者，

从所述至少一个正则句式中，随机选取一个正则句式作为目标正则句式，并基于所述目标正则句式，将相应信息对召回至相应的企业类型处。

可选的，将所述关键词集合中每两个关键词确定为一个关键词对，并分别计算每一个关键词对中两个关键词之间的完整相关性，包括：

基于方差分布，分别计算所述关键词集合中每一个关键词在相应企业简介信息中所占的权重值，以及将所述关键词集合中的每两个关键词确定为一个关键词对，并分别基于每一个关键词对中的两个关键词各自对应的权重值，确定所述每一个关键词对中两个关键词之间的同现相关性，其中，同现相关性表征两个关键词同时出现的关联性；

分别基于所述每一个关键词对中两个关键词之间的同现相关性，确定所述每一个关键词对中两个关键词之间的同现相关概率，其中，同现相关概率表征两个关键词之间的同现相关性，占所属关键词集合中所有关键词对的同现相关性的比例；

分别针对每一个关键词对，执行以下操作：判定存在至少一个中间关键词，使得关键词对中的两个关键词各自与所述至少一个中间关键词之间的同现相关概率均大于零时，基于所述两个关键词各自与所述至少一个中间关键词之间的同现相关概率，确定所述两个关键词之间的耦合相关性；

分别基于所述每一个关键词对中两个关键词之间的同现相关概率和耦合相关性，确定所述每一个关键词对中两个关键词之间的完整相关性。

可选的，基于所述两个关键词各自与所述至少一个中间关键词之间的同现相关概率，确定所述两个关键词之间的耦合相关性，包括：

基于所述两个关键词各自与所述至少一个中间关键词之间的同现相关概率，确定所述两个关键词与所述至少一个中间关键词之间的条件相关性，其中，两个关键词与一个中间关键词之间存在条件相关性，表示以上述一个中间关键词为条件，上述两个关键词之间具有关联性；

基于所述两个关键词与所述至少一个中间关键词之间的条件相关性，确定所述两个关键词之间的耦合相关性。

可选的，基于所述两个关键词各自与所述至少一个中间关键词之间的同现相关概率，确定所述两个关键词与所述至少一个中间关键词之间的条件相关性，包括：

针对每一个中间关键词，执行以下操作：

取所述两个关键词各自与所述中间关键词之间的同现相关概率中取值小的一方，作为所述两个关键词与所述中间关键词之间的条件相关性。

可选的，基于所述两个关键词与所述至少一个中间关键词之间的条件相关性，确定所述两个关键词之间的耦合相关性，包括：

对所述至少一个中间关键词中各个中间关键词，分别与所述两个关键词之间的条件相关性进行加权平均，将平均后的结果确定为所述两个关键词之间的耦合相关性。

可选的，分别基于所述各个词语对在所述每一种企业类型中各自对应的完整相关性，确定所述各个词语对属于每一种企业类型的耦合概率，包括：

分别基于所述各个词语对在所述每一种企业类型中各自对应的完整相关性，确定所述各个词语对在所述每一种企业类型中的类条件概率；

分别基于确定的所述各个词语对在所述每一种企业类型中的类条件概率，以及所述每一种企业类型的先验概率，确定所述各个词语对属于每一种企业类型的耦合概率。

可选的，将最大耦合概率对应的企业类型，确定为所述待分类企业信息在当前企业级别下的企业类型之后，进一步包括：

确定所述待分类企业信息在预设的各个不同企业级别下的企业类型；

基于预设的多级筛选规则，从所述各个不同企业级别下的企业类型中筛选出一个企业类型，作为所述待分类企业信息的目标企业类型。

一种企业信息分类装置，包括：

数据获取单元，用于获取待分类企业信息，以及从所述待分类企业信息中提取符合设定规则的若干词语，并将每两个词语确定为一个词语对；

处理单元，用于基于预设的耦合网络模型，分别确定每一个词语对在预设的每一种企业类型中对应的完整相关性，其中，完整相关性用于表征两个词语之间的语义关联度，所述每一种企业类型的企业级别相同；

分类单元，用于分别基于所述每一个词语对在所述每一种企业类型中对应的完整相关性，确定各个词语对属于每一种企业类型的耦合概率，并将最大耦合概率对应的企业类型，确定为所述待分类企业信息在当前企业级别下的企业类型。

可选的，还包括训练单元，所述训练单元用于：

获取待分类企业信息之前，执行以下操作：

分别针对每一个训练样本子集的每一条企业信息执行以下操作：

提取符合设定数目或设定数目范围的关键词，组成关键词集合；

将所述关键词集合中每两个关键词确定为一个关键词对，并分别计算每一个关键词对中两个关键词之间的完整相关性。

可选的，获取若干条企业信息，并从所述若干条企业信息中筛选出符合设定筛选规则的若干条企业信息，组成训练样本集，其中，所述训练样本集中的每一条企业信息都已确定各自对应的企业类型时，所述训练单元用于：

采用句式分割，提取信息对的企业简介信息中包含的若干单句；

可选的，基于预设规则，从对应的至少一个正则句式中筛选出目标正则句式，并基于所述目标正则句式，确定对应的企业类型时，所述训练单元用于：

从所述至少一个正则句式中，随机选取一个正则句式作为目标正则句式，并基于所述目标正则句式，将相应信息对召回至相应的企业类型处。

可选的，将所述关键词集合中每两个关键词确定为一个关键词对，并分别计算每一个关键词对中两个关键词之间的完整相关性时，所述训练单元用于：

分别基于所述每一个关键词对中两个关键词之间的同现相关概率和耦合相关性，确定所述每一个关键词对中两个关键词之间的完整相关性。

可选的，基于所述两个关键词各自与所述至少一个中间关键词之间的同现相关概率，确定所述两个关键词之间的耦合相关性时，所述训练单元用于：

基于所述两个关键词与所述至少一个中间关键词之间的条件相关性，确定所述两个关键词之间的耦合相关性。

可选的，基于所述两个关键词各自与所述至少一个中间关键词之间的同现相关概率，确定所述两个关键词与所述至少一个中间关键词之间的条件相关性时，所述训练单元用于：

针对每一个中间关键词，执行以下操作：

取所述两个关键词各自与所述中间关键词之间的同现相关概率中取值小的一方，作为所述两个关键词与所述中间关键词之间的条件相关性。

可选的，基于所述两个关键词与所述至少一个中间关键词之间的条件相关性，确定所述两个关键词之间的耦合相关性时，所述训练单元用于：

可选的，分别基于所述各个词语对在所述每一种企业类型中各自对应的完整相关性，确定所述各个词语对属于每一种企业类型的耦合概率时，所述分类单元用于：

分别基于所述各个词语对在所述每一种企业类型中各自对应的完整相关性，确定所述各个词语对在所述每一种企业类型中的类条件概率；

可选的，还包括多级分类单元，所述多级分类单元用于：

将最大耦合概率对应的企业类型，确定为所述待分类企业信息在当前企业级别下的企业类型之后，执行以下操作：

确定所述待分类企业信息在预设的各个不同企业级别下的企业类型；

基于预设的多级筛选规则，从所述各个不同企业级别下的企业类型中筛选出一个企业类型，作为所述待分类企业信息的目标企业类型。

本发明实施例中，先通过获取待分类企业信息，然后，从获取的待分类企业信息中提取符合设定规则的若干词语，并将每两个词语确定为一个词语对，接着，基于预设的耦合网络模型，确定每一个词语对在预设的每一种企业类型中的完整相关性，其中，完整相关性用于表征两个词语之间的语义关联度，最后，基于每一个词语对在上述每一种企业类型中对应的完整相关性，确定各个词语对属于每一种企业类型的耦合概率，并将最大耦合概率对应的企业类型确定为待分类企业信息的企业类型，这样，对于直接获取的待分类企业信息，就能基于待分类企业信息中提取的各个词语间的语义关联度，确定待分类企业信息对应的企业类型，提高了分类的准确性，而且，由于无需任何人工操作，还提高了处理效率，进而提升了客户体验。

附图说明

图1为本发明实施例中，房产家装的三级企业架构分类图；

图2为本发明实施例中，网络爬虫装置结构示意图；

图3为本发明实施例中，筛选训练样本集的方法流程图；

图4为本发明实施例中，确定耦合网络模型的方法流程图；

图5为本发明实施例中，基于确定的耦合网络模型对待分类企业信息进行分类的方法流程图；

图6为本发明实施例中，企业信息分类装置结构示意图。

具体实施方式

为了能及时录入海量的企业信息，并快速对其进行正确分类，本发明实施例中，重新设计了一种企业信息分类方法，该方法为，通过获取待分类企业信息，然后，从获取的待分类企业信息中提取符合设定规则的若干词语，并将每两个词语确定为一个词语对，接着，基于预设的耦合网络模型，确定每一个词语对在预设的每一种企业类型中的完整相关性，其中，完整相关性用于表征两个词语之间的语义关联度，最后，基于每一个词语对在上述每一种企业类型中对应的完整相关性，确定各个词语对属于每一种企业类型的耦合概率，并将最大耦合概率对应的企业类型确定为待分类企业信息的企业类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面将通过具体实施例对本发明的方案进行详细描述，当然，本发明并不限于以下实施例。

本发明实施例中，基于行业分类规则，预先设定了多个一级企业类型，例如，传媒行业、房产家装行业、游戏行业等等，其中，每一个一级企业类型又能细分为多个二级企业类型，而每一个二级企业类型又能细分为若干个三级企业类型，可依次类推，最终可细分为若干n级企业类型。

本发明实施例中，采用的是三级企业架构，即，最终可细分到三级企业类型，以房产家装行业为例，具体参阅图1所示，一级企业类型为：“房产家装”；二级企业类型为：“房屋中介、家具家电、装修设计、房产资讯及社区、物业服务和房产家装其他”，以“房屋中介”为例，“房屋中介”的三级企业类型为：“房地产咨询中介、房地产价格评估中介、房地产经纪中介、租房平台及软件和房屋买卖平台及软件”。

进一步地，本发明实施例中，在对获取的企业信息进行分类之前，可先获取若干条企业信息，作为训练样本集，然后，基于训练样本集构建用于企业信息分类的耦合网络模型。

较佳的，本发明实施中，企业信息可来源于网络爬虫，例如，可增加网络爬虫装置，网络爬虫装置的架构具体可参阅图2所示，网络爬虫装置包含下载模块、解析模块和存储模块，具体处理过程如下：

首先，配置网页爬虫规则，上述网页爬虫规则用于把采集的网页批量保存到本地。

其次，配置网页采集规则，例如，以一个网页为模板，设置需要采集的数据块，其它符合此模板的网页将被按照上述规则进行规则解析。

接着，配置采集任务，具体的，对网页爬虫和网页采集进行组合，组合结果为一个采集任务，其中，一个网页爬虫可对应多个网页采集。

最后，对采集任务进行发布，具体的，可以将配置好的采集任务发布至指定服务器的某个采集队列中。

经过上述步骤，即可完成企业信息的网络爬虫操作。

进一步地，由于爬取到的若干条企业信息是未知的，即，并不知道企业信息归属哪个企业类型，因此，直接获取到的若干条企业信息是不能作为训练样本集的，需对获取的若干条企业信息进行筛选，以便能从若干条企业信息中筛选出符合设定筛选规则的若干条企业信息，组成训练样本集，参阅图3所示，具体筛选过程如下：

步骤300：分别针对每一条企业信息，执行以下操作：提取企业名称和企业简介信息，组成一个信息对。

具体的，每一条企业信息至少包含了企业名称和企业简介信息，因此，分别从每一条企业信息中，提取各自包含的企业名称和企业简介信息，组成各自对应的信息对。

进一步地，为使后续能方便使用信息对，本发明实施例中，将提取到的信息对，以键值对的形式存储在相应数据库中，例如，数据库为内存redis数据库，键值对的组成形式为“key”与“value”，具体参见表1所示。

表1

本发明实施例中，之所以将确定的若干信息对存储在内存redis数据库中，是因为，后续在使用信息对时，能迅速地提取到需要的信息对，提取速度不受影响。

步骤310：分别针对每一个信息对，执行以下操作：对信息对包含的企业简介信息执行句式分割，获得若干单句。

具体的，由于信息对包含的企业简介信息，通常是由一大段文字组成，为了提取到更能体现企业类型的关键词，先按照句式，对企业简介信息进行分割，获得若干单句，如，可按照标点符号对企业简介信息进行句式分割。

以“。”为例，对于表1中“aa”的企业简介信息，可以分割为“aa公司成立2010年4月，是一家专注于智能硬件和电子产品研发的移动互联网公司”、“‘为发烧而生’是aa公司的产品概念”、“aa公司首创了用互联网模式开发手机操作系统、发烧友参与开发改进的模式”。

步骤320：分别针对每一个单句执行语义挖掘，提取各自包含的主谓宾成分，并分别以各自包含的主谓宾成分，构造各个单句各自符合行业分类规则的正则句式。

具体的，之所以挖掘单句的主谓宾成分，是因为，在中文中，一个完整的句子的主谓宾，通常是可以作为句子的主干的，具有较高的内聚性，而且，大部分句子都有主谓宾，很少有缺主语或宾语，甚至，主谓宾同时缺少的。

基于此，分别对每一个单句执行语义挖掘，执行语义挖掘，以提取各个单句各自包含的主谓宾成分，然后，对于能挖掘到的主谓宾成分的每一个单句来说，分别以各自挖掘到的主谓宾成分，构造各自相应的符合行业分类规则的正则句式。

更进一步地，是否符合行业分类规则可以采用关键词判断法，比如，预先设置与行业分类相关的关键词，若提取到的主谓宾成分中，包含了预设的关键词，则可认为挖掘到的主谓宾成分符合行业规则，并以上述主谓宾成分构建正则句式。

例如，以上述示例中的“aa公司成立2010年4月，是一家专注于智能硬件和电子产品研发的移动互联网公司”进行说明，经过语义挖掘，可得到“aa公司是移动互联网公司”，这样，就可以基于挖掘到的“aa公司是移动互联网公司”主谓宾成分，构造符合行业分类规则的正则句式，可构造如下正则句式：“是(.*？)移动互联网,cultural_media”。

当然，并不是所有的单句，都能挖掘到主谓宾成分，对于不能挖掘到主谓宾成分的单句，并不能构成正则句式。

例如，假设分割的单句为连接词“然后”，那么，这个单句就不存在主谓宾成分，也就不存在能基于主谓宾成分，构造符合行业分类规则的正则句式。

而且，并不是所有的单句，挖掘到的主谓宾成分，都能构成符合行业分类规则的正则句式。

例如，以上述示例中的“‘为发烧而生’是aa公司的产品概念”进行说明，挖掘到的主谓宾成分为“‘为发烧而生’是产品概念”，显然，挖掘到的主谓宾不符合行业分类规则。

步骤330：确定存在至少一个正则句式的各个信息对，并分别针对存在至少一个正则句式的每一个信息对，执行以下操作：基于预设规则，从对应的至少一个正则句式中筛选出目标正则句式，并基于上述目标正则句式，确定对应的企业类型。

具体的，并不是每一个信息对均存在正则句式，且，也不是存在正则句式的信息对均具有唯一的正则句式，因此，完成对符合行业分类规则的正则句式的构建后，需确定存在至少一个正则句式的各个信息对。

进一步地，确定存在至少一个正则句式的各个信息对后，对上述每一个信息对执行以下操作：基于预设规则，从对应的至少一个正则句式中筛选出唯一的目标正则句式，并采用目标正则句式，将信息对召回至相应的企业类型处，其中，所谓召回，即是指确定信息对对应的企业类型。

以一个信息对为例，若信息对存在多个正则句式，则可以按照上述多个正则句式在相应简介信息中的先后顺序，将在前的正则句式作为目标正则句式，并采用目标正则句式将上述一个信息对召回至相应的企业类型处。

例如，假设信息对a存在如下三个正则句式，分别为“是(.*？)视频应用,cultural_media”、“是(.*？)美肤,consume_life”、“是(.*？)装修(.*？)$,house”，若采用在前的正则句式作为目标正则句式，则可将“是(.*？)视频应用,cultural_media”作为目标正则句式，并采用“是(.*？)视频应用,cultural_media”对信息对a执行召回操作，确定信息对a对应“视频传媒”类。

当然，也可以从出现相同关键词最多的多个正则句式中随机选择一个，作为目标正则句式，并采用目标正则句式将上述一个信息对召回至相应的企业类型处。

例如，假设信息对m确定存在5个正则句式，其中，4个正则句式与“房产装修”相关，只有1个正则句式与“文化传媒”相关，则可从上述4个与“房产装修”相关的正则句式中随机挑选一个，作为目标正则句式，然后，采用目标正则句式确定信息对对应的企业类型，当然，上述企业类型必然与“房产装修”相关。

本发明实施例中，只要正则句式能确定企业类型，就可以将上述正则句式确定为目标正则句式，具体筛选过程并不限定。

至此，符合上述设定筛选规则的若干信息对，可作为训练样本集，由于训练样本集中的每一个信息对都已确定企业类型，因此，遵循同级分类规则，基于训练样本集中各个信息对各自对应的企业类型，将归属同一企业类型的各个信息对确定为一个训练样本子集，其中，一个训练样本子集对应一种企业类型，同一批训练样本子集各自对应的企业类型的企业级别相同。

具体的，所谓同级分类规则，即是指，若确定各个信息对相应企业类型属于一级企业类型，则按照一级企业类型的分类划分训练样本集，若确定各个信息对相应的企业类型属于n级企业类型，则按照n级企业类型的分类划分训练样本集。

例如，假设预设的一级企业类型有3类，每一个一级企业类型下存在2种二级企业类型，具体参阅表2所示。

表2

继续假设，若存在包含了5个信息对的训练样本集m{信息对1、信息对2、信息对3、信息对4、信息对5、信息对6}，且，信息对1与信息对2均对应一级企业类型“文化传媒”，其中，信息对1对应二级企业类型“新媒体”，信息对2对应二级企业类型“传统媒体”；信息对3和信息对4均对应一级企业类型“房产家装”，其中，信息对3对应二级企业类型“房地产”，信息对4对应二级企业类型“装修设计”；信息对5和信息对6均对应一级企业类型“本地生活”，其中，信息对5对应二级企业类型“美食”，信息对6对应二级企业类型“美容”。

若按照一级企业类型的分类划分，则可将训练样本集m划分为：训练样本子集m1{信息对1、信息对2}、训练样本子集m2{信息对3、信息对4}、训练样本子集m3{信息对5、信息对6}，共3个训练样本子集；

若按照二级企业类型的分类划分，则可将训练样本集m划分为：训练样本子集m1{信息对1}、训练样本子集m2{信息对2}、训练样本子集m3{信息对3}、训练样本子集m4{信息对4}、训练样本子集m5{信息对5}、训练样本子集m6{信息对6}，共6个训练样本子集。

确定训练样本集包含的各个训练样本子集，以及上述各个训练样本子集各自对应的企业类型后，进一步地，基于上述训练样本集包含的各个训练样本子集，确定耦合网络模型，本发明实施例中，耦合网络模型可以为贝叶斯耦合网络模型，具体参阅图4所示，确定耦合网络模型的方法流程如下：

步骤400：分别针对每一个训练样本子集的每一个信息对的企业简介信息，执行以下操作：提取符合设定数目或设定数目范围的关键词，组成关键词集合。

具体的，每一个信息对包含的企业简介信息都是由若干关键词组成的，但并不是每一个关键词都具备参考价值，为后续方便计算关键词之间的关联程度，可按照设定数目或设定数目范围，从各个信息对的企业简介信息的若干关键词中，提取相应的关键词，组成各自的关键词集合。

例如，假设设定数目为200，若训练样本集中存在两个信息对，则分别从两个信息对的企业简介信息中，提取200个符合设定条件的关键词，组成各自的关键词集合，其中，设定条件可以为与企业类型相关。

又例如，假设设定数目范围为100-150，若训练样本集中存在两个信息对，则分别从两个信息对的企业简介信息中，提取100-150个符合设定条件的关键词，组成各自的关键词集合。

步骤410：基于方差分布，分别计算每一个关键词集合中的每一个关键词，在当前所处的企业简介信息中所占的权重值。

具体的，获得各个信息对各自对应的关键词集合后，确定每一个关键词集合中的每一个关键词，在当前所处的企业简介信息中所占的权重值。

较佳的，本发明实施例中，采用以下公式计算关键词h在当前所处企业简介信息d中所占的权重值：

其中，thd为词频，计算公式为:thd表示关键词h在企业简介信息d中出现的次数，sd表示企业简介信息d包含的所有词语的总数；n表示训练样本集包含的企业简介信息的总数；n(wh)表示关键词h在训练样本集的各个企业简介信息出现的企业简介信息的个数；表示关键词h在训练样本集的各个企业简介信息中出现的平均次数；为调参因子，主要用于调节计算关键词的权重值时对词频的过重依赖。

步骤420：分别针对每一个关键词集合，执行以下操作：将每两个关键词确定为一个关键词对，并分别基于每一个关键词对中的两个关键词各自对应的权重值，确定上述两个关键词之间的同现相关性，其中，同现相关性表征两个关键词同时出现的关联性。

具体的，不同词语之间是可能存在关联关系的，在一段文字信息中，词语a的出现，能引导词语b的出现，通常称词语a与词语b之间具有同现相关性。

进一步地，将每一个关键词集合中的每两个关键词确定为一个关键词对，以一个关键词对为例，基于上述关键词对中的两个关键词各自对应的权重值，确定上述两个关键词之间的同现相关性，其中，同现相关性表征两个关键词同时出现的关联性。

较佳的，本发明实施例中，采用以下公式确定关键词keyi和关键词keyk之间的同现相关性：

其中，wxi和wxk分别表示关键词keyi和关键词keyk在企业简介信息dx中的权重值；s＝{x|(wxi≠0)∧(wxk≠0)}，表示在训练样本集中关键词keyi和关键词keyk权重值均不为零的各个企业简介信息。

步骤430：分别针对每一个关键词对，执行以下操作：基于关键词对中的两个关键词之间的同现相关性，确定上述两个关键词之间的同现相关概率，其中，同现相关概率表征两个关键词之间的同现相关性，占所属关键词集合中所有关键词对的同现相关性的比例。

具体的，确定每一个关键词集合中每一个关键词对中两个关键词之间的同现相关性后，需确定每一个关键词对中两个关键词之间的同现相关概率。

进一步地，以一个关键词对为例，基于上述关键词对中两个关键词之间的同现相关性，以及所属关键词集合中其它关键词对对应的同现相关性，确定上述关键词对中两个关键词之间的同现相关概率。

较佳的，本发明实施例中，可采用以下公式计算关键词keyk和关键词keyi之间的同现相关概率，其中，关键词keyk和关键词keyi之间的同现相关概率可表征，关键词keyk在训练样本集包含的企业简介信息dx中出现时，关键词keyi同时出现的概率：

其中，rco-occur(keyi,keyk)关键词keyi和关键词keyk之间的同现相关性。

步骤440：分别针对每一个关键词对，执行以下操作：判定存在至少一个中间关键词，使得两个关键词各自与上述至少一个中间关键词之间的同现相关概率均大于零时，基于上述两个关键词各自与上述至少一个中间关键词之间的同现相关概率，确定上述两个关键词与上述至少一个中间关键词之间的条件相关性。

具体的，由于两个关键词之间除了具有的直接关联关系，即，两个关键词之间具有同现相关性，还可能存在间接关联关系，针对上述情况，判定存在至少一个中间关键词，使得两个关键词分别与上述至少一个中间关键词之间的同现相关概率均大于零时，则可基于上述两个关键词分别与上述至少一个中间关键词之间的同现相关概率，确定上述两个关键词与上述至少一个中间关键词之间的条件相关性。

所谓条件相关性，例如，关键词a与关键词c之间的同现相关概率大于零，关键词b与关键词c之间的同现相关概率大于零，则，关键词a与关键词b之间具有条件相关性。

进一步地，以一个关键词对为例，若上述一个关键词对中的两个关键词各自与至少一个中间关键词之间的同现相关概率均大于零，那么，针对每一个中间关键词，执行以下操作：取两个关键词各自与中间关键词之间的同现相关概率中取值小的一方，作为上述两个关键词与上述中间关键词之间的条件相关性。

较佳的，本发明实施例中，若训练样本集中至少存在一个关键词keyk，使得rcondit(keym,keyk)＞0，且，rcondit(keyn,keyk)＞0，则说明关键词keym和关键词keyn之间存在条件相关性，并采用下列公式计算关键词keym和关键词keyn之间的条件相关性：

r(keym,keyn|keyk)＝min(rcondit(keym,keyk),rcondit(keyn,keyk))

其中，rcondit(keym,keyk)表示关键词keyk与关键词keym之间的同现相关概率，rcondit(keyn,keyk)表示关键词keyk与关键词keyn之间的同现相关概率。

例如，假设关键词a与关键词c之间的同现相关概率为“0.6”，假设关键词b与关键词c之间的同现相关概率为“0.4”，则关键词a和关键词b，与关键词c之间的条件相关性为“0.4”。

更进一步地，两个关键词之间，能被越多的中间关键词进行关联，则上述两个关键词之间的条件相关性越高。

例如，关键词a与关键词c之间，能经关键词b进行关联，关键词a与关键词c之间，还能经关键词d进行关联，显然，上述情形中，关键词a与关键词c之间的条件相关性要高于，仅经关键词b进行关联的关键词a与关键词c之间的条件相关性。

步骤450：分别针对每一个关键词对，执行以下操作：基于关键词对中两个关键词与至少一个中间关键词之间的条件相关性，确定上述两个关键词之间的耦合相关性。

具体的，以一个关键词对为例，基于关键词对中两个关键词与至少一个中间关键词之间的条件相关性，确定上述两个关键词之间的耦合相关性。

进一步地，仍以一个关键词对为例，对上述至少一个中间关键词中各个中间关键词，分别与上述两个关键词之间的条件相关性进行加权平均，将平均后的结果确定为所述两个关键词之间的耦合相关性。

较佳的，本发明实施例中，采用以下公式计算一个关键词对(关键词keyn与关键词keym)在训练样本集中的耦合相关性：

其中，l＝{keyk|(rcondit(keym,keyk))∧(rcondit(keyn,keyk))}。

例如，假设关键词a和关键词b与关键词c之间的条件相关性为“0.4”，关键词a和关键词b与关键词d之间的条件相关性为“0.6”，则关键词a与关键词b之间的耦合相关性为“0.5”。

当然，若两个关键词之间不存在中间关键词进行关联，则上述两个关键词之间的耦合相关性为零。

步骤460：分别基于每一个关键词对中两个关键词之间的同现相关概率和耦合相关性，确定上述每一个关键词对中两个关键词之间的完整相关性，其中，一个关键词对中两个关键词之间的完整相关性，用于表征两个关键词之间的语义关联度。

具体的，为更加准确的捕获两个关键词之间的关联程度，需结合两个关键词之间的同现相关概率和耦合相关性，确定上述两个关键词之间的完整相关性，其中，两个关键词之间的完整相关性越高，则表示上述两个关键词之间的语义关联度越高。

较佳的，本发明实施例中，可采用以下公式计算一个关键词对(关键词keyn与关键词keym)之间的完整相关性：

其中，α是介于0和1之间的一个参数，用于调节条件相关性和耦合相关性各自的占比。

例如，假设α为“0.7”，若关键词对1中的关键词a与关键词b之间的同现相关概率为“0.3”，耦合相关性为“0.6”，则关键词对1中的关键词a与关键词b之间的完整相关性为：“0.7×0.3+(1-0.3)×0.6＝0.63”，即，在相应训练样本子集中，关键词对1中的关键词a与关键词b之间的完整相关性为“0.63”。

这样，训练样本集的每一个训练样本子集中，各个信息对包含的各个关键词对中的两个关键词之间的完整相关性就已确定。

本发明实施例中，为方便后续提取各个关键词对在不同训练样本子集(不同企业类型)中的完整相关性，可以每一个关键词对中两个关键词之间的完整相关性为一个元素，确定耦合网络模型的泛语义矩阵。

较佳的，本发明实施例中，可通过以下公式表示训练样本集对应的泛语义矩阵m'中关键词对(关键词keyn与关键词keym)确定的一个元素：

m'(m,n)＝r(keym,keyn)

本发明实施例中，之所以选定基于关键词对的完整相关性，确定耦合网络模型中泛语义矩阵的方法，是因为，能较周全的考虑到各个关键词之间的关联关系，减少泛语义矩阵中元素的稀疏性。

进一步地，本发明实施例中，预先已按照不同的企业类型，将训练样本集划分为若干训练样本子集，且，后续在计算关键词对中两个关键词之间的完整相关性时，也是在关键词对所属的训练样本子集中计算的，因此，训练样本集的泛语义矩阵中的各个元素也存在各自对应的企业类型。

本发明实施例中，为验证耦合网络模型的正确率，可采用训练样本集中的部分训练样本对上述耦合网络模型进行测试，或者，采用未知企业信息，人工对上述耦合网络模型进行测试，若测试正确率大于设定阈值(如，99％)，则可以将上述耦合网络模型投入使用，若测试正确率不满足设定阈值，则选取更多的训练样本集，对耦合网络模型进行训练，直到测试正确率满足设定阈值。

至此，即可确定可以用于企业信息分类的耦合网络模型。

具体参阅图5所示，本发明实施例中，对于获取的未知企业类型的企业信息(简称待分类企业信息)，可基于以下流程确定待分类企业信息对应的企业类型：

步骤500：从获取的待分类企业信息中提取符合设定规则的若干词语，并将每两个词语确定为一个词语对。

具体的，可基于句式分割和语义挖掘，从待分类企业信息的企业简介信息中，提取若干词语，并基于方差分布，计算每一个词语相应的权重值，以及从提取到的所有若干词语中，筛选出满足设定规则(如，权重值大于设定阈值)的各个词语，并将每两个词语确定为一个词语对。

步骤510：基于预设的耦合网络模型，分别确定每一个词语对在预设的每一种企业类型中对应的完整相关性，其中，完整相关性用于表征两个词语之间的语义关联度。

具体的，基于预设的耦合网络模型，从泛语义矩阵对应的各个企业类型中，查找每一个词语对在每一种企业类型中对应的关键词对的完整相关性。

步骤520：分别基于上述每一个词语对在每一种企业类型中对应的完整相关性，确定各个词语对属于每一种企业类型的耦合概率，并将最大耦合概率对应的企业类型，确定为待分类企业信息在当前企业级别下的企业类型。

较佳的，本发明实施例中，采用以下公式计算待分类企业信息归属企业类型c的概率：

其中，词语keyi与词语keyh为待分类企业信息包含的各个词语对，i和h为变量；为待分类企业信息的各个词语对在企业类型c下的类条件概率；p(c)为企业类型c的类先验概率，所谓类先验概率，即是指，在训练样本集中，企业类型c下所有的企业信息数目与训练样本集中所有企业信息数目的比值；为待分类企业信息的各个词语对在训练样本集的各个企业信息中出现的概率之和，一般来说是个定值。

具体的，在计算时，以两组词语对为例，从泛语义矩阵中，提取企业类型c下，第一组词语对对应的完整相关性，以及从泛语义矩阵中，提取企业类型c下，第二组词语对对应的完整相关性。

然而，一般来说，若在企业类型c下，不存在第一组词语对，或者，不存在第二组词语对，则相应的完整相关性为零，本发明实施例中，在具体计算时，为防止因因子为零而使得乘积为零，提取到的每一组关键词对的完整相关性，均加上一个常数因子，如，“1”。

例如，假设企业类型c为“投资理财”，且在已确定的泛语义矩阵中，确定“投资理财”企业类型下包含的关键词对“金融”和“投资”、“基金”和“证券”、“股票”和“保险”、“国债”和“期货”，各自对应的完整相关性分别为“0.6”、“0.8”、“0.3”和“0.4”；

若待分类企业信息提取到三组词语对，其中，第一组词语对为“金融”和“投资”，第二组词语对为“基金”和“证券”，第三组词语对为“动漫”和“动画”，那么，在企业类型c中，第一组词语对对应的完整相关性为“0.6”，第二组词语对对应的完整相关性为“0.8”，由于在企业类型c中，不存在第三组词语对，因此，待分类企业信息对应的第三组词语对的完整相关性为“0”；

进一步假设，若常数因子设定为“1”，那么，待分类企业信息对应的三组词语对各自对应的完整相关性分别为：“0.6+1”、“0.8+1”和“0+1”。

显然，针对每一种企业类型，待分类企业信息都会得到相应的耦合概率，从上述各个耦合概率中，筛选出最大耦合概率对应的企业类型，作为待分类企业信息对应的企业类型。

例如，若共有3种企业类型，待分类企业信息a属于企业类型1的耦合概率为“0.35”；属于企业类型2的耦合概率为“0.73”；属于企业类型3的耦合概率为“0.96”，则，将企业类型3确定为待分类企业信息a的企业类型。

然而，由于本发明实施例基于多级企业架构进行的，因此，针对不同企业级别的企业类型，会分别确定待分类企业信息，在每个企业级别中对应的企业类型，然后，基于预设的多级筛选规则，从各个不同企业级别的企业类型中，筛选出一个企业类型，作为待分类企业信息的目标企业类型。

其中，上述多级筛选规则，可以为分级逆推法，也可以为分级顺推法。

关于分级逆推法，以图1为例，若待分类企业信息1，先确定的第一企业级别对应的企业类型“房产家装”，以及第二企业级别对应的企业类型“房屋中介”，显然，“房屋中介”为“房产家装”的子节点，继续推导，确定的第三企业级别对应的企业类型“家具”，显然，“家具”并不为“房屋中介”的子节点，即，第三企业级别对应的企业类型并不属于第二企业级别对应的企业类型，那么，会将第二企业级别对应的企业类型“房屋中介”确定为待分类企业信息1的目标企业类型。

关于分级顺推法，仍以图1为例，若待分类企业信息1，先确定的第三企业级别对应的企业类型“家具”，以及确定第二企业级别对应的企业类型“房屋中介”，显然，“家具”并不为“房屋中介”的子节点，由此可确定待分类企业信息1的目标企业类型肯定不为“家具”，继续推导，确定的第二企业级别对应的企业类型的上一企业级别对应的企业类型(第一企业级别对应的企业类型)“房产家装”，显然，“房屋中介”为“房产家装”的子节点，因此，将第二企业级别对应的企业类型“房屋中介”确定为待分类企业信息1的目标企业类型。

显然，无论是分级顺推法还是分级逆推法，都能降低分类的错误率。

基于上述实施例，参阅图6所示，本发明实施例中，企业信息分类装置，至少包括数据获取单元61、处理单元62和分类单元63，其中，

数据获取单元61，用于获取待分类企业信息，以及从所述待分类企业信息中提取符合设定规则的若干词语，并将每两个词语确定为一个词语对；

处理单元62，用于基于预设的耦合网络模型，分别确定每一个词语对在预设的每一种企业类型中对应的完整相关性，其中，完整相关性用于表征两个词语之间的语义关联度，所述每一种企业类型的企业级别相同；

分类单元63，用于分别基于所述每一个词语对在所述每一种企业类型中对应的完整相关性，确定各个词语对属于每一种企业类型的耦合概率，并将最大耦合概率对应的企业类型，确定为所述待分类企业信息在当前企业级别下的企业类型。

可选的，还包括训练单元64，所述训练单元64用于：

获取待分类企业信息之前，执行以下操作：

分别针对每一个训练样本子集的每一条企业信息执行以下操作：

提取符合设定数目或设定数目范围的关键词，组成关键词集合；

将所述关键词集合中每两个关键词确定为一个关键词对，并分别计算每一个关键词对中两个关键词之间的完整相关性。

可选的，获取若干条企业信息，并从所述若干条企业信息中筛选出符合设定筛选规则的若干条企业信息，组成训练样本集，其中，所述训练样本集中的每一条企业信息都已确定各自对应的企业类型时，所述训练单元64用于：

采用句式分割，提取信息对的企业简介信息中包含的若干单句；

可选的，基于预设规则，从对应的至少一个正则句式中筛选出目标正则句式，并基于所述目标正则句式，确定对应的企业类型时，所述训练单元64用于：

从所述至少一个正则句式中，随机选取一个正则句式作为目标正则句式，并基于所述目标正则句式，将相应信息对召回至相应的企业类型处。

可选的，将所述关键词集合中每两个关键词确定为一个关键词对，并分别计算每一个关键词对中两个关键词之间的完整相关性时，所述训练单元64用于：

分别基于所述每一个关键词对中两个关键词之间的同现相关概率和耦合相关性，确定所述每一个关键词对中两个关键词之间的完整相关性。

可选的，基于所述两个关键词各自与所述至少一个中间关键词之间的同现相关概率，确定所述两个关键词之间的耦合相关性时，所述训练单元64用于：

基于所述两个关键词与所述至少一个中间关键词之间的条件相关性，确定所述两个关键词之间的耦合相关性。

可选的，基于所述两个关键词各自与所述至少一个中间关键词之间的同现相关概率，确定所述两个关键词与所述至少一个中间关键词之间的条件相关性时，所述训练单元64用于：

针对每一个中间关键词，执行以下操作：

取所述两个关键词各自与所述中间关键词之间的同现相关概率中取值小的一方，作为所述两个关键词与所述中间关键词之间的条件相关性。

可选的，基于所述两个关键词与所述至少一个中间关键词之间的条件相关性，确定所述两个关键词之间的耦合相关性时，所述训练单元64用于：

可选的，分别基于所述各个词语对在所述每一种企业类型中各自对应的完整相关性，确定所述各个词语对属于每一种企业类型的耦合概率时，所述分类单元63用于：

分别基于所述各个词语对在所述每一种企业类型中各自对应的完整相关性，确定所述各个词语对在所述每一种企业类型中的类条件概率；

可选的，还包括多级分类单元65，所述多级分类单元65用于：

将最大耦合概率对应的企业类型，确定为所述待分类企业信息在当前企业级别下的企业类型之后，执行以下操作：

确定所述待分类企业信息在预设的各个不同企业级别下的企业类型；

基于预设的多级筛选规则，从所述各个不同企业级别下的企业类型中筛选出一个企业类型，作为所述待分类企业信息的目标企业类型。

综上所述，本发明实施例中，先通过获取待分类企业信息，然后，从获取的待分类企业信息中提取符合设定规则的若干词语，并将每两个词语确定为一个词语对，接着，基于预设的耦合网络模型，确定每一个词语对在预设的每一种企业类型中的完整相关性，其中，完整相关性用于表征两个词语之间的语义关联度，每一种企业类型的企业级别相同，最后，基于每一个词语对在上述每一种企业类型中对应的完整相关性，确定各个词语对属于每一种企业类型的耦合概率，并将最大耦合概率对应的企业类型确定为待分类企业信息在当前企业级别下的企业类型，这样，对于直接获取的待分类企业信息，就能基于待分类企业信息中提取的各个词语间的语义关联度，确定待分类企业信息对应的企业类型，提高了分类的准确性，而且，由于无需任何人工操作，还提高了处理效率，进而提升了客户体验。

进一步地，基于预设的多级筛选规则，从上述各个企业级别对应的各个企业类型中，筛选出一个企业类型，作为待分类企业信息的目标企业类型，这样，就能从待分类企业信息对应的不同企业级别的企业类型中，筛选出更加符合待分类企业信息的实际需求的企业类型，进一步提高了分类的准确性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵全颖;张道泉;曹培坤;马超;赵继广
技术所有人：北京因果树网络科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。