一种企业关联关系识别方法、装置及存储介质与流程

文档序号:24075669发布日期:2021-02-26 16:49阅读:109来源:国知局
一种企业关联关系识别方法、装置及存储介质与流程

[0001]
本发明涉及人工智能技术领域,特别涉及一种企业关联关系识别方法、装置及存储介质。


背景技术:

[0002]
企业关联关系,是指根据供给关系确定上游企业与下游企业之间的关系。通常,一家企业的上游企业和下游企业的健康状况,直接影响该企业的经营状态。如果能够获知与该企业具有上下游关系的企业,则可以将上下游企业的诸多因素纳入考虑范围内。因此,在很多场景下,例如,对企业进行信用评估等场景,人们希望能够准确获知企业关联关系。
[0003]
现有的企业上下游供需关系识别方法采用分类的思想进行识别,具体有无监督学习和监督学习两种主流方法。其中无监督学习需要手工去构造与企业上下游供需关系相关的特征,但需要很强的行业知识,因为不同行业企业的关联特征是不同的。监督学习通常是基于深度学习的方法,但需要大量的标注数据才能取到好的效果,消耗大量的人工成本。由于现有技术中无监督学习和监督学习生成的模型识别能力低,从而降低了企业关系知识图谱构建工作,让人工智能技术无法高效的在企业营销活动中落地。


技术实现要素:

[0004]
本申请实施例提供了一种企业关联关系识别方法、装置及存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
[0005]
第一方面,本申请实施例提供了一种企业关联关系识别方法,该方法包括:
[0006]
通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息;
[0007]
确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中;其中,企业关联关系识别模型基于bert神经网络、卷积神经网络以及k均值聚类算法创建的;
[0008]
输出待识别企业和多个企业之间的关联关系。
[0009]
可选的,按照下述方法生成预先训练的企业关联关系识别模型,包括:
[0010]
采集并预处理每个行业中多个企业的文本信息,生成训练样本;
[0011]
根据bert神经网络、卷积神经网络以及k均值聚类算法创建企业关联关系识别模型;
[0012]
将训练样本输入至企业关联关系识别模型中,输出模型的损失值;
[0013]
当损失值达到最小时,生成训练后的企业关联关系识别模型。
[0014]
可选的,方法还包括:
[0015]
从训练样本中随机抽取某一企业的文本信息;
[0016]
将某一企业的文本信息输入训练后的企业关联关系识别模型中,生成企业类别;
[0017]
计算企业类别的类别相似度;
[0018]
当类别相似度大于预设值且模型的训练次数到达预设次数时,生成预先训练的企业关联关系识别模型。
[0019]
可选的,采集并预处理每个行业中多个企业的文本信息,生成训练样本,包括:
[0020]
采集每个行业中多个企业的文本信息;
[0021]
将每个行业中多个企业的文本信息进行清洗及噪声去除,生成多个企业中各企业的属性文本;
[0022]
将各企业的属性文本进行拼接,并按照预设字符级标注方式标注拼接后的属性文本生成各企业标注的文本信息;
[0023]
将各企业标注的文本信息确定为训练样本。
[0024]
可选的,将训练样本输入至企业关联关系识别模型中,输出模型的损失值,包括:
[0025]
将各企业标注的文本信息依次输入至企业关联关系识别模型中的bert神经网络和卷积神经网络进行文本处理,生成各企业文本信息所对应的文本向量;以及
[0026]
基于企业关联关系识别模型中的k均值聚类算法将各企业文本信息所对应的文本向量进行聚类,生成各企业文本信息的聚类结果;
[0027]
根据聚类结果以及预设损失值计算函数计算企业关联关系识别模型的损失值;
[0028]
输出企业关联关系识别模型的损失值。
[0029]
可选的,当损失值达到最小时,生成训练后的企业关联关系识别模型,包括:
[0030]
当损失值未达到最小时,基于损失值对企业关联关系识别模型进行调整,并执行将训练样本输入至企业关联关系识别模型中的步骤。
[0031]
可选的,损失值计算函数为其中,loss为损失值,a
i
为到同一簇内其他文本的平均距离,b
i
为在相邻最近的簇中到其他样本的平均距离,n为样本总个数。
[0032]
第二方面,本申请实施例提供了一种企业关联关系识别装置,该装置包括:
[0033]
文本信息采集模块,用于通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息;
[0034]
文本信息输入模块,用于确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中;其中,企业关联关系识别模型基于bert神经网络、卷积神经网络以及k均值聚类算法创建的;
[0035]
关联关系输出模块,用于输出待识别企业和多个企业之间的关联关系。
[0036]
第三方面,本申请实施例提供一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述的方法步骤。
[0037]
第四方面,本申请实施例提供一种终端,可包括:处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。
[0038]
本申请实施例提供的技术方案可以包括以下有益效果:
[0039]
在本申请实施例中,企业关联关系识别装置首先通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息,然后确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中,最后输出待识别企
业和多个企业之间的关联关系。由于本申请通过bert神经网络、卷积神经网络以及k均值聚类算法创建模型,使得训练后的模型在识别时将数据分类问题转成分布问题,能进一步提高模型的识别能力,可根据识别出的企业关联关系可以加速企业关系知识图谱构建工作,让人工智能技术更好的在企业营销活动中落地。
[0040]
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
[0041]
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
[0042]
图1是本申请实施例提供的一种企业关联关系识别方法的流程示意图;
[0043]
图2是本申请实施例提供的一种企业关联关系识别模型训练过程的过程示意图;
[0044]
图3是本申请实施例提供的一种企业关联关系识别过程的过程示意图;
[0045]
图4是本申请实施例提供的一种企业关联关系识别模型训练方法的流程示意图;
[0046]
图5是本申请实施例提供的一种企业关联关系识别装置的装置示意图;
[0047]
图6是本申请实施例提供的另一种企业关联关系识别装置的装置示意图;
[0048]
图7是本申请实施例提供的一种终端的结构示意图。
具体实施方式
[0049]
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。
[0050]
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0051]
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
[0052]
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0053]
下面将结合附图1-附图4,对本申请实施例提供的企业关联关系识别方法进行详细介绍。该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的企业关联关系识别装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。其中,本申请实施例中的企业关联关系识别装置可以为用户终端,包括但不限于:个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。
在不同的网络中用户终端可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,pda)、5g网络或未来演进网络中的终端设备等。
[0054]
请参见图1,为本申请实施例提供了一种企业关联关系识别方法的流程示意图。如图1所示,本申请实施例的方法可以包括以下步骤:
[0055]
s101,通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息;
[0056]
其中,应用程序接口(application programming interface,api),又称为应用编程接口,就是软件系统不同组成部分衔接的约定。网络爬虫(又称为网页蜘蛛,网络机器人,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
[0057]
通常,企业关联关系识别是企业上下游关系的识别,是指根据所给定的企业,按照其供给关系,来识别它的“供应商”、“同行”、“潜在客户”等关系,即给定企业集合c={c1,c2,

,c
n
},对于某个确定企业c
s
,需要从企业实体集合中对任意c
i
进行关系识别后得到关联关系f(c
s
,r,c
i
),其中r为可能存在的关系。从任务需求上来看,企业上下关系的识别其实就是判断两个企业的产品是什么,然后判断二者是否存在供需关系。
[0058]
需要说明的是,企业的名称、企业的简介、经营范围都会蕴含产品信息,这也将企业关联关系识别转换成利用企业这些属性进行文本分类的问题。在进行企业关联关系识别时,首先就是通过多种方式获取到不同行业的多个企业的产品信息。
[0059]
在一种可能的实现方式中,在进行企业关联关系(俗称企业上下游关联关系)识别时,首先通过预先设计的应用程序编程接口从指定数据库获取多个企业的文本信息。
[0060]
进一步地,指定的数据库可以是第三方公司的数据库,也可以是不同企业的数据库,可根据第三方数据库和多个企业数据库的开发者所提供的数据获取api采集企业的多个属性信息,得到多个企业的文本信息。
[0061]
在另一种可能的实现方式中,在进行企业关联关系(俗称企业上下游关联关系)识别时,根据预先设计的网络爬虫脚本语言从网络采集企业的多个属性信息,得到多个企业的文本信息。
[0062]
s102,确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中;其中,企业关联关系识别模型基于bert神经网络、卷积神经网络以及k均值聚类算法创建的;
[0063]
其中,待识别企业的文本信息可以是预先设定的待识别企业提供的信息,还可以是从步骤s101中确定出的待识别企业的文本信息。企业关联关系识别模型基于bert神经网络、卷积神经网络以及k均值聚类算法进行创建的。bert神经网络是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上运行的监督学习。卷积神经网络是深度学习的代表算法之一。卷积神经网络(cnn)具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。k均值聚类算法(k-means)可以实现对数据信息的聚类。
[0064]
在本申请实施例中,在训练企业关联关系识别模型时,首先通过api和/或网络爬虫脚本在互联网中采集并预处理每个行业中多个企业的文本信息,生成训练样本,再将
bert神经网络、卷积神经网络以及k均值聚类算法柔和一起创建企业关联关系识别模型,使得该模型具有bert神经网络、卷积神经网络以及k均值聚类算法的特征,然后将训练样本输入至企业关联关系识别模型中,输出模型的损失值,当损失值达到最小时,生成训练后的企业关联关系识别模型。模型在第一次训练后,从训练样本中随机抽取某一企业的文本信息,并将某一企业的文本信息输入训练后的企业关联关系识别模型中,生成企业类别,然后计算企业类别的类别相似度,最后当类别相似度大于预设值且模型的训练次数到达预设次数时,生成预先训练的企业关联关系识别模型。
[0065]
进一步地,在采集并预处理每个行业中多个企业的文本信息时,首先采集每个行业中多个企业的文本信息,再将每个行业中多个企业的文本信息进行清洗及噪声去除,生成多个企业中各企业的属性文本,然后将各企业的属性文本进行拼接,并按照预设字符级标注方式标注拼接后的属性文本生成各企业标注的文本信息,最后将各企业标注的文本信息确定为训练样本。
[0066]
进一步地,在将训练样本输入至企业关联关系识别模型中,输出模型的损失值,具体为:首先将各企业标注的文本信息依次输入至企业关联关系识别模型中的bert神经网络和卷积神经网络进行文本处理,生成各企业文本信息所对应的文本向量,以及基于企业关联关系识别模型中的k均值聚类算法将各企业文本信息所对应的文本向量进行聚类,生成各企业文本信息的聚类结果,然后根据聚类结果以及预设损失值计算函数计算企业关联关系识别模型的损失值,最后输出企业关联关系识别模型的损失值。
[0067]
需要说明的是,当损失值未达到最小时,基于损失值对企业关联关系识别模型进行调整,并再次将训练样本输入至企业关联关系识别模型中的步骤。
[0068]
例如图2所示,图2为本申请实施例提供的企业关联关系识别模型的训练过程示意图,在对企业关联关系识别模型进行训练时,首先采集样本数据进行预处理后得到训练数据,然后收集企业的属性文本处理后输入bert+cnn进行文本处理形成文本向量,再采用神经网络k-means进行文本聚类后得到初步的企业关联关系识别模型。再从样本数据中随机获取某一企业的样本数据进行预测,判断和标注的目标类别是否高度匹配,如果高度匹配切迭代训练的次数大于等于10次,则形成最终的企业关联关系识别模型。如果不匹配则将待处理数据进行人工校正后继续迭代训练,如果迭代次数没到达10次时,继续迭代训练。
[0069]
在一种可能的实现方式中,在根据上述方式训练完成企业关联关系识别模型后,可将步骤s101采集的多个企业的文本信息以及待识别企业的文本信息输入训练后的模型中进行处理。
[0070]
s103,输出待识别企业和多个企业之间的关联关系。
[0071]
通常,在基于步骤s102进行处理结束后生成并输出待识别企业和多个企业之间的关联关系。
[0072]
例如图3所示,图3是基于bert神经网络、卷积神经网络以及k均值聚类算法创建的企业关联关系识别模型的内部结构处理公司文本信息的过程,首先公司的信息可具备公司属性(具体包括公司名称、公司简介、公司类型以及公司经营范围),将企业实体的属性文本进行拼接,然后按字符级进行token化,生成位置嵌入(position embedding)、分割嵌入(segment embedding)、字标记(token embedding),句子长度(seq_length)取512,然后输入bert神经网络中的bert层处理,处理后再输入cnn层进行卷积核池化操作形成文本向量,
再将文本向量输入k-means层中进行聚类,最后得到聚类结果。通过最终的聚类结果可得到待识别企业和多个企业间的上下游关联关系。
[0073]
在本申请实施例中,企业关联关系识别装置首先通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息,然后确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中,最后输出待识别企业和多个企业之间的关联关系。由于本申请通过bert神经网络、卷积神经网络以及k均值聚类算法创建模型,使得训练后的模型在识别时将数据分类问题转成分布问题,能进一步提高模型的识别能力,可根据识别出的企业关联关系可以加速企业关系知识图谱构建工作,让人工智能技术更好的在企业营销活动中落地。
[0074]
请参见图4,为本申请实施例提供了一种企业关联关系识别模型训练方法的流程示意图。如图4所示,本申请实施例的方法可以包括以下步骤:
[0075]
s201,采集每个行业中多个企业的文本信息;
[0076]
通常,考虑到现有行业数据的广泛性,数据集采用相关度比较高的各大行业的数据,主要由企业的名称、企业简介、企业经营范围及企业类型所组成的文本。将抽样单位按照企业数据源划分为不同的层,然后从不同的层中独立、随机地抽取样本。从而保证样本的结构与总体的结构比较相近,从而提高估计的精度。
[0077]
s202,将每个行业中多个企业的文本信息进行清洗及噪声去除,生成多个企业中各企业的属性文本;
[0078]
通常,对收集到的文本数据进行清洗及噪声去除,由于企业经营范围字段过长且噪声极大,截取前30个字符作为目标文本,且去除掉其中的噪声数据,比如“(国家禁止或涉及行政审批的货物和技术进出口除外)”等解释说明性文本数据。
[0079]
s203,将各企业的属性文本进行拼接,并按照预设字符级标注方式标注拼接后的属性文本生成各企业标注的文本信息,将各企业标注的文本信息确定为训练样本;
[0080]
在本申请实施例中,将企业实体的属性文本进行拼接,然后按字符级进行标记化,生成位置嵌入(position embedding)、分割嵌入(segment embedding)、字标记(token embedding),句子长度(seq_length)取512位,将各企业标注的文本信息确定为训练样本。
[0081]
s204,根据bert神经网络、卷积神经网络以及k均值聚类算法创建企业关联关系识别模型;
[0082]
s205,将各企业标注的文本信息依次输入至企业关联关系识别模型中的bert神经网络和卷积神经网络进行文本处理,生成各企业文本信息所对应的文本向量;
[0083]
通常,bert(bidirectional encoder representations from transformers)是2018年谷歌开源出一款强大的自然语言处理的预训练模型。它使用了transformer作为算法的主要框架,更彻底的捕捉语句中的双向关系,使用了mask language model(mlm)和next sentence prediction(nsp)的多任务训练目标;基于bert,可以在很多nlp任务上进行微调,提升效果。同样,本发明也利用bert预训练模型,提升企业实体的表征学习效果,一定程度也可以减少对标注数据的依赖。
[0084]
在具体操作中,本发明是采用bert变体roberta进行编码后采用cnn进行特征提取,因为roberta是用中文语料进行训练的,更适合本发明的任务场景。
[0085]
在采用cnn进行特征提取时,在传统的神经网络中,每个神经元的输出接到下一层
每个神经元的输入上,这是全连接,而在cnn中,每一层都用不同的卷积核,对输入层进行卷积得到输出,再把它们组合起来得到特征向量,为kmeans层的输入做准备。
[0086]
在本申请中进行卷积时,选取指定大小的滑动窗口的卷积核对特征矩阵进行卷积,其间用到0填充操作,目的是为了充分利用和处理输入数据的边缘信息,搭配合适的卷积层参数可保持与输入同等大小,而避免随着网络深度增加,输入大小的急剧减小,在操作过程中,本发明选择[2,3,4]不同的卷积核大小,卷积核数据为128,其公式如下:
[0087]
f=(map
size-kernel
size
+2*padding)/stride+1
[0088]
其中map
size
为bert编码后的向量,kernel
size
为卷积核大小,padding,stride分别为填充变量与步长。
[0089]
再卷积层后,接一个池化层,本发明采用max-pooling的池化方式,然后将不同的卷积核进行拼接,形成代表企业实体的向量。卷积与池化的目的就是从企业实体文本中抽取关键n-gram特征,类似产品信息等,提升企业实体在面向关系任务识别的表征效果。
[0090]
s206,基于企业关联关系识别模型中的k均值聚类算法将各企业文本信息所对应的文本向量进行聚类,生成各企业文本信息的聚类结果;
[0091]
在本申请实施例中,聚类试图将数据集中的样本划分为若干个通常是不相交的“簇”,通过这样的划分,每个簇可能对应一些潜在的类别,在本发明中对应“同行”、“供应商”、“潜在客户”和“其他”。k-means聚类算法(k均值算法)是原型聚类算法之一。
[0092]
在经过bert+cnn表征后,形成企业实体集合d={c1,c2,

c
n
},然后聚类形成c={c1,c2,

,c
k
}簇,此处k=4。
[0093][0094]
其中是簇c
i
的均值向量。公式1在一定程度上刻画了簇内样本围绕簇均值样本的紧密程度,e值越小,则簇内样本相似度越高。k-means采用了贪心策略,通过迭代化来找到公式1的最优解。流程如下:
[0095]
(1)从d中随机选取k个样本作为初始向量{μ1,μ2,


k
}。
[0096]
(2)依次计算样本x
j
(1≤j≤m)与各均值向量μ
i
(1≤i≤k)的距离d
ij
=||x
j-μ
i
||2,根据距离最近的均值向量确定x
j
的类别c。
[0097]
(3)计算新的均值向量若μ

i
与μ
i
不相等,则更新均值向量。直到当前均值均未更新。
[0098]
s207,根据聚类结果以及预设损失值计算函数计算企业关联关系识别模型的损失值,输出模型的损失值;
[0099]
在本申请实施例中,为了通过特征提取和kmeans聚类过程的相互作用对网络进行动态调整和优化,我们定义优化目标为
[0100][0101]
其中,s
i
为企业样本i的分类效果变量,a
i
为到同一簇内其他文本的平均距离,b
i
为在相邻最近的簇中到其他样本的平均距离,n为样本总个数,sc的值在-1到1之间,值越高,聚类结果越合理。因此,损失函数定义为:
[0102][0103]
定义了损失函数后,可以根据损失函数对神经网络的特征提取过程进行连续的训练、调整和优化。直到损失函数最小,在现有条件下聚类结果达到最优。
[0104]
s208,当损失值达到最小时,生成训练后的企业关联关系识别模型;
[0105]
在一种可能的实现方式中,当损失值达到最小时,生成训练后的企业关联关系识别模型,当损失值未达到最小时,基于损失值对企业关联关系识别模型进行调整,并执行将训练样本输入至企业关联关系识别模型中的步骤。
[0106]
s209,从训练样本中随机抽取某一企业的文本信息,并将某一企业的文本信息输入训练后的企业关联关系识别模型中生成企业类别;
[0107]
s210,计算企业类别的类别相似度;
[0108]
s211,当类别相似度大于预设值且模型的训练次数到达预设次数时,生成预先训练的企业关联关系识别模型。
[0109]
在一种可能的实现方式中,当类别相似度大于预设值且模型的训练次数到达预设次数时,生成预先训练的企业关联关系识别模型,如果类别相似度小于预设值时,将该数据样本作为待处理数据进行人工校正,重新训练该模型。当迭代次数小于10次时,继续进行迭代训练该模型。
[0110]
在本申请实施例中,企业关联关系识别装置首先通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息,然后确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中,最后输出待识别企业和多个企业之间的关联关系。由于本申请通过bert神经网络、卷积神经网络以及k均值聚类算法创建模型,使得训练后的模型在识别时将数据分类问题转成分布问题,能进一步提高模型的识别能力,可根据识别出的企业关联关系可以加速企业关系知识图谱构建工作,让人工智能技术更好的在企业营销活动中落地。
[0111]
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
[0112]
请参见图5,其示出了本发明一个示例性实施例提供的企业关联关系识别装置的结构示意图。该企业关联关系识别装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置5包括文本信息采集模块10、文本信息输入模块20、关联关系输出模块30。
[0113]
文本信息采集模块10,用于通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息;
[0114]
文本信息输入模块20,用于确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中;其中,企业关联关系识别模型基于bert神经网络、卷积神经网络以及k均值聚类算法创建后采用训练样本训练所生成;
[0115]
关联关系输出模块30,用于输出待识别企业和多个企业之间的关联关系。
[0116]
可选的,例如图6所示,装置1还包括:
[0117]
训练样本生成模块40,用于采集并预处理每个行业中多个企业的文本信息,生成
训练样本;
[0118]
模型创建模块50,用于根据bert神经网络、卷积神经网络以及k均值聚类算法创建企业关联关系识别模型;
[0119]
损失值输出模块60,用于将训练样本输入至企业关联关系识别模型中,输出模型的损失值;
[0120]
模型生成模块70,用于当损失值达到最小时,生成训练后的企业关联关系识别模型。
[0121]
需要说明的是,上述实施例提供的企业关联关系识别装置在执行企业关联关系识别方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的企业关联关系识别装置与企业关联关系识别方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
[0122]
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
[0123]
在本申请实施例中,企业关联关系识别装置首先通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息,然后确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中,最后输出待识别企业和多个企业之间的关联关系。由于本申请通过bert神经网络、卷积神经网络以及k均值聚类算法创建模型,使得训练后的模型在识别时将数据分类问题转成分布问题,能进一步提高模型的识别能力,可根据识别出的企业关联关系可以加速企业关系知识图谱构建工作,让人工智能技术更好的在企业营销活动中落地。
[0124]
本发明还提供一种计算机可读介质,其上存储有程序指令,该程序指令被处理器执行时实现上述各个方法实施例提供的企业关联关系识别方法。
[0125]
本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个方法实施例的企业关联关系识别方法。
[0126]
请参见图7,为本申请实施例提供了一种终端的结构示意图。如图7所示,终端1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
[0127]
其中,通信总线1002用于实现这些组件之间的连接通信。
[0128]
其中,用户接口1003可以包括显示屏(display)、摄像头(camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
[0129]
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。
[0130]
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行电子设备1000的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(central processing unit,cpu)、图像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程
序等;gpu用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
[0131]
其中,存储器1005可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图7所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及企业关联关系识别应用程序。
[0132]
在图7所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的企业关联关系识别应用程序,并具体执行以下操作:
[0133]
通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息;
[0134]
确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中;其中,企业关联关系识别模型基于bert神经网络、卷积神经网络以及k均值聚类算法创建后采用训练样本训练所生成;
[0135]
输出待识别企业和多个企业之间的关联关系。
[0136]
在一个实施例中,处理器1001在执行通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息之前时,还执行以下操作:
[0137]
采集并预处理每个行业中多个企业的文本信息,生成训练样本;
[0138]
根据bert神经网络、卷积神经网络以及k均值聚类算法创建企业关联关系识别模型;
[0139]
将训练样本输入至企业关联关系识别模型中,输出模型的损失值;
[0140]
当损失值达到最小时,生成训练后的企业关联关系识别模型;
[0141]
从训练样本中随机抽取某一企业的文本信息;
[0142]
将某一企业的文本信息输入训练后的企业关联关系识别模型中,生成企业类别;
[0143]
计算企业类别的类别相似度;
[0144]
当类别相似度大于预设值且模型的训练次数到达预设次数时,生成预先训练的企业关联关系识别模型。
[0145]
在一个实施例中,处理器1001在执行采集并预处理每个行业中多个企业的文本信息,生成训练样本时,具体执行以下操作:
[0146]
采集每个行业中多个企业的文本信息;
[0147]
将每个行业中多个企业的文本信息进行清洗及噪声去除,生成多个企业中各企业的属性文本;
[0148]
将各企业的属性文本进行拼接,并按照预设字符级标注方式标注拼接后的属性文本生成各企业标注的文本信息;
[0149]
将各企业标注的文本信息确定为训练样本。
[0150]
在一个实施例中,处理器1001在执行将训练样本输入至企业关联关系识别模型中,输出模型的损失值时,具体执行以下操作:
[0151]
将各企业标注的文本信息依次输入至企业关联关系识别模型中的bert神经网络和卷积神经网络进行文本处理,生成各企业文本信息所对应的文本向量;以及
[0152]
基于企业关联关系识别模型中的k均值聚类算法将各企业文本信息所对应的文本向量进行聚类,生成各企业文本信息的聚类结果;
[0153]
根据聚类结果以及预设损失值计算函数计算企业关联关系识别模型的损失值;
[0154]
输出企业关联关系识别模型的损失值。
[0155]
在一个实施例中,处理器1001在执行当损失值达到最小时,生成训练后的企业关联关系识别模型时,具体执行以下操作:
[0156]
当损失值未达到最小时,基于损失值对企业关联关系识别模型进行调整,并执行将训练样本输入至企业关联关系识别模型中的步骤。
[0157]
在本申请实施例中,企业关联关系识别装置首先通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息,然后确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中,最后输出待识别企业和多个企业之间的关联关系。由于本申请通过bert神经网络、卷积神经网络以及k均值聚类算法创建模型,使得训练后的模型在识别时将数据分类问题转成分布问题,能进一步提高模型的识别能力,可根据识别出的企业关联关系可以加速企业关系知识图谱构建工作,让人工智能技术更好的在企业营销活动中落地。
[0158]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
[0159]
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1