基于深度神经网络的实体关系抽取系统的制作方法

文档序号:12612228阅读:254来源:国知局
基于深度神经网络的实体关系抽取系统的制作方法与工艺

本发明涉及自然语言处理领域,特别涉及基于深度神经网络的实体关系抽取系统。



背景技术:

随着互联网的快速发展,互联网已经成为了人们获取信息的主要渠道,互联网上的文本数据内容也呈现出指数级增长的趋势。互联网上的文本数据中包含了丰富的信息,对于我们构建知识库或知识图谱非常有用;但是人工进行相关知识提取工作量极其巨大,如果计算机能够理解并提取出有用的信息,那将具有非常重要的意义。但互联网上的文本数据几乎都是以自然语言的形式存在,即无结构化的,计算机无法直接进行处理。为了解决这个问题,信息抽取技术应运而生,信息抽取技术从无结构化的文本数据中抽取出结构化数据,包括实体、实体间关系、事件等。

关系抽取是信息抽取技术里的一项关键技术,通常通过命名实体识别技术识别出句子或语篇中的实体,再由关系抽取技术识别实体对之间的关系。关系抽取常用的方法包括:基于规则的抽取方法,基于无监督学习的抽取方法和基于监督学习的抽取方法。基于规则的关系抽取方法是人工编写规则来识别句子或者语篇中两个实体之间的关系。基于无监督学习的关系抽取方法将包括实体的句子或者语篇进行聚类,基于聚类结果进行关系识别。基于监督学习的关系抽取方法,通常将关系抽取问题转化为一个分类问题,再基于传统机器学习技术或深度学习技术进行关系分类。

目前关系抽取方法中,基于规则的方法存在明显的不足,该方法需要人工编写大量的规则,工作量非常大,不易维护,而且必须对每个领域都编写规则,不能很好的扩展到其他领域。基于无监督学习的方法,将句子或语篇进行聚类时,往往效果不是很好,存在召回率和准备率都不高的问题,而且需要很多的人工干预。基于监督学习的关系抽取算法中,基于传统的机器学习算法进行关系分类时,需要人工提炼大量的特征,通常会基于分词、词性标注及句法分析等自然语言处理工具的结果提取特征,而且需要具备特定的领域知识,工作量大。

基于深度学习进行关系分类时,不用人工做大量的特征提取,如利用卷积神经网络进行关系分类,但目前利用卷积神经网络进行关系分类时没有利用句子中词的词性信息,词性是词法分析的重要成果,对理解句子含义非常有意义,为关系分类提供非常重要的信息,能够提高关系分类的准确率,优化关系提取的效果。目前缺乏基于词性的相应的实体关系自动抽取工具。



技术实现要素:

本发明的目的在于克服现有技术中所存在的上述不足,提供基于深度神经网络的实体关系抽取系统,所述系统提供实体关系的自动抽取工具,将待处理文本输入所述系统中,所述系统实现实体关系的自动判断和输出;所述系统将词性纳入特征信息输入到卷积神经网络中,由卷积神经网络来完成对包括词、词性和相对于待抽取关系的实体位置的信息的自动特征提取,进行实体关系的自动分类;无需手动进行特征提取,预测的效率和准确率更高。

为了实现上述发明目的,本发明提供了以下技术方案:基于深度神经网络的实体关系抽取系统,所述系统包含卷积神经网络,所述系统将待处理文本的词信息向量矩阵输入所述卷积神经网络中,由所述卷积神经网络进行特征抽取,进而完成成对待处理文本中实体关系的判断;

所述词信息向量矩阵由词信息向量依序排列而成;

所述词信息向量由对应词向量、词性向量、相对于待抽取关系第一实体的位置向量和相对于第二实体的位置向量拼接而成。

具体的,所述系统实现实体关系抽取包含以下实现步骤:

(1)所述系统对待处理文本进行分词,形成词序列,将序列中的各个词转换形成对应的词向量;对序列中的各个词进行对应的词性标注,将各个词的词性转化成对应的词性向量;

(2)计算句子中各个词相对于第一实体的位置,生成第一位置向量;计算句子中各个词相对于第二实体的位置,生成第二位置向量;

(3)将词序列中各个词的词向量、词性向量,第一位置向量和第二位置向量,拼接成对应的词信息向量;并将各个词对应的词信息向量依序排列,形成词信息矩阵;

(4)通过卷积神经网络对词信息矩阵进行采样;进而实现实体关系分类判断。

进一步的:所述系统还包含词向量转化模块和词性向量转换模块;所述词向量转换模块,完成词向量转化包含以下实现步骤:

构建一个语料库;

对语料库中的文本进行分词,并进行对应词性标注;

对分词后形成词的采用Word Embedding算法进行向量转化,同一个词对应一个向量;

将各个词性采用Word Embedding算法进行向量转化,同一词性对应一个向量。

作为一种优选:所述词向量转化模块和词性向量转化模块选用word2vec来实现词和词性的向量化。

进一步的,所述卷积神经网络包括卷积层、池化层和softmax层;所述卷积层将提取到的特征信息输入到池化层中进行降维处理后,输入到softmax层中进行实体关系的分类预测。

进一步的,所述系统为加载有上述实体关系抽取功能程序的计算机或者服务器。

与现有技术相比,本发明的有益效果:本发明提供基于深度神经网络的实体关系抽取系统,所述提供实体关系的自动抽取工具,将待处理文本输入所述系统中,所述系统实现实体关系的自动判断和输出;本系统将词性纳入特征信息输入到卷积神经网络中,由卷积神经网络来完成对包括词,词性和相对于待抽取关系的实体位置的信息的自动特征提取,进行实体关系的自动分类;在采用卷积神经网络进行关系抽取时,除了利用词信息和相对于实体的位置信息以外,还充分利用了词的词性信息,有助于更好的理解句子语义。将词性向量和词向量结合成一个信息含量更大的向量;当词向量信息不足的时候词性向量信息会作为补充,使卷积神经网络能够自动学习到更多有助于关系分类的特征,准确率更高。当句子中的词语表示存在歧义时,加入词性信息后,可以一定程度上消除歧义,使关系抽取的鲁棒性更好。

与基于规则的关系抽取方法相比,本发明系统实现的实体关系抽取不用人工编写大量的规则,减少了工作量;而且能够比较好的扩展到不同的领域。本发明系统省略了人工规则编写的步骤,特征的提取由卷积神经网络来完成提取,与基于传统机器学习方法相比,本发明不用做繁琐的特征工程工作,使提升了实体关系的判断效率。

附图说明:

图1为本基于深度神经网络的实体关系抽取系统的实现步骤图。

图2为实施例1中本基于深度神经网络的实体关系抽取系统实现步骤示意图。

图3为本基于深度神经网络的实体关系抽取系统的工作原理示意图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。

提供基于深度神经网络的实体关系抽取系统:基于深度神经网络的实体关系抽取系统,所述系统包含卷积神经网络,所述系统将待处理文本的词信息向量矩阵输入所述卷积神经网络中,由所述卷积神经网络进行特征抽取,进而完成对待处理文本中实体关系的判断;

所述词信息向量矩阵由词信息向量依序排列而成;

所述词信息向量由对应词向量、词性向量、相对于待抽取关系第一实体的位置向量和相对于第二实体的位置向量拼接而成。

具体的,所述系统实现实体关系抽取包含以下实现步骤:

(1)所述系统对待处理文本进行分词,形成词序列,将序列中的各个词转换形成对应的词向量;对序列中的各个词进行对应的词性标注,将各个词的词性转化成对应的词性向量;

(2)计算句子中各个词相对于第一实体的位置,生成第一位置向量;计算句子中各个词相对于第二实体的位置,生成第二位置向量;

(3)将词序列中各个词的词向量、词性向量,第一位置向量和第二位置向量,拼接成对应的词信息向量;并将各个词对应的词信息向量依序排列,形成词信息矩阵;

(4)通过卷积神经网络对词信息矩阵进行采样;进而实现实体关系分类判断。

进一步的:所述系统还包含词向量转化模块和词性向量转化模块;所述词向量转化模块,完成词向量转化包含以下实现步骤:

构建一个语料库;

对语料库中的文本进行分词,并进行对应词性标注;

对分词后形成词的采用Word Embedding算法进行向量转化,同一个词对应一个向量;

将各个词性采用Word Embedding算法进行向量转化,同一词性对应一个向量。

作为一种优选:所述词向量转化模块和词性向量转化模块选用word2vec来实现词和词性的向量化。

进一步的,所述卷积神经网络包括卷积层、池化层和softmax层;所述卷积层将提取到的特征信息输入到池化层中进行降维处理后,输入到softmax层中进行对实体关系的分类预测。

进一步的,所述系统为加载有上述实体关系抽取功能程序的计算机或者服务器。实施例1:

在计算机或者服务器中建立或存储词向量转化模块和词性向量转换模块,并进行训练:如图2所示:选择一个较大的语料库,使用分词工具对语料库中的所有句子进行分词,得到分词结果。对语料库的分词结果,采用Word Embedding技术来生成每个词的N维词向量(N纬度的大小根据语料库中包含词的多少,即语料的规模来设定;在语料库规模较大的情况下,为了避免编码稀疏的问题,可以进行降维,例如使用向量来表示每个词,向量中使用连续的变化的数字),进而得到语料库所包含词的词向量矩阵Matrix1,其中矩阵的每个行向量对应语料库中一个词的词向量。本步骤中语料库中的同一个词对应同一个向量,比如说:“中国”一词,在语料库中可能多次出现,但“中国”一词在向量标注结果中仅对应同一个向量。作为优选,可选择word2vec来实现每个词的向量转化,word2vec可以实现词的向量转化,可以更好的理解词义和语义,所生成的向量中,向量越近,对应的词义也越近。

在分词的基础上,基于语料库的分词结果,使用词性标注工具对语料库中每个句子中的词进行词性标注。得到的词性标注结果后,将句子中的词性作为一个序列;采用Word Embedding技术生成每个词性的M维词性向量,进而得到语料库的词性向量矩Matrix2,其中矩阵的每一行对应语料库中一个词性的词性向量。

上述过程建立了词与词向量的映射关系,建立了词性与词性向量的映射关系;为卷积神经网络的使用进行了准备。

构建本系统功能的卷积神经网络模型,将上述模型存储于计算机或者服务器中;模型建立之后需要对网络进行训练,训练过程如下:在进行正式的分类识别之前,需要对包括卷积层、maxpooling层和softmax层的神经网络进行训练,训练过程与识别过程类似;构建好神经网络后,将一定数量的(比如说300件)人工标注好实体关系类型的训练样本,进行文本分词和词性标注,形成序列,对序列中的每个词在Matrix1查找对应词向量,在Matrix2中抽取对应的词性向量,生成相对于第一实体的第一位置向量,生成相当于第二实体的第二位置向量,将每个词的上述向量拼接成一个对应的词信息向量,并根据分词序列,将各个词的向量依序排列形成矩阵,将矩阵作为卷积神经网络的输入,经过神经网络正反向传播和自动权重调节,直到设置的准确率阈值时,停止训练。

模型训练完毕后,将待处理文本输入所述系统中,所述系统自动实现以下识别过程:对于包含待抽取关系实体对的待处理文本(句子或语篇),使用分词工具进行分词,得到分词后的序列,并使用词性标注工具进行词性标注。确定待分类句子两个实体(第一实体Entity1和第二实体Entity2)的位置,并计算序列中各个词相对于第一实体Entity1的位置,对每一个位置随机生成一个K维的位置向量Vector3,进而得到位置向量矩阵Matrix3。计算序列中各个词相对于第二实体Entity2的位置,对每一个位置随机生成一个K维的位置向量Vector4,进而得到位置向量矩阵Matrix4。

对于句子或语篇分词结果序列里的每一个词,依次从词向量矩阵Matrix1中取出对应的N维词向量Vector1;对于句子或语篇的词性标注结果序列里的每一个词,依次从词性向量矩阵Matrix2中取出对应的M维词性向量Vector2。基于词相对于Entity1和Entity2的位置,从Matrix3中取出对应的K维位置向量Vector3,从Matrix4中取出对应的K维位置向量Vector4,将Vector1、Vector2、Vector3和Vector4拼接到一起得到N+M+2K维的向量Vector5。

得到句子或语篇中的每个词的N+M+2K维向量后,按序组合到一起得到句子或语篇的向量矩阵Matrix5,假设序列的长度为C。

将Matrix5作为卷积神经网络的输入,首先通过卷积层做卷积操作,卷积核大小为w×(N+M+2K);卷积核每次滑动位置为1,因此每个卷积核可以得到一个长度为C-w+1维的向量。将卷积层采集的向量输入到池化层,通过池化层来降低向量的纬度,可以才采用max pooling层作为池化层来对每一个卷积核做Max Pooling操作:采用max pooling函数,即取出C-w+1维向量中值最大的那一个;一个卷积核对应一个值,通过池化层后每个句子或者语篇会得到一个向量Vector6,向量Vector6的维数等于网络中卷积核的个数。最后在池化层的基础上,将向量Vector6输入到softmax层中,用softmax层进行实体关系的分类,计算出待处理文本中实体关系的分类概率,取概率最大的关系类型作为分类结果。

如图3所示:本实施例以“XXX集团董事长王X召开临时股东会议”为例来说明本发明系统实体关系的抽取过程:将文本输入本发明系统中,系统自动完成对“XXX集团董事长王X召开临时股东会议”进行分词,得到:“XXX集团董事长王X召开临时股东会议”分词序列,对分词后的序列进行词性标注;词性标注结果为“XXX集团/NN董事长/NN王X/NR召开/VV临时/AD股东会议/NN”。将(由“XXX集团/NN董事长/NN王X/NR召开/VV临时/AD股东会议/NN”对应的词信息矩阵)输入到卷积层中,由卷积神经网络完成特征的提取,输入到max pooling层中,进行降维处理,最后由softmax层输出“XXX集团董事长王X召开临时股东会议”的实体关系类别的判断结果。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1