实体关系抽取模型的构建方法、装置和存储介质与流程

文档序号:18739430发布日期:2019-09-21 01:36阅读:192来源:国知局
实体关系抽取模型的构建方法、装置和存储介质与流程

本发明涉及数据挖掘技术领域,尤其涉及一种实体关系抽取模型的构建方法、装置和存储介质。



背景技术:

关系抽取是实体识别基础上的一个任务,其核心是抽取一个句子中包含的实体对之间的关系。一般是采用一个实体关系抽取模型对待测语料进行实体关系抽取。远程监督是目前构建关系抽取模型中比较常见的一类做法,它是假设如果训练语料中的句子所包含的实体对在语料库中有关系的体现,那么我们认为语料库中所有包含相同实体对的句子都表达此关系。但采用这种假设会出现很多噪声数据,因为一个实体对默认有唯一的实体关系,而包含实体的一句话并不一定能够表示实体对的关系,甚至还存在语义理解上的误导。

《Neural Relation Extraction with Selective Attention over Instances》一文在远程监督的基础上引入注意力机制,来进一步筛选能够表达关系的句子。然而对于复杂的语料,采用注意力机制仅对表达关系的句子进行筛选仍然会出现误差。例如在下列语句中:斯内普深情的看着莉莉。而她的眼中只有詹姆。对于三元组(斯内普,朋友,莉莉),根据远程监督的方式会认为“斯内普深情的看着莉莉”这句话能够表达实体之间的关系,虽然通过注意力机制能给这句话定义一个较低的权值,但透过对上下文的理解,我们知道这句话反而会起到误导作用,即不仅不会表达朋友关系,反而会倾向于表达恋人关系。而采用注意力机制在关系抽取过程中并不能考虑到对关系存在误导的句子,抽取的实体关系存在较大的误差。因此,目前在对实体关系抽取模型的构建时存在不准确的问题。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。



技术实现要素:

本发明的主要目的在于提供一种实体关系抽取模型的构建方法、装置和存储介质,旨在解决构建的实体关系抽取模型准确性不高的问题。

为实现上述目的,本发明提供一种实体关系抽取模型的构建方法,所述实体关系抽取模型的构建方法包括以下步骤:从样本语料库中提取多个样本语句组,各样本语句组分别包括实体语句、关系语句、所述实体语句的前句、以及所述实体语句的后句,所述实体语句为包含样本三元组中的样本实体对的语句,所述关系语句为用于描述所述样本实体对的实体关系的语句;对各样本语句组分别进行编码,获得多个样本语句向量组;结合各样本语句向量组中的各语句向量为各样本语句向量组中的不同实体语句向量分别分配权值;根据各样本语句向量组中的实体语句向量以及对应的权值生成实体语句集向量;通过所述实体语句集向量对预设神经网络模型进行训练,获得实体关系抽取模型。

可选地,所述对各样本语句组分别进行编码,获得多个样本语句向量组的步骤包括:遍历各样本语句组,提取遍历到的当前样本语句组中各语句的特征;利用长短期记忆网络对所述特征进行编码,获得所述当前样本语句组中各语句对应的语句向量,并根据获得的语句向量生成所述当前样本语句组对应的样本语句向量组。

可选地,所述特征包括当前样本语句组中的语句中各单词与实体单词之间的最小距离的排序组合、当前样本语句组中的语句中各单词的排序组合、以及当前样本语句组中的语句中各单词的命名实体的排序组合中的至少一个;所述距离为单词与实体单词之间的非实体单词的个数。

可选地,结合各样本语句向量组中的各语句向量采用以下公式为各样本语句向量组中的不同实体语句向量分别分配权值:hi=tanh(X'iA1R+XiA2R+X”iA3R);其中,hi为实体语句向量的权值,Xi为实体语句向量,X'i为实体语句向量的前句向量,X”i为实体语句向量的后句向量,R为关系向量,A1、A2、A3均为待训练参数。

可选地,所述通过所述实体语句集向量对预设神经网络模型进行训练,获得实体关系抽取模型的步骤之后,所述实体关系抽取模型的构建方法还包括:利用所述实体关系抽取模型对所述样本语料库进行实体关系抽取,得到预测实体关系;根据与所述样本语料库的样本三元组对所述预测实体关系进行误差分析,在误差分析的结果未达到预设的误差标准时,重新选取样本三元组以返回所述从样本语料库中提取多个样本语句组的步骤,直至所述误差分析的结果达到预设的误差标准。

可选地,所述通过所述实体语句集向量对预设神经网络模型进行训练,获得实体关系抽取模型的步骤之后,所述实体关系抽取模型的构建方法还包括:利用所述实体关系抽取模型对待测语料进行实体关系抽取,获得所述待测语料中的实体关系。

可选地,所述利用所述实体关系抽取模型对待测语料进行实体关系抽取,获得所述待测语料中的实体关系的步骤包括:从待测语料中提取多个待测语句组,所述待测语句组分别包括待测语句、所述待测语句的前句、以及所述待测语句的后句,所述待测语句为包含待测实体对的语句;对各待测语句组分别进行编码,获得待测语句向量组;利用所述待测语句向量组为各待测语句向量组中的不同待测语句向量分别分配权值;根据各待测语句向量组中的待测语句向量以及对应的权值生成待测实体语句集向量;将所述待测实体语句集向量输入所述实体关系抽取模型中,获得待测实体对的实体关系向量;对所述实体关系向量进行解码,获得待测实体对的实体关系。

此外,为实现上述目的,本发明还提供一种资源采集频率调整装置,所述实体关系抽取模型的构建装置包括:提取模块,用于从样本语料库中提取多个样本语句组,各样本语句组分别包括实体语句、关系语句、所述实体语句的前句、以及所述实体语句的后句,所述实体语句为包含样本三元组中的样本实体对的语句,所述关系语句为用于描述所述样本实体对的实体关系的语句;编码模块,用于对各样本语句组分别进行编码,获得多个样本语句向量组;权值分配模块,用于结合各样本语句向量组中的各语句向量为各样本语句向量组中的不同实体语句向量分别分配权值;生成模块,用于根据各样本语句向量组中的实体语句向量以及对应的权值生成实体语句集向量;训练模块,用于通过所述实体语句集向量对预设神经网络模型进行训练,获得实体关系抽取模型。

此外,为实现上述目的,本发明还提供一种资源采集频率调整装置,所述实体关系抽取模型的构建装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的实体关系抽取模型的构建程序,所述实体关系抽取模型的构建程序被所述处理器执行时实现如上述的实体关系抽取模型的构建方法的步骤。

此外,为实现上述目的,本发明还提供一种存储介质,所述存储介质上存储有实体关系抽取模型的构建程序,所述实体关系抽取模型的构建程序被处理器执行时实现如上述的实体关系抽取模型的构建方法的步骤。

本发明实施例提出的一种实体关系抽取模型的构建方法、构建装置和存储介质,通过从样本语料库中提取多个样本语句组,各样本语句组分别包括实体语句、关系语句、所述实体语句的前句、以及所述实体语句的后句;进一步对多个样本语句组进行编码,结合编码所得的多个样本语句向量组中的各语句向量为各样本语句向量组中的不同实体语句向量分别分配权值,进一步根据各样本语句向量组中的实体语句向量以及对应的权值生成的实体语句集向量预设神经网络模型进行训练后,获得实体关系抽取模型,通过对实体语句的前句和实体语句的后句分别进行编码后再进一步对实体语句向量分配权值,在对实体语句向量分配权值时融入了实体语句的上下文的参考因素,使得采用本发明的方法构建的实体关系抽取模型准确性高。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图;

图2为本发明实体关系抽取模型的构建方法第一实施例的流程示意图;

图3为图2中实体关系抽取模型的构建方法第一实施例的步骤S204的细化流程示意图;

图4为本发明实体关系抽取模型的构建方法第一实施例对样本语句组中各语句的特征进行编码的过程示意图;

图5为图2中实体关系抽取模型的构建方法第一实施例的步骤S208的细化流程示意图;

图6为本发明实体关系抽取模型的构建方法第二实施例的流程示意图;

图7为本发明实体关系抽取模型的构建方法第三实施例的流程示意图;

图8为图7中实体关系抽取模型的构建方法第三实施例的步骤S702的细化流程示意图;

图9是本发明实体关系抽取模型的构建装置的结构框图。

本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明实施例的主要解决方案是:从样本语料库中提取多个样本语句组,各样本语句组分别包括实体语句、关系语句、所述实体语句的前句、以及所述实体语句的后句,所述实体语句为包含样本三元组中的样本实体对的语句,所述关系语句为用于描述所述样本实体对的实体关系的语句;对各样本语句组分别进行编码,获得多个样本语句向量组;结合各样本语句向量组中的各语句向量为各样本语句向量组中的不同实体语句向量分别分配权值;根据各样本语句向量组中的实体语句向量以及对应的权值生成实体语句集向量;通过所述实体语句集向量对预设神经网络模型进行训练,获得实体关系抽取模型。

本发明提供一种解决方案,通过从样本语料库中提取多个样本语句组,各样本语句组分别包括实体语句、关系语句、所述实体语句的前句、以及所述实体语句的后句;进一步对多个样本语句组进行编码,结合编码所得的多个样本语句向量组中的各语句向量为各样本语句向量组中的不同实体语句向量分别分配权值,进一步根据各样本语句向量组中的实体语句向量以及对应的权值生成的实体语句集向量预设神经网络模型进行训练后,获得实体关系抽取模型,通过对实体语句的前句和实体语句的后句分别进行编码后再进一步对实体语句向量分配权值,在对实体语句向量分配权值时融入了实体语句的上下文的参考因素,使得采用本发明的方法构建的实体关系抽取模型准确性高。

如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。

如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及实体关系抽取模型的构建程序。

在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的实体关系抽取模型的构建程序,并执行以下操作:

从样本语料库中提取多个样本语句组,各样本语句组分别包括实体语句、关系语句、所述实体语句的前句、以及所述实体语句的后句,所述实体语句为包含样本三元组中的样本实体对的语句,所述关系语句为用于描述所述样本实体对的实体关系的语句;对各样本语句组分别进行编码,获得多个样本语句向量组;结合各样本语句向量组中的各语句向量为各样本语句向量组中的不同实体语句向量分别分配权值;根据各样本语句向量组中的实体语句向量以及对应的权值生成实体语句集向量;通过所述实体语句集向量对预设神经网络模型进行训练,获得实体关系抽取模型。

可选地,所述对各样本语句组分别进行编码,获得多个样本语句向量组的步骤包括:遍历各样本语句组,提取遍历到的当前样本语句组中各语句的特征;利用长短期记忆网络对所述特征进行编码,获得所述当前样本语句组中各语句对应的语句向量,并根据获得的语句向量生成所述当前样本语句组对应的样本语句向量组。

可选地,所述特征包括当前样本语句组中的语句中各单词与实体单词之间的最小距离的排序组合、当前样本语句组中的语句中各单词的排序组合、以及当前样本语句组中的语句中各单词的命名实体的排序组合中的至少一个;所述距离为单词与实体单词之间的非实体单词的个数。

可选地,结合各样本语句向量组中的各语句向量采用以下公式为各样本语句向量组中的不同实体语句向量分别分配权值:hi=tanh(X'iA1R+XiA2R+X”iA3R);其中,hi为实体语句向量的权值,Xi为实体语句向量,X'i为实体语句向量的前句向量,X”i为实体语句向量的后句向量,R为关系向量,A1、A2、A3均为待训练参数。

可选地,所述通过所述实体语句集向量对预设神经网络模型进行训练,获得实体关系抽取模型的步骤之后,所述实体关系抽取模型的构建方法还包括:利用所述实体关系抽取模型对所述样本语料库进行实体关系抽取,得到预测实体关系;根据与所述样本语料库的样本三元组对所述预测实体关系进行误差分析,在误差分析的结果未达到预设的误差标准时,重新选取样本三元组以返回所述从样本语料库中提取多个样本语句组的步骤,直至所述误差分析的结果达到预设的误差标准。

可选地,所述通过所述实体语句集向量对预设神经网络模型进行训练,获得实体关系抽取模型的步骤之后,所述实体关系抽取模型的构建方法还包括:利用所述实体关系抽取模型对待测语料进行实体关系抽取,获得所述待测语料中的实体关系。

可选地,所述利用所述实体关系抽取模型对待测语料进行实体关系抽取,获得所述待测语料中的实体关系的步骤包括:从待测语料中提取多个待测语句组,所述待测语句组分别包括待测语句、所述待测语句的前句、以及所述待测语句的后句,所述待测语句为包含待测实体对的语句;对各待测语句组分别进行编码,获得待测语句向量组;利用所述待测语句向量组为各待测语句向量组中的不同待测语句向量分别分配权值;根据各待测语句向量组中的待测语句向量以及对应的权值生成待测实体语句集向量;将所述待测实体语句集向量输入所述实体关系抽取模型中,获得待测实体对的实体关系向量;对所述实体关系向量进行解码,获得待测实体对的实体关系。

参照图2,一种实体关系抽取模型的构建方法第一实施例,包括以下步骤:

步骤S202,从样本语料库中提取多个样本语句组,各样本语句组分别包括实体语句、关系语句、所述实体语句的前句、以及所述实体语句的后句,所述实体语句为包含样本三元组中的样本实体对的语句,所述关系语句为用于描述所述样本实体对的实体关系的语句;

其中,样本语料库包括样本语料和与样本语料相对应的多个样本三元组。样本语料库可以存储于终端的存储器内,还可以存储于与终端通信连接的外部设备中。样本语料中包含多个样本实体,不同的样本实体具有互不相同的指代名称。具体地,样本语料可以但不限于是同一篇文章中的一个或多个段落。所述文章可以是所属任何领域的任何表现形式的文章,例如文学小说、散文、诗歌、戏剧剧本、以及科研论文等。样本语料中各语句可以是均采用同一种语言表达,还可以采用多种不同的语言表达。样本三元组包括由两个样本实体组成的样本实体对,以及所述样本实体对的实体关系。样本三元组的表示形式可以为(e1,r0,e2),其中,e1和e2为两个样本实体,r0为样本实体对e1和e2的实体关系。e1、e2和r0均以语句的形式呈现。即样本三元组包括样本实体对和描述所述样本实体对的实体关系的关系语句。多个样本三元组为预先从样本语料中提取的标准的三元组,可以是人为手动提取所得。

本实施例中,终端选取预设数量的样本三元组执行步骤S202。具体地,终端选取预设数量的样本三元组,遍历选取的预设数量的样本三元组,提取遍历到的当前样本三元组中的当前样本实体对。进一步地,终端从样本语料库中提取包含当前样本三元组中的当前样本实体对的多个实体语句。具体地,终端采用远程监督从样本语料中提取包含当前样本实体对的多个实体语句。进一步地,终端在提取到包含当前样本实体对的实体语句时,提取所述实体语句在样本语料中的前句、以及所述实体语句在样本语料中的后句。终端从当前样本三元组中提取描述当前样本实体对的实体关系的关系语句。本实施例中,实体语句,实体语句的前句、实体语句的后句、以及描述实体语句中包含的当前样本实体对的关系语句作为一个样本语句组。其中,一个样本三元组中的样本实体对可以对应多个样本语句组。

步骤S204,对各样本语句组分别进行编码,获得多个样本语句向量组;

样本语句向量组包括与实体语句、关系语句、实体语句的前句、以及实体语句的后句一一对应的实体语句向量、关系向量、前句向量、以及后句向量等多个语句向量。

具体地,参照图3,步骤S204包括:

步骤S302,遍历各样本语句组,提取遍历到的当前样本语句组中各语句的特征;

具体地,终端根据预设顺序依次遍历各样本语句组,遍历到当前样本语句组时,继续遍历当前样本语句组中的各语句,提取遍历到的当前语句的特征。其中,预设顺序可以是语句在样本语句组中的存储顺序,还可以是其他规则设置的顺序,本实施例并不对遍历各样本语句组的顺序作限定。

在其中一个实施例中,特征包括当前样本语句组中的语句中各单词与实体单词之间的最小距离的排序组合、当前样本语句组中的语句中各单词的排序组合、以及当前样本语句组中的语句中各单词的命名实体的排序组合中的至少一个;所述距离为单词与实体单词之间的非实体单词的个数。

其中,所述单词为组成语句的具有词义的最小单位。例如,若语句为汉语语句,则对应的单词为汉字;若语句为英文语句,则对应的单词为单个英文单词。其中,实体单词为组成样本实体的单词,一个样本实体可以由一个或多个连续排列的实体单词组成。例如,实体语句“我爱中国”中,实体对为“我”和“中国”,其中,“中国”这个实体则由“中”和“国”两个连续排列的单词组成。终端在提取当前样本语句组中的语句中各单词与实体单词之间的距离时,在遍历到当前语句后,按照语句中各单词的排序依次查找当前语句中的各单词,在查找到单词时,获取查找到的单词与实体单词之间的距离。其中,所述距离为单词与实体单词之间的非实体单词的个数。所述非实体单词的个数包括单词本身的计数。参照图4,例如实体语句“我爱中国”中,单词“我”与实体单词之间的最小距离被标注为0,单词“爱”与实体单词的最小距离被标注为1,单词“中”与实体单词的最小距离被标注为0,单词“国”与实体单词的最小距离被标注为0,则对于实体语句“我爱中国”,各单词与实体单词之间的最小距离的排序组合这一特征被标注为:0,1,0,0。此外,对于实体语句“我爱中国”,各单词的排序组合这一特征被标注为:“我”,“爱”,“中”,“国”。本实施例中,对各单词的命名实体的排序组合这一特征采用BIO(B-begin,I-inside,O-outside,开始,中间,结束)标注模式进行标注。例如对于实体语句“我爱中国”,各单词的命名实体的排序组合这一特征被标注为:B-PRE,O,B-LOC,I-LOC;其中B代表实体单词的首单词,I代表实体单词的非首单词,O代表非实体单词,PER代表人名,LOC代表地名。

终端提取的语句的特征越多,针对提取的特征对语句进行编码后,进一步进行实体关系抽取的结果则更精确,为了提高关系抽取的准确性,本实施例中提取的语句的特征包括但不限于当前样本语句组中的语句中各单词与实体单词之间的最小距离的排序组合、当前样本语句组中的语句中各单词的排序组合、以及当前样本语句组中的语句中各单词的命名实体的排序组合。本领域技术人员还可以增加语句的其他特征对语句进行编码,本实施例并不对提取的特征的个数和类别作限定。

步骤S304,利用长短期记忆网络对所述特征进行编码,获得所述当前样本语句组中各语句对应的语句向量,并根据获得的语句向量生成所述当前样本语句组对应的样本语句向量组。

其中,长短期记忆网络(LSTM,Long Short-Term Memory)是一种递归神经网络,可以根据时间序列或字符序列自我调用,将其按序列展开后,则成为常见的三层神经网络。

本实施例中,终端利用LSTM对当前样本语句组中的语句的一个特征进行编码后,将得到一个对应的特征向量。在终端对当前样本语句组中的语句的各特征均编码完成后,将各特征对应的各特征向量进行拼接,组成当前样本语句组中的语句的语句向量。进一步地,终端根据获得的当前样本语句组中对应的各语句向量生成所述当前样本语句组对应的样本语句向量组。在终端对各样本语句组遍历完成后,得到与各样本语句组相对应的多个样本语句向量组。

步骤S206,结合各样本语句向量组中的各语句向量为各样本语句向量组中的不同实体语句向量分别分配权值;

具体地,终端遍历各样本语句向量组,结合遍历到的当前样本语句向量组中的各语句向量为当前样本语句向量组中的实体语句向量分配权值。

在其中一个实施例中,终端结合各样本语句向量组中的各语句向量采用以下公式(1)为各样本语句向量组中的不同实体语句向量分别分配权值:

hi=tanh(X'iA1R+XiA2R+X”iA3R) (1)

其中,hi为实体语句向量的权值,Xi为实体语句向量,X'i为实体语句向量的前句向量,X”i为实体语句向量的后句向量,R为关系向量,A1、A2、A3均为待训练参数。

本实施例中,设定样本语句组为n个,对应的样本语句向量组则也为n个,n为大于1的正整数;此外,将第i个样本语句组中的实体语句表示为xi,将第i个样本语句组中的关系语句表示为r,将实体语句xi的前句表示为x'i,将实体语句xi的后句表示为x”i,其中,i为大于或等于1的正整数。将第i个样本语句组中的实体语句xi、关系语句r、前句x'i、以及后句x”i分别对应的实体语句向量、关系向量、前句向量、以及后句向量分别表示为Xi、R、X'i、X”i。公式(1)中,hi为实体语句向量Xi的权值,待训练参数A1、A2、A3均为对角矩阵,A1、A2、A3中对角线上的各值为终端在对预设神经网络模型进行训练时由终端随机赋值。本实施例中,终端随机赋值时的随机值为1或-1。

终端在遍历到第i个样本语句组时,分别对A1、A2、A3自动赋值后利用公式(1)对第i个样本语句组中实体语句向量Xi分配权值,得到实体语句向量Xi的权值hi。终端在对n个样本语句组遍历完成后,得到n个样本语句组对应的n个实体语句向量X1,X2,…,Xn分别对应的权值h1,h2,…,hn。本实施例中,n个实体语句向量X1,X2,…,Xn所包含的样本实体对均为步骤S202中遍历到的当前样本三元组中的当前样本实体对。

步骤S208,根据各样本语句向量组中的实体语句向量以及对应的权值生成实体语句集向量;

终端将各样本语句向量组中的各实体语句向量与对应的权值相乘后,得到实体语句集向量。

参照图5,在其中一个实施例中,所述步骤S208包括:

步骤S502,根据各样本语句向量组中各样本语句向量的权值计算各样本语句向量的权值比例;

具体地,终端根据各样本语句向量组中各样本语句向量的权值采用公式(2)计算各样本语句向量的权值比例:

其中,αi为权值比例,k为大于或等于1的正整数。

步骤S504,根据各样本语句向量以及对应的权值比例生成实体语句集向量。

具体地,终端根据各样本语句向量以及对应的权值比例采用公式(3)生成实体语句集向量:

其中,S为实体语句集向量。最终计算得到的实体语句集向量S={α1X1,α2X2,…,αnXn}。

步骤S210,通过所述实体语句集向量对预设神经网络模型进行训练,获得实体关系抽取模型。

其中,预设神经网络模型可以但不限于是反向传播(back propagation,BP)神经网络、支持向量机(Support Vector Machine,SVM)算法、或极端梯度提升(eXtreme Gradient Boosting,XGBoost)算法等。

终端对A1、A2、A3随机赋值后通过实体语句集向量S对预设神经网络模型进行训练,获得实体关系抽取模型。

本实施例中,通过从样本语料库中提取多个样本语句组,各样本语句组分别包括实体语句、关系语句、所述实体语句的前句、以及所述实体语句的后句;进一步对多个样本语句组进行编码,结合编码所得的多个样本语句向量组中的各语句向量为各样本语句向量组中的不同实体语句向量分别分配权值,进一步根据各样本语句向量组中的实体语句向量以及对应的权值生成的实体语句集向量预设神经网络模型进行训练后,获得实体关系抽取模型,通过对实体语句的前句和实体语句的后句分别进行编码后再进一步对实体语句向量分配权值,在对实体语句向量分配权值时融入了实体语句的上下文的参考因素,使得采用本发明的方法构建的实体关系抽取模型准确性高,在应用本发明的方法构建的实体关系抽取模型进行实体关系抽取时具有较高的准确性。

参照图6,一种实体关系抽取模型的构建方法第二实施例,基于上述图2所示的实施例,所述步骤S210之后,所述实体关系抽取模型的构建方法还包括:

步骤S602,利用所述实体关系抽取模型对所述样本语料库进行实体关系抽取,得到预测实体关系;

步骤S604,根据与所述样本语料库的样本三元组对所述预测实体关系进行误差分析,在误差分析的结果未达到预设的误差标准时,重新选取样本三元组以返回所述从样本语料库中提取多个样本语句组的步骤,直至所述误差分析的结果达到预设的误差标准。

具体地,终端利用所述实体关系抽取模型对样本语料库中的样本语料进行实体关系的抽取,得到样本语料的预测实体关系。所述预测实体关系为样本语料中的各样本实体对的实体关系。进一步地,终端对所述预测实体关系进行误差分析,具体地,终端将预测实体关系与样本语料库中的样本三元组内预存的样本实体对的实体关系进行一一比对,将与样本三元组内预存的样本实体对的实体关系一致的预测实体关系记录为正确实体关系,以此计算预测实体关系的准确率,作为误差分析的结果。进一步地,终端将准确率与预设的误差标准进行比较,若准确率未达到预设的误差标准时,则返回步骤S202,直至准确率达到预设的误差标准。具体地,在准确率未达到预设的误差标准时,终端更新选取的预设数量的样本三元组以执行步骤S202。更具体地,终端更新选取的样本三元组的数量,以及重新选取不同的样本三元组以执行步骤S202。

本实施例中,通过对实体关系抽取模型对所述样本语料库进行实体关系抽取,得到预测实体关系,根据与所述样本语料库的样本三元组对所述预测实体关系进行误差分析,可以根据误差分析的结果不断完善标准化实体关系抽取模型,提高了实体关系抽取模型的准确性。

参照图7,一种实体关系抽取模型的构建方法第三实施例,基于上述图2所示的实施例,所述步骤S210之后,所述实体关系抽取模型的构建方法还包括:

步骤S702,利用所述实体关系抽取模型对待测语料进行实体关系抽取,获得所述待测语料中的实体关系。

终端在根据图2所示的实施例构建了实体关系抽取模型之后,可以利用构建的实体关系抽取模型对待测语料进行实体关系抽取,以获得所述待测语料中的实体关系。

参照图8,在其中一个实施例中,步骤S702包括:

步骤S802,从待测语料中提取多个待测语句组,所述待测语句组分别包括待测语句、所述待测语句的前句、以及所述待测语句的后句,所述待测语句为包含待测实体对的语句;

待测语料为实体关系未知的需要对其实体关系进行提取的语料。本实施例中,终端从待测语料中提取包含待测实体对的语句。具体地,终端依次查找待测语料中的各语句,判断查找到的语句中是否包含两个以上的待测实体,若包含,则提取该语句作为待测语句。进一步地,终端提取待测语句在待测语料中的前句以及待测语句在待测语料中的后句。终端将待测语句、待测语句的前句以及待测语句的后句作为一个待测语句组,终端在对待测语料查找完成后,获得多个待测语句组。

步骤S804,对各待测语句组分别进行编码,获得待测语句向量组;

待测语句向量组包括与待测语句组中各语句一一对应的待测语句向量、待测语句前句向量、以及待测语句后句向量。终端对各待测语句组分别进行编码的具体方法同步骤S204,在此不再赘述。

步骤S806,利用所述待测语句向量组为各待测语句向量组中的不同待测语句向量分别分配权值;

终端对各待测语句组分别进行编码的具体方法同步骤S206,在此不再赘述。其中,描述各待测语句包含的待测实体对的实体关系未知,即在为不同待测语句向量分别分配权值时,与各待测语句向量对应的待测关系向量是需要求解的未知量。

步骤S808,根据各待测语句向量组中的待测语句向量以及对应的权值生成待测实体语句集向量;

终端生成待测实体语句集向量的具体方法同步骤S208,在此不再赘述。待测实体语句集向量中包含需要求解的待测关系向量。

步骤S810,将所述待测实体语句集向量输入所述实体关系抽取模型中,获得待测实体对的待测关系向量;

步骤S812,对所述待测关系向量进行解码,获得待测实体对的实体关系。

终端将得到的待测关系向量进行逆向解码,得到描述待测实体对的实体关系的待测关系语句,获得待测语料的实体关系抽取的结果。

本实施例中,提供了一种利用实体关系抽取模型的构建方法实施例一构建的实体关系抽取模型进行待测语料的实体关系抽取的方法,抽取的待测语料的实体关系准确性高。

参照图9,本发明实施例还提出一种实体关系抽取模型的构建装置,所述实体关系抽取模型的构建装置包括:

提取模块910,用于从样本语料库中提取多个样本语句组,各样本语句组分别包括实体语句、关系语句、所述实体语句的前句、以及所述实体语句的后句,所述实体语句为包含样本三元组中的样本实体对的语句,所述关系语句为用于描述所述样本实体对的实体关系的语句;

编码模块920,用于对各样本语句组分别进行编码,获得多个样本语句向量组;

权值分配模块930,用于结合各样本语句向量组中的各语句向量为各样本语句向量组中的不同实体语句向量分别分配权值;

生成模块940,用于根据各样本语句向量组中的实体语句向量以及对应的权值生成实体语句集向量;

训练模块950,用于通过所述实体语句集向量对预设神经网络模型进行训练,获得实体关系抽取模型。

可选地,编码模块920,还用于遍历各样本语句组,提取遍历到的当前样本语句组中各语句的特征;利用长短期记忆网络对所述特征进行编码,获得所述当前样本语句组中各语句对应的语句向量,并根据获得的语句向量生成所述当前样本语句组对应的样本语句向量组。

可选地,所述特征包括当前样本语句组中的语句中各单词与实体单词之间的最小距离的排序组合、当前样本语句组中的语句中各单词的排序组合、以及当前样本语句组中的语句中各单词的命名实体的排序组合中的至少一个;所述距离为单词与实体单词之间的非实体单词的个数。

可选地,权值分配模块930,还用于结合各样本语句向量组中的各语句向量采用以下公式为各样本语句向量组中的不同实体语句向量分别分配权值:hi=tanh(X'iA1R+XiA2R+X”iA3R);其中,hi为实体语句向量的权值,Xi为实体语句向量,X'i为实体语句向量的前句向量,X”i为实体语句向量的后句向量,R为关系向量,A1、A2、A3均为待训练参数。

可选地,所述实体关系抽取模型的构建装置还包括:误差分析模块960,用于利用所述实体关系抽取模型对所述样本语料库进行实体关系抽取,得到预测实体关系;根据与所述样本语料库的样本三元组对所述预测实体关系进行误差分析,在误差分析的结果未达到预设的误差标准时,重新选取样本三元组以返回所述从样本语料库中提取多个样本语句组的步骤,直至所述误差分析的结果达到预设的误差标准。

可选地,所述实体关系抽取模型的构建装置还包括:实体关系抽取模块970,用于利用所述实体关系抽取模型对待测语料进行实体关系抽取,获得所述待测语料中的实体关系。

可选地,实体关系抽取模块970,还用于从待测语料中提取多个待测语句组,所述待测语句组分别包括待测语句、所述待测语句的前句、以及所述待测语句的后句,所述待测语句为包含待测实体对的语句;对各待测语句组分别进行编码,获得待测语句向量组;利用所述待测语句向量组为各待测语句向量组中的不同待测语句向量分别分配权值;根据各待测语句向量组中的待测语句向量以及对应的权值生成待测实体语句集向量;将所述待测实体语句集向量输入所述实体关系抽取模型中,获得待测实体对的实体关系向量;对所述实体关系向量进行解码,获得待测实体对的实体关系。

本发明实施例还提出一种实体关系抽取模型的构建装置,所述实体关系抽取模型的构建装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的实体关系抽取模型的构建程序,所述实体关系抽取模型的构建程序被所述处理器执行时实现如上述任意一个关系抽取模型的构建方法实施例的步骤。

本发明实施例还提出一种所述存储介质,所述存储介质上存储有实体关系抽取模型的构建程序,所述实体关系抽取模型的构建程序被处理器执行时实现如上述任意一个关系抽取模型的构建方法实施例的步骤。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1