文本语句处理方法、装置、计算机设备和存储介质与流程

文档序号:22967366发布日期:2020-11-19 21:41阅读:118来源:国知局
文本语句处理方法、装置、计算机设备和存储介质与流程

本申请涉及计算机技术领域,特别是涉及一种文本语句处理方法、装置、计算机设备和存储介质。



背景技术:

随着计算机技术的迅速发展,自然语言处理技术逐渐成熟。其中,关系抽取是一个重要的自然语言处理任务,旨在从大规模的原始文本中抽取结构化的信息,以供问答系统、对话系统、推荐系统、搜索引擎等使用。随着神经网络模型的发展,出现了越来越多的基于特征工程的关系抽取方式。

目前的关系抽取方式中通常依赖于特征工程,大多的关系抽取模型都采用实体的词向量作为关系抽取的主要特征,在进行关系抽取时,会一定程度过拟合到实体名称。这在构造特征的过程中容易造成误差累积,阻碍系统性能,导致自然语言处理任务中实体关系抽取的准确性不高。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够有效提高自然语言处理任务中实体的关系抽取的准确性的文本语句处理方法、装置、计算机设备和存储介质。

一种文本语句处理方法,所述方法包括:

获取样本文本语句;所述样本文本语句含实体对和所述实体对的关系标签;

根据所述关系标签从所述样本文本语句中提取正例语句对和负例语句对,并对所述正例语句对和所述负例语句对进行正负例采样处理,获得训练集;

将所述训练集输入至待训练的关系抽取模型,生成损失值;所述损失值中包括对比损失值;所述对比损失值,用于表征所述正例语句对中语句的相似度与所述负例语句对中语句的相似度之间的差异;

根据所述损失值调整所述关系抽取模型的参数,并返回所述根据所述关系标签从所述样本文本语句中提取正例语句对和负例语句对的步骤,以进行迭代训练,直至满足训练停止条件,得到关系抽取模型;所述关系抽取模型,用于识别文本语句中实体对的实体关系。

一种文本语句处理装置,所述装置包括:

样本获取模块,用于获取样本文本语句;所述样本文本语句含实体对和所述实体对的关系标签;

采样处理模块,用于根据所述关系标签从所述样本文本语句中提取正例语句对和负例语句对,并对所述正例语句对和负例语句对进行正负例采样处理,获得训练集;

关系抽取模块,用于将所述训练集输入至待训练的关系抽取模型,生成损失值;所述损失值中包括对比损失值;所述对比损失值,用于表征所述正例语句对中语句的相似度与所述负例语句对中语句的相似度之间的差异;

参数调整模块,用于根据所述损失值调整所述关系抽取模型的参数,并返回所述根据所述关系标签从所述样本文本语句中提取正例语句对和负例语句对的步骤,以进行迭代训练,直至满足训练停止条件,得到关系抽取模型。

在其中一个实施例中,所述实体对包括头实体和尾实体;所述样本获取模块还用于获取初始样本文本语句;按照预设概率值,从所述初始样本文本语句的实体对中选取头实体或尾实体;将选取的头实体或尾实体替换为预设字符,获得实体遮蔽后的样本文本语句。

在其中一个实施例中,在所述根据所述损失值调整所述关系抽取模型的参数之后,且在所述返回所述根据所述关系标签从所述样本文本语句中提取正例语句对和负例语句对的步骤的之前,所述样本获取模块还用于按照预设概率值,从所述样本文本语句的实体对中选取头实体或尾实体;将选取的头实体或尾实体替换为预设字符,获得实体遮蔽后的样本文本语句。

在其中一个实施例中,所述采样处理模块还用于根据所述关系标签相同的样本文本语句,生成样本语句包;将所述样本语句包中的任意两个样本文本语句进行组合,获得正例语句对;将所述关系标签不同的任意两个样本文本语句进行组合,获得负例语句对。

在其中一个实施例中,所述采样处理模块还用于按照预设的正负例采样比值,对所述正例语句对和所述负例语句对进行采样抽取;根据采样抽取的正例语句对和负例语句对,生成训练集。

在其中一个实施例中,所述关系抽取模块还用于将所述训练集输入至待训练的关系抽取模型,提取所述训练集中各所述样本文本语句的语义关系特征;根据各所述样本文本语句的语义关系特征,确定所述正例语句对中语句的相似度、以及所述负例语句对中语句的相似度;根据所述正例语句对中语句的相似度和所述负例语句对中语句的相似度,确定对比损失值,并根据所述对比损失值生成所述损失值。

在其中一个实施例中,所述关系抽取模块还用于通过所述关系抽取模型,提取所述训练集中各所述样本文本语句的上下文语义特征和实体关联特征;将所述上下文语义特征和所述实体关联特征进行特征拼接,得到拼接后的联合特征;根据所述拼接后的联合特征,获得各所述样本文本语句的语义关系特征。

在其中一个实施例中,所述正例语句对和所述负例语句对分别具有相应的根据所述关系标签确定的样本标签;所述关系抽取模块还用于根据所述正例语句对中语句的相似度与相应样本标签之间的差异,以及所述负例语句对中语句的相似度与相应所述样本标签之间的差异,生成所述对比损失值。

在其中一个实施例中,所述损失值包括第一损失值和第二损失值;对所述训练集中各所述样本文本语句中的文本进行掩码处理;提取掩码处理后的各所述样本文本语句中各文本的文本上下文特征;根据所述文本上下文特征对各所述样本文本语句进行掩码预测,并根据掩码预测结果确定对应的交叉熵损失;根据所述交叉熵损失确定第二损失值。

在其中一个实施例中,所述装置还包括文本处理模块,用于获取待处理文本语句;识别所述待处理文本语句中的实体对;将所述待处理文本语句和所述实体对输入至所述关系抽取模型,得到所述待处理文本语句中所述实体对的实体关系抽取结果。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取样本文本语句;所述样本文本语句含实体对和所述实体对的关系标签;

根据所述关系标签从所述样本文本语句中提取正例语句对和负例语句对,并对所述正例语句对和所述负例语句对进行正负例采样处理,获得训练集;

将所述训练集输入至待训练的关系抽取模型,生成损失值;所述损失值中包括对比损失值;所述对比损失值,用于表征所述正例语句对中语句的相似度与所述负例语句对中语句的相似度之间的差异;

根据所述损失值调整所述关系抽取模型的参数,并返回所述根据所述关系标签从所述样本文本语句中提取正例语句对和负例语句对的步骤,以进行迭代训练,直至满足训练停止条件,得到关系抽取模型;所述关系抽取模型,用于识别文本语句中实体对的实体关系。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取样本文本语句;所述样本文本语句含实体对和所述实体对的关系标签;

根据所述关系标签从所述样本文本语句中提取正例语句对和负例语句对,并对所述正例语句对和所述负例语句对进行正负例采样处理,获得训练集;

将所述训练集输入至待训练的关系抽取模型,生成损失值;所述损失值中包括对比损失值;所述对比损失值,用于表征所述正例语句对中语句的相似度与所述负例语句对中语句的相似度之间的差异;

根据所述损失值调整所述关系抽取模型的参数,并返回所述根据所述关系标签从所述样本文本语句中提取正例语句对和负例语句对的步骤,以进行迭代训练,直至满足训练停止条件,得到关系抽取模型。

上述文本语句处理方法、装置、计算机设备和存储介质,获取含实体对和实体对的关系标签的样本文本语句后,根据关系标签从样本文本语句中提取正例语句对和负例语句对,并对正例语句对和负例语句对进行正负例采样处理,从而能够获得有效的正负例训练集。通过将训练集输入至待训练的关系抽取模型,生成包括对比损失值的损失值。对比损失值表征了正例语句对中语句的相似度与负例语句对中语句的相似度之间的差异。由此通过根据损失值调整关系抽取模型的参数,从而能够有效地基于正负例样本语句对的相似度进行对比学习。并返回根据关系标签从样本文本语句中提取正例语句对和负例语句对的步骤以进行迭代训练,直至满足训练停止条件,得到训练好的关系抽取模型。通过采样正负例样本语句对,并根据正负例样本语句对之间相似度的差异进行调参,以进行对比学习,由此能够使模型更好地学习两个实体相关的特征,从而能够有效提高关系抽取模型的关系抽取准确度。

附图说明

图1为一个实施例中文本语句处理方法的应用环境图;

图2为一个实施例中文本语句处理方法的流程示意图;

图3为另一个实施例中文本语句处理方法的流程示意图;

图4为又一个实施例中文本语句处理方法的流程示意图;

图5为一个具体的实施例中文本语句处理方法的流程示意图;

图6为一个具体的实施例中训练关系抽取模型的示意图;

图7为一个实施例中采用有监督学习的在关系抽取任务数据集上的测试得到的关系抽取效果比对图;

图8为一个实施例中采用少次学习的在关系抽取任务数据集上的测试得到的关系抽取效果比对图;

图9为一个实施例中文本语句处理装置的结构框图;

图10为另一个实施例中文本语句处理装置的结构框图;

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的目标对象检测方法,可以应用于计算机设备中。计算机设备可以为终端或服务器。可以理解的是,本申请提供的目标对象检测方法可以应用于终端,也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。

本申请提供的文本语句处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。其中,终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。

云计算(cloudcomputing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为iaas(infrastructureasaservice,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。按照逻辑功能划分,在iaas(infrastructureasaservice,基础设施即服务)层上可以部署paas(platformasaservice,平台即服务)层,paas层之上再部署saas(softwareasaservice,软件即服务)层,也可以直接将saas部署在iaas上。paas为软件运行的平台,如数据库、web容器等。saas为各式各样的业务软件,如web门户网站、图像处理软件等。

具体地,终端102从服务器104获取含实体对和实体对的关系标签的样本文本语句后,根据关系标签从样本文本语句中提取正例语句对和负例语句对,并对正例语句对和负例语句对进行正负例采样处理,获得训练集。通过将训练集输入至待训练的关系抽取模型,生成包括对比损失值的损失值。对比损失值表征了正例语句对中语句的相似度与负例语句对中语句的相似度之间的差异。并返回根据关系标签从样本文本语句中提取正例语句对和负例语句对的步骤以进行迭代训练,直至满足训练停止条件,得到训练好的关系抽取模型。

可以理解,本申请各实施例中的文本语句处理方法,采用人工智能技术中的机器学习技术,能够训练出能够准确抽取实体对关系的关系抽取模型。人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

机器学习(machinelearning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。可以理解,在本申请一些实施例中训练的关系抽取模型,就是使用机器学习技术训练的,基于该机器学习技术训练关系抽取模型,能够训练出关系抽取更加精准的关系抽取模型。

在一个实施例中,如图2所示,提供了一种文本语句处理方法,以该方法应用于计算机设备为例进行说明,计算机设备可以为图1中的终端或服务器,包括以下步骤:

s202,获取样本文本语句;样本文本语句含实体对和实体对的关系标签。

其中,样本是研究中实际观测或调查的一部分个体,研究对象的全部称为总体。总体中抽取的所要考查的元素总称。样本文本语句是指用于预训练关系抽取模型的训练样本数据。样本文本语句中还包括其中的实体对,以及实体对的关系标签。

可以理解,样本文本语句可以从互联网获取、本地输入装置输入或者从存储器读取。样本文本语句中包括了预先识别出的实体对。样本文本语句中实体对的关系标签可以通过人工标注的方式获得;也可以基于远程监督自动产生,即基于远程监督的假设进行自动标注。

其中,远程监督算法的假设为:对于一个已有的知识图谱库中的一个三元组(由一对实体和一个关系构成),假设样本文档库中任何包含这对实体的句子,在一定程度上都反映了这种关系。基于这个假设,远程监督算法可以基于一个标注好的知识图谱,给样本文档库中的句子标注关系标签,相当于做了样本的自动标注。

可以理解,样本文本语句可以是一个句子。关系标签记录了被标注的实体对在样本文本语句中的位置,以及被标注的实体对之间的关系。例如,可以采用实体标识符的方式在样本文本语句中标注实体的位置信息,如样本文本语句可以为“<e1>清华大学<e1>坐落于<e2>北京市<e2>”,那么“<e1>”、“<e2>”分别表示相应的实体标识符,即可以表示“清华大学”为标注的实体1,“北京市”为标注的实体2。样本语句对中被标注的实体对之间的关系标签,可以用一个向量表示,也可以用一个关系类型标签表示。例如,实体对的关系为类型1,可以用向量表示,例如除了该关系类型所在位置被置1以外,其他位置均置0。

其中,实体是指实际中客观存在的具有可区别性且独立存在的某种事物。例如人名、地名、商品、名称等事物。例如“中国”、“北京”、“长城”。实体对,是一对实体。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。关系是指事物之间某种性质的联系,实体关系则表示两个或多个实体之间的抽象联系。例如,可以采用三元组的形式描述实体关系,三元组是一种三元组表的数据结构。

关系抽取就是通过学习文本中多实体之间的语义联系,来识别实体之间的关系。关系抽取的输入是一段或者一句文本,输出通常是一个三元组:<实体1,关系,实体2>。例如,输入文本“清华大学是北京市海淀区的一所高等院校”,经过关系抽取后,输出的三元组为<清华大学,地理位置,北京市海淀区>,亦可以用以“地理位置(清华大学,北京市海淀区)”来进行表示。可以理解,在一些情况中,两个实体可能是没有关系的,可以用<实体1,na,实体2>来表示。

具体地,待训练的关系抽取模型可以是预先构建的神经网络模型,例如可以采用基于bert(bidirectionalencoderrepresentationsfromtransformer,双向编码语言模型)、cnn(convolutionalneuralnetwork,卷积神经网络)、dnn(deepneuralnetwork,深度神经网络)、lstm(longshort-termmemoryneuralnetwork,长短时记忆神经网络)等神经网络模型,在此不做限定。

计算机设备在预训练关系抽取模型的过程中,首先获取样本文本语句对,样本文本语句对中包含了预先识别出的实体对,以及实体对的关系标签,从而利用样本文本语句对训练关系抽取模型。

s204,根据关系标签从样本文本语句中提取正例语句对和负例语句对,并对正例语句对和负例语句对进行正负例采样处理,获得训练集。

其中,选取样本的过程叫做采样,根据不同的对象,采样方式也有所不同。正例语句对是指关系标签相同的两个样本文本语句组成的句子对;负例语句对是指关系标签不同的两个样本文本语句组成的句子对。

具体的,计算机设备获取样本文本语句后以及各实体对的关系标签后,通过将关系标签相同的样本文本语句进行两两组合,得到关系相同的文本语句对,并将关系相同的样本语句对作为正例语句对。进一步将关系标签不同的样本文本语句对进行组合,组成关系不同的文本语句对,进而将这些关系不同的样本语句对作为负例语句对。从而根据关系标签从样本文本语句中提取正例语句对和负例语句对。

可以理解,从样本文本语句中获得的正例语句对和负例语句对中,负例语句对的数量要远远超过正例语句对的数量。若仅采用下采样方式,可能导致无法有效地利用负例语句对。因此可以每一轮的训练中进行正负例采样,得到每一轮的训练集数据。

计算机设备从样本文本语句中获得正例语句对和负例语句对后,进一步对正例语句对和负例语句对进行正负例采样处理,例如可以按照预设方式进行采样处理,例如可以按照预先设定的正负例比值进行采样,从而可以获得覆盖正例语句对和负例语句对的训练样本,并生成本轮的训练集。通过进行正负例采用处理,能够有效提高负例样本的利用率,从而能够有效地获得包含正负例样本的训练集,以利于在训练关系抽取模型的过程中,更好地学习正例语句对和负例语句对的实体关系信息。

s206,将训练集输入至待训练的关系抽取模型,生成损失值;损失值中包括对比损失值;对比损失值,用于表征正例语句对中语句的相似度与负例语句对中语句的相似度之间的差异。

其中,初始关系抽取模型则表示进行训练之前,还未调整模型参数的关系抽取模型。关系抽取模型中可以包括损失函数。损失函数(lossfunction)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“差异”或“损失”的函数。在机器学习中用于模型的参数估计,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。

可以理解,损失值可以是基于损失函数获得的,损失值即表示通过关系抽取模型所预测的结果与实际的样本标签之间的差异。

计算机设备通过对正例语句对和负例语句对进行正负例采样处理,获得训练集后,则将本次获得的训练集输入至待训练的关系抽取模型中,以进行关系抽取处理。

具体地,关系抽取模型中的编码层,对训练集中的每个样本文本语句进行编码处理,可以得到每个句子的词向量表示、句向量表示、上下文语义信息表示等,并将提取的这些特征向量进行融合,得到每个样本文本语句最终的向量表示。然后通过关系抽取模型中的一个线性映射层,根据每个样本文本语句最终的向量表示,得到各个样本文本语句在所有关系类别上的概率分布,并获得相应的损失值,以根据损失值对关系抽取模型进行训练。

其中,通过关系抽取模型的编码层获得各个样本文本语句最终的向量表示后,通过关系抽取模型的相似度提取层确定各正例语句对中语句的相似度,以及各负例语句对中语句的相似度。进而可以根据正例语句对中语句的相似度与负例语句对中语句的相似度之间的差异,计算出对比损失值。

由于对比损失值表征了正例语句对中语句的相似度与负例语句对中语句的相似度之间的差异。由此通过根据损失值调整关系抽取模型的参数,从而能够有效地基于正负例样本语句对的相似度进行对比学习。

其中,对比学习是通过潜在空间的对比损失最大限度地提高相同数据样本的不同扩充语义之间的一致性来学习表示。对比式自监督学习能够通过学习编码来构建表征,编码使两个事物相似或不同,使得关系抽取模型在训练的过程中不断学习相似的实体关系以提高语义关系的预测准确性,由此能够有效提高关系抽取模型的关系抽取准确度。

s208,根据损失值调整关系抽取模型的参数,并返回根据关系标签从样本文本语句中提取正例语句对和负例语句对的步骤,以进行迭代训练,直至满足训练停止条件,得到关系抽取模型;关系抽取模型,用于识别文本语句中实体对的实体关系。

可以理解,训练关系抽取模型的过程中,需要对关系抽取模型进行多轮迭代训练。每轮的每轮迭代训练是通过调整本轮的初始关系抽取模型的模型参数,来使得模型逐步收敛,以得到最终的关系抽取模型。其中,本轮是进行模型训练的当前轮次。

其中,训练停止条件是指满足模型训练的结束条件,例如训练停止条件可以是达到预设的迭代次数,也可以是调整参数后的关系抽取模型的关系抽取性能指标达到预设指标。

计算机设备通过关系抽取模型对训练集中的样本文本语句进行关系抽取处理,得到各个样本文本语句之间的相似度以及实体关系抽取结果,并获得损失值后,根据获得的损失值调整关系抽取模型的参数。计算机设备进一步返回根据关系标签从样本文本语句中提取正例语句对和负例语句对的步骤,从而对关系抽取模型进行迭代训练。

具体地,计算机设备可以将本次对正例语句对和负例语句对进行正负例采样处理,获得的训练集,作为本轮训练的训练集。通过关系抽取模型对本轮的训练集进行关系抽取处理,获得损失值后,从而根据获得的损失值,朝着减少损失差异的方向,调整本轮的关系抽取模型的参数。

当本轮未满足训练停止条件时,则返回根据关系标签从样本文本语句中提取正例语句对和负例语句对的步骤,以进入下一轮。计算机设备则重新对正例语句对和负例语句对进行正负例采样处理,获得的下一轮的训练集,进而将下一轮获得的训练集输入至关系抽取模型中进行关系抽取处理,以进行迭代训练。当满足训练停止条件时,则停止迭代训练,从而得到训练好的关系抽取模型。

可以理解,训练完成的关系抽取模型是一种具有对文本语句进行实体关系抽取能力的机器学习模型,可以直接应用于对文本语句进行关系抽取处理,以识别出文本语句中实体对的实体关系。

在其中一个实施例中,预测的关系抽取结果与关系标签的差异可以用损失函数来衡量。可以选择交叉熵或均方误差等函数作为损失函数。计算机设备可在损失函数的值小于预先设定的值时结束训练,得到可用于准确有效地对文本进行实体关系抽取的关系抽取模型。

可以理解,上述关系抽取模型可以适用于多个场景的关系抽取任务,例如可以采用有监督式学习(supervisedlearning)、半监督式学习(semi-supervisedlearning)、开放式学习(无监督,unsupervisedlearning)、少次学习训练等方式训练关系抽取模型,在此不作限定。

在其中一个实施例中,可以采用有监督的模型训练方式。在监督式学习下,输入模型的数据为训练数据,每组训练数据都有一个明确的标识,即每组样本文本语句都包括实体对和实体对的关系标注。在采用监督式学习方式训练关系抽取模型的过程中,将每次的预测结果与训练集中数据的关系标签进行比较,得到相应的差异,并根据差异不断调整关系抽取模型的参数,直达关系抽取模型的预测结果达到一个预期的准确率。其中,关系抽取模型可以采用逻辑回归(logisticregression)、反向传递神经网络(backpropagationneuralnetwork)等,在此不作限定。

以关系抽取模型采用反向传播算法为例,在迭代训练关系抽取模型的过程中,基于反向传播算法,朝着梯度下降的方向更新参数,调整权重和偏置使得整体误差最小,并逐渐调整关系抽取模型的参数,以迭代训练关系抽取模型。

在另一个实施例中,可以采用半监督的模型训练方式。其中,半监督学习中可以采用大量的无标记数据,并同时采用有标记数据进行模式识别工作。通过采用半监督学习时,能够有效减少处理数据的资源消耗,同时能够带来比较高的准确性。在半监督式训练方式下,计算机设备可以仅将部分包含实体对的关系标签的样本文本语句,以及部分不包含实体对的关系标签的样本文本语句作为训练集,输入至关系抽取模型中进行预测和训练。在此学习方式下,输入数据部分被标识,部分没有被标识,这种学习训练方式中,模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。通过首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测,计算机设备进而可以根据半监督学习的损失值,来调整关系抽取模型的参数,并迭代训练关系抽取模型。

上述文本语句处理方法中,计算机设备获取含实体对和实体对的关系标签的样本文本语句后,根据关系标签从样本文本语句中提取正例语句对和负例语句对,并对正例语句对和负例语句对进行正负例采样处理,从而能够获得有效的正负例训练集。通过将训练集输入至待训练的关系抽取模型,生成包括对比损失值的损失值。对比损失值表征了正例语句对中语句的相似度与负例语句对中语句的相似度之间的差异。由此通过根据损失值调整关系抽取模型的参数,从而能够有效地基于正负例样本语句对的相似度进行对比学习。并返回根据关系标签从样本文本语句中提取正例语句对和负例语句对的步骤以进行迭代训练,直至满足训练停止条件,得到训练好的关系抽取模型。通过采样正负例样本语句对,并根据正负例样本语句对之间相似度的差异进行调参,以进行对比学习,由此能够使模型更好地学习两个实体相关的特征,从而能够有效提高关系抽取模型的关系抽取准确度。

在一个实施例中,如图3所示,提供了另一种文本语句处理方法的流程示意图,包括以下步骤:

s302,获取样本文本语句;初始样本文本语句含实体对和实体对的关系标签,实体对包括头实体和尾实体。

s304,按照预设概率值,从初始样本文本语句的实体对中选取头实体或尾实体。

s306,将选取的头实体或尾实体替换为预设字符,获得实体遮蔽后的样本文本语句。

s308,根据关系标签从样本文本语句中提取正例语句对和负例语句对,并对正例语句对和负例语句对进行正负例采样处理,获得训练集。

s310,将训练集输入至待训练的关系抽取模型,生成损失值;损失值中包括对比损失值;对比损失值,用于表征正例语句对中语句的相似度与负例语句对中语句的相似度之间的差异。

s312,根据损失值调整关系抽取模型的参数,并返回根据关系标签从样本文本语句中提取正例语句对和负例语句对的步骤,以进行迭代训练,直至满足训练停止条件,得到关系抽取模型。

其中,每个样本文本语句中的实体对包括了头实体和尾实体,可以按照实体在样本文本句中的位置确定头实体和尾实体。例如头实体可以为样本文本语句中的第一个实体,尾实体可以为同一句样本文本语句中的第二个实体。

可以理解,实体遮蔽是指将训练样本的样本文本语句中的部分实体进行遮蔽处理,具体可以掩码标记的方式对样本文本语句中的部分实体进行替换,以对部分实体进行遮蔽。

计算机设备获取样本文本语句之前,还可以获取原始的初始样本文本语句。初始样本文本语句表示未进行预处理的初始样本数据。计算机设备则可以按照预设概率值对初始样本文本语句进行实体遮蔽处理。其中,头实体和尾实体的遮蔽是互相独立的,例如在一个样本文本语句中可以不遮蔽实体,可以遮蔽其中的一个实体,或者全部遮蔽。

具体地,计算机设备按照预设概率值,从初始样本文本语句的实体对中选取头实体或尾实体,例如可以按照0.7的概率分别从初始样本文本语句中随机选取一部分的头实体或尾实体进行遮蔽。计算机设备进而将选取的头实体或尾实体替换为预设字符,例如将实体的词语替换为一个特殊符号。在其中一个实施例中,头实体和尾实体还可以分别对应一个特殊符号,并适用于所有的句子。

通过将选取的待遮蔽的头实体或尾实体替换为预设字符,由此实现对实体进行遮蔽处理,从而得到实体遮蔽后的样本文本语句,进而对实体遮蔽后的样本文本语句进行进一步处理。

本实施例中,通过对初始样本文本语句进行实体遮蔽的预处理,通过按照一定概率遮蔽头实体或者尾实体,由此,能够有效防止关系抽取模型过拟合到实体名称。在训练模型的过程中,不仅可以更多的利用上下文信息进行学习,也能防止在下游任务上有比较大的分隔。

在一个实施例中,在根据损失值调整关系抽取模型的参数之后,且在返回根据关系标签从样本文本语句中提取正例语句对和负例语句对的步骤的之前,还执行对样本文本语句进行实体遮蔽处理的步骤。如图4所示,提供了另一种文本语句处理方法的流程示意图,具体包括以下步骤:

s402,获取样本文本语句;样本文本语句含实体对和实体对的关系标签。

s404,按照预设概率值,从样本文本语句的实体对中选取头实体或尾实体。

s406,将选取的头实体或尾实体替换为预设字符,获得实体遮蔽后的样本文本语句。

s408,根据关系标签从样本文本语句中提取正例语句对和负例语句对,并对正例语句对和负例语句对进行正负例采样处理,获得训练集;

s410,将训练集输入至待训练的关系抽取模型,生成损失值;损失值中包括对比损失值;对比损失值,用于表征正例语句对中语句的相似度与负例语句对中语句的相似度之间的差异;

s412,根据损失值调整关系抽取模型的参数,并返回根据关系标签从样本文本语句中提取正例语句对和负例语句对的步骤,以进行迭代训练,直至满足训练停止条件,得到关系抽取模型。

按照预设概率值,从样本文本语句的实体对中选取头实体或尾实体;将选取的头实体或尾实体替换为预设字符,获得实体遮蔽后的样本文本语句。

可以理解,在训练关系抽取模型的过程中,还可以采用动态实体遮蔽的方式。也就是在每一轮的关系抽取模型的迭代训练过程中,对样本文本语句进行实体遮蔽处理。

具体地,计算机设备可以在获取样本文本语句后,按照预设概率值,从样本文本语句的实体对中选取头实体或尾实体,并将选取的头实体或尾实体替换为预设字符,获得实体遮蔽后的样本文本语句。计算机设备接着根据关系标签从样本文本语句中提取正例语句对和负例语句对,并对正例语句对和负例语句对进行正负例采样处理,获得训练集。进而将训练集输入至待训练的关系抽取模型,生成损失值,并根据损失值调整关系抽取模型的参数。

接着,计算机设备在根据损失值调整关系抽取模型的参数之后,且在返回根据关系标签从样本文本语句中提取正例语句对和负例语句对的步骤的之前,还执行对样本文本语句进行实体遮蔽处理的步骤,从而重新对样本文本语句对进行实体遮蔽处理,得到更新的实体遮蔽后的样本文本语句。计算机设备进而继续执行根据关系标签从实体遮蔽后的样本文本语句中提取正例语句对和负例语句对的步骤,由此实现在训练关系抽取模型的过程中,对样本文本语句进行动态实体遮蔽处理。

本实施例中,通过采用动态实体遮蔽的方式,能够使得每一次训练的数据都随机进行了实体遮蔽处理,由此能够使得关系抽取模型更多地利用遮蔽实体后的样本文本语句的上下文信息进行学习,从而能够有效提高关系抽取模型的关系抽取准确度。

在一个实施例中,根据关系标签从样本文本语句中提取正例语句对和负例语句对,包括:根据关系标签相同的样本文本语句,生成样本语句包;将样本语句包中的任意两个样本文本语句进行组合,获得正例语句对;将关系标签不同的任意两个样本文本语句进行组合,获得负例语句对。

其中,关系标签可以是在远程监督假设下预先标注的样本文本语句中实体对之间的实体关系。

计算机设备获取样本文本语句后,进而根据关系标签从样本文本语句中提取正例语句对和负例语句对。具体地,计算机设备可以首先获取关系标签一致的样本文本语句,并将这些关系标签一致的样本文本语句生成一个样本语句包,因此,生成的这个样本语句中所有样本文本语句的关系标签都是相同的。计算机设备进而将在同一个包中的任意两个句子进行组合,生成语句对,得到的语句对则为正例语句对。

同时,计算机设备并将样本语句包中关系标签不同的任意两个样本文本语句进行组合,可以获得多个关系标签不同的语句对,这些关系标签不同的语句对则为负例语句对。

本实施例中,通过根据关系标签利用样本文本语句生成正例语句对和负例语句对,关系一致的所有的句子对都是正例,也就是这些句子对的语义度量是相似的,而关系不一致的句子对都是负例,也就是这些句子对的语义度量是不同的。例如,对于关系标注一样的句子,两两组成句子对得到的正例语句对,它们的关系表示应该在点积度量下是接近的。对于关系标注不一样的句子,两两组成句子对得到的负例语句对,它们的关系表示应该在点积度量下是远离的。通过对正负例样本进行对比学习训练,能够更好地学习相似的语义特征和不同的语义特征,由此能够有效提高关系抽取模型的语义信息提取精度。

在一个实施例中,对正例语句对和负例语句对进行正负例采样处理,获得训练集,包括:按照预设的正负例采样比值,对正例语句对和负例语句对进行采样抽取;根据采样抽取的正例语句对和负例语句对,生成训练集。

可以理解,通过对样本文本语句进行正负例采样,在采样过程中能够保证正例语句对和负例语句对均会被采样抽取到。

计算机设备根据关系标签从样本文本语句中提取正例语句对和负例语句对后,进一步按照预设的正负例采样比值,对正例语句对和负例语句对进行采样抽取。例如,在当前批次的正负例采样抽取中,假设一个批次有2n个句子,关系相同的句子组成正例,关系不同的句子组成负例。那么在本轮训练的批次中,可以将正例和负例的正负例采样比值设为1:2n,由此能够有效提高负例样本的利用率,并有效保证采样过程中正负例语句均被包含。

本实施例中,通过按照预设的正负例采样比值,对正例语句对和负例语句对进行采样抽取,这样正例负例的均可以被采样,可以有效的提高负例样本的利用率,从而通过正负例采样获得的训练集能够更好地用于模型训练,使得关系抽取模型的语义关系信息提取的性能更佳。

在一个实施例中,将训练集输入至待训练的关系抽取模型,生成损失值,包括:将训练集输入至待训练的关系抽取模型,提取训练集中各样本文本语句的语义关系特征;根据各样本文本语句的语义关系特征,确定正例语句对中语句的相似度、以及负例语句对中语句的相似度;根据正例语句对中语句的相似度和负例语句对中语句的相似度,确定对比损失值,并根据对比损失值生成损失值。

其中,关系抽取模型中可以包括编码层和相似度提取层以及关系抽取层,编码层用于提取样本文本语句的词法特征、句法特征、上下文语义特征以及语义关系特征等信息。例如,编码层可以为基于bert编码器的神经网络结构,其中编码层中可以包括编码器(transformerencoder)和解码器(transformerdecoder)。例如,编码层中可以包括若干层transformer,如可以采用12层transformer。

相似度提取层可以是基于自注意力机制的网络层,用于根据各个样本文本语句的语义关系特征计算各个样本文本语句之间的相似度。例如可以采用注意力(attention)网络、mlp(multi-layerperceptron,全连接神经网络)等网络结构。关系抽取层可以采用分类器,用于根据各个样本文本语句的语义关系特征进行实体关系分类,以获得各个样本文本语句的关系预测结果。

具体地,在每一轮的模型训练过程中,计算机设备通过对正例语句对和负例语句对进行正负例采样处理获得训练集后,将获得的训练集输入至待训练的关系抽取模型。

首先通过关系抽取模型的编码层对训练集中各个样本文本语句进行语义特征提取。关系抽取模型的编码层可以首先提取各个样本文本语句的上下文语义特征以及实体对之间的实体关联特征等。编码层进而根据提取的上下文语义特征以及实体关联特征,得到各个样本文本语句的最终的语义关系向量表示,最终的语义关系向量表示则为通过关系抽取模型的编码层所提取的样本文本语句的语义关系特征。

进一步地,通过关系抽取模型的编码层获得各个样本文本语句的语义关系特征后,通过关系抽取模型的相似度提取层,根据各个样本文本语句的语义关系特征,计算各个正例语句对中的样本文本语句之间的相似度,以及各个负例语句对中的样本文本语句之间的相似度。从而获得通过关系抽取模型预测的正例语句对中语句的相似度,以及负例语句对中语句的相似度。例如,语句的相似度可以通过计算语句之间的向量点积、向量cosine相似性或者通过再引入额外的神经网络计算获得等等,在此不做限定。

计算机设备进而根据正例语句对中语句的相似度和负例语句对中语句的相似度,确定对比损失值。其中,对比损失值具体可以根据正例语句对中语句的相似度与负例语句对中语句的相似度之间的差异确定。具体地,正例语句对和负例语句对还可以包括实际的标注的样本标签,正例语句对和负例语句对的样本标签可以根据各个样本文本语句的关系标签确定,还可以根据正负例样本对应的预设标签确定。

正例语句对中语句的相似度与负例语句对中语句的相似度之间的差异,可以根据通过关系抽取模型预测的正例语句对中语句的相似度以及负例语句对中语句的相似度,与正例语句对和负例语句对的样本标签之间的差异来确定,从而可以获得正例语句对和负例语句对对应的对比损失值。进而根据比损失值生成关系抽取模型的损失值,由此根据损失值调整关系抽取模型的参数,从而能够有效地基于正负例样本语句对的相似度进行对比学习,使得关系抽取模型在训练的过程中不断学习相似的实体关系以提高语义关系的预测准确性,由此能够有效提高关系抽取模型的关系抽取准确度。

能够让基于神经网络的关系抽取模型更好的学习文本语句的上下文信息,从而能够有效提升关系抽取模型的鲁棒性和关系抽取的准确度。

在一个实施例中,提取训练集中各样本文本语句的语义关系特征,包括:通过关系抽取模型,提取训练集中各样本文本语句的上下文语义特征和实体关联特征;将上下文语义特征和实体关联特征进行特征拼接,得到拼接后的联合特征;根据拼接后的联合特征,获得各样本文本语句的语义关系特征。

具体地,计算机设备通过将对正例语句对和负例语句对进行正负例采样获得的训练集,输入至待训练的关系抽取模型后。关系抽取模型的编码层,首先对训练集中各个样本文本语句进行语义特征提取。关系抽取模型的编码层可以首先提取各个样本文本语句中各个词汇的词向量特征,然后根据词向量特征提取样本文本语句的句向量特征,以及每个词的位置信息,并进一步提取样本文本语句的语法特征等,由此可以根据这些特征进一步进行深度特征提取,得到各个样本文本语句的上下文语义特征以及实体对之间的实体关联特征。

关系抽取模型的编码层进而将获得的上下文语义特征和实体关联特征进行特征拼接,由此可以根据拼接后的联合特征得到各个样本文本语句的最终的语义关系向量表示,最终的语义关系向量表示则为通过关系抽取模型的编码层所提取的样本文本语句的语义关系特征。

由于样本文本语句中包含已经识别出的实体对,样本文本语句中还可以包括实体对的位置信息。因此将样本文本语句输入至关系抽取模型后,关系抽取模型的编码层可以直接根据已标注的实体的位置信息,快速地提取各个实体对应的词向量表示,由此有利于快速精准地对样本文本语句进行语义关系特征。

在其中一个实施例中,样本文本语句中包含了已经识别出的实体对以及实体的位置信息。进一步的,样本文本语句中还可以包括已经提取出的实体对的向量和样本文本语句中各个字或词的字向量或词向量。计算机设备对样本文本语句进行正负例采样获得训练集,并将训练集输入至待训练的关系抽取模型后,关系抽取模型则可以直接根据各个样本文本语句的实体对的位置信息和实体向量,以及样本文本语句中各个字或词的字向量或词向量,进一步提取样本文本语句的语法特征、上下文语义特征以及实体对之间的实体关联特征等,从而能够快速精准地得到各个样本文本语句的语义关系表示,同时能够有效减轻模型训练过程中的计算量,能够有效提高关系抽取模型的训练效率和训练精度。

在一个实施例中,正例语句对和负例语句对分别具有相应的根据关系标签确定的样本标签;根据正例语句对中语句的相似度和负例语句对中语句的相似度,确定对比损失值,包括:根据正例语句对中语句的相似度与相应样本标签之间的差异,以及负例语句对中语句的相似度与相应样本标签之间的差异,生成对比损失值。

计算机设备根据关系标签从样本文本语句中提取正例语句对和负例语句对,获得包括正例语句对和负例语句对的训练集的过程中,还可以生成训练集中正负例样本分别对应的样本标签。

可以理解,正例语句对中实体对的关系标签一致,负例语句对中实体对的关系标签不一致。计算机设备还可以进一步根据关系标签确定正例语句对的样本标签,以及根据关系标签确定负例语句对的样本标签。

其中,可以将正例语句对和负例语句对分别对应的样本标签,确定为正负例样本的实际的样本标签。由此,正例语句对和负例语句对分别具有相应的根据关系标签确定的样本标签。例如,可以将正例语句对的样本标签统一确定为1,将负例语句对的样本标签统一确定为0,因此可以得到正负例样本的实际标签(1或0)。

计算机设备将训练集输入至待训练的关系抽取模型,并通过关系抽取模型对训练集中的样本文本语句进行关系抽取处理,得到各个样本文本语句之间的相似度以及实体关系抽取结果后,根据正例语句对中语句的相似度与相应样本标签之间的差异,以及负例语句对中语句的相似度与相应样本标签之间的差异,生成对比损失值。

具体地,计算机设备将通过关系抽取模型对正例语句对中语句的预测的相似度,与正例语句对的实际的样本标签进行比对,例如可以通过计算正例语句对的相似度预测值与样本标签(如正例为1)的预测差获得正例差异。以及对负例语句对中语句的预测的相似度,与负例语句对的实际的样本标签进行比对,例如可以通过计算负例语句对的相似度预测值与样本标签(如负例为0)的预测差获得负例差异。进而根据正例差异和负例差异生成对比损失值。

计算机设备进一步根据获得的对比损失值调整关系抽取模型的参数,并返回根据关系标签从样本文本语句中提取正例语句对和负例语句对的步骤,从而对关系抽取模型进行迭代训练。

本实施例中,通过计算正例语句对中语句的相似度以及负例语句对中语句的相似度,分别与相应样本标签之间的差异,获得对比损失值,并根据对比损失值调整关系抽取模型的参数,由此能够有效实现基于正负例样本语句对的相似度进行对比学习。

在一个实施例中,根据损失值调整关系抽取模型的参数,包括:根据对比损失值更新关系抽取模型的参数,以使关系抽取模型在迭代训练的过程中,使正例样本语句对之间的相似度增大,以及使负例样本语句对之间的相似度减小。

其中,对比损失值可以通过关系抽取模型的对比损失函数确定,例如对比损失函数可以为nt_xentloss(thenormalizedtemperature-scaledcross-entropyloss)函数。

可以理解,在基于远程监督的假设下,如果头尾实体在知识图谱中具有某种关系,那么所有包含有这两个实体的句子都将表达这种关系。通常而言,如果两个句子在远程监督下标注的实体关系标签一致,那么可以认为这两个句子具有较高的相似度,因此它们的关系表示在点击度量下应该是接近的。反之,在远程监督下标注的实体关系标签不一致,那么可以认为这两个句子不具有相似度,因此它们的关系表示在点击度量下应该是远离的。

计算机设备通过关系抽取模型得到各个样本文本语句之间的相似度后,通过计算正例语句对中语句的相似度以及负例语句对中语句的相似度,分别与相应样本标签之间的差异,获得对比损失值。计算机设备进而根据对比损失值更新关系抽取模型的参数。

具体地,计算机设备根据对比损失值更新关系抽取模型的参数,以对关系抽取模型进行迭代训练的过程中,不断使正例样本语句对之间的相似度增大,并不断使负例样本语句对之间的相似度减小。由此能够使得关系抽取模型学习到关系相同的句子之间相似的特征,并与其他样本进行区别开来。

例如,可以采用二值交叉熵损失函数对预测的相似度和实际的标签(0或1)进行训练。在迭代训练的过程中,关系抽取模型会倾向于让预测输出更接近实际的样本标签。例如,对于正例语句对预测输出的相似度越接近实际的样本标签1,损失函数l越小;预测输出越接近0,l越大。对于负例语句对预测输出的相似度越接近实际的样本标签0,损失函数l越小;预测函数越接近1,l越大。通过不断使损失函数收敛,使得损失函数的变化趋势符合实际所需的情况,以训练出所需的关系抽取模型。

在其中一个实施例中,可以用lcp表示对比损失函数,对比损失函数的公式可以如下:

其中,xa,xb分别表示句子a和句子b经过编码之后的向量表示,句子a和句子b的关系一致,但是句子a与所在当前轮次的训练集中的其余句子之间的关系都不一致。i表示训练集中每个关系不同的句子的索引,表示句子a的向量xa的转置,表示先将两个句子的向量进行向量点积计算,得到的两个句子的相似度。然后再通过关系抽取模型进行实体关系预测处理,输出各个样本文本语句中实体对的实体关系。由此可以在训练模型的过程中,增大关系抽取模型中分类器的类间差异,以提高关系抽取模型对实体关系识别的准确度。

在一个实施例中,损失值包括第一损失值和第二损失值;第一损失值为对比损失值;方法还包括:对训练集中各样本文本语句中的文本进行掩码处理;提取掩码处理后的各样本文本语句中各文本的文本上下文特征;根据文本上下文特征对各样本文本语句进行掩码预测,并根据掩码预测结果确定对应的交叉熵损失;根据交叉熵损失确定第二损失值。

其中,关系抽取模型的目标损失函数可以包括第一损失函数和第二损失函数,第一损失函数可以为对比损失函数,第二损失函数可以为语言模型损失函数。例如第一损失函数可以为lcp(contrastiveloss,对比损失函数),第二损失函数可以为lmlm(maskedlanguagemodelloss,掩码语言模型损失函数)。

计算机设备将训练集输入至待训练的关系抽取模型后,通过关系抽取模型的编码层获得各个样本文本语句的语义关系特征。进而通过关系抽取模型的相似度提取层,根据各个样本文本语句的语义关系特征,计算各个正例语句对中的样本文本语句之间的相似度,以及各个负例语句对中的样本文本语句之间的相似度。以及通过关系抽取模型的关系抽取层,根据各个样本文本语句的语义关系特征进行实体关系分类,具体可以通过关系抽取模型中一个线性映射层,获得各个样本文本语句在所有关系集合上的概率分布,从而得到各个样本文本语句的关系预测结果。

在训练关系抽取模型的过程中,关系抽取模型还对训练集中各样本文本语句中的文本进行掩码处理。例如,可以采用mlm(maskedlanguagemodel,遮蔽语言模型)执行掩码预测任务。具体地,计算机设备可以采用随机屏蔽(mask)的方式,对样本文本语句中的部分文本进行掩码处理,具体可采用预设字符替换被屏蔽的部分文本,即随机屏蔽样本文本语句的部分输入(token)。例如可以随机遮蔽样本文本语句中的任意文本,亦或者实体。

进而将掩码处理后的样本文本语句输入至关系抽取模型的编码层,进行语义特征提取。通过关系抽取模型的编码层可以提取样本文本语句中各个单词或文本对应的词向量、位置向量等,由此可以根据各个单词或文本词向量、位置向量等信息,获得各个文本对应的上下文语义信息,并进一步提取得到各样本文本语句对应的上下文语义特征和实体关联特征。

通过关系抽取模型提取掩码处理后的各样本文本语句中的文本的上下文语义信息后,根据文本的上下文语义信息对各样本文本语句进行掩码预测,进而可以根据掩码预测结果进行交叉熵损失计算,可以得到样本文本语句中各个文本对应的交叉熵损失。

计算机设备进而根据交叉熵损失确定第二损失值,也可以直接将获得的交叉熵损失作为第二损失值。第二损失值可以表征样本文本语句中的文本对应的上下文语义损失。

可以理解,损失值可以通过第一损失值和第二损失值共同确定。例如关系抽取模型的损失值可以为第一损失值和第二损失值的总和。

计算机设备进而根据包括第一损失值和第二损失值的总的损失值,调整关系抽取模型的参数,并返回根据关系标签从样本文本语句中提取正例语句对和负例语句对的步骤,以进行迭代训练,直至满足训练停止条件,得到关系抽取模型。

在其中一个实施例中,关系抽取模型的目标损失函数可以表示为:

l=lcp+lmlm

其中,lcp为第一损失函数,lmlm为第二损失函数,通过第一损失函数和第二损失函数共同构建得到关系抽取模型的目标损失函数。第一损失值通过对应的第一损失函数获得,第二损失值通过对应的第二损失函数获得。通过在关系抽取模型中引入lmlm损失函数,能够有效防止在训练模型的过程中发生灾难性遗忘,并且能够有利于提高关系抽取模型对语义的理解能力。

本实施例中,通过计算表征正例语句对中语句的相似度与负例语句对中语句的相似度之间的差异的第一损失值,以及表征样本文本语句中的文本对应的上下文语义损失的第二损失值,并根据第一损失值和第二损失值共同调整关系抽取模型的参数。由此能够有效使得关系抽取模型基于正负例样本语句对的相似度进行对比学习,同时能够有效提高关系抽取模型对语义的理解能力,使得模型逐步收敛,从而能够有效提高关系抽取模型的关系抽取准确度。

在一个实施例中,如图5所示,提供了一种具体的文本语句处理方法的流程示意图,包括以下步骤:

s502,获取初始样本文本语句;初始样本文本语句含实体对和实体对的关系标签。

s504,按照预设概率值,从初始样本文本语句的实体对中选取头实体或尾实体;将选取的头实体或尾实体替换为预设字符,获得实体遮蔽后的样本文本语句。

s506,根据关系标签相同的样本文本语句,生成样本语句包;将样本语句包中的任意两个样本文本语句进行组合,获得正例语句对。

s508,将关系标签不同的任意两个样本文本语句进行组合,获得负例语句对。

s510,按照预设的正负例采样比值,对正例语句对和负例语句对进行采样抽取;根据采样抽取的正例语句对和负例语句对,生成训练集;正例语句对和负例语句对分别具有相应的根据关系标签确定的样本标签。

s512,将训练集输入至待训练的关系抽取模型,通过关系抽取模型,提取训练集中各样本文本语句的上下文语义特征和实体关联特征。

s514,将上下文语义特征和实体关联特征进行特征拼接,根据拼接后的联合特征,获得各样本文本语句的语义关系特征。

s516,根据各样本文本语句的语义关系特征,确定正例语句对中语句的相似度、以及负例语句对中语句的相似度。

s518,根据正例语句对中语句的相似度与相应样本标签之间的差异,以及负例语句对中语句的相似度与相应样本标签之间的差异,生成第一损失值。

s520,对训练集中各样本文本语句中的文本进行掩码处理;提取掩码处理后的各样本文本语句中各文本的文本上下文特征;根据文本上下文特征对各样本文本语句进行掩码预测,并根据掩码预测结果确定对应的交叉熵损失;根据交叉熵损失确定第二损失值。

s522,根据第一损失值和第二损失值生成损失值;第一损失值为对比损失值;对比损失值用于表征正例语句对中语句的相似度与负例语句对中语句的相似度之间的差异。

s524,根据损失值更新关系抽取模型的参数,以使关系抽取模型在迭代训练的过程中,使正例样本语句对之间的相似度增大,以及使负例样本语句对之间的相似度减小;并返回根据关系标签从样本文本语句中提取正例语句对和负例语句对的步骤,以进行迭代训练,直至满足训练停止条件,得到关系抽取模型。

如图6所示,为一个具体的实施例中训练关系抽取模型的示意图。例如,样本文本语句包括“①spacexwasfoundedin2002byelonmusk”、“②gates,astheco-founderofmicrosoft”、“③sundarpichaiistheceoofalphabetinc”、“④cookjoinedappleinmarch1998”等等。其中,样本文本语句中包括了实体对和实体对的关系标签,实体对还可以包括相应的位置信息标识和实体向量表示。例如,第一句样本文本语句①中的实体对为“spacex”和“elonmusk”,对应的实体向量分别为“q193701”、“q317521”,该实体对的关系标签则为“foundedby”。

计算机设备将这些样本文本语句输入至待训练的关系抽取模型后,通过关系抽取模型中的编码器分别提取出各个样本文本语句的语义关系特征,语义关系特征可以为编码器提取的各个样本文本语句的最终的向量表示。其中,关系抽取模型的编码器可以为bert编码器。编码器输出各个样本文本语句的语义关系特征后,进而通过相似度提取层计算各个样本文本语句之间的相似度,以及输出各个样本文本语句的实体关系预测结果。参照图6,通过关系抽取模型所预测各个样本文本语句之间的相似度,可以看出第一句①与第二句②之间具有较高的相似度,而第一句①与第三句③以及第四句④均不具有相似度。计算机设备进而正例语句对中语句的相似度与负例语句对中语句的相似度之间的差异生成对比损失值,根据包括了对比损失值的损失值调整关系抽取模型的参数,并进行迭代训练。

本实施例中,通过对样本文本语句进行实体遮蔽处理后,根据关系标签从样本文本语句中提取正例语句对和负例语句对,并对正例语句对和负例语句对进行正负例采样处理,从而能够获得有效的正负例训练集。通过将训练集输入至待训练的关系抽取模型,生成包括对比损失值的损失值。对比损失值表征了正例语句对中语句的相似度与负例语句对中语句的相似度之间的差异。由此通过根据损失值调整关系抽取模型的参数,从而能够有效地基于正负例样本语句对的相似度进行对比学习。并返回根据关系标签从样本文本语句中提取正例语句对和负例语句对的步骤以进行迭代训练,直至满足训练停止条件,得到训练好的关系抽取模型。通过基于正负例样本进行对比学习,并根据正负例样本语句对之间相似度的差异进行调参,由此能够使模型更好地学习两个实体相关的特征,从而能够有效提高关系抽取模型的关系抽取准确度。

在一个具体的实验测试的实施例中,以从关系抽取数据集中获取数据集作为关系抽取模型的样本文本语句进行测试。分别采用有监督学习的方式和少次学习的方式关系抽取任务数据集上进行测试。如图7所示,为采用有监督学习的在关系抽取任务数据集上的测试得到的关系抽取效果比对图。具体地,采用有监督学习的关系抽取任务中,为分别从tacred、semeval、wiki80、chenprot数据集中获取测试数据作为样本文本语句,并分别在1%、10%、100%的先验样本进行效果试验,并通过预训练的关系抽取模型输出相应的关系抽取结果。同时还采用传统的关系抽取任务,例如基于bert模型、mtb模型得到在相应关系抽取任务数据集上的效果。参照图7,展示了分别采用基于bert模型(即图中bert对应的模型)、mtb模型(即图中mtb对应的模型),以及通过上述文本语句处理方法得到的关系抽取模型(即图中cp对应的模型),在相应关系抽取任务数据集上的测试得到的关系抽取效果。

如图8所示,为采用少次学习的在关系抽取任务数据集上的测试得到的关系抽取效果比对图。参照图8,展示了分别采用基于bert模型(即图中bert对应的模型)、mtb模型(即图中mtb对应的模型),以及通过上述文本语句处理方法得到的关系抽取模型(即图中cp对应的模型)。分别从fewrel1.0、fewrel2.0donmainadaptation数据集中获取测试数据作为样本文本语句,并分别在“5-way1-shot”、“5-way5-shot”、“10-way1-shot”、“10-way5-shot”的样本批次中进行效果试验,并分别在相应关系抽取任务数据集上的测试得到的关系抽取效果。

其中,c+m表示整个句子完整的输入;onlyc表示仅仅输入上下文,遮蔽掉实体;onlym表示仅仅输入实体,不使用上下文。从图7、图8中可以看出,通过上述文本语句处理方法得到的关系抽取模型,在大多数关系抽取任务上都要好于现有的模型,并且在仅仅使用上下文信息时,通过上述文本语句处理方法得到的关系抽取模型的效果相对提升更多。由此可以看出,通过上述文本语句处理方法得到的关系抽取模型(即图中的cp模型),能够更好的利用上下文信息,更精准地的进行关系抽取,从而有效提高了关系抽取模型的关系抽取准确度。

在一个实施例中,在得到关系抽取模型之后,还包括:获取待处理文本语句;识别待处理文本语句中的实体对;将待处理文本语句和实体对输入至关系抽取模型,得到待处理文本语句中实体对的实体关系抽取结果。

可以理解,待处理文本语句是指未经过任务标注和预处理的文本语句。通过利用样本文本语句对关系抽取模型进行迭代训练,得到训练好的具有关系抽取准确度较高的关系抽取模型后,则可以直接利用预训练后的关系抽取模型对待处理文本语句进行处理,以处理文本语句的关系抽取任务。

具体地,计算机设备获取待处理文本语句后,首先识别出待处理文本语句中的实体对。其中,计算机设备可以按照预设算法识别出待处理文本中的实体对,也可以通过预设的语言处理模型识别出待处理文本语句中的实体对,再次不作限定。

计算机设备进一步将待处理文本语句和识别出的实体对输入至关系抽取模型中,通过关系抽取模型提取待处理文本语句的上下文语义特征和实体关联特征,并将上下文语义特征和实体关联特征进行特征拼接,根据拼接后的联合特征获得待处理文本语句的语义关系特征,进而根据语义关系特征预测出待处理文本语句中实体对的实体关系抽取结果。

在其中一个实施例中,关系抽取模型还可以是语言处理模型中的一个子模型。计算机设备对待处理文本语句进行处理时,还可以首先将待处理文本语句输入至预训练的语言处理模型中,通过语言处理模型识别出待处理文本语句的实体对。进而将待处理文本语句和实体对输入至关系抽取模型中,通过关系抽取模型对待处理文本语句进行实体关系识别,输出待处理文本语句中实体对的实体关系抽取结果。

本实施例中,由于关系抽取模型是经过预训练获得的关系抽取准确度较高的神经网络模型,由此能够精准有效地对待处理文本语句进行关系抽取处理,从而能够抽取得到准确度较高的实体关系抽取结果。

本申请还提供一种应用场景,可应用于自然语言问答系统,该应用场景应用上述的文本语句处理方法。具体地,该文本语句处理方法在该应用场景的应用如下:

在自然语言问答处理系统中,用户设备获取用户的指令,例如用户设备可以获取用户录入的用户输入文本,并向问答系统发起交互请求,问答系统进而对该段用户输入文本进行自然语言处理,例如首先对用户输入文本进行分词处理、命名实体识别等,以获得用户输入文本中的实体信息。并进一步将用户输入文本和识别出的实体信息输入至预训练的关系抽取模型中,通过关系抽取模型输出该用户输入文本中实体的实体关系抽取结果。问答系统则可以进一步根据识别出的用户输入文本的实体关系抽取结果以及对于的语义信息等,获取相应的应答信息,并返回至用户设备并输出,由此能够有效地提高问答交互中问答系统的语义理解能力,从而能够有效提高问答系统的交互准确度。

应该理解的是,虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图9所示,提供了一种文本语句处理装置900,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:样本获取模块902、采样处理模块904、关系抽取模块906和参数调整模块908,其中:

样本获取模块902,用于获取样本文本语句;样本文本语句含实体对和实体对的关系标签;

采样处理模块904,用于根据关系标签从样本文本语句中提取正例语句对和负例语句对,并对正例语句对和负例语句对进行正负例采样处理,获得训练集;

关系抽取模块906,用于将训练集输入至待训练的关系抽取模型,生成损失值;损失值中包括对比损失值;对比损失值,用于表征正例语句对中语句的相似度与负例语句对中语句的相似度之间的差异;

参数调整模块908,用于根据损失值调整关系抽取模型的参数,并返回根据关系标签从样本文本语句中提取正例语句对和负例语句对的步骤,以进行迭代训练,直至满足训练停止条件,得到关系抽取模型;关系抽取模型,用于识别文本语句中实体对的实体关系。

在一个实施例中,实体对包括头实体和尾实体;样本获取模块902还用于获取初始样本文本语句;按照预设概率值,从初始样本文本语句的实体对中选取头实体或尾实体;将选取的头实体或尾实体替换为预设字符,获得实体遮蔽后的样本文本语句。

在一个实施例中,样本获取模块902还用于按照预设概率值,从样本文本语句的实体对中选取头实体或尾实体;将选取的头实体或尾实体替换为预设字符,获得实体遮蔽后的样本文本语句。

在一个实施例中,采样处理模块904还用于根据关系标签相同的样本文本语句,生成样本语句包;将样本语句包中的任意两个样本文本语句进行组合,获得正例语句对;将关系标签不同的任意两个样本文本语句进行组合,获得负例语句对。

在一个实施例中,在根据损失值调整关系抽取模型的参数之后,且在返回根据关系标签从样本文本语句中提取正例语句对和负例语句对的步骤的之前,采样处理模块904还用于按照预设的正负例采样比值,对正例语句对和负例语句对进行采样抽取;根据采样抽取的正例语句对和负例语句对,生成训练集。

在一个实施例中,关系抽取模块906还用于将训练集输入至待训练的关系抽取模型,提取训练集中各样本文本语句的语义关系特征;根据各样本文本语句的语义关系特征,确定正例语句对中语句的相似度、以及负例语句对中语句的相似度;根据正例语句对中语句的相似度和负例语句对中语句的相似度,确定对比损失值,并根据对比损失值生成损失值。

在一个实施例中,关系抽取模块906还用于通过关系抽取模型,提取训练集中各样本文本语句的上下文语义特征和实体关联特征;将上下文语义特征和实体关联特征进行特征拼接,得到拼接后的联合特征;根据拼接后的联合特征,获得各样本文本语句的语义关系特征。

在一个实施例中,正例语句对和负例语句对分别具有相应的根据关系标签确定的样本标签;关系抽取模块906还用于根据正例语句对中语句的相似度与相应样本标签之间的差异,以及负例语句对中语句的相似度与相应样本标签之间的差异,生成对比损失值。

在一个实施例中,参数调整模块908还用于根据对比损失值更新关系抽取模型的参数,以使关系抽取模型在迭代训练的过程中,使正例样本语句对之间的相似度增大,以及使负例样本语句对之间的相似度减小。

在一个实施例中,损失值包括第一损失值和第二损失值;第一损失值为对比损失值;参数调整模块908还用于对训练集中各样本文本语句中的文本进行掩码处理;提取掩码处理后的各样本文本语句中各文本的文本上下文特征;根据文本上下文特征对各样本文本语句进行掩码预测,并根据掩码预测结果确定对应的交叉熵损失;根据交叉熵损失确定第二损失值。

在一个实施例中,如图10所示,上述文本语句处理装置900还包括文本处理模块910,用于获取待处理文本语句;识别待处理文本语句中的实体对;将待处理文本语句和实体对输入至关系抽取模型,得到待处理文本语句中实体对的实体关系抽取结果。

关于文本语句处理装置的具体限定可以参见上文中对于文本语句处理方法的限定,在此不再赘述。上述文本语句处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本文本语句、正例语句对和负例语句对等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本语句处理方法。

本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-onlymemory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(randomaccessmemory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(staticrandomaccessmemory,sram)或动态随机存取存储器(dynamicrandomaccessmemory,dram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1