一种要素抽取方法、装置、设备和存储介质与流程

文档序号:31166788发布日期:2022-08-17 08:48阅读:58来源:国知局
一种要素抽取方法、装置、设备和存储介质与流程

1.本技术涉及自然语言处理技术领域,特别是涉及一种要素抽取方法、装置、设备和存储介质。


背景技术:

2.动员需求文本是一种较长篇章的文本,包含不同层次要素需求;例如:动员目标、动员主题、需求对象、需求对象数量,计量单位,交付地址等细粒度层次的要素。
3.现有的要素抽取方案通常是采用序列标注和采用阅读理解的方式进行抽取,这两种方案只能将文本中所有的要素抽取处理,并不能保留要素之间的关系。随着自然语言处理技术的发展,实体抽取、关系抽取、事件抽取等文本分析技术得到快速应用。人们将实体抽取和关系抽取结合,以判断实体之间的关系。例如,抽取文本中的所有实体,将实体两两组合构建实体对,判断实体对之间的关系,该方案中实体对的数量和实体的数量紧密相关,成指数级别增长严重阻碍了实体关系抽取的效率。因此,现有的技术无法解决动员需求文本的多层次要素抽取。


技术实现要素:

4.本技术主要解决的技术问题是提供一种要素抽取方法、装置、设备和存储介质,能够抽取需求对象以及需求对象对应的需求属性,并保留需求对象和需求属性之间的对应关系。
5.为解决上述技术问题,本技术第一方面提供了一种要素抽取方法,该方法包括:获取待要素抽取的目标文本;对目标文本进行第一抽取,得到第一抽取结果,其中,第一抽取结果包括目标文本中属于需求对象的第一分词;基于第一分词,对目标文本进行第二抽取,得到目标文本中属于与需求对象对应的需求属性的第二分词。
6.为解决上述技术问题,本技术第二方面提供了一种要素抽取装置,该装置包括:获取模块,用于获取待要素抽取的目标文本;第一抽取模块,用于对目标文本进行第一抽取,得到第一抽取结果,其中,第一抽取结果包括目标文本中属于需求对象的第一分词;第二抽取模块,用于基于第一分词,对目标文本进行第二抽取,得到目标文本中属于与需求对象对应的需求属性的第二分词。
7.为解决上述技术问题,本技术第三方面提供了一种要素抽取设备,该设备包括相互耦接的存储器和处理器;存储器存储有程序指令;处理器用于执行存储器中存储的程序指令,以实现上述第一方面的方法。
8.为解决上述技术问题,本技术第四方面提供了一种计算机可读存储介质,该计算机可读存储介质用于存储程序指令,程序指令能够被执行以实现上述第一方面的方法。
9.本技术的有益效果是:区别于现有技术的情况,本技术获取目标文本后,对目标文本进行两次抽取,第一次抽取目标文本中属于需求对象的第一分词,第二次基于第一分词抽取目标文本中属于需求对象对应的需求属性的第二分词。通过两次抽取,即可得到目标
文本中属于需求对象和需求属性的分词,进一步地,由于第二次抽取基于属于需求对象的第一分词,则可以抽取得到属于第一分词对应的需求属性的第二分词,即可保留需求对象和需求属性的关系。
附图说明
10.图1是本技术提供的要素抽取方法第一实施方式的流程示意图;
11.图2是本技术提供的要素抽取方法第二实施方式的流程示意图;
12.图3是第一处理模型的示意图;
13.图4是要素抽取模型结构图;
14.图5是本技术提供的要素抽取装置一实施方式的框架示意图;
15.图6是本技术提供的文本关系抽取设备一实施方式的框架示意图;
16.图7是本技术计算机可读存储介质一实施方式的框架示意图。
具体实施方式
17.下面结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
18.需要说明的是,本技术实施例中有涉及“第一”、“第二”等的描述,该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
19.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
20.请参阅图1,图1是本技术提供的要素抽取方法第一实施方式的流程示意图,该方法包括:
21.s110:获取待要素抽取的目标文本。
22.在一实施方式中,目标文本可以为动员需求文本,动员需求文本可以包含多个要素,例如:任务目的、任务主题、发文单位,需求对象、类别、规格、数量、计量单位、所属单位、保障单位、交接时间、交接地点、交接人员、交接联系方式等,其中,类别、规格、数量、计量单位、所属单位、保障单位、交接时间、交接地点、交接人员、交接联系方式等为需求对象的需求属性。用户可以将任务目的、任务主题、发文单位,需求对象定义为一级标签,将属于需求对象的需求属性定义为二级标签,在要素抽取过程中,可以先抽取属于一级标签的文本,再抽取属于二级标签的文本。
23.进一步地,为了提高要素抽取结果的准确度,用户进行要素抽取前,可以将目标文本进行段落划分,基于划分后的段落进行要素抽取。其中,段落划分的依据可以为包含需求对象和其属性的句子为一个段落。
24.s120:对目标文本进行第一抽取,得到第一抽取结果;其中,第一抽取结果包括目标文本中属于需求对象的第一分词。
25.在一实施方式中,对目标文本进行第一抽取可以由第一处理模型和分类模型执行。具体地,可以将目标文本输入到第一处理模型中,由第一处理模型对目标文本中的若干分词进行第一处理,得到目标文本中各分词的第一词向量,第一词向量包括分词的向量表达和分词的第一标记信息,各分词的第一标记信息均为表示不属于需求对象的第一标记;再对第一词向量进行特征提取,得到第一特征向量,将第一特征向量输入分类模型,得到各分词的分类结果,根据分类结果,确定第一抽取结果,第一抽取结果包括目标文本中属于需求对象的第一分词。
26.其中,分词的分类结果包括分词属于至少一个预设标签的第一概率,预设标签(即一级标签)可以包括需求对象、任务目的、任务主题、发文单位,根据第一概率,即可确定分词的预设标签,进而确定目标文本中属于需求对象的第一分词。
27.s130:基于第一分词,对目标文本进行第二抽取,得到目标文本中属于与需求对象对应的需求属性的第二分词。
28.在一实施方式中,步骤s130可以由第二处理模型和识别模型执行,具体地,步骤s120获取第一分词后,可以修改第一分词的第一标记信息,进而采用第二处理模型获取目标文本中若干分词的第二词向量,分词的第二词向量包括分词的向量表达和分词的第二标记信息,第一分词的第二标记信息为表示属于需求对象的第二标记,且其余分词的第二标记信息均为第一标记。基于第二词向量获取若干分词的第二特征向量,将第二特征向量输入识别模型,通过识别模型得到目标文本中属于与需求对象对应的需求属性的第二分词。
29.本实施方式中,获取目标文本后,对目标文本进行两次抽取,第一次抽取目标文本中属于需求对象的第一分词,第二次基于第一分词抽取目标文本中属于需求对象对应的需求属性的第二分词。通过两次抽取,即可得到目标文本中属于需求对象和需求属性的分词,进一步地,由于第二次抽取基于属于需求对象的第一分词,则可以抽取得到属于第一分词对应的需求属性的第二分词,即可保留需求对象和需求属性的关系。
30.请参阅图2-3,图2是本技术提供的要素抽取方法第二实施方式的流程示意图,图3是第一处理模型的示意图;该方法包括:
31.s210:获取待要素抽取的目标文本。
32.在一实施方式中,可以将待要素抽取的目标文本进行段落划分,得到若干段落文本,段落划分的依据为包含需求对象和其属性的句子为一个段落。
33.s220:获取目标文本中各分词的第一词向量。
34.s230:基于各分词的第一词向量进行预测,得到第一抽取结果,其中,第一抽取结果包括目标文本中属于需求对象的第一分词。
35.在一实施方式中,可以将步骤s210中得到的若干段落文本依次输入第一处理模型,采用第一处理模型获得目标文本中各分词的第一词向量。具体地,在段落文本输入第一处理模型前,可以采用与第一处理模型匹配的分词工具对段落文本进行分词,分词后输入第一处理模型获得各分词的第一词向量。
36.其中,分词的第一词向量包括分词的向量表达和分词的第一标记信息,各分词的第一标记信息均为表示不属于需求对象的第一标记。在一具体实施方式中,各分词的第一
标记信息即为各分词的段落标记。分词的第一词向量(ei)可以包括分词的向量表达(wordpiecei)、段落标记(segmenti)和位置向量(positioni)。具体的,目标文本中的若干分词输入第一处理模型时,可以对分词进行编号,将编号分别代入wordpiece、segment和position函数,获得分词的向量表达、段落标记和位置向量,本实施方式中,目标文本按照划分后的段落文本依次输入第一处理模型,也就是说,每次仅输入一个段落文本给第一处理模型,故可以将段落文本中若干分词的段落标记均设置为0,即各分词的第一标记信息为0。可以理解地,在其它实施方式中,第一标记信息也可以为其它的数字。
37.第一处理模型获得各分词的第一词向量后,对各分词的第一词向量进行特征提取,得到各分词的第一特征向量。具体地,第一处理模型可以基于transformer模型中的编码器机制对目标文本中的若干分词进行特征提取,采用的自注意力机制较rnn(循环神经网络,recurrent neural network)、cnn(卷积神经网络)、lstm(长短期记忆网络,long short-term memory)神经网络结构,可以自学习到更多的上下文信息,提升特征抽取能力,并且可以并行计算,大大提高了网络的学习性能。如图3所示,利用若干分词的第一词向量e1,e2,e3,
…ei
进行特征提取,得到若干分词的第一特征向量t1,t2,t3,

ti。具体地,第一词向量经转化层(transformer)转化后得到第一特征向量。将第一特征向量输入分类模型,由分类模型利用第一特征向量对各分词进行分类,得到各分词的分类结果,基于各分词的分类结果,确定目标文本中属于各预设标签的分词。其中,分类模型可以为softmax线性分类器,可以理解地,分类模型也可以为其它模型,在此不做限定。分词的分类结果包括分词分别属于至少一个预设标签的第一概率,可采用公式1计算分词的第一概率。
[0038][0039]
公式1中,si为第i个分词的第一概率,ei为第一处理模型的输出向量经线性层转化为每个预设标签的向量,i,j∈|l|,l为预设标签的数量。
[0040]
本实施方式中,在确定目标文本中属于各预设标签的分词后,即可得到第一抽取结果,将目标文本中属于需求对象的分词作为第一分词。其中,各预设标签包括:需求对象、任务目的、任务主题、发文单位、和非有效标签,不属于需求对象、任务目的、任务主题、发文单位中任意一个标签的分词即属于非有效标签。可以理解地,预设标签的个数可以根据实际业务需求进行设定,在此不做限定。
[0041]
s240:基于第一分词,获取各分词的第二词向量。
[0042]
s250:基于各分词的第二词向量进行预测,得到目标文本中属于与需求对象对应的需求属性的第二分词。
[0043]
在一实施方式中,步骤s230获得一个第一分词,也就是说,输入第一处理模型的段落文本中包含一个属于需求对象的分词,将第一分词的第一标记信息修改为第二标记信息,具体地,可以将第一分词的第一标记信息0改为1,将1作为第一分词的第二标记信息,以获取各分词的第二词向量,分词的第二词向量包括分词的向量表达和分词的第二标记信息,第一分词的第二标记信息为表示属于需求对象的第二标记,且其余分词的第二标记信息均为第一标记。
[0044]
获取各分词的第二词向量后,利用第二处理模型对第二词向量进行特征提取,得
到各分词的第二特征向量。将第二特征向量输入识别模型,使得识别模型利用第二特征向量对各分词进行属性识别,得到若干组候选标签序列的第二概率,其中,每组候选标签序列由各分词的一个预测标签组成,至少部分预测标签用于表示需求属性。需求属性包括:类别、规格、数量、计量单位、所属单位、保障单位、交接时间、交接地点、交接人员、交接联系方式中的至少一者。例如,存在3个分词x、y、z,两种需求属性a,b,则分词x可能属于a需求属性、也可能属于b需求属性,还可能都不属于;同样地,分词y和z也包含3种情况,则存在9组候选标签序列,其中一组候选标签序列可以为(a、b、a),即分词x、y、z分别对应于a需求属性、b需求属性、a需求属性。
[0045]
识别模型在需求属性识别过程中,可以使用bert+crf层网络模型,bert是一种常见的预训练语言模型,crf是序列标注任务中的一种常见算法,是一种根据输入序列预测输出序列的判别式模型,适用于标注需求属性类别。对于指定序列x(x1,x2,

xn),其对应标签为y(y1,y2,
…yn
),若在给定随机变量序列x的条件下,随机变量序列y的条件概率分布p(y|x)构成条件随机场,即满足马尔可夫性:p(yi|x,y1,
…yi-1
,y
i+1
,
…yn
)=p(yi|x,y
i-1
,y
i+1
),设p(n,k)为解码层输出的权重矩阵,进而可以分别计算每组候选标签序列的评估分数,基于评估分数得到每组候选标签序列的第二概率,具体地,可以用公式2计算评估分数,用公式3计算第二概率。
[0046][0047]
公式2中,s(x,y)为候选标签序列的评估分数,p
i,yi
为第i个分词对应候选序列标签yi的概率,a
yi,yi+1
表示第i标签转移至第i+1标签权重,a为转移矩阵,n为候选标签序列的长度。
[0048][0049]
公式3中,p(y|x)为候选标签序列的第二概率,s(x,y)为候选标签序列的评估分数。
[0050]
本实施方式中,选出第二概率满足条件的候选标签序列,作为目标标签序列,其中,预设条件可以为将第二概率最大的候选标签序列,作为目标标签序列。基于目标标签序列中各分词的预测标签,确定目标文本中属于与需求对象对应的需求属性的第二分词。例如目标文本中的分词x对应的预测标签为数量,则分词x即为属于第一分词对应的数量需求属性的第二分词。
[0051]
在另一实施方式中,步骤s230获得多个第一分词,则在第一个第一分词对应的第二分词预测结束后,重复上述步骤,以预测第二个第一分词对应的第二分词,直至得到段落文本中的多个第一分词分别对应的第二分词。
[0052]
本实施方式中,第一处理模型和第二处理模型可以采用相同的网络结构,第一处理模型和第二处理模型均可以为roberta模型,roberta模型是在bert的基础上改进了掩码策略得到的语言训练模型。
[0053]
本实施方式通过段落标记等特征标记第一分词的位置,实现需求对象要素的需求
属性要素的抽取,减少在要素抽取和要素关系抽取过程模型计算的资源消耗,提高了抽取效率。
[0054]
请参阅图4,图4是要素抽取模型结构图。
[0055]
本技术中的要素抽取方法可以由要素抽取模型执行,在一实施方式中,要素抽取模型包括第一处理模型、分类模型、第二处理模型、识别模型。实际应用时,用户可以将待要素抽取的目标文本输入要素抽取模型,通过要素抽取模型中的第一处理模型得到若干分词的第一词向量和第一特征向量,第一词向量包含分词的向量表达和分词的第一标记信息,各分词的第一标记信息均为表示不属于需求对象的第一标记;将第一特征向量输入分类模型,得到目标文本中属于需求对象的第一分词;对目标文本中的第一分词进行第二标记后输入第二处理模型,采用第二处理模型获得目标文本中的各分词的第二词向量和第二特征向量,其中,分词的第二词向量包括分词的向量表达和分词的第二标记信息,第一分词的第二标记信息为表示属于需求对象的第二标记,且其余分词的第二标记信息均为第一标记;将第二特征向量输入识别模型,获得目标文本中属于与需求对象对应的需求属性的第二分词,可以理解地,第二分词可以为多个。
[0056]
请参阅图5,图5是本技术提供的要素抽取装置一实施方式的框架示意图。要素抽取装置50包括获取模块51,第一抽取模块52,第二抽取模块53。获取模块51用于获取待要素抽取的目标文本;第一抽取模块52用于对所述目标文本进行第一抽取,得到第一抽取结果,其中,所述第一抽取结果包括所述目标文本中属于需求对象的第一分词;第二抽取模块53用于基于所述第一分词,对所述目标文本进行第二抽取,得到所述目标文本中属于与所述需求对象对应的需求属性的第二分词。
[0057]
其中,对所述目标文本进行第一抽取,得到第一抽取结果,包括:获取所述目标文本中各分词的第一词向量,其中,所述分词的第一词向量包括所述分词的向量表达和所述分词的第一标记信息,各所述分词的第一标记信息均为表示不属于所述需求对象的第一标记;基于各所述分词的第一词向量进行预测,得到所述第一抽取结果;所述基于所述第一分词,对所述目标文本进行第二抽取,得到所述目标文本中属于与所述需求对象对应的需求属性的第二分词,包括:基于所述第一分词,获取各所述分词的第二词向量,其中,所述分词的第二词向量包括所述分词的所述向量表达和所述分词的第二标记信息,所述第一分词的第二标记信息为表示属于所述需求对象的第二标记,且其余所述分词的第二标记信息均为所述第一标记;基于各所述分词的第二词向量进行预测,得到所述目标文本中属于与所述需求对象对应的需求属性的第二分词。
[0058]
其中,第一抽取结果包括所述目标文本中属于至少一个预设标签的分词,所述至少一个预设标签包括所述需求对象;
[0059]
所述基于各所述分词的第一词向量进行预测,得到所述第一抽取结果,包括:对各所述分词的第一词向量进行特征提取,得到各所述分词的第一特征向量;利用所述第一特征向量对各所述分词进行分类,得到各所述分词的分类结果,其中,所述分词的分类结果包括所述分词分别属于至少一个预设标签的第一概率;基于各所述分词的分类结果,确定所述目标文本中属于各所述预设标签的分词。
[0060]
其中,获取所述目标文本中各分词的第一词向量的步骤和所述对各所述分词的第一词向量进行特征提取的步骤由第一处理模型执行;所述利用所述第一特征向量对各所述
分词进行分类的步骤由分类模型执行。
[0061]
其中,基于各所述分词的第二词向量进行预测,得到所述目标文本中属于与所述需求对象对应的需求属性的第二分词,包括:对各所述分词的第二词向量进行特征提取,得到各所述分词的第二特征向量;利用所述第二特征向量对各所述分词进行属性识别,得到若干组候选标签序列的第二概率,其中,每组候选标签序列由各分词的一个预测标签组成,至少部分所述预测标签用于表示需求属性;选出所述第二概率满足条件的候选标签序列,作为目标标签序列;基于所述目标标签序列中各分词的预测标签,确定所述目标文本中属于与所述需求对象对应的需求属性的第二分词。
[0062]
其中,获取所述目标文本中各分词的第二词向量的步骤和所述对各所述分词的第二词向量进行特征提取的步骤由第二处理模型执行;所述利用所述第二特征向量对各所述分词进行属性识别的步骤由识别模型执行。
[0063]
其中,第二处理模型与执行所述对所述目标文本进行第一抽取的步骤所采用的第一处理模型的网络结构相同。
[0064]
其中,分词的第一词向量和所述第二词向量均还包括所述分词在所述目标文本中的位置信息;和/或,在所述获取所述目标文本中各分词的第一词向量之前,所述方法还包括:对所述目标文本进行分词。
[0065]
其中,第一抽取结果还包括:属于任务目的、任务主题、发文单位中的至少一者的分词;和/或,所述需求属性包括:类别、规格、数量、计量单位、所属单位、保障单位、交接时间、交接地点、交接人员、交接联系方式中的至少一者。
[0066]
请参阅图6,图6是本技术提供的文本关系抽取设备一实施方式的框架示意图。
[0067]
要素抽取设备60包括相互耦接的存储器61和处理器62,存储器61中存储有程序指令,处理器62用于执行程序指令以实现上述任一方法实施例中的步骤。具体地,要素抽取设备60可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑等等,在此不做限定。
[0068]
具体而言,处理器62用于控制其自身以及存储器61以实现上述任一方法实施例中的步骤。处理器62还可以称为cpu(central processing unit,中央处理单元)。处理器62可能是一种集成电路芯片,具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器62可以由集成电路芯片共同实现。
[0069]
请参阅图7,图7是本技术计算机可读存储介质一实施方式的框架示意图。计算机可读存储介质70存储有程序指令71,程序指令71被处理器执行时,用以实现上述任一方法实施例中的步骤。
[0070]
计算机可读存储介质70具体可以为u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等可以存储计算机程序的介质,或者也可以为存储有该计算机程序的服务器,该服务器可将存储的计算机程序发送给其他设备运行,或者也可以自运行该存储的计算机程序。
[0071]
在本技术所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
[0072]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
[0073]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0074]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0075]
以上所述仅为本技术的实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1