文本扩写方法、装置、电子设备和存储介质与流程

文档序号:30390565发布日期:2022-06-11 15:12阅读:300来源:国知局
文本扩写方法、装置、电子设备和存储介质与流程

1.本公开涉及计算机技术领域,尤其涉及一种文本扩写方法、装置、电子设备和非暂态计算机可读存储介质。


背景技术:

2.文本扩写技术是机器根据一段输入文本自动生成一段合法且与输入文本语义一致的文本的技术。通过文本扩写技术,可以扩充自动问答语料库,提高对话机器人的效果。
3.文本扩写的基本要求是扩写得到的文本不能和原始的输入文本的语义发生偏差。当前文本扩写使用的文本扩写方案通常很难保证扩写得到的文本和原始文本的语义保持一致,从而文本扩写的忠实度较低。
4.如何提高文本扩写的忠实度是当前亟需解决的技术问题。


技术实现要素:

5.本公开提供一种文本扩写方法、装置、电子设备和非暂态计算机可读存储介质,用以解决扩写得到的文本与原始文本的语义不一致的问题,提高文本扩写的忠实度。
6.本公开提供一种文本扩写方法,包括:根据获取的共指实体集合获取第一实体对应的第一共指实体组,其中,所述第一实体为待扩写文本中的实体,所述第一共指实体组包括第一实体以及所述第一实体的共指实体;根据所述待扩写文本和所述第一共指实体组获取待扩写修改文本;根据所述待扩写修改文本和文本扩写模型的模型参数获取生成概率、复制概率和生成权重,其中,所述生成权重为获取解码概率时所述生成概率对应的权重,获取所述解码概率时所述复制概率对应的权重与所述生成权重的和为1;根据所述生成概率、所述复制概率和所述生成权重获取所述解码概率,以得到所述待扩写文本的扩写结果,其中,所述第一实体对应的生成概率被设置为0。
7.根据本公开提供的一种文本扩写方法,所述文本扩写模型的训练方法包括:获取第一样本扩写文本数据集,所述第一样本扩写文本数据集中的第一样本扩写文本数据包括作为输入文本的样本修改文本和对应的输出文本,所述样本修改文本根据历史扩写文本及其实体对应的共指实体组得到;采用所述第一样本扩写文本数据集对所述文本扩写模型进行训练,直到所述文本扩写模型收敛,得到所述文本扩写模型的模型参数,其中,所述文本扩写模型的模型参数包括生成概率参数和激活函数参数组。
8.根据本公开提供的一种文本扩写方法,所述文本扩写模型包括以下任一种模型:卷积神经网络cnn,循环神经网络rnn和transformer。
9.根据本公开提供的一种文本扩写方法,所述根据获取的共指实体集合获取第一实体对应的第一共指实体组之前,所述方法还包括:获取所述共指实体集合;对所述待扩写文本进行实体识别,得到所述第一实体;根据所述第一实体在所述共指实体集合中匹配得到所述第一共指实体组。
10.根据本公开提供的一种文本扩写方法,所述获取所述共指实体集合之前,所述方
法还包括:获取第二样本扩写文本数据集,所述第二样本扩写文本数据集中的第二样本扩写文本数据包括历史扩写文本中的输入文本和对应的输出文本;获取各个第二样本扩写文本数据中的实体的共现频率;根据所述共现频率和频率阈值获取共指实体组,组成所述共指实体集合。
11.根据本公开提供的一种文本扩写方法,所述根据所述待扩写文本和所述第一共指实体组获取待扩写修改文本,包括:将所述第一共指实体组中的全部实体插入到所述待扩写文本中替换所述第一实体,形成所述待扩写修改文本。
12.根据本公开提供的一种文本扩写方法,所述根据所述待扩写修改文本和文本扩写模型的模型参数获取生成概率、复制概率和生成权重,包括;采用所述文本扩写模型对所述待扩写修改文本进行编码并基于编码结果得到解码数据,所述解码数据包括解码器隐藏序列、上下文向量和注意力向量;根据注意力向量获取所述复制概率;根据所述解码器隐藏序列、所述上下文向量和所述生成概率参数获取所述生成概率;根据所述解码器隐藏序列、所述上下文向量、所述待扩写修改文本的词向量和所述激活函数参数组获取所述生成权重。
13.根据本公开提供的一种文本扩写方法,根据以下公式获取所述解码概率:
14.p(w)=p
gen
*p
vocab
(w)+(1-p
gen
)*p
copy
(w)
15.其中,p(w)为解码概率,p
vocab
(w)为生成概率,p
cop
(w)为复制概率,p
gen
为生成权重,生成概率的计算公式为p
vocab
(w)=softmax(wbs
t
+vbc
t
),复制概率的计算公式为:生成权重的计算公式为其中,w
b和vb
是生成概率参数,激活函数参数组包括向量wc,ws,w
x
和标量bc,c
t
为解码器隐藏序列,s
t
为上下文向量,x
t
为词向量,为注意力向量。
16.本公开还提供一种文本扩写装置,包括:第一获取单元,用于根据获取的共指实体集合获取第一实体对应的第一共指实体组,其中,所述第一实体为待扩写文本中的实体,所述第一共指实体组包括第一实体以及所述第一实体的共指实体;第二获取单元,用于根据所述待扩写文本和所述第一共指实体组获取待扩写修改文本;第三获取单元,用于根据所述待扩写修改文本和文本扩写模型的模型参数获取生成概率、复制概率和生成权重,其中,所述生成权重为获取解码概率时所述生成概率对应的权重,获取所述解码概率时所述复制概率对应的权重与所述生成权重的和为1;解码单元,用于根据所述生成概率、所述复制概率和所述生成权重获取所述解码概率,以得到所述待扩写文本的扩写结果,其中,所述第一实体对应的生成概率被设置为0。
17.根据本公开提供的一种文本扩写装置,所述装置还包括训练单元,用于训练所述文本扩写模型,所述训练单元包括:获取子单元,用于获取第一样本扩写文本数据集,所述第一样本扩写文本数据集中的第一样本扩写文本数据包括作为输入文本的样本修改文本和对应的输出文本,所述样本修改文本根据历史扩写文本及其实体对应的共指实体组得到;训练子单元,用于采用所述第一样本扩写文本数据集对所述文本扩写模型进行训练,直到所述文本扩写模型收敛,得到所述文本扩写模型的模型参数,其中,所述文本扩写模型的模型参数包括生成概率参数和激活函数参数组。
18.根据本公开提供的一种文本扩写装置,所述装置还包括匹配单元,用于:获取所述共指实体集合,对所述待扩写文本进行实体识别,得到所述第一实体,根据所述第一实体在
所述共指实体集合中匹配得到所述第一共指实体组。
19.根据本公开提供的一种文本扩写装置,所述装置还包括挖掘单元,用于:获取第二样本扩写文本数据集,获取各个第二样本扩写文本数据中的实体的共现频率,根据所述共现频率和频率阈值获取共指实体组,组成所述共指实体集合,其中,所述第二样本扩写文本数据集中的第二样本扩写文本数据包括历史扩写文本中的输入文本和对应的输出文本。
20.根据本公开提供的一种文本扩写装置,所述第二获取单元还用于:将所述第一共指实体组中的全部实体插入到所述待扩写文本中替换所述第一实体,形成所述待扩写修改文本。
21.根据本公开提供的一种文本扩写装置,所述第三获取单元还包括;解码子单元,用于采用所述文本扩写模型对所述待扩写修改文本进行编码并基于编码结果得到解码数据,所述解码数据包括解码器隐藏序列、上下文向量和注意力向量;获取子单元,用于根据注意力向量获取所述复制概率,根据所述解码器隐藏序列、所述上下文向量和所述生成概率参数获取所述生成概率,以及根据所述解码器隐藏序列、所述上下文向量、所述待扩写修改文本的词向量和所述激活函数参数组获取所述生成权重。
22.根据本公开提供的一种文本扩写装置,所述解码单元根据以下公式获取所述解码概率:
23.p(w)=p
gen
*p
vocab
(w)+(1-p
gen
)*p
copy
(w)
24.其中,p(w)为解码概率,p
vocab
(w)为生成概率,p
copy
(w)为复制概率,p
gen
为生成权重,生成概率的计算公式为p
vocab
(w)=softmax(wbs
t
+vbc
t
),复制概率的计算公式为:生成权重的计算公式为其中,w
b和vb
是生成概率参数,激活函数参数组包括向量wc,ws,w
x
和标量bc,c
t
为解码器隐藏序列,s
t
为上下文向量,x
t
为词向量,为注意力向量。
25.本公开还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本扩写方法的步骤。
26.本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本扩写方法的步骤。
27.本公开提供的文本扩写方法、装置、电子设备和非暂态计算机可读存储介质,根据与第一实体对应的第一共指实体组修改待扩写文本,并基于修改后的文本采用复制机制获取文本扩写结果,可以使得文本扩写结果与待扩写文本的语义保持一致,提高文本扩写的忠实度。
附图说明
28.为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
29.图1本公开提供的文本扩写方法的流程示意图;
30.图2本公开提供的文本扩写模型的输入数据和输出数据的示意图;
31.图3是本公开提供的文本扩写模型的训练方法的流程示意图;
32.图4是本公开提供的文本扩写装置的结构示意图;
33.图5是本公开提供的电子设备的结构示意图。
具体实施方式
34.为使本公开的目的、技术方案和优点更加清楚,下面将结合本公开中的附图,对本公开中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
35.在本公开一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开一个或多个实施例。在本公开一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本公开一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
36.应当理解,尽管在本公开一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
37.复制机制是文本扩写模型中应用特别广泛的机制。复制机制指的是,在生成输出文本时直接在输入文本的词中进行选取某些词复制到输出文本中。
38.在相关技术中,文本扩写时出现输入文本和输出文本语义不一致的问题主要是实体不一致导致的。例如,输入“白条”输出“金条”。而文本扩写时出现输入输出语义不一致导致文本扩写的忠实度较低。
39.为解决这些问题,本公开实施例提供一种文本扩写方法、装置、电子设备和非暂态计算机可读存储介质。
40.文本扩写时出现输入输出语义不一致的原因是,文本扩写模型的训练数据集中存在类似的实体不对齐现象,或者称之为实体共指关系。本公开的技术方案可以挖掘共指实体,然后修改输入实体为共指实体组,从而实现输入文本和输出文本的实体对齐。
41.下面结合附图对本公开示例实施方式进行详细说明。
42.如图1所示的是本公开实施例的文本扩写方法的流程图。本公开实施例提供的方法可以由任意具备计算机处理能力的电子设备执行,例如终端或服务器。如图1所示,该文本扩写方法包括:
43.步骤102,根据获取的共指实体集合获取第一实体对应的第一共指实体组,其中,所述第一实体为待扩写文本中的实体,所述第一共指实体组包括第一实体以及所述第一实体的共指实体。
44.具体地,第一实体的共指实体指的是与第一实体互为共指实体对的实体。共指实体对由指代同一事物的两个实体组成。共指实体集合是根据历史扩写文本得到的共指实体
组的集合,每两个同一共指实体组中的实体互为共指实体对。
45.步骤104,根据所述待扩写文本和所述第一共指实体组获取待扩写修改文本。
46.具体地,该过程为对待扩写文本的修改过程,在该过程中,将第一共指实体组取代第一实体插入到待扩写修改文本中。
47.步骤106,根据所述待扩写修改文本和文本扩写模型的模型参数获取生成概率、复制概率和生成权重,其中,所述生成权重为获取所述解码概率时所述生成概率对应的权重,获取所述解码概率时所述复制概率对应的权重与所述生成权重的和为1。
48.具体地,在复制机制中,生成概率是含有目标摘要潜在结构信息的生成部分的变量的概率。复制概率是待扩写修改文本对应的含有注意力机制的上下文的语义向量的复制部分的变量的概率,文本扩写模型的模型参数通过对文本扩写模型的训练得到。
49.步骤108,根据所述生成概率、所述复制概率和所述生成权重获取解码概率,以得到所述待扩写文本的扩写结果,其中,所述第一实体对应的生成概率被设置为0。
50.具体地,解码概率为生成概率和复制概率的线性叠加。
51.本公开实施例的技术方案通过对待扩写文本的修改,实现了输入文本和输出文本的实体对齐,之后采用复制机制对修改后的文本进行处理,并将实体的生成概率设置为0,使得实体只能以复制的形式出现在输出中,从而实现了对输入文本的扩写,并保证了文本扩写过程中的忠实度。
52.具体地,为了保持输入和输出的实体语义一致,实体只能通过复制的形式现在输出中,即需要将待扩写修改文本中的实体对应的生成概率p
vocab
(w)始终置0:即p
vocab
(w)=0,对任一w∈e,其中,e为全局实体集合。该方案可以使得输入中不存在且不互相共指的实体不会出现在输出中。在步骤108中,仅有实体对应的生成概率设置为0,待扩写修改文本中的非实体对应的生成概率仍由步骤106得到。
53.在步骤102之前,需要根据历史扩写文本挖掘得到共指实体集合。其过程为:获取第二样本扩写文本数据集,所述第二样本扩写文本数据集中的第二样本扩写文本数据包括历史扩写文本中的输入文本和对应的输出文本;获取各个第二样本扩写文本数据中的实体的共现频率;根据所述共现频率和频率阈值获取共指实体组,组成所述共指实体集合。
54.具体地,可以采用命名实体识别工具识别第二样本扩写文本数据中的实体,然后对互为改写关系的输入文本和输出文本中的不同的实体的共现频率进行统计。例如,在作为对应的输入文本和输出文本的两个文本分别为:“快递费多少钱”和“我需要支付多少运费”时,输入文本和输出文本的实体不同,分别为“快递费”和“运费”,此时,可以计算得到这两个实体的共现频率。
55.通过对大批的历史扩写文本,可以提取共现实体,统计共现实体的总数并计算出实体的共现频率,如果两个实体的共现频率较高,则表明这两个实体经常同时出现,也即这两个实体对象之间存在关联的可能性较高。
56.在将共现频率与预先设定的频率阈值相比较后,在共现频率大于等于设定的频率阈值时,即可以确定这两个不同实体为共指实体。该频率阈值可以通过经验和观察预先设定。
57.在得到多个共指实体对后,可以根据共指实体对得到对应的共指实体组。共指实体对代表两两实体间的共指关系,若两对共指实体对中存在一个共同实体,则可以将两对
共指实体对中的三个实体组成一个包含三个实体的共指实体组,以此类推,也可以得到包括更多实体的共指实体组。
58.例如,若“快递费”和“运费”为共指实体对,“货运费”和“运费”为共指实体对,“物流费”和“运费”为共指实体对,则可以得到一个共指实体组:“货运费、快递费、运费、物流费”。
59.在步骤102之前,需要获取所述共指实体集合,以及对所述待扩写文本进行实体识别,得到所述第一实体,并根据所述第一实体在所述共指实体集合中匹配得到所述第一共指实体组。
60.例如,待扩写文本中的第一实体为“运费”时,可以得到第一共指实体组:“货运费、快递费、运费、物流费”。
61.在步骤104中,将所述第一共指实体组中的全部实体插入到所述待扩写文本中替换所述第一实体,形成所述待扩写修改文本。
62.该步骤将输入和输出中的实体进行实体对齐,其采用了一种软对齐方式,将共指实体组全部放入输入文本。这样,在进行文本扩写时,不仅可以输出待扩写文本中的第一实体,还可以对第一实体进行共指改写后输出。
63.例如,原始输入为:“快递费多少钱”,修改后的输入为“[sep]快递费|运费|货运费|物流费[sep]多少钱”。经过改进,不仅输出中的实体可以在输入文本中找到,输入文本中还包括其它共指实体,保证了文本扩写的多样性,即文本扩写模型不限制于直接将输入中的一个实体复制到输出中。
[0064]
在本公开实施例中,所述文本扩写模型可以为以下任一种文本扩写模型:cnn(convolutional neural networ,卷积神经网络),rnn(recurrent neural network,循环神经网络),和transformer,且并不局限于此。
[0065]
本公开一种实施例的技术方案采用循环神经网络通过编码和解码过程进行文本扩写。循环神经网络是一类以序列数据为输入,在序列的演进方向进行递归且所有节点按链式连接的递归神经网络。编码是指将整个源序列读取为固定长度的编码,解码是指将编码的输入序列进行解码,以输出目标序列。
[0066]
在本公开实施例中,该文本扩写模型有两个传输状态,分别是细胞状态c
t
和隐藏层状态h
t
。如图2所示,上一个状态的细胞状态c
t-1
、隐藏层状态h
t-1
以及输入数据x
t
输入到循环单元中,得到当前状态的细胞状态c
t
和隐藏层状态h
t
和输出数据y
t
,其中,t为自然数,表示当前时间步长。
[0067]
在本公开实施例中,首先对待扩写修改文本进行分词处理,得到词向量,在复制机制中,rnn编码器f
enc
在将即待扩写修改文本的词向量编码,生成一个编码器隐藏层序列,该序列中的隐藏层状态hi=f
enc
(xi,h
i-1
),其中,i为自然数,表示词向量的顺序。
[0068]
在对编码器隐藏层序列进行解码时,可以根据以下公式使用解码器基于编码隐藏序列,生成解码器隐藏序列s
t
,并计算上下文向量c
t

[0069]st
=f
dec
(s
t-1
,y
t-1
,c
t
)
[0070][0071]
α
t
=softmax(e
t
)
[0072]ct
=∑iα
t,ihi
[0073]
其中,y是目标输出序列,α
t,i
为t时刻对源端词汇输入的词向量xi的注意力向量,ua、wa和va为参数矩阵。
[0074]
上下文向量c
t
是专门针对目标序列中的每个输出单词而构建的。首先,使用神经网络对来自编码器的每个隐藏状态进行打分,然后归一化为编码器隐藏状态的概率。最后,使用这些概率来计算编码器隐藏状态的加权和,可以提供解码器中使用的上下文向量。上下文向量负责将整个输入序列汇总为单个向量。
[0075]
注意力机制的基本思想是避免试图为每个句子学习单一的向量表示,而是根据注意力权值来关注输入序列的特定输入向量。其中,注意力权值即为注意力向量α
t,i

[0076]
在步骤106之前,需要对文本扩写模型进行训练。如图3所示,文本扩写模型的训练过程包括如下步骤:
[0077]
步骤302,获取第一样本扩写文本数据集,所述第一样本扩写文本数据集中的第一样本扩写文本数据包括作为输入文本的样本修改文本和对应的输出文本,所述样本修改文本根据历史扩写文本及其实体对应的共指实体组得到。
[0078]
具体地,根据历史扩写文本得到历史扩写文本的实体,以及进一步得到实体对应的共指实体组的方案与步骤102类似。根据历史扩写文本及历史扩写文本中的实体对应的共指实体组得到样本修改文本的方案与步骤104类似。输出文本不需要修改。以样本修改文本作为训练数据,以对应的输出文本作为训练标签,可以对文本扩写模型进行训练。
[0079]
步骤304,采用所述第一样本扩写文本数据集对所述文本扩写模型进行训练,直到所述文本扩写模型收敛,得到所述文本扩写模型的模型参数,其中,所述文本扩写模型的模型参数包括生成概率参数和激活函数参数组。
[0080]
具体地,可以设计一个损失函数,并根据损失函数值调整文本扩写模型,直到得到损失函数值小于等于设定阈值,此时,文本扩写模型收敛。
[0081]
在步骤106中,采用所述文本扩写模型对所述待扩写修改文本进行编码并基于编码结果得到解码数据,所述解码数据包括解码器隐藏序列、上下文向量和注意力向量;根据注意力向量获取所述复制概率;根据所述解码器隐藏序列、所述上下文向量和所述生成概率参数获取所述生成概率;根据所述解码器隐藏序列、所述上下文向量、所述待扩写修改文本的词向量和所述激活函数参数组获取所述生成权重。
[0082]
其中,复制概率根据注意力向量得到。具体地,复制概率的计算公式为:其中,表示注意力向量。
[0083]
具体地,生成概率的计算公式为p
vocab
(w)=softmax(wbs
t
+vbc
t
),其中,wb和vb为参数矩阵,表示生成概率参数。s
t
和c
t
的取值来自解码器隐藏序列和上下文向量。
[0084]
具体地,生成权重的计算公式可以为
[0085][0086]
其中向量wc,ws,w
x
和标量bc是模型参数,σ是sigmoid函数。
[0087]
激活函数参数组包括向量wc,ws,w
x
和标量bc,c
t
为解码器隐藏序列,s
t
为上下文向量,x
t
为词向量,为注意力向量。激活函数参数组是用于计算生成权重的参数组。
[0088]
在步骤108中,根据以下公式获取所述解码概率:
[0089]
p(w)=p
gen
*p
vocab
(w)+(1-p
gen
)*p
copy
(w)
[0090]
其中,p(w)为解码概率,p
vocab
(w)为生成概率,p
copy
(w)为复制概率,p
gen
为生成权重,生成概率的计算公式为p
vocab
(w)=softmax(wbs
t
+vbc
t
),复制概率的计算公式为:生成权重的计算公式为其中,w
b和vb
是生成概率参数,激活函数参数组包括向量wc,ws,w
x
和标量bv,c
t
为解码器隐藏序列,s
t
为上下文向量,x
t
为词向量,为注意力向量。
[0091]
在步骤108的解码过程中,非实体词向量按照步骤106得到的生成概率、复制概率和生成权重进行解码。实体词向量的解码过程中,生成概率设置为0,由于复制概率为0,可以使得输入中不存在且不互相共指的实体不会出现在输出中。例如,输入“白条”,此时设置p
vocab
(“金条”)=0。且由于p
copy
(“金条")=0,则:p(w)=p
gen
*p
vocab
(“金条”)+(1-p
gen
)*p
copy
(“金条”)=0,即“金条”肯定不会生成。
[0092]
本公开提供的文本扩写方法,根据与第一实体对应的第一共指实体组修改待扩写文本,并基于修改后的文本采用复制机制获取文本扩写结果,可以使得文本扩写结果与待扩写文本的语义保持一致,提高文本扩写的忠实度。
[0093]
下面对本公开提供的文本扩写装置进行描述,下文描述的文本扩写装置与上文描述的文本扩写方法可相互对应参照。
[0094]
如图4所示,本公开实施例的一种文本扩写装置,该装置包括:
[0095]
第一获取单元402,可以用于根据获取的共指实体集合获取第一实体对应的第一共指实体组,其中,所述第一实体为待扩写文本中的实体,所述第一共指实体组包括第一实体以及所述第一实体的共指实体。
[0096]
第二获取单元404,可以用于根据所述待扩写文本和所述第一共指实体组获取待扩写修改文本。
[0097]
第三获取单元406,可以用于根据所述待扩写修改文本和文本扩写模型的模型参数获取生成概率、复制概率和生成权重,其中,所述生成权重为获取所述解码概率时所述生成概率对应的权重,获取所述解码概率时所述复制概率对应的权重与所述生成权重的和为1。
[0098]
解码单元408,可以用于根据所述生成概率、所述复制概率和所述生成权重获取解码概率,以得到所述待扩写文本的扩写结果,其中,所述第一实体对应的生成概率被设置为0。
[0099]
在本公开实施例中,所述装置还可以包括训练单元,用于训练所述文本扩写模型,所述训练单元包括:获取子单元,用于获取第一样本扩写文本数据集,所述第一样本扩写文本数据集中的第一样本扩写文本数据包括作为输入文本的样本修改文本和对应的输出文本,所述样本修改文本根据历史扩写文本及其实体对应的共指实体组得到;训练子单元,用于采用所述第一样本扩写文本数据集对所述文本扩写模型进行训练,直到所述文本扩写模型收敛,得到所述文本扩写模型的模型参数,其中,所述文本扩写模型的模型参数包括生成概率参数和激活函数参数组。
[0100]
在本公开实施例中,所述装置还可以包括匹配单元,用于:获取所述共指实体集合,对所述待扩写文本进行实体识别,得到所述第一实体,根据所述第一实体在所述共指实体集合中匹配得到所述第一共指实体组。
[0101]
在本公开实施例中,所述装置还可以包括挖掘单元,用于:获取第二样本扩写文本数据集,获取各个第二样本扩写文本数据中的实体的共现频率,根据所述共现频率和频率阈值获取共指实体组,组成所述共指实体集合,其中,所述第二样本扩写文本数据集中的第二样本扩写文本数据包括历史扩写文本中的输入文本和对应的输出文本。
[0102]
在本公开实施例中,所述第二获取单元还可以用于:将所述第一共指实体组中的全部实体插入到所述待扩写文本中替换所述第一实体,形成所述待扩写修改文本。
[0103]
在本公开实施例中,所述第三获取单元还包括;解码子单元,用于采用所述文本扩写模型对所述待扩写修改文本进行编码并基于编码结果得到解码数据,所述解码数据包括解码器隐藏序列、上下文向量和注意力向量;获取子单元,用于根据注意力向量获取所述复制概率,根据所述解码器隐藏序列、所述上下文向量和所述生成概率参数获取所述生成概率,以及根据所述解码器隐藏序列、所述上下文向量、所述待扩写修改文本的词向量和所述激活函数参数组获取所述生成权重。
[0104]
在本公开实施例中,所述解码单元可以根据以下公式获取所述解码概率:
[0105]
p(w)=p
gen
*p
vocab
(w)+(1-p
gen
)*p
copy
(w)
[0106]
其中,p(w)为解码概率,p
vocab
(w)为生成概率,p
copy
(w)为复制概率,p
gen
为生成权重,生成概率的计算公式为p
vocab
(w)=softmax(wbs
t
+vbc
t
),复制概率的计算公式为:生成权重的计算公式为其中,w
b和vb
是生成概率参数,激活函数参数组包括向量wc,ws,w
x
和标量bc,c
t
为解码器隐藏序列,s
t
为上下文向量,x
t
为词向量,为注意力向量。
[0107]
由于本公开的示例实施例的文本扩写装置的各个功能模块与上述文本扩写方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的文本扩写方法的实施例。
[0108]
本公开提供的文本扩写装置,根据与第一实体对应的第一共指实体组修改待扩写文本,并基于修改后的文本采用复制机制获取文本扩写结果,可以使得文本扩写结果与待扩写文本的语义保持一致,提高文本扩写的忠实度。
[0109]
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(communications interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行文本扩写方法,该方法包括:根据获取的共指实体集合获取第一实体对应的第一共指实体组,其中,所述第一实体为待扩写文本中的实体,所述第一共指实体组包括第一实体以及所述第一实体的共指实体;根据所述待扩写文本和所述第一共指实体组获取待扩写修改文本;根据所述待扩写修改文本和文本扩写模型的模型参数获取生成概率、复制概率和生成权重,其中,所述生成权重为获取所述解码概率时所述生成概率对应的权重,获取所述解码概率时所述复制概率对应的权重与所述生成权重的和为1;根据所述生成概率、所述复制概率和所述生成权重获取解码概率,以得到所述待扩写文本的扩写结果,其中,所述第一实体对应的生成概率被设置为0。
[0110]
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本
公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0111]
另一方面,本公开还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的文本扩写方法,该方法包括:根据获取的共指实体集合获取第一实体对应的第一共指实体组,其中,所述第一实体为待扩写文本中的实体,所述第一共指实体组包括第一实体以及所述第一实体的共指实体;根据所述待扩写文本和所述第一共指实体组获取待扩写修改文本;根据所述待扩写修改文本和文本扩写模型的模型参数获取生成概率、复制概率和生成权重,其中,所述生成权重为获取所述解码概率时所述生成概率对应的权重,获取所述解码概率时所述复制概率对应的权重与所述生成权重的和为1;根据所述生成概率、所述复制概率和所述生成权重获取解码概率,以得到所述待扩写文本的扩写结果,其中,所述第一实体对应的生成概率被设置为0。
[0112]
又一方面,本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的文本扩写方法,该方法包括:根据获取的共指实体集合获取第一实体对应的第一共指实体组,其中,所述第一实体为待扩写文本中的实体,所述第一共指实体组包括第一实体以及所述第一实体的共指实体;根据所述待扩写文本和所述第一共指实体组获取待扩写修改文本;根据所述待扩写修改文本和文本扩写模型的模型参数获取生成概率、复制概率和生成权重,其中,所述生成权重为获取所述解码概率时所述生成概率对应的权重,获取所述解码概率时所述复制概率对应的权重与所述生成权重的和为1;根据所述生成概率、所述复制概率和所述生成权重获取解码概率,以得到所述待扩写文本的扩写结果,其中,所述第一实体对应的生成概率被设置为0。
[0113]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0114]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0115]
最后应说明的是:以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;
而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1