一种文本生成方法、装置、设备及存储介质与流程

文档序号:29446275发布日期:2022-03-30 11:04阅读:81来源:国知局
一种文本生成方法、装置、设备及存储介质与流程

1.本技术涉及自然语言处理技术领域,尤其涉及一种文本生成方法、装置、设备及存储介质。


背景技术:

2.某些领域的文本由于领域性过强,导致阅读者阅读困难。比如,医学领域的医疗文档由于其领域性过强导致普通患者及其家属阅读困难,这种困难使得患者及其家属多次、重复地向医疗人员进行咨询,增加医疗人员工作量,并且患者及其家属对其病情不够了解,导致后续医患沟通困难。


技术实现要素:

3.有鉴于此,本技术提供了一种文本生成方法、装置、设备及存储介质,用以为指定领域的目标文本生成辅助阅读文本,从而解决由于领域性过强,导致阅读者阅读困难的问题,其技术方案如下:
4.一种文本生成方法,包括:
5.获取指定领域的目标文本;
6.利用预先建立的文本生成模型,生成所述目标文本中每个句子的辅助阅读句子,其中,所述文本生成模型采用所述指定领域中标注有真实辅助阅读句子的训练句子训练得到;
7.根据所述目标文本中每个句子的辅助阅读句子,生成所述目标文本的篇章级辅助阅读文本。
8.可选的,所述文本生成模型的训练目标包括:
9.使文本生成模型针对所述训练句子生成的辅助阅读句子与所述训练句子的真实辅助阅读句子表达一致;
10.以及,
11.使所述训练句子中的每个词出现在文本生成模型针对所述训练句子生成的辅助阅读句子中,和/或,使所述文本生成模型针对所述训练句子生成的辅助阅读句子与所述训练句子对应的检索文本的主题一致,其中,所述训练句子对应的检索文本由检索数据库中与所述训练句子最相关的预设个文本片段组成。
12.可选的,所述训练句子标注的真实辅助阅读句子通过在所述训练句子中插入解释性片段和/或句意流畅性辅助片段得到。
13.可选的,所述利用预先建立的文本生成模型,生成所述目标文本中每个句子的辅助阅读句子,包括:
14.针对所述目标文本中每个待生成辅助阅读句子的目标句子:
15.从检索数据库中检索出与所述目标句子最相关的预设个文本片段,并将与所述目标句子最相关的预设个文本片段处理为一个长句,作为所述目标句子对应的检索文本;
16.利用所述文本生成模型、所述目标句子和所述目标句子对应的检索文本,生成所述目标句子的辅助阅读句子。
17.可选的,所述利用所述文本生成模型、所述目标句子和所述目标句子对应的检索文本,生成所述目标句子的辅助阅读句子,包括:
18.利用所述文本生成模型,从词典、所述目标句子和所述目标句子对应的检索文本中逐个产生用于组成所述目标句子的辅助阅读句子的各目标词,以得到所述目标句子的辅助阅读句子。
19.可选的,所述从词典、所述目标句子和所述目标句子对应的检索文本中逐个产生用于组成所述目标句子的辅助阅读句子的各目标词,包括:
20.分别对所述目标句子和所述目标句子对应的检索文本进行编码;
21.在每个解码时刻,根据第一向量和所述目标句子的编码结果确定当前解码时刻解码所需的特征向量作为第二向量,并根据所述第一向量和所述目标句子对应的检索文本的编码结果确定当前解码时刻解码所需的特征向量作为第三向量,其中,所述第一向量为当前解码时刻输出的表示已解码结果信息的状态向量;
22.根据所述第一向量、所述第二向量和所述第三向量,预测当前解码时刻的目标词分别产生于所述词典、所述目标句子和所述目标句子对应的检索文本的概率;
23.根据当前解码时刻的目标词分别产生于所述词典、所述目标句子和所述目标句子对应的检索文本的概率,产生当前解码时刻的目标词。
24.可选的,所述根据当前解码时刻的目标词分别产生于所述词典、所述目标句子和所述目标句子对应的检索文本的概率,产生当前解码时刻产生的目标词,包括:
25.根据所述第一向量和针对所述目标句子已生成的文本,预测词典中每个词被成的概率,根据所述目标句子的编码结果和所述第一向量,预测所述目标句子中每个词被生成的概率,根据所述目标句子对应的检索文本的编码结果和所述第一向量,预测所述目标句子对应的检索文本中每个词被生成的概率;
26.根据所述词典中每个词被成的概率、所述目标句子中每个词被生成的概率、所述目标句子对应的检索文本中每个词被生成的概率,以及当前解码时刻的目标词分别产生于所述词典、所述目标句子和所述目标句子对应的检索文本的概率,产生当前解码时刻的目标词。
27.可选的,所述文本生成模型的训练过程包括:
28.获取所述训练句子对应的检索文本,其中,所述训练句子对应的检索文本由检索数据库中与所述训练句子最相关的预设个文本片段组成;
29.利用文本生成模型、所述训练句子和所述训练句子对应的检索文本,生成所述训练句子的辅助阅读句子;
30.确定能够反映所述训练句子的辅助阅读句子与所述训练句子标注的真实辅助阅读句子表达一致性的第一预测损失;
31.确定能够反映所述训练句子的辅助阅读文本对于所述训练句子中各词覆盖情况的第二预测损失,和/或,确定能够反映所述训练句子的辅助阅读句子与所述训练句子对应的检索文本的主题一致性的第三预测损失;
32.根据确定出的预测损失,对文本生成模型进行参数更新。
33.可选的,所述根据所述目标文本中每个句子的辅助阅读句子,生成所述目标文本的篇章级辅助阅读文本,包括:
34.根据所述目标文本中各句子的顺序,对所述目标文本中各句子的辅助阅读句子进行拼接,以得到待编辑文本;
35.利用预先建立的篇章编辑模型对所述待编辑文本进行编辑,编辑后文本作为所述目标文本的篇章级辅助阅读文本,其中,所述篇章编辑模型采用标注有真实编辑结果的训练文本训练得到。
36.可选的,所述利用预先建立的篇章编辑模型对所述待编辑文本进行编辑,包括:
37.利用预先建立的篇章编辑模型将所述待编辑文本中的冗余词和/或非连贯词删除。
38.一种文本生成装置,包括:文本获取模块、辅助阅读句子生成模块和辅助阅读文本生成模块;
39.所述文本获取模块,用于获取指定领域的目标文本;
40.所述辅助阅读句子生成模块,用于利用预先建立的文本生成模型,生成所述目标文本中每个句子的辅助阅读句子,其中,所述文本生成模型采用所述指定领域中标注有真实辅助阅读句子的训练句子训练得到;
41.所述辅助阅读文本生成模块,用于根据所述目标文本中每个句子的辅助阅读句子,生成所述目标文本的篇章级辅助阅读文本。
42.可选的,所述辅助阅读文本生成模块包括:句子拼接模块和文本编辑模块;
43.所述句子拼接模块,用于根据所述目标文本中各句子的顺序,对所述目标文本中各句子的辅助阅读句子进行拼接,以得到待编辑文本;
44.所述文本编辑模块,用于利用预先建立的篇章编辑模型对所述待编辑文本进行编辑,编辑后文本作为所述目标文本的篇章级辅助阅读文本,其中,所述篇章编辑模型采用标注有真实编辑结果的训练文本训练得到。
45.一种文本生成设备,包括:存储器和处理器;
46.所述存储器,用于存储程序;
47.所述处理器,用于执行所述程序,实现上述任一项所述的文本生成方法的各个步骤。
48.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的文本生成方法的各个步骤。
49.经由上述方案可知,本技术提供的文本生成方法、装置、设备及存储介质,在获得指定领域的目标文本后,首先利用预先建立的文本生成模型,生成目标文本中每个句子的辅助阅读句子,然后根据目标文本中每个句子的辅助阅读句子,生成目标文本的篇章级辅助阅读文本。通过本技术提供的文本生成方法可针对指定领域的目标文本生成辅助阅读文本,生成的辅助阅读文本能够辅助阅读者进行阅读,从而能够大大降低阅读者对于目标文本的阅读难度,用户体验较好。
附图说明
50.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
51.图1为本技术实施例提供的文本生成方法的流程示意图;
52.图2为本技术实施例提供的文本生成模型的训练过程的流程示意图;
53.图3为本技术实施例提供的利用文本生成模型生成辅助阅读句子的示意图;
54.图4为本技术实施例提供的文本生成装置的结构示意图;
55.图5为本技术实施例提供的文本生成设备的结构示意图。
具体实施方式
56.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
57.为了解决某些领域的文本由于领域性过强,导致阅读者阅读困难的问题,申请人想到可采用文本生成策略针对指定领域的文本生成辅助阅读文本,以辅助阅读者阅读,从而降低阅读者的阅读困难,沿着这个思路,申请人进行了研究,通过不断研究,最终提出了一种效果较好的文本生成方法,该文本生成方法可针对指定领域的文本生成质量较好的辅助阅读文本。
58.本技术提出的文本生成方法可应用于具有数据处理能力的电子设备,该电子设备可以为网络侧的服务器(可以为单个服务器,也可以为多个服务器或服务器集群),也可以为用户侧使用的终端,比如智能手机、pc、笔记本、pad等,服务器或终端可按本技术提供的文本生成方法生成指定领域的文本的辅助阅读文本。接下来通过下述实施例对本技术提供的文本生成方法进行介绍。
59.第一实施例
60.请参阅图1,示出了本技术实施例提供的文本生成方法的流程示意图,该方法可以包括:
61.步骤s101:获取指定领域的目标文本。
62.可选的,指定领域可以为医学领域,相应的,目标文本可以为医疗文本,比如,影像报告、手术报告、电子病历等,当然,本实施例并不限定指定领域为医学领域,本技术中的指定领域可以任何专业性较强的领域。本实施例中的目标文本为篇章级文本,其可以包括一个句子,也可以包括多个句子。
63.步骤s102:利用预先建立的文本生成模型,生成目标文本中每个句子的辅助阅读句子。
64.具体的,首先对目标文本进行分句处理,以得到目标文本中的每个句子,然后预先建立的文本生成模型,生成目标文本中每个句子的辅助阅读句子。
65.其中,目标文本中每个句子的辅助阅读句子可以为目标文本中每个句子的解释性句子,比如,医疗文本中的一个句子为“后交叉韧带模糊”,该句子的辅助阅读句子为“后交叉韧带位于关节内、滑膜囊外,考虑有韧带损伤导致显示模糊”。
66.本实施例中的文本生成模型采用指定领域中标注有真实辅助阅读句子的训练句子训练得到。
67.在一种可能的实现方式中,可直接采用标注有真实辅助阅读句子的训练句子训练得到用于生成辅助阅读句子的文本生成模型;在另一种可能的实现方式中,可先在预训练模型的基础上训练一个指定领域的初始文本生成模型,然后采用指定领域中标注有真实辅助阅读句子的训练句子对初始文本生成模型进行训练,以得到最终用于生成辅助阅读句子的文本生成模型。考虑到通过第二种实现方式能够加快模型训练的收敛速度,且能够提升模型的性能,本技术优选采用第二种实现方式建立文本生成模型。
68.可以理解的是,为了保证文本生成模型的生成效果,采用有标注的训练数据进行训练是必要的,训练数据的质量是模型能否生成可靠文本的关键,为了保证训练数据的质量,申请人想到可通过限制标注者的标注操作来保证训练数据的质量,沿着这个思路,申请人想到,在对训练句子进行标注的时,可仅对训练句子进行插入操作,在进行插入操作时,插入解释性片段和/或句意流畅性辅助片段,即,上述训练句子标注的真实辅助阅读句子通过在训练句子中插入解释性片段和/或句意流畅性辅助片段来获得。示例性的,训练句子为“后交叉韧带模糊”,该训练句子标注的辅助阅读句子为“后交叉韧带位于关节内、滑膜囊外,考虑有韧带损伤导致显示模糊”,其中,“考虑有”为句意流畅性辅助片段,“位于关节内、滑膜囊外”以及“有韧带损伤导致显示”为解释性片段。
69.在采用标注有真实辅助阅读句子的训练句子训练文本生成模型时,文本生成模型的目标为:使文本生成模型针对训练句子生成的辅助阅读句子与训练句子标注的真实辅助阅读句子表达一致。优选的,为了使文本生成模型的生成质量更佳的辅助阅读句子,还可设置如下训练目标:使训练句子中的每个词出现在文本生成模型针对训练句子生成的辅助阅读句子中,和/或,使文本生成模型针对训练句子生成的辅助阅读句子与训练句子对应的检索文本的主题一致,其中,训练句子对应的检索文本由检索数据库(检索数据库中包括若干条指定领域的文本片段)中与训练句子最相关的预设个文本片段组成。
70.步骤s103:根据目标文本中每个句子的辅助阅读句子,生成目标文本的篇章级辅助阅读文本。
71.根据目标文本中每个句子的辅助阅读句子,生成目标文本的篇章级辅助阅读文本的实现方式有多种:
72.在一种可能的实现方式中,可根据目标文本中各句子的顺序,对目标文本中各句子的辅助阅读句子进行拼接,拼接后得到的文本作为目标文本的篇章级辅助阅读文本。
73.考虑到在生成目标文本中各句子的阅读句子时,因目标文本中的各句子之间无交互,会导致对目标文本中各句子的辅助阅读句子进行拼接得到的文本中可能出现信息冗余和/或不连贯的情况,为了提升最终生成的篇章级辅助阅读文本的质量,本实施例提供另一种较为优选的实现方式:
74.步骤s1031、根据目标文本中各句子的顺序,对目标文本中各句子的辅助阅读句子进行拼接,以得到待编辑文本。
75.示例性的,目标文本包括3个句子,依次为s1、s2、s3,其中,s1的辅助阅读句子为“后交叉韧带位于关节内、滑膜囊外,考虑有韧带损伤导致显示模糊。”,s2辅助阅读句子为“损伤待排查。”,s3的辅助阅读句子为“后交叉韧带位于关节内、滑膜囊外,考虑有韧带断裂
情况。”,则根据目标文本中各句子的顺序,对目标文本中各句子的辅助阅读句子进行拼接后得到:“后交叉韧带位于关节内、滑膜囊外,考虑有韧带损伤导致显示模糊。[seq]损伤待排查。[seq]后交叉韧带位于关节内、滑膜囊外,考虑有韧带断裂情况。”,将拼接后得到的该文本作为待编辑文本。
[0076]
步骤s1032、利用预先建立的篇章编辑模型对待编辑文本进行编辑,编辑后文本作为目标文本的篇章级辅助阅读文本。
[0077]
将待编辑文本输入预先建立的篇章编辑模型进行编辑,篇章编辑模型输出的文本作为目标文本的篇章级辅助阅读文本。
[0078]
本实施例中的篇章编辑模型采用预先构建的训练文本集中的训练文本训练得到,其中,训练文本集中的训练文本标注有真实的编辑结果。可选的,篇章编辑器可以但不限定为12层transformer结构加一层线性预测层。
[0079]
需要说明是,训练文本集中的训练文本基于原始文本集(从指定领域收集的文本)和上述的文本生成模型获得,具体的,针对原始文本集中的每个原始文本,利用文本生成模型生成该原始文本中每个句子的辅助阅读句子,根据该原始文本中句子的顺序,将该原始文本中各句子的辅助阅读句子拼接,拼接后得到的文本作为篇章编辑模型的训练文本。
[0080]
考虑到待编辑文本中可能出现信息冗余和/或不连贯的情况,在利用预先建立的篇章编辑模型对待编辑文本进行编辑时,利用篇章编辑模型将待编辑文本中的冗余词和/或非连贯词删除。对于上述的待编辑文本“后交叉韧带位于关节内、滑膜囊外,考虑有韧带损伤导致显示模糊。[seq]损伤待排查。[seq]后交叉韧带位于关节内、滑膜囊外,考虑有韧带断裂情况。”,将其输入篇章编辑模型后,篇章编辑模型对其进行编辑后输出“后交叉韧带位于关节内、滑膜囊外,考虑有韧带损伤导致显示模糊。[seq]损伤待排查。[seq]后交叉韧带考虑有韧带断裂情况。”,可见待编辑文本中的“后交叉韧带位于关节内、滑膜囊外,”被删除。
[0081]
本技术实施例提供的文本生成方法,在获得指定领域的目标文本后,首先利用预先建立的文本生成模型,生成目标文本中每个句子的辅助阅读句子,然后根据目标文本中每个句子的辅助阅读句子,生成目标文本的篇章级辅助阅读文本。通过本技术实施例提供的文本生成方法可针对指定领域的目标文本生成辅助阅读文本,生成的辅助阅读文本能够辅助阅读者进行阅读,从而能够大大降低阅读者对于目标文本的阅读难度,用户体验较好。
[0082]
第二实施例
[0083]
上述实施例提到,可“利用预先建立的文本生成模型,生成目标文本中每个句子的辅助阅读句子”,上述实施例还提到,文本生成模型采用标注有真实辅助阅读句子的训练句子训练得到,本实施例重点对文本生成模型的训练过程进行介绍。
[0084]
请参阅2,示出了文本生成模型的训练过程的流程示意图,可以包括:
[0085]
步骤s201:从训练句子集中获取训练句子。
[0086]
其中,训练句子集中包括指定领域的多个训练句子,训练句子集中的每个训练句子均标注有真实辅助阅读句子。
[0087]
步骤s202:获取训练句子对应的检索文本。
[0088]
其中,训练句子对应的检索文本由检索数据库中与训练句子最相关的预设个文本片段组成。需要说明的是,获取训练句子对应的检索文本为了引入外部知识,以更好地进行
辅助阅读句子的生成。
[0089]
检索数据库中包括指定领域的多个文本片段。可选的,检索数据库中的文本片段可以为指定领域的文本内容的一个以换行分割的自然段,检索数据库中的文本片段可从指定领域的百科网站爬取,比如,指定领域为医学领域,则可从医疗百科网站爬取文本片段以构建检索数据库。
[0090]
具体的,获取训练句子对应的检索文本的过程可以包括:从检索数据库中检索出与训练句子最相关的预设个文本片段(比如与训练句子最相关的10个文本片段),并将与训练句子最相关的预设个文本片段处理为一个长句,作为目标句子对应的检索文本。
[0091]
其中,将与训练句子最相关的预设个文本片段处理为一个长句的过程可以包括:将预设个文本片段的句号删除,然后拼接为一个长句。可选的,为了避免检索文本长度过长影响计算效率,可基于停用词表将拼接后长句中的停用词剔除,并按照50词截断。
[0092]
步骤s203:利用文本生成模型、训练句子和训练句子对应的检索文本,生成训练句子的辅助阅读句子。
[0093]
具体的,利用文本生成模型、训练句子和训练句子对应的检索文本,生成训练句子的辅助阅读句子的过程可以包括:利用文本生成模型,从词典、训练句子和训练句子对应的检索文本中逐个产生用于组成训练句子的辅助阅读句子的各目标词,以得到训练句子的辅助阅读句子。
[0094]
更为具体的,利用文本生成模型,从词典、训练句子和训练句子对应的检索文本中逐个产生用于组成训练句子的辅助阅读句子的各目标词的过程可以包括:
[0095]
步骤a1、利用文本生成模型分别对训练句子和训练句子对应的检索文本进行编码。
[0096]
可选的,如图3所示,文本生成模型可以包括第一编码模块301、第二编码模块302和解码模块303,可利用文本生成模型的第一编码模块301对训练句子进行编码,以得到训练句子的编码结果,可利用文本生成模型的第二编码模块302对训练句子对应的检索文本进行编码,以得到训练句子对应的检索文本的编码结果。可选的,第一编码模块301和第二编码模块302可采用12层transformer结构,解码模块303可采用一层lstm。
[0097]
步骤a2、利用文本生成模型的解码模块在每个解码时刻,执行:
[0098]
步骤a21、根据第一向量和训练句子的编码结果确定当前解码时刻解码所需的特征向量作为第二向量,并根据第一向量和训练句子对应的检索文本的编码结果确定当前解码时刻解码所需的特征向量作为第三向量。
[0099]
其中,第一向量为当前解码时刻输出的表示已解码结果信息的状态向量。
[0100]
根据第一向量和训练句子的编码结果确定当前解码时刻解码所需的特征向量作为第二向量的过程包括:基于注意力机制对第一向量和训练句子的编码结果进行计算,得到训练句子在当前解码时刻对应的上下文向量,作为第二向量。
[0101]
类似的,根据第一向量和训练句子对应的检索文本的编码结果确定当前解码时刻解码所需的特征向量作为第三向量包括:基于注意力机制对第一向量和训练句子对应的检索文本的编码结果进行计算,得到训练句子对应的检索文本在当前解码时刻对应的上下文向量,作为第三向量。
[0102]
步骤a22、根据第一向量、第二向量和第三向量,预测当前解码时刻的目标词分别
产生于词典、训练句子和训练句子对应的检索文本的概率。
[0103]
具体的,可根据下式确定当前解码时刻t的目标词分别产生于词典、训练句子和训练句子对应的检索文本的概率p
gen
(图3中gate部分的操作):
[0104]
p
gen
=softmax(w1h
t
+w2*s
t
+w3*m
t
+b
ptr
)
ꢀꢀꢀꢀ
(1)
[0105]
其中,s
t
表示当前解码时刻t输出的表示已解码结果信息的状态向量,即上述的第一向量,h
t
表示训练句子在当前解码时刻t对应的上下文向量,即上述的第二向量,m
t
表示训练句子对应的检索文本在当前解码时刻t对应的上下文向量,即上述的第三向量,w1,w2,w3,b
ptr
为模型训练参数。
[0106]
需要说明的是,p
gen
的维度为3,即p
gen
包括三个概率,分别为当前解码时刻t的目标词产生于词典的概率p
gen,0
、当前解码时刻t的目标词产生于训练句子的概率p
gen,1
,以及当前解码时刻t的目标词产生于训练句子对应的检索文本的概率p
gen,2
,其中,p
gen,0
+p
gen,1
+p
gen,2
=1。
[0107]
步骤a23、根据当前解码时刻的目标词分别产生于词典、训练句子和训练句子对应的检索文本的概率,产生当前解码时刻的目标词。
[0108]
具体的,根据当前解码时刻的目标词分别产生于词典、训练句子和训练句子对应的检索文本的概率,产生当前解码时刻产生的目标词的过程可以包括:
[0109]
步骤a231、根据第一向量和当前解码时刻之前的标注信息,预测词典中每个词被成的概率,根据训练句子的编码结果和第一向量,预测训练句子中每个词被生成的概率,根据训练句子对应的检索文本的编码结果和第一向量,预测训练句子对应的检索文本中每个词被生成的概率。
[0110]
本步骤中“当前解码时刻之前的标注信息”指的是,训练句子标注的真实辅助阅读句子中当前解码时刻之前的部分,比如,当前解码时刻为t,则本步骤中的“当前解码时刻之前的标注信息”指的是,训练句子标注的真实辅助阅读句子中第t个词之前的部分。
[0111]
其中,根据训练句子的编码结果和第一向量,预测训练句子中每个词被生成的概率的过程包括:针对训练句子中的每个词,根据训练句子的编码结果中该词的编码结果和第一向量,确定该词的注意力得分,将该词的注意力得分进行归一化,将归一化后的得分作为该词被生成的概率。需要说明的是,训练句子中包括多少个词,最终就会得到多少个概率,而不管句子中是否有重复出现的词,比如,训练句子表示为abcad(每个字母代表一个词),最终会得到5个概率,即,第一个词a被生成的概率、词b被生成的概率、词c被生成的概率、第二个词a被生成的概率和词d被生成的概率。
[0112]
具体的,训练句子中第j个词的注意力得分可通过下式计算得到:
[0113][0114]
其中,hj表示训练句子中第j个词的编码结果,wn、w
s_1
、b
h_atten
为模型训练参数。
[0115]
在获得训练句子中各词的注意力得分后,可按下式对其进归一化:
[0116]at
=softmax(e
t
)
ꢀꢀꢀ
(3)
[0117]
类似的,根据训练句子对应的检索文本的编码结果和第一向量,预测训练句子对应的检索文本中每个词被生成的概率的过程包括:针对训练句子对应的检索文本中的每个词,根据训练句子对应的检索文本的编码结果中该词的编码结果和第一向量,确定该词的
注意力得分,将该词的注意力得分进行归一化,将归一化后的得分作为该词被生成的概率。
[0118]
具体的,训练句子对应的检索文本中第j个词的注意力得分可通过下式计算得到:
[0119][0120]
其中,hj表示训练句子对应的检索文本中第j个词的编码结果,wm、w
s_2
、b
m_atten
为模型训练参数。
[0121]
在获得训练句子对应的检索文本中各词的注意力得分后,可按下式对其进归一化:
[0122]dt
=softmax(r
t
)
ꢀꢀꢀ
(5)
[0123]
步骤a232、根据词典中每个词被成的概率、训练句子中每个词被生成的概率、训练句子对应的检索文本中每个词被生成的概率,以及当前解码时刻的目标词分别产生于词典、训练句子和训练句子对应的检索文本的概率,产生当前解码时刻的目标词。
[0124]
具体的,步骤a232的实现过程可以包括:根据词典中每个词被成的概率、训练句子中每个词被生成的概率、训练句子对应的检索文本中每个词被生成的概率,以及当前解码时刻的目标词分别产生于词典、训练句子和训练句子对应的检索文本的概率,确定训练句子对应的目标词表中每个词在当前解码时刻被生成的概率,根据训练句子对应的目标词表中每个词在当前解码时刻被生成的概率,产生当前解码时刻的目标词,比如,可将被生成的概率最大的词作为当前解码时刻的目标词。需要说明的是,训练句子对应的目标词表包括词典中的各个词、训练句子中未在词典出现的词,以及训练句子对应的检索文本中未在词典和训练句子中出现的词。
[0125]
更为具体的,可根据下式确定训练句子对应的目标词表中的词w在当前解码时刻被生成的概率:
[0126][0127]
其中,p
vocab
(w)表示词典中的词w被生成的概率,表示训练句子中的词w被生成的概率和(词w可能在训练句子中出现多次,所以此处为概率和),表示训练句子对应的检索文本中词w被生成的概率和(词w可能在训练句子对应的检索文本中出现多次,所以此处为概率和)。
[0128]
需要说明的是,若词w仅在词典出现,而未出现在训练句子和训练句子对应的检索文本中,则上式中的和均为0,若词w仅在训练句子中出现,而未出现在词典和训练句子对应的检索文本中,则p
vocab
(w)和均为0,若词w仅在训练句子对应的检索文本中出现,而未出现在词典和训练句子中,则上式中的p
vocab
(w)和均为0,若词w出现在词典和训练句子中,而未出现在训练句子对应的检索文本中,则上式中的为0,其它情况同理。
[0129]
步骤s204:确定能够反映训练句子的辅助阅读句子(此处及后续提及的“训练句子的辅助阅读句子”指的是,针对训练句子生成的辅助阅读句子)与训练句子标注的真实辅助阅读句子表达一致性的预测损失。
[0130]
具体的,根据训练句子的辅助阅读文本中每个词被生成的概率(即上述的p(w))以及训练句子标注的真实辅助阅读文本,确定能够反映训练句子的辅助阅读句子与训练句子标注的真实辅助阅读句子表达一致性的预测损失,可选的,该预测损失可以为交叉熵损失。
[0131]
在一种可能的实现方式中,在经由步骤s204确定出预测损失后,可直接根据经由步骤s204确定出预测损失对文本生成模型进行参数更新,为了提升模型性能,在另一种可能的实现方式,可将经由步骤s204确定出的预测损失作为第一预测损失loss1,然后通过下述步骤s205和步骤s206确定第二预测损失loss2和第三预测损失loss3:
[0132]
步骤s205:确定能够反映训练句子的辅助阅读文本对于训练句子中各词覆盖情况的第二预测损失。
[0133]
具体的,可根据训练句子的辅助阅读文本中每个词产生于训练句子的概率p
gen,1
以及每个词在训练句子上的生成概率(一个词在训练句子上的生成概率指的是,训练句子中该词被生成的概率),确定确定能够反映训练句子的辅助阅读文本对于训练句子中各词覆盖情况的第二预测损失。
[0134]
为了使文本生成模型能够生成较为准确的辅助阅读文本,本技术引入覆盖度约束,目的是,使训练句子中的每个词都要尽可能在生成的辅助阅读文本中出现,以保证不会遗漏训练句子的信息,从而保证生成的辅助阅读文本的信息完整性。为了使训练句子中的各个词被完全包含在生成文本中,要使训练句子中各个词被生成的概率的和大于1。
[0135]
具体的,可按下式示出的计算方式计算第二预测损失loss2:
[0136]
loss2=∑
w cw/|w|
ꢀꢀꢀ
(7)
[0137][0138]
其中,|w|表示训练句子中所包含词的总数量。表示当前解码时刻t之前,训练句子中的词w被生成的概率和,这个概率越大,则表示生成文本中出现该词的可能性越大。
[0139]
步骤s206:确定能够反映训练句子的辅助阅读句子与训练句子对应的检索文本的主题一致性的第三预测损失。
[0140]
具体的,将训练句子的辅助阅读句子作为正样本,并获取多个负样本,根据正样本与训练句子对应的检索文本的距离,以及每个负样本与训练句子对应的检索文本的距离,确定能够反映训练句子的辅助阅读句子与训练句子对应的检索文本的主题一致性的第三预测损失。其中,多个负样本为在训练句子的辅助阅读句子之前生成的多个辅助阅读句子。
[0141]
考虑到针对训练句子生成的辅助阅读句子与训练句子对应的检索文本应当具有共享信息,即具有较高的相似性,以保证辅助阅读文本的可解释性。在一种可能的实现方式中,可采用语义相似度来约束针对训练句子生成的辅助阅读句子与训练句子对应的检索文本的主题一致性,但在检索文本质量较差,存在噪声的情况下,直接最大化语义相似度难以训练,为此,本技术提出,可采用对比损失来设置一个更为松散的约束,该约束考虑针对训练句子生成的辅助阅读句子与训练句子对应的检索文本的相似度的相对值,将检索文本作为锚点样本,将生成的辅助阅读文本作为正样本,拉近正样本与锚点样本的距离,有鉴于此,可按下式示出的计算方式计算第三预测损失loss3:
[0142][0143]
其中,i表示训练句子对应的检索文本的编码结果,i
+
表示正样本的编码结果,i-表示负样本的编码结果,ni表示负样本集,可选的,负样本集的大小n(负样本集中负样本的数量)可设置为10,τ是温度参数,值越大,对比损失分布越尖锐,其可根据实验结果进行调整,一般可设置为1。
[0144]
可选的,在训练文本生成模型的过程中,可维护一个负样本队列,将训练过程中生成的辅助阅读句子加入到该队列中,当生成的句子的数量超过队列可容纳句子的数量时,可采用先进先出原则,使最早生成的辅助阅读句子出队列,使最新生成的辅助阅读句子进入队列。在需要计算上述loss3时,从队列中采样n个负样本,组成上述的负样本集。需要说明的是,在训练初期,即队列中的负样本不足n个时,可先不进行loss3的计算,在队列中的负样本达到n个时,再进行loss3的计算。
[0145]
步骤s207:根据第一预测损失、第二预测损失和第三预测损失,对文本生成模型进行参数更新。
[0146]
在一种可能的实现方式中,可直接将第一预测损失、第二预测损失和第三预测损失求和,根据求和后损失对文本生成模型进行参数更新;在另一种可能的实现方式中,可为第二预测损失和第三预测损失加权,将第一预测损失与加权后的第二预测损失和加权后的第三预测损失求和,根据求和后损失对文本生成模型进行参数更新,即,根据通过下式获得的loss对文本生成模型进行参数更新:
[0147]
loss=loss1+βloss2+γloss3
ꢀꢀꢀ
(10)
[0148]
其中,β为第二预测损失对应的权重,γ为第三预测损失对应的权重,β和γ均为模型训练超参。需要说明的是,loss1是主训练损失,loss2和loss3为辅助训练损失,可通过调整β、γ来控制loss2和loss3对训练的影响程度。
[0149]
另外,需要说明的,在其它方式中,可根据第一预测损失和第二预测损失对文本生成模型进行参数更新(即,可不确定第三预测损失),也可根据第一预测损失和第三预测损失(即,可不确定第二预测损失)对文本生成模型进行参数更新。
[0150]
按上述训练方式对文本生成模型进行多次迭代训练,直至满足训练结束条件,训练结束后得到的模型即为最终建立的文本生成模型。
[0151]
第三实施例
[0152]
经由上述第二实施例提供的实现方式可建立文本生成模型,在建立文本生成模型后,便可利用建立的文本生成模型,生成目标文本中每个句子的辅助阅读句子。本实施例重点对利用建立的文本生成模型生成目标文本中每个句子的辅助阅读句子的实现过程进行介绍。
[0153]
利用建立的文本生成模型生成目标文本中每个句子的辅助阅读句子的实现过程可以包括:针对所述目标文本中每个待生成辅助阅读句子的目标句子执行:
[0154]
步骤b1、从检索数据库中检索出与目标句子最相关的预设个文本片段,并将与目标句子最相关的预设个文本片段处理为一个长句,作为目标句子对应的检索文本。
[0155]
将与目标句子最相关的预设个文本片段处理为一个长句的具体方式与上述将与训练句子最相关的预设个文本片段处理为一个长句的具体方式相同,具体可参见上述实施
例,本实施例在此不做赘述。
[0156]
步骤b2、利用文本生成模型、目标句子和目标句子对应的检索文本,生成目标句子的辅助阅读句子。
[0157]
具体的,利用文本生成模型、目标句子和目标句子对应的检索文本,生成目标句子的辅助阅读句子的过程可以包括:利用文本生成模型,从词典、目标句子和目标句子对应的检索文本中逐个产生用于组成目标句子的辅助阅读句子的各目标词,以得到目标句子的辅助阅读句子。
[0158]
其中,利用文本生成模型,从词典、目标句子和目标句子对应的检索文本中逐个产生用于组成目标句子的辅助阅读句子的各目标词的过程可以包括:
[0159]
步骤c1、利用文本生成模型分别对目标句子和目标句子对应的检索文本进行编码,以得到目标句子的编码结果和目标句子对应的检索文本的编码结果。
[0160]
步骤c2、利用文本生成模型在每个解码时刻,执行:
[0161]
步骤c21、根据第一向量和目标句子的编码结果确定当前解码时刻解码所需的特征向量作为第二向量,并根据第一向量和目标句子对应的检索文本的编码结果确定当前解码时刻解码所需的特征向量作为第三向量。
[0162]
其中,第一向量为当前解码时刻输出的表示已解码结果信息的状态向量。
[0163]
根据第一向量和目标句子的编码结果确定当前解码时刻解码所需的特征向量作为第二向量包括:基于注意力机制对第一向量与目标句子的编码结果进行计算,得到目标句子在当前解码时刻对应的上下文向量,作为第二向量。
[0164]
根据第一向量和目标句子对应的检索文本的编码结果确定当前解码时刻解码所需的特征向量作为第三向量包括:基于注意力机制对第一向量与目标句子对应的检索文本的编码结果进行计算,得到目标句子对应的检索文本在当前解码时刻对应的上下文向量,作为第三向量。
[0165]
步骤c22、根据第一向量、第二向量和第三向量,预测当前解码时刻的目标词分别产生于词典、目标句子和目标句子对应的检索文本的概率。
[0166]
本步骤的具体实现过程与上述实施例中“根据第一向量、第二向量和第三向量,预测当前解码时刻的目标词分别产生于词典、训练句子和训练句子对应的检索文本的概率”的实现过程相同,具体可参见上述实施例,本实施例在此不做赘述。
[0167]
步骤c23、根据当前解码时刻的目标词分别产生于词典、目标句子和目标句子对应的检索文本的概率,产生当前解码时刻的目标词。
[0168]
具体的,根据当前解码时刻的目标词分别产生于词典、目标句子和目标句子对应的检索文本的概率,产生当前解码时刻的目标词,包括:
[0169]
步骤c231、根据第一向量和针对目标句子已生成的文本,预测词典中每个词被成的概率,根据目标句子的编码结果和第一向量,预测目标句子中每个词被生成的概率,根据目标句子对应的检索文本的编码结果和第一向量,预测目标句子对应的检索文本中每个词被生成的概率。
[0170]“根据目标句子的编码结果和第一向量,预测目标句子中每个词被生成的概率”的实现方式与上述实施例中“根据训练句子的编码结果和第一向量,预测训练句子中每个词被生成的概率”的实现方式相同,“根据目标句子对应的检索文本的编码结果和第一向量,
预测目标句子对应的检索文本中每个词被生成的概率”的实现方式与上述实施例中“根据训练句子对应的检索文本的编码结果和第一向量,预测训练句子对应的检索文本中每个词被生成的概率”的实现方式相同,具体可参见上述实施例中的相关部分,本实施例在此不做赘述。
[0171]
步骤c232、根据词典中每个词被成的概率、目标句子中每个词被生成的概率、目标句子对应的检索文本中每个词被生成的概率,以及当前解码时刻的目标词分别产生于词典、目标句子和目标句子对应的检索文本的概率,产生当前解码时刻的目标词。
[0172]
具体的,可根据上一实施例中的式(6)示出的计算方式确定目标句子对应的目标词表中的每个词在当前解码时刻被生成的概率,进而根据目标句子对应的目标词表中每个词在当前解码时刻被生成的概率确定当前解码时刻的目标词,比如,可将被生成的概率最大的词确定为当前解码时刻的目标词。其中,目标句子对应的目标词表包括词典中的各个词、目标句子中未在词典出现的词,以及目标句子对应的检索文本中未在词典和目标句子中出现的词。
[0173]
上述第一实施例至第三实施例提供的文本生成方法具有如下优势:
[0174]
其一,本技术并非直接生成目标文本的篇章级辅助阅读文本(即,非直接对整个目标文本进行处理),而是先对目标文本中的句子进行处理,以生成句子的辅助阅读句子,然后根据句子的辅助阅读句子再进一步生成篇章级辅助阅读文本,相比于对篇章级的目标文本进行处理,由于句子的信息量小、数据发散程度低,因此,处理起来更为简单,同时,对于文本生成模型的训练阶段而言,由于是对句子进行标注,而非对篇章级的文本进行标注,因此,标注更为简单,由于处理的是句子,因此,模型的训练也更为简单,可以理解的是,直接生成目标文本篇章级辅助阅读文本很容易导致生成的文本偏离目标文本,而先针对信息量小、数据发散程度低的句子进行处理能够生成质量较佳的辅助阅读句子(即生成的辅助阅读句子不会偏离原始句子),根据质量较佳的辅助阅读句子能够生成质量较佳的篇章级辅助阅读文本。另外,本技术在生成句子的辅助阅读文本时,引入了外部知识,即检索文本,检索文本的引入能够提升文本生成质量。再者,本技术在文本生成模型的训练过程中引入了覆盖度约束以及主题一致性约束,覆盖度约束以及主题一致性约束的引入,使得训练得到的文本生成模型能够生成准确度更高、可解释性更强的辅助阅读句子。
[0175]
其二,考虑到某些场景对于流畅性要求较低,对准确性要求较高,本技术将文本生成任务定义为解释性任务,在生成文本时,只考虑保留和插入操作,这种生成策略大大降低了任务难度。
[0176]
其三,本技术采用领域迁移策略,在预训练模型基础上训练一个指定领域的初始文本生成模型,在该初始文本生成模型上使用有监督的训练方式进行训练,这种策略能够加快模型训练的收敛速度,提升模型性能。
[0177]
第四实施例
[0178]
本技术实施例还提供了一种文本生成装置,下面对本技术实施例提供的文本生成装置进行描述,下文描述的文本生成装置与上文描述的文本生成方法可相互对应参照。
[0179]
请参阅图4,示出了本技术实施例提供的文本生成装置的结构示意图,可以包括:文本获取模块401、辅助阅读句子生成模块402和辅助阅读文本生成模块403。
[0180]
文本获取模块401,用于获取指定领域的目标文本;
[0181]
辅助阅读句子生成模块402,用于利用预先建立的文本生成模型,生成所述目标文本中每个句子的辅助阅读句子。
[0182]
其中,所述文本生成模型采用所述指定领域中标注有真实辅助阅读句子的训练句子训练得到。
[0183]
辅助阅读文本生成模块403,用于根据所述目标文本中每个句子的辅助阅读句子,生成所述目标文本的篇章级辅助阅读文本。
[0184]
可选的,所述文本生成模型的训练目标包括:
[0185]
使文本生成模型针对所述训练句子生成的辅助阅读句子与所述训练句子的真实辅助阅读句子表达一致;
[0186]
以及,
[0187]
使所述训练句子中的每个词出现在文本生成模型针对所述训练句子生成的辅助阅读句子中,和/或,使所述文本生成模型针对所述训练句子生成的辅助阅读句子与所述训练句子对应的检索文本的主题一致,其中,所述训练句子对应的检索文本由检索数据库中与所述训练句子最相关的预设个文本片段组成。
[0188]
可选的,所述训练句子标注的真实辅助阅读句子通过在所述训练句子中插入解释性片段和/或句意流畅性辅助片段得到。
[0189]
可选的,辅助阅读句子生成模块402在利用预先建立的文本生成模型,生成目标文本中每个句子的辅助阅读句子时,具体用于:
[0190]
针对所述目标文本中每个待生成辅助阅读句子的目标句子:
[0191]
从检索数据库中检索出与所述目标句子最相关的预设个文本片段,并将与所述目标句子最相关的预设个文本片段处理为一个长句,作为所述目标句子对应的检索文本;
[0192]
利用所述文本生成模型、所述目标句子和所述目标句子对应的检索文本,生成所述目标句子的辅助阅读句子。
[0193]
可选的,辅助阅读句子生成模块402在利用所述文本生成模型、所述目标句子和所述目标句子对应的检索文本,生成所述目标句子的辅助阅读句子时,具体用于:
[0194]
利用所述文本生成模型,从词典、所述目标句子和所述目标句子对应的检索文本中逐个产生用于组成所述目标句子的辅助阅读句子的各目标词,以得到所述目标句子的辅助阅读句子。
[0195]
可选的,文本生成模型包括:编码模块和解码模块。
[0196]
编码模块对所述目标句子和所述目标句子对应的检索文本进行编码;
[0197]
解码模块在每个解码时刻,执行:
[0198]
根据第一向量和所述目标句子的编码结果确定当前解码时刻解码所需的特征向量作为第二向量,并根据所述第一向量和所述目标句子对应的检索文本的编码结果确定当前解码时刻解码所需的特征向量作为第三向量,其中,所述第一向量为当前解码时刻输出的表示已解码结果信息的状态向量;
[0199]
根据所述第一向量、所述第二向量和所述第三向量,预测当前解码时刻的目标词分别产生于所述词典、所述目标句子和所述目标句子对应的检索文本的概率;
[0200]
根据当前解码时刻的目标词分别产生于所述词典、所述目标句子和所述目标句子对应的检索文本的概率,产生当前解码时刻的目标词。
[0201]
可选的,解码模块根据当前解码时刻的目标词分别产生于所述词典、所述目标句子和所述目标句子对应的检索文本的概率,产生当前解码时刻产生的目标词时,具体用于:
[0202]
根据所述第一向量和针对所述目标句子已生成的文本,预测词典中每个词被成的概率,根据所述目标句子的编码结果和所述第一向量,预测所述目标句子中每个词被生成的概率,根据所述目标句子对应的检索文本的编码结果和所述第一向量,预测所述目标句子对应的检索文本中每个词被生成的概率;
[0203]
根据所述词典中每个词被成的概率、所述目标句子中每个词被生成的概率、所述目标句子对应的检索文本中每个词被生成的概率,以及当前解码时刻的目标词分别产生于所述词典、所述目标句子和所述目标句子对应的检索文本的概率,产生当前解码时刻的目标词。
[0204]
可选的,本技术实施例提供的文本生成装置还可以包括:模型训练模块。模型训练模块,用于:
[0205]
获取所述训练句子对应的检索文本,其中,所述训练句子对应的检索文本由检索数据库中与所述训练句子最相关的预设个文本片段组成;
[0206]
利用文本生成模型、所述训练句子和所述训练句子对应的检索文本,生成所述训练句子的辅助阅读句子;
[0207]
确定能够反映所述训练句子的辅助阅读句子与所述训练句子标注的真实辅助阅读句子表达一致性的第一预测损失;
[0208]
确定能够反映所述训练句子的辅助阅读文本对于所述训练句子中各词覆盖情况的第二预测损失,和/或,确定能够反映所述训练句子的辅助阅读句子与所述训练句子对应的检索文本的主题一致性的第三预测损失;
[0209]
根据确定出的预测损失,对文本生成模型进行参数更新。
[0210]
可选的,模型训练模块在确定能够反映所述训练句子的辅助阅读句子与所述训练句子标注的真实辅助阅读句子表达一致性的第一预测损失时,具体用于:
[0211]
根据所述训练句子的辅助阅读文本中每个词被生成的概率以及所述训练句子标注的真实辅助阅读文本,确定所述第一预测损失;
[0212]
可选的,模型训练模块在确定能够反映所述训练句子的辅助阅读文本对于所述训练句子中各词覆盖情况的第二预测损失时,具体用于:
[0213]
根据所述训练句子的辅助阅读文本中每个词产生于所述训练句子的概率以及每个词在所述训练句子上的生成概率,确定所述第二预测损失,其中,一个词在所述训练句子上的生成概率为所述训练句子中该词被生成的概率;
[0214]
可选的,模型训练模块在确定能够反映所述训练句子的辅助阅读句子与所述训练句子对应的检索文本的主题一致性的第三预测损失时,具体用于:
[0215]
将所述训练句子的辅助阅读句子作为正样本,并获取多个负样本,其中,所述多个负样本为在所述训练句子的辅助阅读句子之前生成的多个辅助阅读句子;
[0216]
根据所述正样本与所述训练句子对应的检索文本的距离,以及每个负样本与所述训练句子对应的检索文本的距离,确定所述第三预测损失。
[0217]
可选的,辅助阅读文本生成模块403包括:句子拼接模块和文本编辑模块;
[0218]
所述句子拼接模块,用于根据所述目标文本中各句子的顺序,对所述目标文本中
各句子的辅助阅读句子进行拼接,以得到待编辑文本;
[0219]
所述文本编辑模块,用于利用预先建立的篇章编辑模型对所述待编辑文本进行编辑,编辑后文本作为所述目标文本的篇章级辅助阅读文本,其中,所述篇章编辑模型采用标注有真实编辑结果的训练文本训练得到。
[0220]
可选的,文本编辑模块在利用预先建立的篇章编辑模型对所述待编辑文本进行编辑时,具体用于:
[0221]
利用预先建立的篇章编辑模型将所述待编辑文本中的冗余词和/或非连贯词删除。
[0222]
本技术实施例提供的文本生成装置,在获得指定领域的目标文本后,首先利用预先建立的文本生成模型,生成目标文本中每个句子的辅助阅读句子,然后根据目标文本中每个句子的辅助阅读句子,生成目标文本的篇章级辅助阅读文本。通过本技术实施例提供的文本生成装置可针对指定领域的目标文本生成辅助阅读文本,生成的辅助阅读文本能够辅助阅读者进行阅读,从而能够大大降低阅读者对于目标文本的阅读难度,用户体验较好。
[0223]
第五实施例
[0224]
本技术实施例还提供了一种文本生成设备,请参阅图5,示出了该文本生成设备的结构示意图,该文本生成设备可以包括:至少一个处理器501,至少一个通信接口502,至少一个存储器503和至少一个通信总线504;
[0225]
在本技术实施例中,处理器501、通信接口502、存储器503、通信总线504的数量为至少一个,且处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信;
[0226]
处理器501可能是一个中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
[0227]
存储器503可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
[0228]
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
[0229]
获取指定领域的目标文本;
[0230]
利用预先建立的文本生成模型,生成所述目标文本中每个句子的辅助阅读句子,其中,所述文本生成模型采用所述指定领域中标注有真实辅助阅读句子的训练句子训练得到;
[0231]
根据所述目标文本中每个句子的辅助阅读句子,生成所述目标文本的篇章级辅助阅读文本。
[0232]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0233]
第六实施例
[0234]
本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质可存储有适于处理器执行的程序,所述程序用于:
[0235]
获取指定领域的目标文本;
[0236]
利用预先建立的文本生成模型,生成所述目标文本中每个句子的辅助阅读句子,其中,所述文本生成模型采用所述指定领域中标注有真实辅助阅读句子的训练句子训练得到;
[0237]
根据所述目标文本中每个句子的辅助阅读句子,生成所述目标文本的篇章级辅助阅读文本。
[0238]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0239]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0240]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0241]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1