一种摘要文本的生成方法及装置与流程

文档序号:33622608发布日期:2023-03-25 13:05阅读:87来源:国知局
一种摘要文本的生成方法及装置与流程

1.本公开涉及人工智能技术领域,尤其涉及一种摘要文本的生成方法及装置。


背景技术:

2.近年来,随着信息技术的跨越式发展,公众号、博客、新闻等信息传递方式层出不穷,用户获取信息的便捷度不断提升,每天可以通过各种渠道收获各种信息,信息量无限攀升,文本信息呈现爆炸式增长,用户几乎被文本大数据所淹没。但是,用户精力有限,如何让用户在短时间内获取文本的关键信息,从大量文本信息中快速提取重要的内容,已成为当今面对信息爆炸的一个迫切需求。因此,目前亟需一种能够自动生成摘要文本的方法。


技术实现要素:

3.有鉴于此,本公开实施例提供了一种摘要文本的生成方法、装置、计算机设备及计算机可读存储介质,以实现能够自动生成摘要文本。
4.本公开实施例的第一方面,提供了一种摘要文本的生成方法,所述方法包括:
5.获取待处理文本;
6.确定所述待处理文本对应的映射标识序列;其中,所述待处理文本对应的映射标识序列包括所述待处理文本中每个字符对应的映射标识,且字符对应的映射标识用于反映该字符在所述待处理文本中的位置信息;
7.将所述待处理文本以及所述待处理文本对应的映射标识序列输入已训练的摘要文本模型,得到摘要文本对应的映射标识序列;其中,所述摘要文本对应的映射标识序列包括所述摘要文本中每个字符对应的映射标识,且字符对应的映射标识用于反映该字符在所述待处理文本中的位置信息以及该字符在该字符所位于的字符串中的抽取起始位置,或者,字符对应的映射标识用于反映该字符在预设字典中的序号;
8.根据所述摘要文本对应的映射标识序列,确定所述待处理文本对应的摘要文本。
9.本公开实施例的第二方面,提供了一种摘要文本的生成装置,所述装置包括:
10.文本获取单元,用于获取待处理文本;
11.第一确定单元,用于确定所述待处理文本对应的映射标识序列;其中,所述待处理文本对应的映射标识序列包括所述待处理文本中每个字符对应的映射标识,且字符对应的映射标识用于反映该字符在所述待处理文本中的位置信息;
12.第二确定单元,用于将所述待处理文本以及所述待处理文本对应的映射标识序列输入已训练的摘要文本模型,得到摘要文本对应的映射标识序列;其中,所述摘要文本对应的映射标识序列包括所述摘要文本中每个字符对应的映射标识,且字符对应的映射标识用于反映该字符在所述待处理文本中的位置信息以及该字符在该字符所位于的字符串中的抽取起始位置;
13.摘要确定单元,用于根据所述摘要文本对应的映射标识序列,确定所述待处理文本对应的摘要文本。
14.本公开实施例的第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并且可以在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
15.本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
16.本公开实施例与现有技术相比存在的有益效果是:本公开实施例可以先获取待处理文本;然后,可以确定所述待处理文本对应的映射标识序列;其中,所述待处理文本对应的映射标识序列包括所述待处理文本中每个字符对应的映射标识,且字符对应的映射标识用于反映该字符在所述待处理文本中的位置信息。接着,可以将所述待处理文本以及所述待处理文本对应的映射标识序列输入已训练的摘要文本模型,得到摘要文本对应的映射标识序列;其中,所述摘要文本对应的映射标识序列包括所述摘要文本中每个字符对应的映射标识,且字符对应的映射标识用于反映该字符在所述待处理文本中的位置信息以及该字符在该字符所位于的字符串中的抽取起始位置,或者,字符对应的映射标识用于反映该字符在预设字典中的序号。最后,可以根据所述摘要文本对应的映射标识序列,确定所述待处理文本对应的摘要文本。在本实施例中,在确定所述待处理文本对应的摘要文本的过程中,先将待处理文本转换为映射标识序列,再利用摘要文本模型生成摘要文本对应的映射标识序列,接着,可以利用预设字典和待处理文本,将摘要文本对应的映射标识序列还原为摘要文本;这样,在确定待处理文本对应的摘要文本过程中,利用映射标识的方式不仅抽取了待处理文本中的关键信息,还可以利用预设字典通过生成方式对所抽取的关键信息进行改写,从而得到摘要文本对应的映射标识序列,进而可以得到所述待处理文本对应的摘要文本;可见,上述方式可以实现通过抽取控制待处理文本的文本内容,缩减生成摘要文本任务的计算消耗和需要分析的文本长度,同时,通过生成方式改写,避免出现由于对待处理文本进行生硬拼接所导致的语句间连贯性差、灵活性差的问题,从而提升了所生成的摘要文本的语句连贯性和准确性。
附图说明
17.为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
18.图1是本公开实施例的应用场景的场景示意图;
19.图2是本公开实施例提供的摘要文本的生成方法的流程图;
20.图3是本公开实施例提供的摘要文本的生成装置的框图;
21.图4是本公开实施例提供的计算机设备的示意图。
具体实施方式
22.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电
路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
23.下面将结合附图详细说明根据本公开实施例的一种摘要文本的生成方法和装置。
24.在现有技术中,目前的摘要文本的生成方式主要为:第一种方式,根据原文在海量的词库中确定出和文本内容含义相似的语句,但是这种方式所确定的摘要文本的准确度较差以及计算难度较高;第二种方式,对原文中的文本进行文字抽取,但是这种方式容易引入冗余信息(重复抽取),提取内容错误,或者信息缺失(一些重要的语句没有被抽取到),这种生硬拼接得到摘要文本的方式存在语句间连贯性差、灵活性差等问题。因此,目前亟需一种能够自动生成摘要文本的方法。
25.为了解决上述问题。本发明提供了一种摘要文本的生成方法,在本方法中,由于本实施例在确定所述待处理文本对应的摘要文本的过程中,先将待处理文本转换为映射标识序列,再利用摘要文本模型生成摘要文本对应的映射标识序列,接着,可以利用预设字典和待处理文本,将摘要文本对应的映射标识序列还原为摘要文本;这样,在确定待处理文本对应的摘要文本过程中,利用映射标识的方式不仅抽取了待处理文本中的关键信息,还可以利用预设字典通过生成方式对所抽取的关键信息进行改写,从而得到摘要文本对应的映射标识序列,进而可以得到所述待处理文本对应的摘要文本;可见,上述方式可以实现通过抽取控制待处理文本的文本内容,缩减生成摘要文本任务的计算消耗和需要分析的文本长度,同时,通过生成方式改写,避免出现由于对待处理文本进行生硬拼接所导致的语句间连贯性差、灵活性差的问题,从而提升了所生成的摘要文本的语句连贯性和准确性。
26.举例说明,本发明实施例可以应用到如图1所示的应用场景。在该场景中,可以包括终端设备1和服务器2。
27.终端设备1可以是硬件,也可以是软件。当终端设备1为硬件时,其可以是具有显示屏且支持与服务器2通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当终端设备1为软件时,其可以安装在如上该的电子设备中。终端设备1可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本公开实施例对此不作限制。进一步地,终端设备1上可以安装有各种应用,例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
28.服务器2可以是提供各种服务的服务器,例如,对与其建立通信连接的终端设备发送的请求进行接收的后台服务器,该后台服务器可以对终端设备发送的请求进行接收和分析等处理,并生成处理结果。服务器2可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者还可以是一个云计算服务中心,本公开实施例对此不作限制。
29.需要说明的是,服务器2可以是硬件,也可以是软件。当服务器2为硬件时,其可以是为终端设备1提供各种服务的各种电子设备。当服务器2为软件时,其可以是为终端设备1提供各种服务的多个软件或软件模块,也可以是为终端设备1提供各种服务的单个软件或软件模块,本公开实施例对此不作限制。
30.终端设备1与服务器2可以通过网络进行通信连接。网络可以是采用同轴电缆、双绞线和光纤连接的有线网络,也可以是无需布线就能实现各种通信设备互联的无线网络,例如,蓝牙(bluetooth)、近场通信(near field communication,nfc)、红外(infrared)等,本公开实施例对此不作限制。
31.具体地,用户可以通过终端设备1输入待处理文本;终端设备1将待处理文本向服
务器2发送。服务器2存储有已训练的摘要文本模型;服务器2可以先确定所述待处理文本对应的映射标识序列;然后,服务器2可以将所述待处理文本以及所述待处理文本对应的映射标识序列输入已训练的摘要文本模型,得到摘要文本对应的映射标识序列;接着,服务器2可以根据所述摘要文本对应的映射标识序列,确定所述待处理文本对应的摘要文本。最后,服务器2可以将待处理文本对应的摘要文本向终端设备1返回。这样,由于在本实施例中,在确定所述待处理文本对应的摘要文本的过程中,先将待处理文本转换为映射标识序列,再利用摘要文本模型生成摘要文本对应的映射标识序列,接着,可以利用预设字典和待处理文本,将摘要文本对应的映射标识序列还原为摘要文本;这样,在确定待处理文本对应的摘要文本过程中,利用映射标识的方式不仅抽取了待处理文本中的关键信息,还可以利用预设字典通过生成方式对所抽取的关键信息进行改写,从而得到摘要文本对应的映射标识序列,进而可以得到所述待处理文本对应的摘要文本;可见,上述方式可以实现通过抽取控制待处理文本的文本内容,缩减生成摘要文本任务的计算消耗和需要分析的文本长度,同时,通过生成方式改写,避免出现由于对待处理文本进行生硬拼接所导致的语句间连贯性差、灵活性差的问题,从而提升了所生成的摘要文本的语句连贯性和准确性。
32.需要说明的是,终端设备1和服务器2以及网络的具体类型、数量和组合可以根据应用场景的实际需求进行调整,本公开实施例对此不作限制。
33.需要注意的是,上述应用场景仅是为了便于理解本公开而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
34.图2是本公开实施例提供的一种摘要文本的生成方法的流程图。图2的一种摘要文本的生成方法可以由图1的终端设备或服务器执行。如图2所示,该摘要文本的生成方法包括:
35.s201:获取待处理文本。
36.在本实施例中,待处理文本可以理解为需要生成摘要文本的原文文本。例如,待处理文本可以为用户输入的一段文本、书籍中的一段原文、一篇文章等。
37.s202:确定所述待处理文本对应的映射标识序列。
38.在本实施例中,可以预先设置文本中每个位置的字符对应的映射标识,可以理解的是,每个映射标识能够反应映射标识对应的字符在待处理文本中的位置,即字符在待处理文本中的第几个字符位置。在一种实现方式中,假设支持待处理文本的最长文本长度是n,则可以预设n个映射标识分别代表待处理文本中的n个字符的位置。
39.在本实施例中,可以在获取到待处理文本后,可以分别针对待处理文本中的每一个字符,确定该字符在待处理文本中的位置,然后,可以根据该字符在待处理文本中的位置确定该字符对应的映射标识,具体地,可以基于预设的字符位置与映射标识之间的对应关系,确定该字符对应的映射标识。接着,可以将该待处理文本中每个字符对应的映射标识,按照各个字符在待处理文本中的位置排序顺序进行排序,从而可以得到待处理文本对应的映射标识序列。可以理解的是,所述待处理文本对应的映射标识序列可以包括所述待处理文本中每个字符对应的映射标识,且字符对应的映射标识用于反映该字符在所述待处理文本中的位置信息,也就是说,待处理文本对应的映射标识序列中每个映射标识在待处理文本对应的映射标识序列中的位置均与其对应的字符在待处理文本中的位置是相同的,假设字符a在待处理文本中的位置是第二个字符位置,则字符a对应的映射标识a在待处理文本
对应的映射标识序列中的位置也是第二个标识位置。
40.接下来,举例说明,假设待处理文本为:这是一本关于文学的书。由于“这”字符在待处理文本中的位置为第一位,则“这”字符对应的映射标识为“1”;“是”字符在待处理文本中的位置为第二位,则“是”字符对应的映射标识为“2”;“一”字符在待处理文本中的位置为第三位,则“一”字符对应的映射标识为“3”;“本”字符在待处理文本中的位置为第四位,则“本”字符对应的映射标识为“4”;“关”字符在待处理文本中的位置为第五位,则“关”字符对应的映射标识为“5”;“于”字符在待处理文本中的位置为第六位,则“于”字符对应的映射标识为“6”;“文”字符在待处理文本中的位置为第七位,则“文”字符对应的映射标识为“7”;“学”字符在待处理文本中的位置为第八位,则“学”字符对应的映射标识为“8”;“的”字符在待处理文本中的位置为第九位,则“于”字符对应的映射标识为“9”;“书”字符在待处理文本中的位置为第10位,则“于”字符对应的映射标识为“10”;因此,待处理文本对应的映射标识序列[1][2][3][4][5][6][7][8][9][10]。
[0041]
s203:将所述待处理文本以及所述待处理文本对应的映射标识序列输入已训练的摘要文本模型,得到摘要文本对应的映射标识序列。
[0042]
在本实施例中,可以将所述待处理文本以及所述待处理文本对应的映射标识序列输入已训练的摘要文本模型,便可以得到摘要文本对应的映射标识序列。在一种实现方式中,摘要文本模型可以为已训练的自注意力网络,比如,可以为t5、bart等一系列变种和改进的神经网络模型。
[0043]
其中,所述摘要文本对应的映射标识序列可以包括所述摘要文本中每个字符对应的映射标识,且字符对应的映射标识用于反映该字符在所述待处理文本中的位置信息以及该字符在该字符所位于的字符串中的抽取起始位置,或者,字符对应的映射标识用于反映该字符在预设字典中的序号。也就是说,所述摘要文本对应的映射标识序列包括所述摘要文本中每个字符对应的映射标识,且字符对应的映射标识用于反映该字符在所述待处理文本中的位置信息以及该字符在该字符所位于的字符串中的抽取起始位置,或者,字符对应的映射标识用于反映该字符在预设字典中的序号。
[0044]
其中,摘要文本模型可以对待处理文本进行重要的字符或者字符串(即关键信息)进行抽取。该字符在该字符所位于的字符串中的抽取起始位置可以理解为若摘要文本中一串连续的字符串为待处理文本中的一串连续字符串,则可以将该串字符串的第一个字符和最后一个字符作为该字符串中的抽取起始位置(即第一个字符为该字符串的抽取开始位置,最后一个字符为该字符串的抽取结束位置),这样,当需要从待处理文本中提取连续的字符串时,摘要文本对应的映射标识序列中可以仅记录这串字符串中第一个字符和最后一个字符的映射标识,这样,通过抽取控制文本内容,缩减摘要文本对应的映射标识序列的长度,进而可以缩减摘要文本生成任务的计算消耗和需要分析的文本长度。
[0045]
在一种实现方式中,为了区分映射标识的标识类型是抽取开始位置标识还是抽取结束位置标识,若字符为字符串的第一个字符(即该字符串的抽取开始位置),则该字符对应的映射标识的标识类型为抽取开始位置标识,若字符为字符串的最后一个字符(即该字符串的抽取结束位置),则该字符串对应的映射标识的标识类型为抽取结束位置标识;其中,若该字符对应的映射标识的标识类型为抽取开始位置标识,则该字符对应的映射标识与待处理文本对应的映射标识序列中该字符对应的映射标识是相同的,例如均为[1],若该
字符对应的映射标识的标识类型为抽取结束位置标识,则该字符对应的映射标识与待处理文本对应的映射标识序列中该字符对应的映射标识是不相同的,例如为[1]*;这样,假设支持待处理文本的最长文本长度是n,则可以预设n个映射标识代表待处理文本中的n个字符的位置以及标识类型为抽取结束位置标识的n个映射标识(即这n个映射标识可以同时代表待处理文本中的n个字符的位置和标识类型为抽取结束位置标识的n个映射标识),以及预设n个映射标识代表标识类型为抽取结束位置标识的n个映射标识,这样,假设支持待处理文本的最长文本长度是n,则需要多设置2n个映射标识。举例来说,假设待处理文本的最长文本长度为5个字符,则需要多设置[1]、[2]、[3]、[4]、[5]、[1]*、[2]*、[3]*、[4]*、[5]*这十个映射标识。
[0046]
需要说明的是,为了避免出现由于对待处理文本进行生硬拼接所导致的语句间连贯性差、灵活性差的问题,在本实施例中引入了预设字典对摘要文本模型进行训练,其中,预设字典存储了若干字符与序号的对应关系,其中,序号可以与预设的每一个映射标识不一样,例如需要可以为(32)等;这样,在确定待处理文本对应的摘要文本过程中,利用映射标识的方式不仅抽取了待处理文本中的关键信息,还可以利用预设字典通过生成方式对所抽取的关键信息进行改写,从而得到摘要文本对应的映射标识序列,进而可以得到所述待处理文本对应的摘要文本。可以理解的是,预设字典中存储的字符可以用于对摘要文本的内容进行补充改写,这样,能利用预设字典对摘要文本进行完善(例如摘要文本中需要补充但是待处理文本中没有的字符),避免由于待处理文本中缺少一些字符或者提取摘要时漏掉了部分信息所导致的语句间连贯性差、灵活性差的问题。需要强调的是,所述待处理文本中任意一个字符对应的映射标识均与预设字典中任一字符对应的序号均不相同,且待处理文本中任意一个字符对应的映射标识也均不相同,预设字典中任一字符对应的序号也均不相同;也就是说,一个映射标识仅能对应所述待处理文本中的一个字符或者预设字典中的一个字符。
[0047]
举例说明,假设待处理文本为:这是一本关于文学的书,待处理文本对应的映射标识序列[1][2][3][4][5][6][7][8][9][10],将待处理文本和待处理文本对应的映射标识序列输入摘要文本模型后,可以得到摘要文本对应的映射标识序列为(11)(12)(13)[1][2]*[4][7][8]*[10];其中,(11)、(12)、(13)为预设字典中的序号,[1][2]*为待处理文本中第一个字符到第二个字符组成的字符串,[4]为待处理文本中第4个字符,[7][8]*为待处理文本中第7个字符到第8个字符组成的字符串,[10]为待处理文本中第10个字符。
[0048]
s204:根据所述摘要文本对应的映射标识序列,确定所述待处理文本对应的摘要文本。
[0049]
在获取到所述摘要文本对应的映射标识序列后,可以基于待处理文本和预设字典,将所述摘要文本对应的映射标识序列中的映射标识进行还原,得到所述待处理文本对应的摘要文本。
[0050]
举例说明,假设待处理文本为:这是一本关于文学的书,待处理文本对应的映射标识序列[1][2][3][4][5][6][7][8][9][10],待处理文本对应的摘要文本的映射标识序列为(11)(12)(13)[1][2]*[4][7][8]*[10];其中,(11)、(12)、(13)为预设字典中的序号(对应“摘要:”),[1][2]*为待处理文本中第一个字符到第二个字符组成的字符串,[4]为待处理文本中第4个字符,[7][8]*为待处理文本中第7个字符到第8个字符组成的字符串,[10]
为待处理文本中第10个字符。则根据所述摘要文本对应的映射标识序列(11)(12)(13)[1][2]*[4][7][8]*[10],确定所述待处理文本对应的摘要文本为“摘要:这是本文学书”。
[0051]
本公开实施例与现有技术相比存在的有益效果是:本公开实施例可以先获取待处理文本;然后,可以确定所述待处理文本对应的映射标识序列;其中,所述待处理文本对应的映射标识序列包括所述待处理文本中每个字符对应的映射标识,且字符对应的映射标识用于反映该字符在所述待处理文本中的位置信息。接着,可以将所述待处理文本以及所述待处理文本对应的映射标识序列输入已训练的摘要文本模型,得到摘要文本对应的映射标识序列;其中,所述摘要文本对应的映射标识序列包括所述摘要文本中每个字符对应的映射标识,且字符对应的映射标识用于反映该字符在所述待处理文本中的位置信息以及该字符在该字符所位于的字符串中的抽取起始位置,或者,字符对应的映射标识用于反映该字符在预设字典中的序号。最后,可以根据所述摘要文本对应的映射标识序列,确定所述待处理文本对应的摘要文本。在本实施例中,在确定所述待处理文本对应的摘要文本的过程中,先将待处理文本转换为映射标识序列,再利用摘要文本模型生成摘要文本对应的映射标识序列,接着,可以利用预设字典和待处理文本,将摘要文本对应的映射标识序列还原为摘要文本;这样,在确定待处理文本对应的摘要文本过程中,利用映射标识的方式不仅抽取了待处理文本中的关键信息,还可以利用预设字典通过生成方式对所抽取的关键信息进行改写,从而得到摘要文本对应的映射标识序列,进而可以得到所述待处理文本对应的摘要文本;可见,上述方式可以实现通过抽取控制待处理文本的文本内容,缩减生成摘要文本任务的计算消耗和需要分析的文本长度,同时,通过生成方式改写,避免出现由于对待处理文本进行生硬拼接所导致的语句间连贯性差、灵活性差的问题,从而提升了所生成的摘要文本的语句连贯性和准确性。
[0052]
在一些实施例中,所述已训练的摘要文本模型包括编码器和解码器;在一种实现方式中,编码器由自注意力网络构成,解码器也由自注意力网络构成,即所述编码器为自注意力网络,所述解码器为自注意力网络,并且,所述摘要文本模型在模型训练过程中所使用的损失函数为交叉熵损失函数,这样,摘要文本模型可以通过交叉熵损失函数计算梯度,从而完成训练。相应地,s203“将所述待处理文本以及所述待处理文本对应的映射标识序列输入已训练的摘要文本模型,得到摘要文本对应的映射标识序列”的步骤,可以包括以下步骤:
[0053]
s203a:将所述待处理文本以及所述待处理文本对应的映射标识序列输入所述编码器,得到隐层表征向量。
[0054]
在得到所述待处理文本以及所述待处理文本对应的映射标识序列后,可以将所述待处理文本以及所述待处理文本对应的映射标识序列输入所述编码器中,编码器可以根据所述待处理文本以及所述待处理文本对应的映射标识序列中的字符和映射标识进行语义理解,识别出各个字符之间的上下文信息,并结合映射标识序列中各个映射标识之间的上下文信息,确定所述待处理文本以及所述待处理文本对应的映射标识序列对应的隐层表征向量。
[0055]
可以理解的是,隐层表征向量可以反映待处理文本中各个字符的意思、各个字符之间的关联程度,以及,待处理文本与待处理文本对应的映射标识序列之间的对应关系。这样,便可以保证后续利用待处理文本以及所述待处理文本对应的映射标识序列对应的隐层
表征向量预测得到的待处理文本对应的摘要文本时,可以使得摘要文本与待处理文本的原意的偏差在一定程度内,并且,摘要文本的语句间连贯性、灵活性均较好;也就是说,可以保证后续利用隐层表征向量预测得到的摘要文本,可以保留了待处理文本中的句子的主干信息,在较大程度上保持了待处理文本中的句子主要意思,不至于过分偏离待处理文本的原意,并且语句间连贯性、灵活性均较好。
[0056]
s203b:将所述隐层表征向量输入所述解码器,得到摘要文本对应的映射标识序列。
[0057]
在得到所述待处理文本以及所述待处理文本对应的映射标识序列对应的隐层表征向量后,可以将所述待处理文本以及所述待处理文本对应的映射标识序列对应的隐层表征向量输入所述解码器,所述解码器可以摘要文本对应的映射标识序列。
[0058]
在一些实施例中,s204“根据所述摘要文本对应的映射标识序列,确定所述待处理文本对应的摘要文本”的步骤,可以包括以下步骤:
[0059]
s204a:针对所述摘要文本对应的映射标识序列中的每个映射标识,根据该映射标识和该映射标识的后一个映射标识,确定该映射标识对应的字符或者字符串。
[0060]
在本实施例中,可以针对所述摘要文本对应的映射标识序列中的每个映射标识,基于该映射标识的标识类型和该映射标识的后一个映射标识的标识类型,从所述待处理文本或者所述预设字典中确定该映射标识对应的字符或者字符串。
[0061]
具体地,若该映射标识为抽取开始位置标识,且,该映射标识的后一个映射标识为抽取结束位置标识,则根据该映射标识和该映射标识的后一个映射标识,从所述待处理文本中抽取一字符串,以及,将该字符串作为该映射标识对应的字符串。若该映射标识为抽取开始位置标识,且,该映射标识的后一个映射标识为抽取结束位置标识,说明摘要文本对应的映射标识序列中,该映射标识与该映射标识的后一个映射标识对应待处理文本中的一串字符串;因此,可以将该映射标识对应的字符在待处理文本中的位置作为抽取起点位置,将该映射标识的后一个映射标识对应的字符在待处理文中的位置作为抽取结束位置,然后,将待处理文本中抽取起点位置至抽取结束位置之间的字符串作为该映射标识与该映射标识的后一个映射标识对应的字符串。举例来说,假设待处理文本为:这是一本关于文学的书,待处理文本对应的映射标识序列[1][2][3][4][5][6][7][8][9][10],待处理文本对应的摘要文本的映射标识序列为(11)(12)(13)[1][2]*[4][7][8]*[10];其中,由于映射标识[1]为抽取开始位置标识,[2]*为抽取结束位置标识,且[1]、[2]*对应的字符位置为待处理文本中第一个字符、第二个字符,因此,可以将待处理文本为“这是一本关于文学的书”中的第一个字符“这”到第二个字符“是”的字符串作为[1][2]*对应的的字符串。
[0062]
若该映射标识为抽取开始位置标识,且,该映射标识的后一个映射标识为抽取开始位置标识,则根据该映射标识从所述待处理文本或者所述预设字典中查询一字符,以及,将该字符作为该映射标识对应的字符。若该映射标识为抽取开始位置标识,且,该映射标识的后一个映射标识也为抽取开始位置标识,说明摘要文本对应的映射标识序列中的该映射标识仅单独对应一个字符,而不能和前一个映射标识或者后一个映射标识进行组合进而对应一串字符串。因此,如果该映射标识为所述待处理文本中一个字符对应的映射标识,则可以将该映射标识对应的待处理文本中的字符作为该映射标识对应的字符;如果映射标识为预设字典中一字符对应的序号,则可以根据该映射标识在所述预设字典中查询一字符,然
后,将该字符作为该映射标识对应的字符。举例来说,假设待处理文本为:这是一本关于文学的书,待处理文本对应的映射标识序列[1][2][3][4][5][6][7][8][9][10],待处理文本对应的摘要文本的映射标识序列为(11)(12)(13)[1][2]*[4][7][8]*[10];其中,由于映射标识[4]为抽取开始位置标识,且,该映射标识[4]的后一个映射标识[7]也为抽取开始位置标识,因此,映射标识[4]仅对应一个字符,另外,由于该映射标识[4]为所述待处理文本中一个字符“本”对应的映射标识,可以将所该映射标识[4]对应的待处理文本中的字符“本”作为该映射标识[4]对应的字符;映射标识(11)为预设字典中一字符“摘”对应的序号,则可以根据该映射标识(11)在所述预设字典中查询一字符“摘”,然后,将该字符“摘”作为该映射标识(11)对应的字符。
[0063]
s204b:根据所述摘要文本对应的映射标识序列中各个映射标识对应的字符或字符串,确定所述待处理文本对应的摘要文本。
[0064]
在确定所述摘要文本对应的映射标识序列中各个映射标识对应的字符或字符串后,可以将所述摘要文本对应的映射标识序列中各个映射标识对应的字符或字符串,按照各个映射标识在所述摘要文本对应的映射标识序列中的位置排序顺序进行排序,从而可以得到所述待处理文本对应的摘要文本。
[0065]
举例来说,假设待处理文本为:这是一本关于文学的书,待处理文本对应的映射标识序列[1][2][3][4][5][6][7][8][9][10],待处理文本对应的摘要文本的映射标识序列为(11)(12)(13)[1][2]*[4][7][8]*[10]。由于映射标识(11)对应的字符为“摘”,映射标识(12)对应的字符为“要”,映射标识(13)对应的字符为“:”,映射标识序列[1][2]*对应的字符为“这是”,映射标识[4]对应的字符为“本”,映射标识序列[7][8]*对应的字符为“文学”,映射标识[10]对应的字符为“书”,因此,将所述摘要文本对应的映射标识序列中各个映射标识对应的字符或字符串,按照各个映射标识在所述摘要文本对应的映射标识序列中的位置排序顺序进行排序,从而可以得到所述待处理文本对应的摘要文本“摘要:这是本文学书”。
[0066]
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
[0067]
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
[0068]
图3是本公开实施例提供的摘要文本的生成装置的示意图。如图3所示,该摘要文本的生成装置包括:
[0069]
文本获取单元301,用于获取待处理文本;
[0070]
第一确定单元302,用于确定所述待处理文本对应的映射标识序列;其中,所述待处理文本对应的映射标识序列包括所述待处理文本中每个字符对应的映射标识,且字符对应的映射标识用于反映该字符在所述待处理文本中的位置信息;
[0071]
第二确定单元303,用于将所述待处理文本以及所述待处理文本对应的映射标识序列输入已训练的摘要文本模型,得到摘要文本对应的映射标识序列;其中,所述摘要文本对应的映射标识序列包括所述摘要文本中每个字符对应的映射标识,且字符对应的映射标识用于反映该字符在所述待处理文本中的位置信息以及该字符在该字符所位于的字符串中的抽取起始位置;
[0072]
摘要确定单元304,用于根据所述摘要文本对应的映射标识序列,确定所述待处理文本对应的摘要文本。
[0073]
可选的,所述已训练的摘要文本模型包括编码器和解码器;所述第二确定单元303,用于:
[0074]
将所述待处理文本以及所述待处理文本对应的映射标识序列输入所述编码器,得到隐层表征向量;
[0075]
将所述隐层表征向量输入所述解码器,得到摘要文本对应的映射标识序列。
[0076]
可选的,所述编码器为自注意力网络,所述解码器为自注意力网络。
[0077]
可选的,所述摘要文本模型在模型训练过程中所使用的损失函数为交叉熵损失函数。
[0078]
可选的,所述摘要确定单元304,用于:
[0079]
针对所述摘要文本对应的映射标识序列中的每个映射标识,根据该映射标识和该映射标识的后一个映射标识,确定该映射标识对应的字符或者字符串;
[0080]
根据所述摘要文本对应的映射标识序列中各个映射标识对应的字符或字符串,确定所述待处理文本对应的摘要文本。
[0081]
可选的,所述摘要确定单元304,用于:
[0082]
针对所述摘要文本对应的映射标识序列中的每个映射标识,基于该映射标识的标识类型和该映射标识的后一个映射标识的标识类型,从所述待处理文本或者所述预设字典中确定该映射标识对应的字符或者字符串。
[0083]
可选的,所述摘要确定单元304,用于:
[0084]
针对所述摘要文本对应的映射标识序列中的每个映射标识,若该映射标识为抽取开始位置标识,且,该映射标识的后一个映射标识为抽取结束位置标识,则根据该映射标识和该映射标识的后一个映射标识,从所述待处理文本中抽取一字符串,以及,将该字符串作为该映射标识对应的字符串;若该映射标识为抽取开始位置标识,且,该映射标识的后一个映射标识为抽取开始位置标识,则根据该映射标识从所述待处理文本或者所述预设字典中查询一字符,以及,将该字符作为该映射标识对应的字符。
[0085]
本公开实施例与现有技术相比存在的有益效果是:本公开实施例提供的摘要文本的生成装置包括:文本获取单元,用于获取待处理文本;第一确定单元,用于确定所述待处理文本对应的映射标识序列;其中,所述待处理文本对应的映射标识序列包括所述待处理文本中每个字符对应的映射标识,且字符对应的映射标识用于反映该字符在所述待处理文本中的位置信息;第二确定单元,用于将所述待处理文本以及所述待处理文本对应的映射标识序列输入已训练的摘要文本模型,得到摘要文本对应的映射标识序列;其中,所述摘要文本对应的映射标识序列包括所述摘要文本中每个字符对应的映射标识,且字符对应的映射标识用于反映该字符在所述待处理文本中的位置信息以及该字符在该字符所位于的字符串中的抽取起始位置;摘要确定单元,用于根据所述摘要文本对应的映射标识序列,确定所述待处理文本对应的摘要文本。在本实施例中,在确定所述待处理文本对应的摘要文本的过程中,先将待处理文本转换为映射标识序列,再利用摘要文本模型生成摘要文本对应的映射标识序列,接着,可以利用预设字典和待处理文本,将摘要文本对应的映射标识序列还原为摘要文本;这样,在确定待处理文本对应的摘要文本过程中,利用映射标识的方式不
仅抽取了待处理文本中的关键信息,还可以利用预设字典通过生成方式对所抽取的关键信息进行改写,从而得到摘要文本对应的映射标识序列,进而可以得到所述待处理文本对应的摘要文本;可见,上述方式可以实现通过抽取控制待处理文本的文本内容,缩减生成摘要文本任务的计算消耗和需要分析的文本长度,同时,通过生成方式改写,避免出现由于对待处理文本进行生硬拼接所导致的语句间连贯性差、灵活性差的问题,从而提升了所生成的摘要文本的语句连贯性和准确性。
[0086]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
[0087]
图4是本公开实施例提供的计算机设备4的示意图。如图4所示,该实施例的计算机设备4包括:处理器401、存储器402以及存储在该存储器402中并且可以在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者,处理器401执行计算机程序403时实现上述各装置实施例中各模块/模块的功能。
[0088]
示例性地,计算机程序403可以被分割成一个或多个模块/模块,一个或多个模块/模块被存储在存储器402中,并由处理器401执行,以完成本公开。一个或多个模块/模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序403在计算机设备4中的执行过程。
[0089]
计算机设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算机设备。计算机设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解,图4仅仅是计算机设备4的示例,并不构成对计算机设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如,计算机设备还可以包括输入输出设备、网络接入设备、总线等。
[0090]
处理器401可以是中央处理模块(central processing unit,cpu),也可以是其它通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0091]
存储器402可以是计算机设备4的内部存储模块,例如,计算机设备4的硬盘或内存。存储器402也可以是计算机设备4的外部存储设备,例如,计算机设备4上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,存储器402还可以既包括计算机设备4的内部存储模块也包括外部存储设备。存储器402用于存储计算机程序以及计算机设备所需的其它程序和数据。存储器402还可以用于暂时地存储已经输出或者将要输出的数据。
[0092]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能模块、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块、模块完成,即将装置的内部结构划分成不同的功能模块或模块,以完成以上描述的全部或者部分功能。实施例中的各功能模块、模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中,上述集成的模块
既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。另外,各功能模块、模块的具体名称也只是为了便于相互区分,并不用于限制本公开的保护范围。上述系统中模块、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0093]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0094]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
[0095]
在本公开所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或模块的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0096]
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0097]
另外,在本公开各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
[0098]
集成的模块/模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0099]
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1