多任务模型训练方法、处理方法、电子设备及存储介质与流程

文档序号：29957285发布日期：2022-05-11 08:17阅读：88来源：国知局

1.本技术涉及自然语言处理技术领域，尤其涉及一种多任务模型训练方法、处理方法、电子设备及存储介质。

背景技术：

2.自然语言处理是人工智能领域的一个重要分支。自然语言处理通常依赖语言模型进行，如bert模型、n元模型、词袋模型等。
3.在相关技术中，通常基于单独的任务，如文本主题词提取任务、标题提取任务等，进行语言模型的训练，从而得到可以处理单个任务的语言模型。当面临多任务场景时，往往需要针对各个任务分别训练一个语言模型，导致需要基于不同的训练语料训练多个语言模型，模型训练周期较长，无法满足用户需求。

技术实现要素：

4.本技术提供一种多任务模型训练方法、处理方法、电子设备及存储介质，提供了可以处理多任务的语言模型及其训练方法，提高了模型训练的效率以及模型的处理能力。
5.第一方面，本技术提供一种多任务模型训练方法，所述方法用于训练多任务模型，所述多任务模型包括至少两个任务分支，所述至少两个任务分支共用编码器，各个所述任务分支用于输出对应的任务的预测结果；该方法包括：
6.获取训练语料集，其中，所述训练语料集包括多任务训练语料以及多个第一训练文本，所述多任务训练语料包括多个第二训练文本以及各个第二训练文本与各个任务分支的预测结果对应的标签；
7.根据所述多个第一训练文本，对所述多任务模型的编码器进行预训练；
8.根据所述多任务训练语料，对预训练后的所述多任务模型的所述至少两个任务分支进行微调，以得到训练后的多任务模型。
9.第二方面，本技术提供一种文本处理方法，包括：
10.获取待处理文本；
11.基于训练后的多任务模型对所述待处理文本进行处理，得到各个任务分支输出的所述待处理文本的预测结果；
12.其中，所述训练后的多任务模型为基于本技术第一方面提供的方法训练得到的模型。
13.第三发明，本技术提供一种音频处理方法，包括：
14.获取会议系统采集的会议的音频数据，并根据所述音频数据，生成待处理文本；
15.将所述待处理文本输入训练后的多任务模型，以得到各个任务分支输出的所述音频数据的预测结果；
16.输出各个任务分支输出的所述音频数据的预测结果；
17.其中，所述训练后的多任务模型为基于本技术第一方面提供的方法训练得到的模
型。
18.第四方面，本技术提供一种多任务模型训练装置，所述装置用于训练多任务模型，所述多任务模型包括至少两个任务分支，所述至少两个任务分支共用编码器，各个所述任务分支用于输出对应的任务的预测结果；该装置包括：
19.训练语料获取模块，用于获取训练语料集，其中，所述训练语料集包括多任务训练语料以及多个第一训练文本，所述多任务训练语料包括多个第二训练文本以及各个第二训练文本与各个任务分支的预测结果对应的标签；
20.预训练模块，用于根据所述多个第一训练文本，对所述多任务模型的编码器进行预训练；
21.第一微调模块，用于根据所述多任务训练语料，对预训练后的所述多任务模型的所述至少两个任务分支进行微调，以得到训练后的多任务模型。
22.第五方面，本技术提供一种文本处理装置，包括：
23.文本获取模块，用于获取待处理文本；
24.文本处理模块，用于基于训练后的多任务模型对所述待处理文本进行处理，得到各个任务分支输出的所述待处理文本的预测结果；
25.其中，所述训练后的多任务模型为基于本技术第一方面提供的方法训练得到的模型。
26.第六方面，本技术提供一种音频处理装置，包括：
27.音频转换模块，用于获取会议系统采集的会议的音频数据，并根据所述音频数据，生成待处理文本；
28.标签生成模块，用于将所述待处理文本输入训练后的多任务模型，以得到各个任务分支输出的所述音频数据的预测结果；
29.标签输出模块，用于输出各个任务分支输出的所述音频数据的预测结果；
30.其中，所述训练后的多任务模型为基于本技术第一方面提供的方法训练得到的模型。
31.第七方面，本技术提供一种电子设备，包括：
32.处理器，以及与所述处理器通信连接的存储器；
33.所述存储器存储计算机执行指令；
34.所述处理器执行所述存储器存储的计算机执行指令，以实现本技术第一方面、第二方面或第三方面提供的方法。
35.第八方面，本技术提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现本技术第一方面、第二方面或第三方面提供的方法。
36.第九方面，本技术提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本技术第一方面、第二方面或第三方面提供的方法。
37.本技术提供的多任务模型训练方法、处理方法、电子设备及存储介质，针对自然语言多任务处理的场景，提供一种多任务模型，该多任务模块包括至少两个任务分支，如至少一个生成任务分支和至少一个分类任务分支，各个任务分支用于输入对应任务的预测结果，且该至少两个任务分支共用同一个编码器，该多任务模型的训练过程为：基于所获取的
训练语料集中的第一训练文本，对多任务模型的编码器进行预训练，提高了多任务模型对自然语言的理解能力；通过基于包括文本和多任务标签的多任务训练语料，对预训练后的模型进行微调，使得该多任务模型具备同时处理多任务的能力，提高了模型的应用范围和处理能力，通过一次训练得到可处理多种类型任务的模型，提高了模型训练的效率，同时，针对多任务场景，简化了用户的操作，避免了用户多次将文本输入多个模型中，提高了文本处理的便捷性。
附图说明
38.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
39.图1为本技术实施例的一种应用场景示意图；
40.图2为本技术实施例提供的一种多任务模型训练方法的流程示意图；
41.图3为本技术图2所示实施例中多任务模型的结构示意图；
42.图4为本技术另一个实施例提供的多任务模型的结构示意图；
43.图5为本技术另一个实施例提供的多任务模型训练方法的流程示意图；
44.图6为本技术另一个实施例中提供的多任务模型训练方法的流程示意图；
45.图7为本技术一个实施例提供的文本处理方法的流程示意图；
46.图8为本技术一个实施例提供的音频处理方法的流程示意图；
47.图9为本技术图8所示实施例中会议系统的结构示意图；
48.图10为本技术实施例提供的一种电子设备的结构示意图。
49.通过上述附图，已示出本技术明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围，而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
50.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
51.本技术实施例可以用于实现多任务场景下的文本处理，尤其可以用于口语化文本的关键句抽取和标题生成两种类型的任务的处理，图1为本技术实施例的一种应用场景示意图，如图1所示，在线上会议中，参会用户可以通过用户终端上安装的会议软件参加线上会议以及记录会议音频数据，以便于在会议结束后对会议内容进行回顾、总结。
52.在一些技术中，为了提高用户对会议内容回顾或总结的效率，可以通过音频识别技术将会议音频数据转换为文本数据。
53.在其他线上音视频场景中，如语音备忘录、影音作品、线上教育等，往往仅提供了通过音频识别将音频转换为文本数据例如字幕的功能。
54.在上述各种音视频场景下，均存在由于音视频时长较长，导致所转换的文本数据篇幅过长，用户无法基于音频转换的文本数据快速掌握音视频的主要内容的问题，即用户
需要花费较长时间，进行文本阅读和内容提炼，用户体验较差。
55.在一些技术中，提供了可以基于语言模型进行文本数据的主题词抽取，然而所依赖的模型通常为单任务语言模型，一个语言模型仅可以处理单个任务，如主题词抽取、关键句抽取或标题生成等，当面临多任务场景时，如图1中的任务1至任务3，往往需要训练不同的语言模型(如图1中的模型1至模型3)进行处理，导致模型训练成本较高、周期较长，无法满足需求。
56.为了提高多任务场景下的模型训练的效率，本技术实施例提供了一种多任务模型训练方法，基于包括文本和多任务标签的多任务训练语料，对预训练后的多任务模型的各个任务分支进行微调，实现了足以胜任多任务的模型的训练，提高了模型的应用范围和处理能力，通过多任务联合训练，提高了模型训练效率，同时减少了训练语料的数量，降低了训练成本。
57.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本技术的实施例进行描述。
58.图2为本技术实施例提供的一种多任务模型训练方法的流程示意图，本实施例提供的方法可以应用于多任务模型的训练，该多任务模型包括至少两个任务分支，各个任务分支用于输出对应的任务的预测结果，且各该多任务模型的各个任务分支共用一个编码器。该训练方法可以由任意具备数据处理功能的设备执行，如计算机、服务器等。
59.在一个实施例中，该至少两个任务分支共用同一个输入嵌入层。
60.在一些实施例中，该至少两个任务分支可以包括多个生成任务分支，或者多个分类任务分支。
61.在一些实施例中，该至少两个任务分支可以包括至少一个生成任务分支和至少一个分类任务分支。
62.在一个实施例中，生成任务可以包括标题生成、摘要生成任务等，分类任务可以包括键句抽取任务、主题词生成任务等。
63.如图2所示，该多任务模型训练方法包括以下步骤：
64.步骤s201，获取训练语料集。
65.其中，所述训练语料集包括多任务训练语料以及多个第一训练文本，所述多任务训练语料包括多个第二训练文本以及各个第二训练文本与各个任务分支的预测结果对应的标签。
66.在一个实施例中，训练文本(包括第二训练文本以及后续的第三训练文本和第四训练文本)与各个任务分支的预测结果对应的标签，可以简称为训练文本的各个任务标签，一个任务标签与一个任务分支对应，任务标签可以包括该训练文本的文本标题、文本摘要、关键句和主题词中的一项或多项。文本的关键句为该文本的一个或多个分句，是文本原生的分句。文本标题为标明文文本主要内容的简短语句，可以不是文本原生的分句。
67.在一个实施例中，所述多任务模型包括生成任务分支和分类任务分支，所述生成任务分支用于输出预测标题(对应的标签为文本标题)或预测摘要(对应的标签为文本摘要)，所述分类任务分支用于输出预测关键句(对应的标签为关键句)或预测主题词(对应的标签为主题词)。相应的，多任务训练语料包括多个第二训练文本，各个第二训练文本的文
本标题或文本摘要，以及各个第二训练文本的关键句或主题词。
68.在一个实施例中，训练语料集可以包括口语语料，还可以包括书面语语料，以使得多任务模型具备各场景下的文本处理的能力。
69.在一个实施例中，口语语料可以包括会议场景、在线教学场景、庭审场景等场景下的音频转换的口语文本，该会议场景可以为线下会议场景、线上会议场景或者线下和线上结合的会议场景。
70.在一个实施例中，口语语料还可以包括语言备忘录、影音作品等音频数据转换的口语文本。其中，影音作品可以包括电影、脱口秀、访谈等作品。
71.在一个实施例中，书面语料可以包括论文、新闻、使用数码等。
72.在一个实施例中，第一训练文本可以为口语训练语料。
73.在一个实施例中，音频识别设备，如会议音频识别设备，可以实时或按照一定周期或基于指令，将所识别的音频数据的文本数据上传至多任务模型训练设备，作为多任务模型的第一训练文本。
74.在一个实施例中，多任务训练语料中包括第二训练文本，以及各任务分支的任务标签，如关键句和文本标题。可以由人工标注的方式，为第二训练文本添加各任务分支的任务标签，从而得到多任务训练语料；或者可以借助现有的单任务语言模型，如关键句抽取语言模型、标题生成语言模型、主题词抽取语言模型、摘要生成语言模型等，得到第二训练文本的各任务分支的任务标签。
75.在一个实施例中，在获取训练语料集之后，还可以对训练语料集中的各个训练文本，包括第一训练文本和第二训练文本，还可以包括后续的第三训练文本和第四训练文本，进行预处理，如分词、语言检测、翻译等。
76.在一个实施例中，可以预先建立各种语言对应的多任务模型，以基于语言检测结果，确定训练文本对应的多任务模型。
77.步骤s202，根据所述多个第一训练文本，对多任务模型的编码器进行预训练。
78.在一个实施例中，多任务模型可以为已经过大量公开语料预训练的模型。
79.在一个实施例中，第一训练文本可以为多任务模型对应的场景下的语料，如口语语料中的会议语料、庭审语料、备忘录语料等，或者书面语语料中的各领域下的论文、卷宗等。
80.示例性的，以会议、教育、庭审等口语场景为例，第一训练文本可以包括该场景下记录的各个历史时间采集的音频数据转换的文本及大规模的口语语料，进行多任务模型的预训练，以提高多任务模型处理口语化文本的能力。
81.在一个实施例中，可以通过第一训练文本动态掩码的方式，预训练该多任务模型的编码器，从而得到预训练后的多任务模型，以提高多任务模型对自然语言的理解能力。
82.步骤s203，根据所述多任务训练语料，对预训练后的所述多任务模型的所述至少两个任务分支进行微调，以得到训练后的多任务模型。
83.在一个实施例中，可以基于第二训练文本以及该第二训练文本的各个任务标签，对预训练后的多任务模型的各个任务分支进行微调，以得到训练后的多任务模型。
84.在一个实施例中，可以基于多任务训练语料中的文本标题或文本摘要对多任务模型的生成任务分支进行微调，以及基于多任务训练语料中的关键句或主题对多任务模型的
分类任务分支进行微调。
85.在一个实施例中，可以通过各个任务分支的损失函数计算每次训练的误差，通过各个任务分支的误差的在对应任务分支的反向传播，进行各个任务分支的模型参数的更新。
86.在一个实施例中，多任务模型训练的结束条件可以包括各个任务分支的损失函数的误差满足预设条件，或者训练时间到达预设时间，或者训练次数达到预设次数。
87.本实施例提供的多任务模型训练方法，针对自然语言多任务处理的场景，提供一种多任务模型，该多任务模块包括至少两个任务分支，如至少一个生成任务分支和至少一个分类任务分支，各个任务分支用于输入对应任务的预测结果，且该至少两个任务分支共用同一个编码器，该多任务模型的训练过程为：基于所获取的训练语料集中的第一训练文本，对多任务模型的编码器进行预训练，提高了多任务模型对自然语言的理解能力；通过基于包括文本和多任务标签的多任务训练语料，对预训练后的模型进行微调，使得该多任务模型具备同时处理多任务的能力，提高了模型的应用范围和处理能力，通过一次训练得到可处理多种类型任务的模型，提高了模型训练的效率，同时，针对多任务场景，简化了用户的操作，避免了用户多次将文本输入多个模型中，提高了文本处理的便捷性。
88.在一个实施例中，至少两个任务分支可以包括生成任务分支和分类任务分支。该生成任务分支包括编码器和解码器，该分类任务分支包括编码器和池化层。相应的，根据所述多个第一训练文本，对所述多任务模型的编码器进行预训练，包括：根据所述多个第一训练文本，对所述编码器以及所述解码器进行预训练。
89.在一个实施例中，编码器可以为transformer编码器，由多个编码层组成。相应的，解码器可以为transformer解码器，由多个解码层组成，解码器与编码器的层数相同，如均为3层、6层或者其他层数。
90.图3为本技术图2所示实施例中多任务模型的结构示意图，图3以多任务模块包括一个生成任务分支和一个分类任务分支为例，如图3所示，该多任务模型包括输入嵌入层embedding、编码器encoder、解码器decoder、池化层pooling、第一输出层out1和第二输出层out2；输入嵌入层embedding与编码器encoder连接，编码器encoder分别与所述池化层pooling和解码器decoder连接，池化层pooling与第一输出层out1连接，解码器decoder与第二输出层out2连接；生成任务分支包括输入嵌入层embedding、编码器encoder、解码器decoder和第一输出层out1；分类任务分支包括输入嵌入层embedding、编码器encoder、池化层pooling和第二输出层out2。输入嵌入层embedding用于生成文本的分词向量(tokenids)和分句向量(sentenceids)；编码器encoder用于根据分词向量、分词位置向量和分句向量，生成文本的编码向量；解码器decoder用于对编码向量进行解码，生成实数向量；第一输出层out1用于根据所述实数向量，生成并输出文本的预测标题或预测摘要；池化层pooling用于将编码向量映射为得分向量；第二输出层out2用于根据得分向量，确定文本的各个分句或各个分词的标签，以得到文本的预测关键句或预测主题词。
91.在一个实施例中，编码器encoder包括自注意力层和前馈网络层。
92.在一个实施例中，编码器encoder还相对位置编码层，该相对位置编码层与自注意力层连接，用于采用相对位置编码的方式表征自注意力层输入的各分词之间的位置关系。
93.在一个实施例中，输入嵌入层embedding还用于生成分词位置向量(positionids)
和语句分块向量(segmentids)。相应的，编码器encoder用于根据分词向量、分词位置向量、语句分块向量和分句向量，生成文本的编码向量。
94.在一个实施例中，多任务模型的池化层为加权平均池化层(weighted average pooling)。
95.在一个实施例中，当分类任务分支的输出为文本的预测关键句，该任务为三任务分类任务，第二输出层out2输出的分句的标签包括“o”标签、“b”标签和“i”标签，预测关键句为组合分数最高的相邻的“b”标签和“i”标签组成的分句。其中，“o”标签对应的分句不是关键句的组成部分，“b”标签对应的分句为关键句的前半部分，“i”标签对应的分句为关键句的后半部分。
96.其中，相邻的“b”标签和“i”标签对应的两个分句组成的分句的组合分数，可以由“b”标签对应的分句的得分和“i”标签对应的分句的得分确定。
97.示例性的，图4为本技术另一个实施例提供的多任务模型的结构示意图，图4以生成任务分支输出文本标题，以分类任务输出关键句为例，如图4所示，该多任务模型包括编码器、解码器、池化层、第一输出层和第二输出层，第一输出层用于输出各个分句的标签，从而进行关键句的预测，第二输出层用户输出预测的标题。分词向量(tokenids)中的每个元素用于表示对应位置的分词，如可以为该位置对应的分词在领域词典中的编码，语句分块向量(segmentids)中的每个元素用于表示对应位置的分词所属的分句，分句向量(sentenceids)中的每个元素为该位置对应的分词所属的分句的编号。图4中以编码器为k层为例，编码器输出的“c”表示符号“cls”，“s”则表示符号“sep”，t1表示对应位置的分词的编码，即符号“cls”右侧的分词的编码。通过池化层将编码向量映射为分句得分，通过第一输出层得到各个分句的标签，从而得到关键句。
98.在一个实施例中，多任务模型的第二输出层out2为线性变换层或softmax层。
99.在一个实施例中，多任务模型的生成任务分支的损失函数包括复制损失函数，所述复制损失函数用于评估所生成的预测标签与对应文本的原文的偏差。
100.在一个实施例中，该复制损失函数用于评估所生成的预测文本标题与对应文本的目标分句的偏差，其中，目标分句为对应文本的分句中与预测文本标题相似度最高的分句。
101.在一个实施例中，该复制损失函数用于评估所生成的预测文本摘要的各个分句与对应文本中的各个目标分句的偏差，其中，一个目标分句与一个预测文本摘要的分句对应，该目标分句为对应文本的分句中与对应的预测文本摘要的分句相似度最高的分句。
102.在一个实施例中，多任务模型的生成任务分支的损失函数一般损失函数和上述复制损失函数。该一般损失函数可以为任意一种常用于生成任务的损失函数，如绝对值损失函数、平方损失函数、指数损失函数等。
103.在一个实施例中，多任务模型的分类任务分支的损失函数可以包括交叉熵损失函数、hinge损失函数、逻辑损失函数等。
104.图5为本技术另一个实施例提供的多任务模型训练方法的流程示意图，本实施例以多任务模型包括分类任务分支和生成任务分支为例，每种分支(包括分类任务分支和生成任务分支)的数量可以至少为一个，本实施例中的训练语料集还包括单任务训练语料。本实施例是在图2所示实施例中的基础上，对步骤s203进行进一步细化，如图5所示，本实施例提供的多任务模型训练方法可以包括以下步骤：
105.步骤s501，获取训练语料集。
106.其中，训练语料集单任务训练语料、多任务训练语料以及多个第一训练文本，单任务训练语料包括多个第三训练文本以及各个第三训练文本的生成任务分支的预测结果对应的标签。
107.在一个实施例中，单任务训练语料中只包括一个生成任务分支的任务标签，如文本标题或文本摘要。即该单任务训练语料可以仅包括多个第三训练文本及其文本标题，或者该单任务训练语料可以仅包括多个第三训练文本及其文本摘要。
108.步骤s502，根据所述多个第一训练文本，对所述多任务模型的编码器和解码器进行预训练。
109.在一个实施例中，可以基于bert预训练的方式，根据多个第一训练文本，对多任务模型的编码器和解码器进行预训练。
110.在一个实施例中，可以在多个第一训练文本中，随机抽取第一部分(如10％、15％等)的分词(token)或短语，其中，短语包括多个分词，针对被抽取的各个分词或短语，在第一概率(如80％、70％等)下，采用掩码(mask)替换该分词或短语，所抽取的分词在自然句中的位置可以不同；在第二概率(如10％、15％等)下，采用一个随机词替换该分词或该短语中的分词，在第三概率(如10％、15％等)下保持该分词或短语不变。第一概率、第二概率和第三概率三者之和为100％。基于包括掩码和随机词的第一训练文本对多任务模型进行预训练，该多任务模型需要预测被掩码遮盖的分词或短语，从而提高了编码器和解码器理解自然语言(如口语)的能力。
111.示例性的，以分句为“我赞成张三的观点”为例，所抽取的分词为“观点”，则采用掩码替换“观点”之后，该分句变为“我赞成张三的[mask]”；随机词为“内容”，则采用随机词替换“观点”之后，该分句变为“我赞成张三的内容”。
[0112]
步骤s503，根据所述多任务训练语料，对所述预训练后的所述多任务模型的所述至少两个任务分支进行微调。
[0113]
步骤s504，针对每个第三训练文本，确定所述第三训练文本的分类任务分支的预测结果对应的伪标签。
[0114]
其中，伪标签为通过语言模型或者其他方式，为第三训练文本添加的该训练文本缺失的任务分支的任务标签。
[0115]
示例性的，以生成任务分支输出文本标题，分类任务分支输出关键句为例，由于第三训练文本仅包括生成任务分支的任务标签，即文本标题，则第三训练文本的伪标签为伪关键句。
[0116]
在一个实施例中，可以通过公开的用于进行分类的语言模型，如关键句抽取模型、主题词抽取模型等，生成各个第三训练文本的分类任务分支对应的伪标签。
[0117]
在一个实施例中，可以通过rouge(recall-oriented understudy for gisting evaluation)方法，如rouge-n、rouge-l、rouge-w等方法，确定第三文本的关键句的伪标签，即伪关键句。
[0118]
在一个实施例中，可以将各个第三训练文本输入多任务模型的分类任务分支，通过模型推理，输出各个第三训练文本的分类任务分支对应的伪标签。
[0119]
在一个实施例中，确定所述第三训练文本的分类任务分支的预测结果对应的伪标
签，包括：
[0120]
将所述第三训练文本输入所述分类任务分支，得到所述第三训练文本的分类任务分支的预测结果对应的伪标签。
[0121]
在一个实施例中，所述分类任务分支用于输出关键句，所述分类任务分支的预测结果对应的伪标签为伪关键句，确定所述第三训练文本的分类任务分支的预测结果对应的伪标签，包括：
[0122]
获取所述第三训练文本的各个短语；根据各个所述短语与所述第三训练文本的文本标题的相似度，确定所述第三训练文本的伪关键句。
[0123]
在一个实施例中，可以基于n元模型(n-gram)、分词器等，获取第三训练文本的各个短语，其中，每个短语包括多个分词的短语。
[0124]
在一个实施例中，第三训练文本的短语的分词数量的最大值为该第三训练文本的文本标题的分词数量。
[0125]
在一个实施例中，分句与文本标题的相似度可以采用向量距离表征。
[0126]
在一个实施例中，根据各个短语与第三训练文本的文本标题的相似度，确定第三训练文本的伪关键句，可以具体包括以下步骤：
[0127]
基于短语所在位置由前到后对各个短语进行排序，得到短语序列；遍历短语序列中的每个的短语，针对每个短语执行下述步骤：判断该短语与后一短语对应的组合短语与文本标题的相似度是否高于该短语与文本标题的相似度；若否，则获取下一短语，进入下一次迭代；若是，则将该短语与后一短语组合，得到组合短语；以该组合短语为基准，判断该组合短语与后一短语对应的组合短语与文本标题的相似度是否高于该组合短语与文本标题的相似度；若是，则将该组合短语与后一短语组合，得到新的组合短语；依次类推，直至该短语对应的当前的组合短语与后一短语对应的组合短语与文本标题的相似度小于或等于当前的组合短语与文本标题的相似度，得到该短语对应的与文本标题的相似度最高的组合短语，确定与文本标题的相似度最高的短语或组合短语为对应的第三训练文本的伪关键句。其中，短语或组合短语的后一短语为位置位于该短语或该组合短语右方的相邻的短语。
[0128]
在一个实施例中，步骤s504可以在步骤s501之后以及步骤s505之前执行，如步骤s504可以在步骤s502之前执行，或者可以在步骤s502之后以及步骤s503之前执行，或者可以在步骤s503之后执行，或者可以与步骤s502或步骤s503并行执行，图5中以步骤s504和步骤s502并行执行为例。
[0129]
步骤s505，根据各个单任务训练语料及各个所述第三训练文本的伪标签，对根据所述多任务语料微调后的所述多任务模型的所述至少两个任务分支进行微调，以得到训练后的多任务模型。
[0130]
通过为第三训练文本添加所确实的伪标签，使得第三训练文本有单任务训练语料转换为伪多任务训练语料，基于该伪多任务语料，对基于多任务语料微调后的多任务模型的各个任务分支进行第二次微调，得到准确度更高的多任务模型。具体微调过程与步骤s503或步骤s203相似，在此不再赘述。
[0131]
在本实施例中，基于包括单任务训练语料和多任务训练语料的训练集进行多任务模型的微调，降低了对训练语料的要求；通过自动为单任务训练语料添加伪标签，提高了训练语料的标注效率；通过基于多任务训练语料和伪多任务训练语料对应的两个阶段的微
调，提高了训练后的多任务模型的各个任务分支的准确度。
[0132]
在一个实施例中，训练语料集还包括生成任务训练语料，该生成任务语训练语料仅用于微调多任务模型的生成任务分支，该生成任务语训练语料包括多个第四训练文本及各个第四训练文本的生成任务分支的预测结果对应的标签，如文本标题或文本摘要。在执行步骤s503或在步骤s203之前，该多任务模型训练方法还可以包括以下步骤：
[0133]
基于所述生成任务训练语料，对预训练后的所述多任务模型的生成任务分支进行微调。
[0134]
相应的，根据所述多任务训练语料，对预训练后的所述多任务模型的所述至少两个任务分支进行微调，包括：
[0135]
根据所述多任务训练语料，对基于所述生成任务训练语料微调后的多任务模型的所述至少两个任务分支进行微调。
[0136]
在一个实施例中，生成任务语训练语料可以为包括文本标题或文本摘要的书面语料。
[0137]
通过生成任务语训练语料进行生成任务分支的单独微调，强化了多任务模型中生成任务分支的能力，提高了生成任务分支输出的预测结果的准确度。
[0138]
示例性的，图6为本技术另一个实施例中提供的多任务模型训练方法的流程示意图，如图6所示，该多任务模型训练方法主要包括三个阶段：预训练、单任务微调阶段和多任务微调阶段，在预训练阶段，是通过大规模口语语料进行多任务模型的预训练，得到预训练后的多任务模型，称为预训练口语模型；在单任务微调阶段，通过包括标题的书面语语料对预训练口语模型进行微调，得到第一次微调后的多任务模型，称为书面语标题模型，强化多任务模型处理生成任务的能力；在多任务微调阶段，通过多种训练语料，包括口语标题语料(仅包括标题的口语语料)、口语伪标签语料(添加伪标签的口语语料)、口语多任务语料(包括标题和关键句的口语语料)等，对书面语标题模型进行进一步微调，得到训练后的多任务模型，称为联合模型，使得训练后的多任务模型能更好地适应口语场景，如口语长篇场景(会议音频所转换的文本通常为口语长篇文本)。各阶段的具体步骤可以参考上述任意实施例提供的多任务模型训练方法的对应步骤，在此不再赘述。
[0139]
图7为本技术一个实施例提供的文本处理方法的流程示意图，该文本处理方法可以由任意具备数据处理功能的设备执行，如移动终端、计算机、服务器等。如图7所示，该文本处理方法包括以下步骤：
[0140]
步骤s701，获取待处理文本。
[0141]
在一个实施例中，待处理文本可以为音频数据(如会议音频、语音备忘录、在线教育音频、访谈节目等)转换的文本。
[0142]
示例性的，待处理文本可以为在线教育场景下，教师授课时输出的音频数据转换的文本数据，还可以为线上或线下会议场景下，记录的会议音频数据转换的文本数据，还可以为语音备忘录转换的文本数据，或者为影音作品，如脱口秀、电影、访谈等作品，转换的文本数据。
[0143]
在一个实施例中，待处理文本可以为论文、新闻、说明书、小说的章节等书面文本。
[0144]
在一个实施例中，在获取待处理文本之后，还可以对待处理文本进行预处理，如分词、语音检测等。
[0145]
在一个实施例中，可以基于分词器，对待处理文本进行分词处理，得到待处理文本的各个分句和各个分词，以及对各个分词进行词性标注，和分词归一化等操作。
[0146]
在一个实施例中，可以对待处理文本进行语言检测，得到待处理文本采用的语言，选择语言匹配的分词器，进行待处理文本的分词处理。
[0147]
在一个实施例中，分词器可以基于预先存储的词典，对待处理文本进行分词划分，得到待处理文本的各个分词。
[0148]
步骤s702，基于训练后的多任务模型对所述待处理文本进行处理，得到各个任务分支输出的所述待处理文本的预测结果。
[0149]
其中，该多任务模型可以为上述任意实施例提供的多任务模型，可以基于上述任意实施例提供的训练方法训练该多任务模型，得到训练后的多任务模型。如基于图2、图5和图6对应的任意实施例提供的方法训练该任务模型，从而得到训练后的多任务模型。
[0150]
在一个实施例中，得到各个任务分支输出的该待处理文本的预测结果之后，还可以向用户显示各个任务分支输出的该待处理文本的预测结果。
[0151]
图8为本技术一个实施例提供的音频处理方法的流程示意图，本实施例针对会议场景，如图8所示，该音频处理方法包括以下步骤：
[0152]
步骤s801，获取会议系统采集的会议的音频数据。
[0153]
步骤s802，根据所述音频数据，生成待处理文本。
[0154]
步骤s803，将所述待处理文本输入训练后的多任务模型，以得到各个任务分支输出的所述音频数据的预测结果。
[0155]
其中，该多任务模型可以为上述任意实施例提供的多任务模型，可以基于上述任意实施例提供的训练方法训练该多任务模型，得到训练后的多任务模型。如基于图2、图5和图6对应的任意实施例提供的方法训练该任务模型，从而得到训练后的多任务模型。
[0156]
步骤s804，输出各个任务分支输出的所述音频数据的预测结果。
[0157]
在一个实施例中，可以将各个预测结果与对对应的音频数据绑定或存储在同一文件夹下，以便于用户在查找该音频数据时，可以同时查阅该音频数据的各个预测结果。
[0158]
在一个实施例中，可以根据该音频数据的预测结果生成并向用户展示会议纪要初稿，以便于在该会议纪要初稿的基础上，撰写音频数据对应的会议的会议纪要。
[0159]
在一个实施例中，会议系统可以包括一个或多个用户终端和处理装置。上述音频数据可以由该用户终端采集，上述音频处理方法可以由该处理装置执行。用户可以通过用户终端在会议现场或进行线上会议的过程中，采集会议的音频数据，进而将该音频数据上传至处理装置，以由该处理装置执行本技术实施例提供的音频处理方法，从而输出该会议的预测主题词、预测关键句、预测摘要、预测标题等中的至少两项预测结果，以便于用户进行会议纪要的撰写，或者便于用户快速回顾会议内容。
[0160]
在一个实施例中，该会议系统可以包括投影仪、会议设备和处理装置，该会议设备与投影仪连接，以展示会议内容。音频数据可以由该会议设备采集，并发送至处理装置，以实现会议的音频数据的主题词抽取。
[0161]
示例性的，图9为本技术图9所示实施例中会议系统的结构示意图，如图9所示，会议系统可以包括多个用户终端902，和服务器904，服务器904与各个用户终端902通过网络连接，以实现线上会议。用户可以通过用户终端902安装的会议软件参加线上会议，并采集
该线上会议的音频数据，进而由服务器904、用户终端902或其他具备数据处理功能的终端，执行本实施例提供的音频处理方法，从而实现线上会议的音频处理方法。
[0162]
可选的，针对在线教育场景，一种音频处理方法，可以包括：获取教育辅助系统采集的音频数据，并根据所述音频数据，生成待处理文本；将所述待处理文本输入训练后的多任务模型，以得到各个任务分支输出的所述音频数据的预测结果；输出各个任务分支输出的所述音频数据的预测结果。
[0163]
实现了提取授课过程中的音频数据的预测主题词、预测关键句、预测标题或预测摘要等至少两项预测结果，使用户得以基于上述预测结果快速掌握视频的主要内容，以便于进行课程的选择。
[0164]
本技术实施例提供的一种多任务模型训练装置，用于训练多任务模型，所述多任务模型包括至少两个任务分支，所述至少两个任务分支共用编码器，各个所述任务分支用于输出对应的任务的预测结果；该多任务训练装置包括：训练语料获取模块、预训练模块和第一微调模块。
[0165]
其中，训练语料获取模块，用于获取训练语料集，其中，所述训练语料集包括多任务训练语料以及多个第一训练文本，所述多任务训练语料包括多个第二训练文本以及各个第二训练文本与各个任务分支的预测结果对应的标签；预训练模块，用于根据所述多个第一训练文本，对所述多任务模型的编码器进行预训练；第一微调模块，用于根据所述多任务训练语料，对预训练后的所述多任务模型的所述至少两个任务分支进行微调，以得到训练后的多任务模型。
[0166]
可选的，所述至少两个任务分支包括生成任务分支和分类任务分支，所述训练语料集还包括单任务训练语料，所述单任务训练语料包括多个第三训练文本以及各个第三训练文本的生成任务分支的预测结果对应的标签；第一微调模块，包括：
[0167]
第一微调单元，用于根据所述多任务训练语料，对所述预训练后的所述多任务模型的所述至少两个任务分支进行微调；伪标签生成单元，用于针对每个第三训练文本，确定所述第三训练文本的分类任务分支的预测结果对应的伪标签；第二微调单元，用于根据各个单任务训练语料及各个所述第三训练文本的伪标签，对根据所述多任务语料微调后的所述多任务模型的所述至少两个任务分支进行微调，以得到训练后的多任务模型。
[0168]
可选的，伪标签生成单元，具体用于：
[0169]
将所述第三训练文本输入所述分类任务分支，得到所述第三训练文本的分类任务分支的预测结果对应的伪标签。
[0170]
可选的，所述分类任务分支用于输出关键句，所述分类任务分支的预测结果对应的伪标签为伪关键句，伪标签生成单元，具体用于：
[0171]
获取所述第三训练文本的各个短语；根据各个所述短语与所述第三训练文本的文本标题的相似度，确定所述第三训练文本的伪关键句。
[0172]
可选的，所述至少两个任务分支包括生成任务分支和分类任务分支，所述训练语料集还包括生成任务训练语料，所述生成任务语训练语料包括多个第四训练文本及各个第四训练文本的生成任务分支的预测结果对应的标签，所述装置还包括：
[0173]
第二微调模块，用于基于所述生成任务训练语料，对预训练后的所述多任务模型的生成任务分支进行微调。
[0174]
相应的，第一微调模块，具体用于：
[0175]
根据所述多任务训练语料，对基于所述生成任务训练语料微调后的多任务模型的生成任务分支和分类任务分支进行微调。
[0176]
可选的，所述分类任务分支包括所述编码器和池化层，所述生成任务分支包括所述编码器和解码器。
[0177]
可选的，预训练模块，具体用于：
[0178]
根据所述多个第一训练文本，对所述编码器以及所述解码器进行预训练。
[0179]
可选的，所述多任务模型包括输入嵌入层、编码器、解码器、池化层、第一输出层和第二输出层；所述输入嵌入层与所述编码器连接，所述编码器分别与所述池化层和解码器连接，所述池化层与所述第一输出层连接，所述解码器与所述第二输出层连接；所述生成任务分支包括，输入嵌入层、编码器、解码器和第一输出层；所述分类任务分支包括输入嵌入层、编码器、池化层和第二输出层；
[0180]
所述输入嵌入层用于生成文本的分词向量、分词位置向量和分句向量；
[0181]
所述编码器用于根据所述分词向量、分词位置向量和分句向量，生成所述文本的编码向量；所述解码器用于对所述编码向量进行解码，生成实数向量；所述第一输出层用于根据所述实数向量，生成并输出所述文本的预测标题或预测摘要；所述池化层用于将所述编码向量映射为得分向量；所述第二输出层用于根据所述得分向量，确定所述文本的各个分句或各个分词的标签，以得到所述文本的预测关键句或预测主题词。
[0182]
可选的，所述多任务模型的损失函数包括复制损失函数，所述复制损失函数用于评估所生成的预测文本标题与对应文本的目标分句的偏差，其中，目标分句为对应文本的分句中与所述预测文本标题相似度最高的分句。
[0183]
本技术实施例提供的多任务模型训练装置，可用于执行上述图2、图5和图6对应的任意实施例提供的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。
[0184]
本技术实施例提供一种文本处理装置，包括：文本获取模块和文本处理模块。
[0185]
其中，文本获取模块，用于获取待处理文本；文本处理模块，用于基于训练后的多任务模型对所述待处理文本进行处理，得到各个任务分支输出的所述待处理文本的预测结果；其中，所述训练后的多任务模型为基于本技术图2、图5和图6对应的任意实施例提供的方法训练得到的模型。
[0186]
本技术实施例提供一种音频处理装置，包括：音频转换模块和标签生成模块。
[0187]
其中，音频转换模块，用于获取会议系统采集的会议的音频数据，并根据所述音频数据，生成待处理文本；标签生成模块，用于将所述待处理文本输入训练后的多任务模型，以得到各个任务分支输出的所述音频数据的预测结果；标签输出模块，用于输出各个任务分支输出的所述音频数据的预测结果；
[0188]
其中，所述训练后的多任务模型为基于本技术图2、图5和图6对应的任意实施例提供的方法训练得到的模型。
[0189]
图10为本技术实施例提供的一种电子设备的结构示意图，如图10所示，本实施例的提供的电子设备包括：
[0190]
至少一个处理器1010；以及与所述至少一个处理器通信连接的存储器1020；其中，所述存储器1020存储有计算机执行指令；所述至少一个处理器1010执行所述存储器存储的
计算机执行指令，以使所述电子设备执行如前述任一实施例提供的方法。
[0191]
可选地，存储器1020既可以是独立的，也可以跟处理器1010集成在一起。
[0192]
本实施例提供的电子设备的实现原理和技术效果可以参见前述各实施例，此处不再赘述。
[0193]
本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时，可以实现前述任一实施例提供的方法。
[0194]
本技术实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一实施例提供的方法。
[0195]
在本技术所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。
[0196]
上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本技术各个实施例所述方法的部分步骤。
[0197]
应理解，上述处理器可以是中央处理单元(central processing unit，简称cpu)，还可以是其它通用处理器、数字信号处理器(digital signal processor，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速ram存储器，也可能还包括非易失性存储nvm，例如至少一个磁盘存储器，还可以为u盘、移动硬盘、只读存储器、磁盘或光盘等。
[0198]
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
[0199]
一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(application specific integrated circuits，简称asic)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
[0200]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0201]
上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。
[0202]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方
法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本技术各个实施例提供的方法。
[0203]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本技术的真正范围和精神由下面的权利要求书指出。
[0204]
应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邓憧王雯索宏彬
技术所有人：阿里巴巴（中国）有限公司
我是此专利的发明人

上一篇：空调消音器模拟试验系统及方法与流程
上一篇：一种显示管电子枪热丝绕制的导向装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。