训练数据的处理方法、装置及电子设备与流程

文档序号：24561950发布日期：2021-04-06 12:11阅读：72来源：国知局

本申请的实施例总体上涉及数据处理技术领域，并且更具体地涉及语音技术、大数据、深度学习等人工智能技术领域。

背景技术：

随着移动互联网的兴起，用户对于个性化语音定制服务等的需求愈发强烈，由此，个性化tts(texttospeech，语音合成)技术应运而生。特别地，基于zero-shot(零次学习)的个性化tts技术，因不需要fine-tune(微调)模型，即能合成一个在训练数据中没出现过的说话人的语音，更是收到了越来越多的关注。

性能突出的基于zero-shot的tts技术的实现，得益于一个基于超大规则数据库训练好的基础模型，由于其训练数据量的丰富，模型可以覆盖各种类型和风格的音色，且具有一定的稳定性和泛化能力。

然而根据现有训练数据的处理方法，在采集zero-shottts模型的训练数据集时，往往存在耗时久、效率差、准确率低等问题。因此，如何提高训练数据的处理过程中的效率和可靠性，已成为了重要的研究方向之一。

技术实现要素：

本申请提供了一种训练数据的处理方法、装置及电子设备。

根据第一方面，提供了一种训练数据的处理方法，包括：

获取训练数据；

根据预设标准对所述训练数据进行检验；

将检验合格的所述训练数据加入零次学习语音合成模型的训练数据集中。

根据第二方面，提供了一种训练数据的处理装置，包括：

获取模块，用于获取训练数据；

检验模块，用于根据预设标准对所述训练数据进行检验；

加入模块，用于将检验合格的所述训练数据加入零次学习语音合成模型的训练数据集中。

根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请第一方面所述的训练数据的处理方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请第一方面所述的训练数据的处理方法。

根据第五方面，提供了一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现本申请第一方面所述的训练数据的处理方法的步骤。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是根据本申请第二实施例的示意图；

图3是用来实现本申请实施例的训练数据的处理方法的训练数据的处理装置的框图；

图4是用来实现本申请实施例的训练数据的处理方法的训练数据的处理装置的框图；

图5是用来实现本申请实施例的训练数据的处理的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

以下对本申请的方案涉及的技术领域进行简要说明：

数据处理(dataprocessing)，是对数据的采集、存储、检索、加工、变换和传输。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度，极大地影响了人类社会发展的进程。

ai(artificialintelligence，人工智能)，是研究使计算机来模拟人生的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术，也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及及其学习/深度学习、大数据处理技术、知识图谱技术等几大方面。

dl(deeplearning，深度学习)，是ml机器学习(machinelearning，机器学习)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

语音技术，是指在计算机领域中的关键技术有asr(automaticspeechrecognition，自动语音识别技术)和tts(texttospeech，语音合成)。让计算机说话需要用到语音合成技术，其核心是tts技术，语音合成甚至已经应用到汽车的信息系统上，车主可以将下载到系统电脑中的文本文件、电子邮件、网络新闻或小说，转换成语音在车内收听。

大数据(bigdata)，是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

下面参考附图描述本申请实施例的训练数据的处理方法、装置及电子设备。

图1是根据本申请第一实施例的示意图。其中，需要说明的是，本实施例的训练数据的处理方法的执行主体为训练数据的处理装置，训练数据的处理装置具体可以为硬件设备，或者硬件设备中的软件等。其中，硬件设备例如终端设备、服务器等。如图1所示，本实施例提出的训练数据的处理方法，包括如下步骤：

s101、获取训练数据。

其中，训练数据，可以为在上次获取训练数据后新增的训练数据。

需要说明的是，本申请对于获取训练数据的具体方式不作限定，可以根据实际情况进行选取。

可选地，可以实时或者按照预设周期判断零次学习语音合成模型的预设固定目录是否为空，若预设固定目录为空，说明在上次获取训练数据后，不存在新增的训练数据；若预设固定目录不为空，说明在上次获取训练数据后，存在新增的训练数据，此时，可以获取此部分训练数据。

其中，预设固定目录，指的是用以存储新增训练数据的目录，可以根据实际情况进行设定，例如，可以设定预设固定目录为外部数据源目录。

s102、根据预设标准对训练数据进行检验。

其中，预设标准，指的是用以检验训练数据是否合格的标准，可以根据实际情况进行设定。

s103、将检验合格的训练数据加入零次学习语音合成模型的训练数据集中。

本申请实施例中，可以将检验合格的训练数据加入零次学习语音合成模型的训练数据集中，此种情况下，检验合格的训练数据与零次学习语音合成模型的训练数据集中原有数据，构成了新的训练数据集。

根据本申请实施例的训练数据的处理方法，可以通过获取训练数据，并根据预设标准对训练数据进行检验，然后将检验合格的训练数据加入零次学习语音合成模型的训练数据集中。由此，本申请根据预设标准挖掘并筛选训练数据，不再依赖人工干预，能够实现工业化的全自动零次学习语音合成模型训练数据的处理，提升了训练数据的处理过程中的效率和可靠性。

需要说明的是，本申请中，在试图获取训练数据时，可以周期性获取训练数据。可选地，可以周期性从预设的训练数据目录下抽取训练数据，并将抽取到的训练数据移出，送入数据检验流程。

作为一种可能的实现方式，可以按照预设周期判断零次学习语音合成模型的预设固定目录是否为空，若预设固定目录为空，说明在上次获取训练数据后，不存在新增的训练数据；若预设固定目录不为空，说明在上次获取训练数据后，存在新增的训练数据，此时，可以抽取此部分训练数据。

进一步地，在试图根据预设标准对训练数据进行检验时，可以将不满足预设的不合格标准的训练数据确定为检验合格的训练数据。

其中，训练数据包括训练音频和对应的文本，此种请情况下，预设的不合格标准可以包括以下4个标准：

不合格标准1：训练音频的数量小于预设的第一数量阈值的说话人的训练数据。

其中，第一数量阈值可以根据实际情况进行设定，例如，可以设定第一数量阈值为20。例如，若训练音频的数量小于20条，此种情况下，对应的发音者(说话人)的训练数据为不合格训练数据。

不合格标准2：训练音频和对应的文本的对齐似然值小于预设的对齐似然阈值的训练数据。

作为一种可能的实现方式，可以将训练音频和对应的文本输入至预先训练好的对齐识别模型，得到训练音频和对应的文本的对齐似然值。进一步地，可以将获取到的对齐似然值与预设的对齐似然阈值进行比较，若对齐似然值小于对齐似然阈值，说明此训练音频质量较差或者训练音频和对应的文本无法对齐，此种情况下，该训练数据为不合格训练数据。

其中，对齐似然阈值可以根据实际情况进行设定。

不合格标准3：训练音频的嵌入向量值与同一说话人的平均嵌入向量值的距离大于预设的距离阈值的训练数据。

作为一种可能的实现方式，可以将训练音频输入至预先训练好的声纹(voiceprint)模型，得到训练音频对应的嵌入向量(embedding)值。进一步地，可以针对每一个说话人，计算嵌入向量值的平均值，以及每个嵌入向量值与平均值之间的距离。然后可以将平均嵌入向量值的距离与预设的距离阈值进行比较，若平均嵌入向量值的距离大于预设的距离阈值，说明此嵌入向量值对应的训练音频的风格与其他音频不一致。此种情况下，可以确定该训练数据为不合格训练数据。

不合格标准4：距离大于距离阈值的训练音频的数量大于预设的第二数量阈值的说话人的训练数据。

可选地，可以获取同一个说话人的距离大于距离阈值的训练音频的数量，并与预设的第二数量阈值进行比较，若距离大于距离阈值的训练音频的数量大于预设的第二数量阈值的说话人的训练数据，则可以确定此说话人为不合格说话人，相应地，该说话人的所有训练数据均视为不合格训练数据。

其中，第二数量阈值可以根据实际情况进行设定，例如，可以设定第二数量阈值为5。例如，若识别说话人甲共有7条训练音频的平均嵌入向量值的距离大于预设的距离阈值，则可以确定说话人甲为不合格说话人，相应地，说话人甲的所有训练数据均视为不合格训练数据。

需要说明的是，在实际应用中，训练数据集是非静态的，在保证训练数据质量的基础上，训练数据的增加会为基于零次学习语音合成模型进行语音合成的合成效果带来正向增益。因此，随着训练数据地不断补充和积累，在训练数据集中训练音频的数量达到预设的第三数量阈值时，零次学习语音合成模型已经具有了较好的泛化能力。此种情况下，可以进一步限定预设的不合格标准还包括以下标准：

训练音频和对应的目标音频的嵌入向量值的相似度大于预设的相似度阈值的训练数据，目标音频为训练音频对应的文本经过零次学习语音合成模型得到的音频。

可选地，可以将训练音频输入至零次学习语音合成模型，以得到目标音频，然后计算训练音频与目标音频的嵌入向量值的相似度，并与预设的相似度阈值进行比较，若相似度值小于或者等于相似度阈值，说明此说话人不能很好地被零次学习语音合成模型泛化，则可以确定该训练数据合格；若相似度值大于相似度阈值，说明此说话人能够很好地被零次学习语音合成模型泛化，则可以确定该训练数据不合格。

需要说明的是，本申请中，若新增的训练数据检验合格，则可以将其加入零次学习语音合成模型的训练数据集中；若新增的训练数据检验不合格，则可以根据实际情况确定匹配的处理策略。例如，可以将不合格的训练数据丢弃；又例如，可以将不合格的训练数据存储至对应的第二预设固定目录下，留作备用。

根据本申请实施例的训练数据的处理方法，可以根据预设标准对训练数据进行检验，并在确定训练数据合格后，将其加入零次学习语音合成模型的训练数据集中。由此，本申请中，由于预设标准灵活易扩展，提升了训练数据的处理过程中的通用性。进一步地，针对训练数据不同的规模，设定了匹配的预设标准，进一步提升了训练数据的处理过程中的效率和可靠性。

图2是根据本申请第二实施例的示意图。如图2所示，在上一实施例的基础上，本申请实施例的训练数据的处理方法的具体过程，包括如下步骤：

s201、判断零次学习语音合成模型的预设固定目录是否为空。

可选地，可以按照预设周期对预设固定目录是否为空进行判断。若识别预设固定目录为空，则可以在下个周期重新对预设固定目录进行判断；若识别预设固定目录不为空，则可以执行步骤s202。

s202、从预设的训练数据目录下抽取训练数据。

s203、根据预设标准对训练数据进行检验，判断训练数据是否合格。

可选地，若识别训练数据合格，则可以执行步骤s204；若识别训练数据不合格，则可以舍弃该训练数据。

s204、将检验合格的训练数据加入零次学习语音合成模型的训练数据集中。

根据本申请实施例的训练数据的处理方法，根据预设标准挖掘并筛选训练数据，不再依赖人工干预，能够实现工业化的全自动零次学习语音合成模型训练数据的处理，提升了训练数据的处理过程中的效率和可靠性。由于预设标准灵活易扩展，提升了训练数据的处理过程中的通用性。进一步地，针对训练数据不同的规模，设定了匹配的预设标准，进一步提升了训练数据的处理过程中的效率和可靠性。

与上述几种实施例提供的训练数据的处理方法相对应，本申请的一个实施例还提供一种训练数据的处理装置，由于本申请实施例提供的训练数据的处理装置与上述几种实施例提供的训练数据的处理方法相对应，因此在训练数据的处理方法的实施方式也适用于本实施例提供的训练数据的处理装置，在本实施例中不再详细描述。

图3是根据本申请一个实施例的训练数据的处理装置的结构示意图。

如图3所示，该训练数据的处理装置300，包括：获取模块310、检验模块320和加入模块330。其中：

获取模块310，用于获取训练数据；

检验模块320，用于根据预设标准对所述训练数据进行检验；

加入模块330，用于将检验合格的所述训练数据加入零次学习语音合成模型的训练数据集中。

图4是根据本申请另一个实施例的训练数据的处理装置的结构示意图。

如图4所示，该训练数据的处理装置400，包括：获取模块410、检验模块420和加入模块430。其中：

获取模块410，包括：

获取子模块411，用于周期性获取所述训练数据。

其中，获取子模块411，包括：

获取单元4111，用于周期性从预设的训练数据目录下抽取所述训练数据。

检验模块420，包括：

确定子模块421，用于将不满足预设的不合格标准的所述训练数据确定为所述检验合格的所述训练数据。

可选地，所述训练数据包括训练音频和对应的文本，所述预设的不合格标准包括：

所述训练音频的数量小于预设的第一数量阈值的说话人的所述训练数据；

所述训练音频和对应的文本的对齐似然值小于预设的对齐似然阈值的所述训练数据；

所述训练音频的嵌入向量值与同一说话人的平均嵌入向量值的距离大于预设的距离阈值的所述训练数据；以及

所述距离大于所述距离阈值的所述训练音频的数量大于预设的第二数量阈值的说话人的所述训练数据。

可选地，所述训练数据集中所述训练音频的数量达到预设的第三数量阈值，则所述预设的不合格标准还包括：

所述训练音频和对应的目标音频的嵌入向量值的相似度大于预设的相似度阈值的所述训练数据，所述目标音频为所述训练音频对应的文本经过所述零次学习语音合成模型得到的音频。

需要说明的是，加入模块430与加入模块330具有相同功能和结构。

图5是根据本申请另一个实施例的训练数据的处理装置的结构示意图。

如图5所示，该训练数据的处理装置500，包括：获取模块510、检验模块520和加入模块530，还包括：第一确定模块540和第二确定模块550。其中：

第一确定模块540，用于将所述训练音频和对应的文本输入至对齐识别模型，得到所述对齐似然值。

第二确定模块550，用于将所述训练音频输入至声纹模型，得到所述嵌入向量值。

需要说明的是，获取模块510、检验模块520和加入模块530与获取模块310、检验模块320和加入模块330具有相同功能和结构。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是根据本申请实施例的训练数据的处理的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器510、存储器520，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器510为例。

存储器520即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的训练数据的处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的训练数据的处理方法。

存储器520作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的训练数据的处理方法对应的程序指令/模块(例如，附图3所示的获取模块310、检验模块320和加入模块330)。处理器510通过运行存储在存储器520中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的训练数据的处理方法。

存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据定位电子设备的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至定位电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

训练数据的处理的电子设备还可以包括：输入装置530和输出装置540。处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置530可接收输入的数字或字符信息，以及产生与定位电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置540可以包括显示设备、辅助照明装置(例如，led)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(pld))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务端可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务(“virtualprivateserver”，或简称“vps”)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本申请的实施例，本申请还提供了一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现本申请实施例的训练数据的处理方法的步骤。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘龙飞;陈昌滨;高占杰
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人