一种语音数据获取方法、装置、电子设备和存储介质与流程

文档序号：30931460发布日期：2022-07-30 00:32阅读：165来源：国知局

1.本发明涉及语音智能处理技术领域，特别涉及一种语音数据获取方法、装置、电子设备和存储介质。

背景技术：

2.语音识别、情绪识别、关键词检索等语音任务(特别是语音识别类任务)往往依赖于海量的标注语音数据。一般而言，这些标注数据的获取大体可分为三个步骤：1)音频录制、2)质检、3)数据处理。除了数据处理的自动化程度较高、成本可控以外，音频录制和质检均严重依赖人力，存在成本高、周期长的问题，且很难做到自动化，这意味着每一次有了新的语音数据需求的时候都需要重复这个周期。因此，传统的语音标注数据获取方法的流程效率很低。

技术实现要素：

3.鉴于现有技术中的上述缺陷或不足，本发明提供了一种语音数据获取方法、装置、电子设备和存储介质，与传统语音标注数据获取方法相比，此方法可以通过少量说话人录音标注数据生成对应该说话人的声音克隆模型，并结合文本信息，合成文本信息对应的音频，从而实现后续语音任务中的语音数据的获取。本发明提升了语音数据获取效率、减少了传统数据获取方法带来的高昂成本。
4.本发明的一个方面，提供了一种语音数据获取方法，包括：
5.获取多个说话人的录音数据；
6.将所述多个说话人的录音数据作为训练数据，训练获得每个说话人对应的声音克隆合成模型；
7.获取语音任务所需语音数据的文本信息；
8.利用所述每个说话人的声音克隆合成模型生成所述文本信息对应的语音数据；
9.保存生成的全部语音数据，作为所述语音任务所需的语音数据。
10.进一步的，所述录音数据包括说话人的语音和文本信息。
11.进一步的，将所述多个说话人的录音数据作为训练数据，训练获得每个说话人对应的声音克隆合成模型的步骤包括：
12.提取所述说话人的语音中的梅尔频谱特征，并将所述文本信息转换为音素序列，将获得的梅尔频谱特征和音素序列作为待训练的声音克隆合成模型的输入，以学习获得每个说话人对应的声音克隆合成模型。
13.本发明的第二方面，提供了一种语音数据获取装置，包括：
14.第一模块，被配置为获取多个说话人的录音数据；
15.第二模块，被配置为将所述多个说话人的录音数据作为训练数据，训练获得每个说话人对应的声音克隆合成模型；
16.第三模块，被配置为获取语音任务所需语音数据的文本信息；
17.第四模块，被配置为利用所述每个说话人的声音克隆合成模型生成所述文本信息对应的语音数据；
18.第五模块，被配置为保存生成的全部语音数据，作为所述语音任务所需的语音数据。
19.进一步的，所述录音数据包括说话人的语音和文本信息。
20.进一步的，所述第二模块被进一步配置为提取所述说话人的语音中的梅尔频谱特征，并将所述文本信息转换为音素序列，将获得的梅尔频谱特征和音素序列作为待训练的声音克隆合成模型的输入，以学习获得每个说话人对应的声音克隆合成模型。
21.本发明的第三方面，提供了一种电子设备，所述电子设备包括：
22.一个或多个处理器；
23.存储装置，用于存储一个或多个程序；
24.当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如下步骤：获取多个说话人的录音数据；将所述多个说话人的录音数据作为训练数据，训练获得每个说话人对应的声音克隆合成模型；获取语音任务所需语音数据的文本信息；利用所述每个说话人的声音克隆合成模型生成所述文本信息对应的语音数据；保存生成的全部语音数据，作为所述语音任务所需的语音数据。
25.进一步的，所述录音数据包括说话人的语音和文本信息。
26.进一步的，所述一个或多个处理器进一步实现如下步骤：
27.提取所述说话人的语音中的梅尔频谱特征，并将所述文本信息转换为音素序列，将获得的梅尔频谱特征和音素序列作为待训练的声音克隆合成模型的输入，以学习获得每个说话人对应的声音克隆合成模型。
28.本发明的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如下步骤：
29.获取多个说话人的录音数据；
30.将所述多个说话人的录音数据作为训练数据，训练获得每个说话人对应的声音克隆合成模型；
31.获取语音任务所需语音数据的文本信息；
32.利用所述每个说话人的声音克隆合成模型生成所述文本信息对应的语音数据；
33.保存生成的全部语音数据，作为所述语音任务所需的语音数据。
34.本发明提供的一种语音数据获取方法、装置、电子设备和存储介质具有如下有益效果：
35.(1)提升了对于语音任务(特别是语音识别类任务)的语音训练数据收集效率，降低了语音数据获取的时间和成本。
36.(2)本发明灵活性较高，得到声音克隆合成模型后，用户仅需要根据后续的语音任务定义所需的文本内容，便可以使用模型合成获取对应的语音数据。
37.(3)本发明提出的数据获取流程基本上可以做到完全自动化，不依赖人力。
38.(4)由本发明得到的声音克隆合成模型可以重复使用，面对新的语音任务的时候只需要重新定义语音任务所需的文本，声音克隆合成模型不需要重新训练。
39.(5)本发明可以作为传统语音数据获取方法的有效补充。
附图说明
40.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本技术的其它特征、目的和优点将会变得更明显：
41.图1是本技术一个实施例提供的语音数据获取方法的流程图；
42.图2是本技术一个实施例提供的语音数据获取装置的结构示意图；
43.图3是本技术一个实施例提供的电子设备的结构示意图。
具体实施方式
44.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
45.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。
46.应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述获取模块，但这些获取模块不应限于这些术语。这些术语仅用来将获取模块彼此区分开。
47.取决于语境，如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
48.需要注意的是，本发明实施例所描述的“上”“下”“左”“右”等方位词是以附图所示的角度来进行描述的，不应理解为对本发明实施例的限定。此外在上下文中，还需要理解的是，当提到一个元件被形成在另一个元件“上”或“下”时，其不仅能够直接形成在另一个元件“上”或者“下”，也可以通过中间元件间接形成在另一元件“上”或者“下”。
49.为了对现有技术存在的问题进行更加清楚的描述，本技术以语音唤醒任务为例，设想一个名为“小强”语音助手，我们需要获取大量与“小强”有关的录音，例如：“你好小强”、“hello小强”、“小强小强”等等，以进行唤醒模型训练。
50.假设我们需要录制100条相关的语音指令，为了保证训练数据的多样性，需要1000个不同说话人录音，每条录音成本0.1元，这样语音数据获取的金钱成本为100*1000*0.1＝10000元。在时间成本方面，录音任务的发放到获取一般分为三个阶段：(1)音频录制、(2)质检和(3)数据处理，由于(1)和(2)严重依赖人力，时间较为不可控，完成周期一般需要以月为单位，不妨假设此批数据录制和质检时间均为1个月，因此该批语音数据获取的时间成本总共是2个月时间。
51.上述语音数据获取方法就是传统数据方法，并且只是一个极小数据量的案例；几乎所有语音人工智能相关的识别类任务在数据获取方面本质上均为以上流程。因此，传统数据获取方法存在成本高、周期长的问题，且很难做到自动化。
52.为解决以上问题，减少语音获取的金钱成本和时间成本，本发明提出一种基于声音克隆的语音数据获取方案。本发明能够使上述场景下的金钱成本降到接近于0元(因为只
需要训练模型并合成，不需要真人录制)，时间成本降低为小时或者天级别(因为流程几乎完全自动化，同样不依赖人力参与)。
53.在阐述具体实施方式之前，首先对本领域的一些技术术语进行解释：
54.语音合成(tts)指的是一种将文本输入转换为语音输出的技术，旨在让计算机可以像人一样说话。
55.声音克隆是语音合成领域的一个分支，是指克隆某说话人的声音特性并让语音合成模型像该说话人一样说话。
56.语音识别是指使用计算机识别语音内容。
57.说话人识别指的是识别一条语音中是谁在说话。
58.情绪识别是指识别语音中的情绪。
59.关键词检索是指从语音识别结果中检索关键词的任务。
60.本发明提供的语音数据获取方法、装置、电子设备和存储介质，通过收集某些人的录音数据，制造这些说话人的声音克隆合成模型；收集后续语音任务所需的文本信息，使用声音克隆模型合成文本信息对应的新的语音数据。这样能够通过少量说话人录音标注数据生成对应该说话人的声音克隆模型，并结合后续语音任务所需的文本信息合成文本对应的声音(语音)，从而高效的获取语音数据。
61.参见图1，本发明的一个实施例提供了一种语音数据获取方法，其包括如下步骤：
62.步骤s101，获取多个说话人的录音数据。
63.具体的，说话人的录音数据指的是声音克隆合成模型的训练数据，其可以通过多种方式获得，例如，通过传统数据获取方法获得，或直接通过其他数据公司购买等等，这些录音数据可以通过数据传输的方式输入至电子设备的存储器。录音数据的数据格式为语音+文本标注格式，每个说话人几分钟甚至几十秒的录音数据便可以用来训练声音克隆合成模型，声音克隆合成模型的质量也会随着数据量的提升而提升。
64.步骤s102，将所述多个说话人的录音数据作为训练数据，训练获得每个说话人对应的声音克隆合成模型；
65.具体的，声音克隆与语音合成技术一样，可以由多种方式实现。语音合成可分为自回归方法(即基于rnn，lstm等网络结构，按时序合成语音的方法)，以及非自回归方法(即基于transformer等网络结构，并行合成语音的方法)两大类，因此，本发明采用的声音克隆方法也可以分成这两大类。本发明所提出的语音数据获取方法对声音克隆的方法本身没有限制，具体的，将录音数据中的文本标注转换成拼音，进而拆成声母韵母的中文音素序列，如：我是小强
→
wo3 shi4 xiao3 qiang2
→
w o3 sh i4 x iao3 q iang2。此外，若录音数据中为英文的文本信息，则英文音素序列可以由cmudict中定义的英文语言学音素构成，也可以是利用诸如：wordpiece/sentencepiece方法学习而来的音素，本实施例不做具体限制。在训练阶段，声音克隆合成模型还需要额外的梅尔频谱特征进行学习，优选的，从录音数据的语音中提取梅尔频谱特征，梅尔频谱特征表示为y∈r^(m
×
80)，m是梅尔频谱特征的长度。然后，将获得的梅尔频谱特征和音素序列作为待训练的声音克隆合成模型的输入，以学习、训练获得每个说话人对应的声音克隆合成模型。训练结束后，通过声音克隆合成模型得到梅尔频谱特征后，经由声码器(vocoder)转化便可得到最终语音。
66.步骤s103，获取语音任务所需语音数据的文本信息；
67.具体的，假设语音唤醒数据任务中有100条相关语音指令的数据获取需求，这100条语音指令所构成的文本就是该语音任务所需的语音数据的文本信息。例如，语音指令的文本信息可以是“你好，小强！”，“小强！”，“醒来，小强！”等等。
68.步骤s104，利用所述每个说话人的声音克隆合成模型生成所述文本信息对应的语音数据；
69.具体的，假设语音任务需要1000个不同说话人录音，在本发明中这意味着需要重复步骤s102，以得到1000个声音克隆合成模型。使用这1000个声音克隆合成模型和步骤s103中的100条任务相关的文本信息，便可以合成得到100000条所需的语音数据。
70.步骤s105，保存生成的全部语音数据，作为所述语音任务所需的语音数据。
71.将步骤s104中生成的所述的语音数据保存，便完成了使用声音克隆合成模型进行语音数据获取的流程。
72.本实施例的上述方法能够通过少量说话人录音标注数据生成对应该说话人的声音克隆模型，并结合后续语音任务所需的文本信息合成文本对应的声音(语音)，从而高效的获取语音数据。
73.参见图2，本发明的另一实施例还提供了一种语音数据获取装置200，包括第一模块201、第二模块202、第三模块203、第四模块204、第五模块205。本实施例的语音数据获取装置200能够执行方法实施例中的语音数据获取方法。
74.具体的，语音数据获取装置200包括：
75.第一模块201，被配置为获取多个说话人的录音数据；
76.第二模块202，被配置为将所述多个说话人的录音数据作为训练数据，训练获得每个说话人对应的声音克隆合成模型；
77.第三模块203，被配置为获取语音任务所需语音数据的文本信息；
78.第四模块204，被配置为利用所述每个说话人的声音克隆合成模型生成所述文本信息对应的语音数据；
79.第五模块205，被配置为保存生成的全部语音数据，作为所述语音任务所需的语音数据。
80.进一步的，所述录音数据包括说话人的语音和文本信息。
81.进一步的，所述第二模块202被进一步的配置为：
82.提取所述说话人的语音中的梅尔频谱特征，并将所述文本信息转换为音素序列，将获得的梅尔频谱特征和音素序列作为待训练的声音克隆合成模型的输入，以学习获得每个说话人对应的声音克隆合成模型。
83.需要说明的是，本实施例提供的语音数据获取装置200对应的可用于执行各方法实施例的技术方案，其实现原理和技术效果与方法类似，此处不再赘述。
84.图3为本发明实施例中用于实现一种语音数据获取方法的一种电子设备的结构示意图。下面具体参考图3，其示出了适于用来实现本实施例中的电子设备300的结构示意图。本实施例中的电子设备300可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)、可穿戴电子设备等等的移动终端以及诸如台式pc计算机、服务器等等的固定终端。图3示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何
限制。
85.如图3所示，电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301，其可以根据存储在只读存储器(rom)302中的程序或者从存储装置308加载到随机访问存储器(ram)303中的程序而执行各种适当的动作和处理以实现如本发明描述的各实施例的方法。在ram 303中，还存储有电子设备300操作所需的各种程序和数据。处理装置301、rom 302以及ram 303通过总线304彼此相连。输入/输出(i/o)接口305也连接至总线304。
86.通常，以下装置可以连接至i/o接口305：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306；包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置307；包括例如磁带、硬盘等的存储装置308；以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代的实施或具备更多或更少的装置。
87.本发明的另一实施例还提供了一种计算机可读存储介质，其可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、rf(射频)等等，或者上述的任意合适的组合。
88.上述计算机可读介质可以是上述电子设备实施例中所包含的；也可以是单独存在，而未装配入该电子设备实施例中。
89.上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备能够实现语音数据获取方法实施例中的各个步骤。
90.以上描述仅为本发明的较佳实施例。本领域技术人员应当理解，本发明中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王通司玉景李全忠何国涛蒲瑶
技术所有人：普强信息技术（北京）有限公司
我是此专利的发明人

上一篇：一种盖合碟形滤芯及水处理装置的制作方法
上一篇：一种耐磨外防滑螺栓组件的制作方法