音频转换方法、装置、电子设备和计算机可读存储介质与流程

文档序号：28214396发布日期：2021-12-28 21:41阅读：75来源：国知局

1.本发明涉及数据处理技术领域，具体而言，涉及一种音频转换方法、装置、电子设备和计算机可读存储介质。

背景技术：

2.现今，在某些场景中，需要通过音频转换将某一用户的音频内容通过另一用户的音色进行播放，经研究发现，现有的音频转换方法需要使用复杂的算法和大量的数据，转换效率有待提高。

技术实现要素：

3.本发明的目的之一包括，例如，提供了一种音频转换方法、装置、电子设备和计算机可读存储介质，以至少部分地提高音频转换效率。
4.本发明的实施例可以这样实现：
5.第一方面，本发明提供一种音频转换方法，包括：
6.获得源用户的音频数据，作为待转换音频数据；
7.基于发音单元表征模型对所述待转换音频数据进行处理，得到所述待转换音频数据中的瓶颈特征；
8.基于音色转换模型对所述瓶颈特征进行处理，得到内容与所述源用户相同、音色与目标用户相同的目标音频数据。
9.在可选的实施方式中，所述发音单元表征模型包括采样层、特征处理层、解码层和重打分层；其中，所述特征处理层包括多个串联的特征处理单元，每个所述特征处理单元包括conformer层和dense层；所述解码层包括ctc解码和attention解码；
10.所述对所述待转换音频数据进行处理，得到所述待转换音频数据中的瓶颈特征的步骤，包括：
11.将所述待转换音频数据输入所述采样层，提取出mel特征；
12.将所述mel特征输入所述特征处理层，得到隐层向量结果；
13.将所述隐层向量结果输入所述解码层，进行ctc损失函数处理和注意力机制处理，得到ctc损失函数处理结果和注意力机制处理结果；
14.将所述ctc损失函数处理结果和注意力机制处理结果输入所述重打分层进行融合，基于融合结果得到瓶颈特征。
15.在可选的实施方式中，在对所述待转换音频数据进行处理之前，所述方法还包括：
16.将所述待转换音频数据进行降采样处理，将其采样率处理为目标采样率；
17.对目标采样率的待转换音频数据进行降噪处理。
18.在可选的实施方式中，所述音色转换模型为采用aed算法的自回归结构；
19.当所述源用户为一个时，所述音色转换模型对该源用户的瓶颈特征进行处理，得到内容与该源用户相同、音色与某一目标用户相同的目标音频数据；
20.当所述源用户为两个以上时，所述音色转换模型对每个所述源用户的瓶颈特征分别进行处理，针对每个所述源用户，得到内容与该源用户相同、音色与某一目标用户相同的目标音频数据。
21.在可选的实施方式中，基于音色转换模型对所述瓶颈特征进行处理，得到内容与所述源用户相同、音色与目标用户相同的目标音频数据的步骤，包括：
22.将所述瓶颈特征进行分片处理；
23.将其中一片瓶颈特征输入所述音色转换模型进行处理，得到内容与所述源用户相同、音色与目标用户相同的目标音频数据片段之后，获取另一片瓶颈特征输入所述音色转换模型进行处理，得到内容与所述源用户相同、音色与目标用户相同的新的目标音频数据片段，直至完成对每片瓶颈特征的处理。
24.在可选的实施方式中，所述音色转换模型包括上采样层、预处理层、卷积处理层、注意力机制层、长短期记忆人工神经网络层和合成层；
25.所述对所述瓶颈特征进行处理，得到内容与所述源用户相同、音色与目标用户相同的目标音频数据的步骤，包括：
26.将所述瓶颈特征输入所述上采样层，通过上采样扩充为设定音频长度；
27.将设定音频长度的瓶颈特征逐帧输入所述预处理层，得到预处理结果，从目标用户对应的参考音频中抽取能够反应所述目标用户音色的参考嵌入信息；
28.将所述预处理结果和参考嵌入信息输入所述卷积处理层，将所述卷积处理层的处理结果逐帧输入所述注意力机制层，并将所述注意力机制层的处理结果输入所述长短期记忆人工神经网络层，得到对应的mel特征；
29.将所述mel特征输入所述合成层，得到内容与所述源用户相同、音色与目标用户相同的目标音频数据。
30.在可选的实施方式中，所述预处理层包括全连接层和池化层；所述卷积处理层包括卷积神经网络、归一化网络、高速网络和门控循环单元。
31.第二方面，本发明实施例提供一种音频转换装置，包括：
32.数据获得模块，用于获得源用户的音频数据，作为待转换音频数据；
33.数据处理模块，用于基于发音单元表征模型对所述待转换音频数据进行处理，得到所述待转换音频数据中的瓶颈特征；基于音色转换模型对所述瓶颈特征进行处理，得到内容与所述源用户相同、音色与目标用户相同的目标音频数据。
34.第三方面，本发明提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前述实施方式任一项所述的音频转换方法。
35.第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在电子设备执行前述实施方式任一项所述的音频转换方法。
36.本发明实施例的有益效果包括，例如：通过发音单元表征模型、音色转换模型该种“端到端”的处理方案实现音频转换，提高了转换效率和鲁棒性，降低了转换错误。
memory)等基本神经网络单元组合而成的神经网络结构。又例如，发音单元表征模型可以包括transformer层。
64.又例如，请结合参阅图3，在一种实现方式中，发音单元表征模型可以包括采样层、特征处理层、解码层和重打分层。其中，所述特征处理层包括多个串联的特征处理单元，每个所述特征处理单元包括conformer层和dense层。所述解码层包括ctc解码和attention解码。
65.相应地，s120中，对所述待转换音频数据进行处理，得到所述待转换音频数据中的瓶颈特征的步骤可以通过以下方式实现：将所述待转换音频数据输入所述采样层，提取出mel特征；将所述mel特征输入所述特征处理层，得到隐层向量结果；将所述隐层向量结果输入所述解码层，进行ctc损失函数处理和注意力机制处理，得到ctc损失函数处理结果和注意力机制处理结果；将所述ctc损失函数处理结果和注意力机制处理结果输入所述重打分层进行融合，基于融合结果得到瓶颈特征。
66.特征处理层包括多个串联的特征处理单元，每个特征处理单元包括conformer层和dense层，通过对多个特征处理单元的设置，确保了从待转换音频数据中提取的内容的丰富性，进而确保最终提取的瓶颈特征的丰富性和全面性。本实施例中，特征处理单元的数量可以灵活设置，例如，可以为5至10个，如8个等。
67.解码层包括ctc解码和attention解码两种方案，两种方案互补，从而获得超过单独一种解码方案及两种解码方案简单叠加的效果。
68.重打分层(rescore层)对ctc解码结果和attention解码结果进行融合，综合两种方案的优点，从中选取最好的结果，进而输出最终的瓶颈特征，确保了瓶颈特征的可靠、全面提取。
69.通过对发音单元表征模型的巧妙设计，采用多个conformer层和dense层级联结构作为特征处理层，能够最大限度保证转换音色的自然度。融合多个解码方案，结合ctc解码和attention解码各自的优点，进一步提升了发音单元表征模型的可懂度。可以采用高效的神经网络算法作为重打分层。经验证，采用该种实现架构，可以提升音频转换的实时性，使得得到转换后的音频在感观上几乎无延时。
70.发音单元表征模型输出的瓶颈特征作为音色转换模型的输入，为了降低瓶颈特征的维度，可以在发音单元表征模型和音色转换模型之间设置一全连接层。通过发音单元表征模型确保了瓶颈特征具有源用户无关的特性(源用户无关的特性指对不同的用户说话内容相同的情况下，提取的瓶颈特征相同或相似，滤除了各用户的音色等声音特征)。
71.音色转换模型可以针对单个源用户进行转换，也可以对多个源用户进行转换。在存在多个源用户的情况下，可以使用不同标识如id制定不同用户，从而得到对应于各目标用户的音色。相应地，当所述源用户为一个时，所述音色转换模型对该源用户的瓶颈特征进行处理，得到内容与该源用户相同、音色与某一目标用户相同的目标音频数据。当所述源用户为两个以上时，所述音色转换模型对每个所述源用户的瓶颈特征分别进行处理，针对每个所述源用户，得到内容与该源用户相同、音色与某一目标用户相同的目标音频数据。
72.其中，目标音频数据的内容和源说话人相同，但音色和目标说话人相同。
73.为了进一步提高音频转换的实时性，在音频转换过程中，音色转换模型可以对瓶颈特征进行分片处理，而非一次性全部进行处理。例如，音色转换模型可以接收设定时长如
200ms的分片，在分片内执行音色转换，然后根据输入的顺序依次播出转换后的音频，从而实现边送入音频边播出音频的效果。基于该种设计，s130中，基于音色转换模型对所述瓶颈特征进行处理，得到内容与所述源用户相同、音色与目标用户相同的目标音频数据的步骤可以通过以下方式实现：将所述瓶颈特征进行分片处理；将其中一片瓶颈特征输入所述音色转换模型进行处理，得到内容与所述源用户相同、音色与目标用户相同的目标音频数据片段之后，获取另一片瓶颈特征输入所述音色转换模型进行处理，得到内容与所述源用户相同、音色与目标用户相同的新的目标音频数据片段，直至完成对每片瓶颈特征的处理。
74.本实施例中，音色转换模型可以有多种实现结构，只要能够可靠地实现音色转换便可。例如，音色转换模型可以采用aed(attention
‑
encoder
‑
decoder)算法的自回归结构。又例如音色转换模型可以为cnn和lstm等基本神经网络单元组合而成的神经网络结构。
75.又例如，请结合参阅图4，音色转换模型可以包括上采样层、预处理层、卷积处理层、注意力机制层、长短期记忆人工神经网络层和合成层。
76.相应地，s130中，对所述瓶颈特征进行处理，得到内容与所述源用户相同、音色与目标用户相同的目标音频数据的步骤可以通过以下方式实现：将所述瓶颈特征输入所述上采样层，通过上采样扩充为设定音频长度；将设定音频长度的瓶颈特征逐帧输入所述预处理层，得到预处理结果，从目标用户对应的参考音频中抽取能够反应所述目标用户音色的参考嵌入信息；将所述预处理结果和参考嵌入信息输入所述卷积处理层，将所述卷积处理层的处理结果逐帧输入所述注意力机制层，并将所述注意力机制层的处理结果输入所述长短期记忆人工神经网络层，得到对应的mel特征；将所述mel特征输入所述合成层，得到内容与所述源用户相同、音色与目标用户相同的目标音频数据。
77.示例性地，发音单元表征模型的输出结果作为音色转换模型的输入。发音单元表征模型的输出结果(瓶颈特征)经过上采样层(up
‑
sample)进行上采样，扩充信息帧为设定音频长度。up
‑
sample层的输出结果逐帧通过预处理层，得到预处理结果。音色转换模型同时从目标用户对应音色的参考音频中，抽取能反应目标用户音色的特征向量，本实施例称其为spk
‑
embedding，又称参考嵌入信息。预处理结果和参考嵌入信息共同作用，通过卷积处理层，卷积处理层的输出结果逐帧通过注意力机制层(attention)，最终通过lstm层，得到对应的mel特征。mel特征刻画了音频的频谱特征。mel特征通过合成层如hifi
‑
gan，完成高音质和高采样率的音频重建，得到目标音频数据。
78.其中，预处理层可以包括全连接层和池化层。卷积处理层可以包括卷积神经网络、归一化网络、高速网络和门控循环单元(conv
‑
batchnorm
‑
highway
‑
gru，简称cbhg)。
79.发音单元表征模型采取cbhg
‑
attention
‑
lstm的级联结构，能够最大限度地保证转换音色的自然度以及可懂度。由于采用了spk
‑
embedding向量，使得转换后的音频和目标用户相似度较高。由于采用了高效的神经网络模型，例如lstm和hifigan，使得整个转换系统具有实时性。得到转换后的音频，感观上几乎无延时。
80.可以理解的是，本发明实施例中，发音单元表征模型、音色转换模型等可以通过多种方式训练得到。例如，可以针对不同场景，适应性地收集测试数据集、训练数据集，使用训练数据集中的数据来训练模型，使用测试数据集中的数据来验证训练结果，根据相应场景中对于误差的设定，对模型进行多次训练，直至满足设定的误差，由于训练流程和应用流程类似，因而，对于相应内容本实施例不做具体展开说明。
81.为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种音频转换装置的实现方式。请参阅图5，图5为本发明实施例提供的一种音频转换装置140的功能模块图，该音频转换装置140可以应用于图1所示电子设备100。需要说明的是，本实施例所提供的音频转换装置140，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该音频转换装置140包括数据获得模块141和数据处理模块142。
82.其中，数据获得模块141用于获得源用户的音频数据，作为待转换音频数据。
83.数据处理模块142用于基于发音单元表征模型对所述待转换音频数据进行处理，得到所述待转换音频数据中的瓶颈特征；基于音色转换模型对所述瓶颈特征进行处理，得到内容与所述源用户相同、音色与目标用户相同的目标音频数据。
84.本发明实施例采用了端到端的实现方案，通过发音单元表征模型、音色转换模型等高精度神经网络模型等进行音频转换，大幅度提高了音频转换的鲁棒性，并降低了转换过程中出现的转换错误。采用了高性能的神经网络模型，在效果不受损失的前提下，大幅降低了计算开销，得以满足低延时和即时转换的落地需求，具备相当程度的实用价值，适合大规模推广应用。
85.在上述基础上，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在电子设备执行上述的音频转换方法。
86.在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
87.另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
88.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
89.以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修
改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘峰;康世胤;陀得意;游于人;刘柏基
技术所有人：广州虎牙科技有限公司
我是此专利的发明人

上一篇：一种电气工程及其自动化专用的定位安装装置的制作方法
上一篇：一种电池铝盖用自动化清洗机的制作方法