语音编辑方法及装置与流程

文档序号：37941923发布日期：2024-05-11 00:21阅读：15来源：国知局

本申请涉及人工智能，具体而言，涉及一种语音编辑方法及装置。

背景技术：

1、传统的电话客服主要依赖于人工客服和按键菜单，但随着客户的不断增加和业务日益复杂化，人工成本不断攀升，高峰时段的呼叫量急速攀升。随着人工智能技术的发展，语音合成(text to speech,tts)技术将文本转成语音完成人机交互。但是当前tts合成的语音在情感表达上，如传达亲切、同情等情感，相对于真实声音往往会显得机械或不自然，影响了用户的体验。在相关技术中，一种可选的方式是先用tts合成被编辑的文本对应的音频，然后利用变声技术(voice conversion,vc)对合成的音频进行风格统一，再将合成的音频与原录音进行拼接，但拼接的音频容易损伤语音的质量。

2、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种语音编辑方法及装置，以至少解决相关技术中语音编辑的质量较差的技术问题。

2、根据本申请实施例的一个方面，提供了一种语音编辑方法，包括：获取目标文本，所述目标文本为对初始文本进行修改后的文本，其中，所述初始文本为初始语音对应的文本；基于所述目标文本确定所述初始文本中被修改的位置，并基于所述被修改的位置和所述初始语音确定掩码向量；基于所述掩码向量和所述目标文本确定帧粒度的基本频率信息，从所述初始语音中提取所述初始语音的梅尔频谱特征，并基于所述目标文本和所述初始语音的梅尔频谱特征构建梅尔编码向量；基于所述目标文本、所述帧粒度的基本频率信息和所述梅尔编码向量确定所述目标文本对应的目标语音。

3、可选地，基于所述目标文本确定所述初始文本中被修改的位置，并基于所述被修改的位置和所述初始语音确定掩码向量，包括：将所述目标文本转换成文本序列，所述文本序列中至少包括：音素序列；在所述目标文本中每个文字对应的音素之间插入目标标识，得到目标文本序列；将所述目标文本序列进行编码得到目标特征，从所述目标特征中确定所述初始文本被修改的位置，并基于所述被修改的位置和所述初始语音确定所述掩码向量。

4、可选地，基于所述被修改的位置和所述初始语音确定所述掩码向量，包括：从所述初始语音中获取所述初始语音的时长和基本频率特征；根据所述被修改的位置确定所述初始语音的时长中被掩码的时长和所述基本频率特征中被掩码的部分；根据所述初始语音的时长中被掩码的时长确定所述掩码向量中的时长掩码向量，并基于所述基本频率特征中被掩码的部分确定所述掩码向量中的基本频率掩码向量。

5、可选地，基于所述掩码向量和所述目标文本确定帧粒度的基本频率信息，包括：基于所述目标特征和所述时长掩码向量确定音素粒度的时长信息；基于所述音素粒度的时长信息和所述目标特征确定帧粒度的目标特征；根据所述帧粒度的目标特征和所述基本频率掩码向量确定所述帧粒度的基本频率信息。

6、可选地，基于所述目标特征和所述时长掩码向量确定音素粒度的时长信息，包括：获取所述时长掩码向量中被掩码的音素时长信息和所述时长掩码向量中被掩码的字时长信息；基于所述音素时长信息和所述字时长信息确定所述音素粒度的时长信息，其中所述字时长信息通过相邻的所述目标标识确定。

7、可选地，基于所述目标文本和所述初始语音的梅尔频谱特征构建梅尔编码向量，包括：基于所述被修改的位置确定所述初始语音的梅尔频谱特征中被掩码的位置；基于所述初始语音的梅尔频谱特征中被掩码的位置构建所述梅尔编码向量。

8、可选地，基于所述目标文本、所述帧粒度的基本频率信息和所述梅尔编码向量确定所述目标文本对应的目标语音，包括：将所述目标文本、所述帧粒度的基本频率信息和所述梅尔编码向量确定为输入数据，输入到流式解码器中的注意力分块中进行分析，得到多个梅尔频谱，其中，所述注意力分块的大小在预设范围内随机调整；将所述多个梅尔频谱合成所述目标文本对应的目标梅尔频谱，其中，所述流式解码器的损失函数至少包含采用整句预测方式得到的真实值与所述目标梅尔频谱之间的损失值；基于所述目标梅尔频谱确定所述目标语音。

9、可选地，基于所述目标梅尔频谱确定所述目标语音，包括：将所述目标梅尔频谱分成多个梅尔频谱块，并将前一个梅尔频谱块中的梅尔频谱的尾部保留，与当前梅尔频谱块中的梅尔频谱进行填充，得到多个填充后的梅尔频谱块；将所述多个填充后的梅尔频谱块合成所述目标语音。

10、根据本申请实施例的另一方面，还提供了一种语音编辑装置，包括：获取模块，用于获取目标文本，所述目标文本为对初始文本进行修改后的文本，其中，所述初始文本为初始语音对应的文本；确定模块，用于基于所述目标文本确定所述初始文本中被修改的位置，并基于所述被修改的位置和所述初始语音确定掩码向量；构建模块，用于基于所述掩码向量和所述目标文本确定帧粒度的基本频率信息，从所述初始语音中提取所述初始语音的梅尔频谱特征，并基于所述目标文本和所述初始语音的梅尔频谱特征构建梅尔编码向量；生成模块，用于基于所述目标文本、所述帧粒度的基本频率信息和所述梅尔编码向量确定所述目标文本对应的目标语音。

11、根据本申请实施例的又一方面，还提供了一种计算机设备，包括：存储器，用于存储程序指令；处理器，与存储器连接，用于执行以下功能的程序指令：获取目标文本，所述目标文本为对初始文本进行修改后的文本，其中，所述初始文本为初始语音对应的文本；基于所述目标文本确定所述初始文本中被修改的位置，并基于所述被修改的位置和所述初始语音确定掩码向量；基于所述掩码向量和所述目标文本确定帧粒度的基本频率信息，从所述初始语音中提取所述初始语音的梅尔频谱特征，并基于所述目标文本和所述初始语音的梅尔频谱特征构建梅尔编码向量；基于所述目标文本、所述帧粒度的基本频率信息和所述梅尔编码向量确定所述目标文本对应的目标语音。

12、根据本申请实施例的又一方面，还提供了一种非易失性存储介质，非易失性存储介质包括存储的计算机程序，其中，非易失性存储介质所在设备通过运行计算机程序执行上述的语音编辑方法。

13、在本申请实施例中，采用获取目标文本，所述目标文本为对初始文本进行修改后的文本，其中，所述初始文本为初始语音对应的文本；基于所述目标文本确定所述初始文本中被修改的位置，并基于所述被修改的位置和所述初始语音确定掩码向量；基于所述掩码向量和所述目标文本确定帧粒度的基本频率信息，从所述初始语音中提取所述初始语音的梅尔频谱特征，并基于所述目标文本和所述初始语音的梅尔频谱特征构建梅尔编码向量；基于所述目标文本、所述帧粒度的基本频率信息和所述梅尔编码向量确定所述目标文本对应的目标语音的方式，通过获取初始语音的多种声学特征，并且基于初始文本中被修改的位置构建相应的掩码向量，最终基于多种声学特征和掩码向量合成目标语音，达到了被修改的部分的语音与原语音声音特征一致的目的，从而实现了提高语音编辑质量的技术效果，进而解决了相关技术中的语音编辑的质量较差的技术问题。

技术特征：

1.一种语音编辑方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于所述目标文本确定所述初始文本中被修改的位置，并基于所述被修改的位置和所述初始语音确定掩码向量，包括：

3.根据权利要求2所述的方法，其特征在于，基于所述被修改的位置和所述初始语音确定所述掩码向量，包括：

4.根据权利要求3所述的方法，其特征在于，基于所述掩码向量和所述目标文本确定帧粒度的基本频率信息，包括：

5.根据权利要求4所述的方法，其特征在于，基于所述目标特征和所述时长掩码向量确定音素粒度的时长信息，包括：

6.根据权利要求1所述的方法，其特征在于，基于所述目标文本和所述初始语音的梅尔频谱特征构建梅尔编码向量，包括：

7.根据权利要求1所述的方法，其特征在于，基于所述目标文本、所述帧粒度的基本频率信息和所述梅尔编码向量确定所述目标文本对应的目标语音，包括：

8.根据权利要求7所述的方法，其特征在于，基于所述目标梅尔频谱确定所述目标语音，包括：

9.一种语音编辑装置，其特征在于，包括：

10.一种计算机设备，其特征在于，包括：

11.一种非易失性存储介质，其特征在于，所述非易失性存储介质包括存储的计算机程序，其中，所述非易失性存储介质所在设备通过运行所述计算机程序执行权利要求1至7中任意一项所述的语音编辑方法。

技术总结
本申请公开了一种语音编辑方法及装置。其中，该方法包括：获取目标文本，目标文本为对初始文本进行修改后的文本，其中，初始文本为初始语音对应的文本；基于目标文本确定初始文本中被修改的位置，并基于被修改的位置和初始语音确定掩码向量；基于掩码向量和目标文本确定帧粒度的基本频率信息，从初始语音中提取初始语音的梅尔频谱特征，并基于目标文本和初始语音的梅尔频谱特征构建梅尔编码向量；基于目标文本、帧粒度的基本频率信息和梅尔编码向量确定目标文本对应的目标语音。本申请解决了相关技术中语音编辑的质量较差的技术问题。

技术研发人员：朱媛媛,廉洁,李杰
受保护的技术使用者：中国电信股份有限公司
技术研发日：
技术公布日：2024/5/10

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱媛媛,廉洁,李杰
技术所有人：中国电信股份有限公司
我是此专利的发明人