声音合成模型训练方法、装置及计算机设备与流程

文档序号：37596006发布日期：2024-04-18 12:33阅读：7来源：国知局

本发明涉及声音合成，尤其是指一种声音合成模型训练方法、装置及计算机设备。

背景技术：

1、在当今信息爆炸的时代，大量的音频数据被广泛应用于声音合成、声音克隆、语音识别、人机交互、智能音箱等领域。越来越多的人开始关注和使用声音合成技术，而定制属于自己的声音合成模型正成为一种趋势。定制声音合成模型能够提供个性化和独特的声音。传统的通用声音合成模型虽然功能强大，但无法满足每个人的个性化需求。通过定制自己的声音合成模型，人们可以拥有一个专属的声音，使其在各种应用场景中更加独特和个性化。无论是个人博客、视频制作、语音助手还是其他应用领域，定制的声音合成模型都能赋予用户更具辨识度和个性化的声音。

2、训练数据的质量对于声音合成模型的准确性和稳定性至关重要。不同的录制环境、说话人特点或语言风格等因素使得音频质量层次不齐。自动检测声音合成模型训练数据可以在较短时间内进行，大大节省了人工检查的时间成本，提高了效率。对于大规模的训练数据集，使用自动检测可以方便地进行批量处理，而人工检查往往需要投入大量的人力资源，还可能会受到主观因素的影响。

技术实现思路

1、本发明所要解决的技术问题是：提供一种声音合成模型训练方法、装置及计算机设备，旨在使得训练出来的声音合成模型更准确和更稳定。

2、为了解决上述技术问题，本发明采用的技术方案为：一种声音合成模型训练方法，包括以下步骤：

3、s1、在当前系统下，新建声音合成模型训练任务，在终端界面上选择与录音文本对应训练声音模型的语言种类、录音文本文件和录音音频文件压缩包确认提交进行检测，或选择任务状态为文件检测失败的任务，选择本次是否进行全量检测、录音文本文件和录音音频文件压缩包确认提交进行检测；

4、s2、判断本次任务是否是第一次执行检测，若是第一次进行检测，则进行全量检测；若不是第一次进行检测，则根据用户终端界面上选择是否进行全量检测，若选择不进行全量检测，则为增量检测；

5、s3、对录音文本内容和录音音频文件分别进行检测，并将本次检测的结果进行记录；

6、s4、当所有文件检测完毕，根据记录下来的检测结果，判断本次检测是否所有数据都通过检测，若存在检测不通过的记录，则将本次检测信息写入数据库，用户可以在终端上下载到本次检测失败的相关信息；若所有数据检测通过，进入下一步；

7、s5、判断本次检测是否是在训练服务器进行的全量检测，若是在训练服务器上运行的，则进行声音合成模型的训练，若不是在训练服务器上运行的，则将任务提交到训练服务器，在训练服务器上进行全量检测；

8、s6、当本次检测音频数据和录音文本在训练服务器全部检测通过，则进行声音合成模型训练。

9、本发明另一技术方案为：一种声音合成模型训练装置，包括：

10、检测提交模块，用于在当前系统下，新建声音合成模型训练任务，在终端界面上选择与录音文本对应训练声音模型的语言种类、录音文本文件和录音音频文件压缩包确认提交进行检测，或选择任务状态为文件检测失败的任务，选择本次是否进行全量检测、录音文本文件和录音音频文件压缩包确认提交进行检测；

11、检测类型判断模块，用于判断本次任务是否是第一次执行检测，若是第一次进行检测，则进行全量检测；若不是第一次进行检测，则根据用户终端界面上选择是否进行全量检测，若选择不进行全量检测，则为增量检测；

12、录音文本检测模块，用于对录音文本内容和录音音频文件分别进行检测，并将本次检测的结果进行记录；

13、检测结果判断模块，用于当所有文件检测完毕，根据记录下来的检测结果，判断本次检测是否所有数据都通过检测，若存在检测不通过的记录，则将本次检测信息写入数据库，用户可以在终端上下载到本次检测失败的相关信息；若所有数据检测通过，进入下一步；

14、全量检测判断模块，用于判断本次检测是否是在训练服务器进行的全量检测，若是在训练服务器上运行的，则进行声音合成模型的训练，若不是在训练服务器上运行的，则将任务提交到训练服务器，在训练服务器上进行全量检测；

15、声音合成模型训练模块，用于当本次检测音频数据和录音文本在训练服务器全部检测通过，则进行声音合成模型训练。

16、本发明的有益效果在于：采用增量全量混合检测，即首次检测使用全量检测，当首次检测存在不通过的数据，再下次检测采用增量检测，在训练前进行全量检测，弥补了增量检测问题训练数据没有机会再被发现和修复的问题；使得训练出来的声音合成模型的进行声音合成的音频质量更准确和更稳定。

技术特征：

1.一种声音合成模型训练方法，其特征在于，包括以下步骤：

2.如权利要求1所述的声音合成模型训练方法，其特征在于，所述系统包括当前系统下的录音文本检测程序和录音音频文件检测程序。

3.如权利要求1所述的声音合成模型训练方法，其特征在于，步骤s2中，全量检测为对整个录音文本和录音文本中存在的录音音频文件名的录音音频文件进行检测；增量检测为将过滤掉上一轮检测通过的数据，仅对上一轮检测失败或在上一轮不存在记录的录音文本和录音文本中存在的录音音频文件名的录音音频文件进行检测。

4.如权利要求1所述的声音合成模型训练方法，其特征在于，所述步骤s3包括：

5.如权利要求1所述的声音合成模型训练方法，其特征在于，步骤s32中，根据约定格式中的分隔符对当前行文本进行分割，前面部分为录音音频文件的文件名，后面部分为录音音频文件对应文本内容。

6.如权利要求1所述的声音合成模型训练方法，其特征在于，步骤s35中，对当前行的录音音频文件对应文本内容进行进一步过滤检测具体包括：根据选择与录音文本对应训练声音模型的语言种类不同，用与不同语言种类对应的正则表达式对录音音频文件对应文本内容进行过滤检测。

7.如权利要求1所述的声音合成模型训练方法，其特征在于，步骤s38中，对音频文件进行多项检测包括：检测音频文件是否缺失；检测音频是否可以读取；检测音频是否符合格式要求；检测音频时长是否满足系统中规定的音频时长；检测音频采样率是否满足要求；统计检测音频总时长是否满足系统中规定的音频总时长。

8.一种声音合成模型训练装置，其特征在于，包括：

9.一种计算机设备，其特征在于：所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的声音合成模型训练方法。

10.一种存储介质，其特征在于：所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现如权利要求1至7中任一项所述的声音合成模型训练方法。

技术总结
本发明提供了一种声音合成模型训练方法、装置及计算机设备，方法包括：用户通过终端上传录音文本和录音音频文件并选择对应的语言种类，根据是否是第一次执行训练任务来选择是否使用增量检测，使用增量检测排除上一轮检测通过的数据，对剩下在上一轮未通过的数据和本轮新增数据进行检测，当本轮数据所有都通过检测，判断本次检测是否在训练服务器上执行，若不在训练服务器上执行，则需要进行一次全量检测，从而排除在前面使用了增量检测有不合格数据被漏检，从而保证训练数据质量。自动检测训练数据可以减少人工校验，增量全量混合检测可以减少数据数量从而节省时间。

技术研发人员：黄元忠,卢庆华,孙莉
受保护的技术使用者：深圳市木愚科技有限公司
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄元忠,卢庆华,孙莉
技术所有人：深圳市木愚科技有限公司
我是此专利的发明人

上一篇：一种检验充气达标的气袋印迹方法及缓冲充气袋与流程
上一篇：一种凝胶聚合物电解质及其应用的制作方法