一种用于语音合成的文本处理方法和系统与流程

文档序号：36029370发布日期：2023-11-17 15:44阅读：34来源：国知局

本技术涉及语音合成，尤其涉及一种用于语音合成的文本处理方法和系统。

背景技术：

1、随着人工智能的发展，基于人工智能的语音合成(text-to-speech，tts)技术的应用越来越广泛。其中，在对待处理文本进行预处理(简称为前端处理)后，再通过语音合成引擎进行语音合成。通过对待处理文本进行预处理，能够让语音合成引擎更准确地识别、处理文本，并将其转换成自然流畅的语音进行输出。语音的自然性(即拟人效果)通常通过韵律来体现，为了实现语音的拟人效果，需要根据待处理文本的韵律，使用相应的韵律标签标注待处理文本，使得语音合成引擎根据韵律标签确定合成的语音在相应位置的韵律。

2、目前，在语音合成方法中，常用的文本处理方案为基于规则的前端处理。基于规则的前端处理需根据语言学相关知识，制定一系列的规则和算法来对待处理文本进行预处理。

3、但是，由于不同业务场景对合成的语音的韵律需求不同，当语音合成方案需要适用于多种业务场景时，基于规则的前端处理需要研究人员针对各个业务场景，分别对待处理文本的韵律进行人工设计和调试后，通过人工标注韵律标签进行待处理文本的韵律标注，这种文本处理方式使得语音合成方法落地的成本较高。

技术实现思路

1、本技术提供了一种用于语音合成的文本处理方法和系统，能够满足各种业务场景对合成语音的韵律需求，且无需人工对韵律进行大量的人工设计和调试，节省了语音合成方案落地的成本。

2、第一方面，提供了一种用于语音合成的文本处理方法，应用于用于语音合成的文本处理系统，用于语音合成的文本处理系统包括拟人化改造模块，方法包括：

3、根据拟人化改造模块获取的待处理文本的业务关键字，确定第一韵律标签，业务关键字是基于待处理文本对应的语音所应用的场景定义的；

4、通过拟人化改造模块，对待处理文本进行基于神经网络模型的韵律标签预测处理，获取第二韵律标签；

5、对待处理文本进行基于第一韵律标签和第二韵律标签的韵律标注，获取目标文本；

6、根据目标文本的音素序列，合成目标文本对应的语音。

7、在一种可行的设计中，根据拟人化改造模块获取的待处理文本的业务关键字，确定第一韵律标签，包括：

8、通过拟人化改造模块，获取待处理文本的业务关键字；

9、通过拟人化改造模块，获取基于业务关键字确定的业务场景标签；

10、通过拟人化改造模块，从多个业务字典中选择适用于业务场景标签标识的目标场景的第一业务字典，第一业务字典用于关联至少一个业务关键字与至少一个第一韵律标签；

11、通过拟人化改造模块，从第一业务字典中确定与业务关键字匹配的第一韵律标签。

12、在一种可行的设计中，根据目标文本的音素序列，合成目标文本对应的语音，包括：

13、基于第一神经网络模型，对目标文本进行拼音化处理和多音字消歧处理，以确定具有不同拼音的文字在场景下对应的目标拼音，并生成拼音序列；

14、对拼音序列进行音素拆分处理，获取音素序列；

15、向语音合成引擎输入音素序列，合成目标文本对应的语音。

16、在一种可行的设计中，对目标文本进行拼音化处理和多音字消歧处理，包括：

17、获取目标文本中每一文字对应的拼音；

18、对每一文字进行编码，获取每一文字的上下文向量表示；

19、根据每一文字的上下文向量表示，计算每一文字对应的拼音的概率；

20、根据每一文字对应的拼音的概率，从每一文字对应的拼音中确定最大的概率对应的目标拼音。

21、在一种可行的设计中，获取基于业务关键字确定的业务场景标签，包括：

22、获取经过业务关键字和业务场景标签训练好的神经网络分类器；

23、向神经网络分类器输入待处理文本，获取待处理文本对应的业务场景标签。

24、在一种可行的设计中，获取基于业务关键字确定的业务场景标签，包括：

25、确定第一关联关系，第一关联关系用于关联至少一个业务关键字和至少一个业务场景标签；

26、根据第一关联关系和业务关键字，确定业务关键字对应的业务场景标签。

27、在一种可行的设计中，对拼音序列进行音素拆分处理，获取音素序列，包括：

28、根据业务场景标签，确定是否对拼音序列进行拼音更正；

29、若进行拼音更正，更新目标文本对应的拼音序列，对更新后的拼音序列进行音素拆分处理，获取音素序列；

30、若不进行拼音更正，对拼音序列进行音素拆分处理，获取音素序列。

31、在一种可行的设计中，根据业务场景标签，确定是否对拼音序列进行拼音更正，包括：

32、若业务场景标签表示待处理文本包括姓名或地名，确定对拼音文本进行拼音更正，其中，若进行拼音更正，更新目标文本对应的拼音序列，包括：

33、若进行拼音更正，重新确定目标文本中姓名或地名对应的拼音，以更新目标文本对应的拼音序列；

34、若业务场景标签表示待处理文本未包括姓名或地名，确定不对拼音文本进行拼音更正。

35、在一种可行的设计中，对待处理文本进行基于第一韵律标签和第二韵律标签的韵律标注，获取目标文本，包括：

36、通过拟人化改造模块，获取带有第二韵律标签的待处理文本；

37、通过拟人化改造模块，在带有第二韵律标签的待处理文本中，添加第一韵律标签，获取目标文本；

38、若目标文本中同一个位置对应有第一韵律标签和第二韵律标签，通过拟人化改造模块，删除位置对应的第二韵律标签。

39、第二方面，提供了一种用于语音合成的文本处理系统，包括：

40、拟人化改造模块，用于根据获取的待处理文本的业务关键字，确定第一韵律标签，业务关键字是基于待处理文本对应的语音所应用的场景定义的；

41、拟人化改造模块还用于，对待处理文本进行基于神经网络模型的韵律标签预测处理，获取第二韵律标签；

42、拟人化改造模块还用于，对待处理文本进行基于第一韵律标签和第二韵律标签的韵律标注，获取目标文本；

43、语音合成引擎，用于根据目标文本的音素序列，合成目标文本对应的语音。

44、本技术上述实施例通过在用于语音合成的文本处理系统中添加拟人化改造模块，提升合成的语音的拟人效果。具体地，首先根据拟人化改造模块获取的待处理文本的业务关键字，确定第一韵律标签，由于业务关键字是基于待处理文本对应的语音所应用的场景定义的，因此，业务关键字对应的第一韵律标签能够与待处理文本应用的场景贴合，即通过拟人化改造模块在待处理文本中添加第一韵律标签，使得最后合成的语音能够符合该场景下的停顿习惯，提升了语音的拟人效果。例如进行地址播报时，真人一般习惯在省，市，县这些词后添加停顿。因此，本技术实施例通过拟人化改造模块对待处理文本添加的第一韵律标签，能够满足各种业务场景对合成语音的韵律需求，且无需人工对韵律进行大量的人工设计和调试，节省了语音合成方案落地的成本。

45、进一步地，本技术考虑到待处理文本中除了与业务场景相关的业务关键字，通常还包括其他通用文本，通过拟人化改造模块，对待处理文本进行基于神经网络模型的韵律标签预测处理，获取第二韵律标签，实现了对待处理文本中的通用文本进行韵律标注，提升了对待处理文本添加的韵律标签的准确性。使得根据第一韵律标签和第二韵律标签的韵律标注，获取的目标文本包括了准确度高的韵律标签，从而使得根据目标文本合成的语音更加自然。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵言姚树杰樊冯飞
技术所有人：鼎富智能科技有限公司
我是此专利的发明人