一种语音提醒方法、装置、电子设备及存储介质与流程

文档序号：37725144发布日期：2024-04-23 12:04阅读：9来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及自然语言处理领域，尤其涉及一种语音提醒方法、装置、电子设备及存储介质。

背景技术：

1、随着经济的发展和互联网金融的兴起，现金贷及消费贷业务大量出现，随之而来的问题是如何将贷出去的钱收回来，提醒业务成为重要的一环。

2、目前，企业的提醒工作一种是依靠人工电话完成，但是这种方式需要大量的人力，人工成本较高；另一种是通过提前录制好一种或几种音色的语音，自动给客户打提醒电话，但是智能程度低，缺少互动，导致提醒效果不佳。

技术实现思路

1、本发明提供了一种语音提醒方法、装置、电子设备及存储介质，以解决上述技术问题。

2、根据本发明的一方面，提供了一种语音提醒方法，应用于提醒机器人，包括：

3、接收提醒对象的语音数据，确定所述语音数据对应的提醒文本；其中，所述提醒文本包括情感声音特征，所述情感声音特征与所述提醒文本关联对齐；

4、基于语音合成模型对所述提醒文本的文本特征和所述情感声音特征进行特征融合，并对融合后的特征进行语音合成，生成包含所述情感声音特征的音频数据；

5、基于语音生成模型将所述音频数据转换为提醒语音，并对所述提醒语音进行语音播报。

6、根据本发明的另一方面，提供了一种语音提醒装置，应用于提醒机器人，包括：

7、提醒文本确定模块，用于接收提醒对象的语音数据，确定所述语音数据对应的提醒文本；其中，所述提醒文本包括情感声音特征，所述情感声音特征与所述提醒文本关联对齐；

8、音频数据生成模块，用于基于语音合成模型对所述提醒文本的文本特征和所述情感声音特征进行特征融合，并对融合后的特征进行语音合成，生成包含所述情感声音特征的音频数据；

9、语音播报模块，用于基于语音生成模型将所述音频数据转换为提醒语音，并对所述提醒语音进行语音播报。

10、根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

11、至少一个处理器；以及

12、与所述至少一个处理器通信连接的存储器；其中，

13、所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的语音提醒方法。

14、根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的语音提醒方法。

15、本发明实施例的技术方案，通过接收提醒对象的语音数据，确定语音数据对应的提醒文本；其中，提醒文本包括情感声音特征，情感声音特征与提醒文本关联对齐；基于语音合成模型对提醒文本的文本特征和情感声音特征进行特征融合，并对融合后的特征进行语音合成，生成包含情感声音特征的音频数据；基于语音生成模型将音频数据转换为提醒语音，并对提醒语音进行语音播报。可以针对提醒对象的语音确定出针对性的提醒文本，并通过语音合成模型复刻提醒人员的情感声音特征，生成具有提醒人员的情感声音特征的提醒语音，在减少人工成本的同时提高与提醒对象的互动性以及提醒语音的质量，从而提高提醒效果。

16、应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种语音提醒方法，其特征在于，应用于提醒机器人，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述语音数据对应的提醒文本，包括：

3.根据权利要求2所述的方法，其特征在于，所述提醒问答库的构建方法，包括：

4.根据权利要求3所述的方法，其特征在于，所述大语言模型的训练方法，包括：

5.根据权利要求1或2所述的方法，其特征在于，在得到所述提醒文本之后，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述语音合成模型包括情感网络，所述情感网络用于对所述文本特征和所述情感声音特征进行特征融合；其中，所述情感声音特征包括全局情感声音特征和局部情感声音特征。

7.根据权利要求1所述的方法，其特征在于，所述语音合成模型为端到端语音合成模型。

8.一种语音提醒装置，其特征在于，应用于提醒机器人，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的语音提醒方法。

技术总结
本发明公开了一种语音提醒方法、装置、电子设备及存储介质。该方法包括：接收提醒对象的语音数据，确定语音数据对应的提醒文本；其中，提醒文本包括情感声音特征，情感声音特征与提醒文本关联对齐；基于语音合成模型对提醒文本的文本特征和情感声音特征进行特征融合，并对融合后的特征进行语音合成，生成包含情感声音特征的音频数据；基于语音生成模型将音频数据转换为提醒语音，并对提醒语音进行语音播报。本发明可以针对提醒对象的语音确定出针对性的提醒文本，并通过语音合成模型复刻提醒人员的情感声音特征，生成具有提醒人员的情感声音特征的提醒语音，在减少人工成本的同时提高与提醒对象的互动性以及提醒语音的质量，从而提高提醒效果。

技术研发人员：李曙光
受保护的技术使用者：青岛洞听智能科技有限公司
技术研发日：
技术公布日：2024/4/22

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李曙光
技术所有人：青岛洞听智能科技有限公司
我是此专利的发明人