一种AI平台的AI语音速率调整方法及系统与流程

文档序号:39429370发布日期:2024-09-20 22:28阅读:127来源:国知局

本发明涉及自然语言处理,具体涉及一种ai平台的ai语音速率调整方法及系统。


背景技术:

1、随着科技发展,当前汽车内智能语音的普及,通过用户与人工智能(artificialintelligence,ai)的交流可以进行相关的基本操作和基础交流。在当前的汽车ai平台中,ai语音速率调整方法和系统是语音合成技术中的重要组成部分。随着人工智能和自然语言处理技术的迅速发展,语音合成系统不仅能够生成高质量的语音,还能根据用户需求调整语音的速率,以提供更个性化和优化的用户体验。

2、当前汽车内搭载了智能ai语音平台,以便用户更好的进行汽车的相关操作和基本沟通交流,而针对不同用户可能有不同的偏好,如一些人可能更喜欢稍快的语音速率,而另一些人则可能更倾向于较慢的速率,而对于当前ai语音速率的调整问题,当前一般是ai平台固定默认的ai语音速率或是通过人工自己进行语速参数的调整来确定ai语音的速率,如此对于操作者来说一时之间难以确定合适的ai语音速率,无法针对不同用户实现自动化的语速需求匹配。特别是在与ai进行沟通时,由于沟通环境下可能存在多人同时说话的情况,如此也会对用户与ai的沟通造成干扰,进而影响与用户相匹配的ai语音速率的确定。


技术实现思路

1、为了解决汽车内用户与ai交流时,ai语速不当会影响用户体验度的技术问题,本发明的目的在于提供一种ai平台的ai语音速率调整方法及系统,所采用的技术方案具体如下:

2、第一方面,本发明提供一种ai平台的ai语音速率调整方法,包括:

3、获取当前ai沟通环境下ai平台收集的语音数据;

4、生成所述语音数据对应的宽带语谱图和窄带语谱图;

5、通过分析所述宽带语谱图和所述窄带语谱图,在所述语音数据中确定目标用户的核心语音片段;

6、按照所述核心语音片段对应的语音速率,调整所述ai平台与所述目标用户进行ai交流时的语音速率。

7、可选的,所述通过分析所述宽带语谱图和所述窄带语谱图,在所述语音数据中确定目标用户的核心语音片段,包括:

8、通过分析所述窄带语谱图中的频率变化,确定目标用户在所述语音数据所涵盖每个语音时刻下的主频率表现;

9、通过分析所述宽带语谱图中的频率变化,将所述语音数据划分为多个语音段落;

10、根据所述主频率表现,计算所述多个语音段落中每个语音段落作为核心语音片段的置信度;

11、基于所述置信度,在所述多个语音段落中筛选所述目标用户的核心语音片段。

12、可选的,所述通过分析所述窄带语谱图中的频率变化,确定目标用户在所述语音数据所涵盖每个语音时刻下的主频率表现,包括:

13、确定所述语音数据所涵盖每个语音时刻对应的扩展性时间窗口,以及所述扩展性时间窗口对应的窗口信息,所述窗口信息至少包括所述扩展性时间窗口的窗口大小;

14、基于所述窄带语谱图,提取每个所述扩展性时间窗口下的第一频率信息,所述第一频率信息至少包括所述扩展性时间窗口中各个时刻在所述窄带语谱图中的第一频率值,以及所述扩展性时间窗口中包含的所有所述第一频率值的第一频率数量;

15、根据每个所述语音时刻对应的所述窗口信息和所述第一频率信息,计算每个所述语音时刻下的主频率表现。

16、可选的,所述通过分析所述宽带语谱图中的频率变化,将所述语音数据划分为多个语音段落,包括:

17、基于所述宽带语谱图确定每个所述语音时刻下的第二频率信息,所述第二频率信息至少包括每个所述语音时刻在所述宽带语谱图中的第二频率值;

18、根据所述第二频率信息,计算所述每个所述语音时刻作为说话节奏停顿时刻的判断值;

19、基于所述判断值,在多个语音时刻中筛选至少一个说话节奏停顿点时刻;

20、在每个所述说话节奏停顿点时刻对所述语音数据进行段落分割,得到所述语音数据对应的多个语音段落。

21、可选的,所述根据所述主频率表现,计算所述多个语音段落中每个语音段落作为核心语音片段的置信度,包括:

22、将所述窄带语谱图中每个所述主频率表现对应的第一频率值标记为目标频率值,并计算每个所述目标频率值对应的用户主频率依据度;

23、对于所述多个语音段落中的任意一个语音段落,分别基于所述目标频率值和所述用户主频率依据度,计算当前语音段落作为核心语音片段的置信度。

24、可选的,所述计算每个所述目标频率值对应的用户主频率依据度,包括:

25、在所述窄带语谱图中,统计所有所述语音时刻对应的多个所述目标频率值的整体频率数量,以及每个所述目标频率值对应的第二频率数量;

26、根据所述第二频率数量和所述整体频率数量,计算每个所述目标频率值对应的用户主频率依据度。

27、可选的,所述对于所述多个语音段落中的任意一个语音段落,分别基于所述目标频率值和所述用户主频率依据度,计算当前语音段落作为核心语音片段的置信度,包括:

28、将所述多个语音段落中的任意一个语音段落分别确定为当前语音段落;

29、确定所述当前语音段落的语音段落信息,所述语音段落信息至少包括当前语音段落中存在的时刻数量、所述当前语音段落中每个语音时刻下对应所述第二频率值的频率均值,以及所述当前语音段落中每个语音时刻下的所述目标频率值和所述用户主频率依据度;

30、将所述语音段落信息代入预设计算公式,计算所述当前语音段落作为核心语音片段的置信度。

31、可选的,所述基于所述置信度,在所述多个语音段落中筛选所述目标用户的核心语音片段,包括:

32、将所述多个语音段落中对应所述置信度最大的语音段落,确定为所述目标用户的核心语音片段。

33、可选的,按照所述核心语音片段对应的语音速率,调整所述ai平台与所述目标用户进行ai交流时的语音速率,包括:

34、确定所述ai平台与所述目标用户进行ai交流时的初始语音速率;

35、将所述初始语音速率调整为所述核心语音片段对应的语音速率。

36、第二方面,本发明实施例还提供了一种ai平台的ai语音速率调整系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。

37、本发明具有如下有益效果:通过本发明提供的技术方案,先通过将语音数据转化为语谱图的形式,基于转化得到的宽带语谱图和窄带语谱图,在语音数据中确定目标用户的核心语音片段;之后按照核心语音片段对应的语音速率,调整ai平台与目标用户进行ai交流的语音速率,使用户和ai保持相同的语速。本发明可根据目标用户与ai交流的实际语速情况,实现对ai语音语速的自动化适应性调整,使最终调整的ai语音速率充分契合目标用户的语音速率,可提升ai交流时的体验度。并且通过核心语音片段的筛选,基于核心语音片段确定所需调整的ai语音语速,可以避免在目标用户与ai交流时其他人接打电话等因素的干扰,而带来的最终ai语速调整不准确的情况。

38、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1