本发明涉及语音合成,尤其涉及一种用于人机交互的语音合成方法及系统。
背景技术:
1、语音合成技术作为人机交互的核心输出手段,已被广泛应用于智能终端、车载系统及各类交互设备中。现有的语音合成系统通常基于文本输入生成对应的语音波形,其流程包括文本分析、声学特征预测与波形生成。在高可靠性要求的人机交互场景中,如医疗信息播报、工业控制指令反馈、紧急导航提示等,语音输出的准确性与可靠性直接影响交互安全与用户体验。当前系统普遍采用端到端的神经网络模型生成语音,其输出结果在听感上具有连续性和自然度,但系统内部对生成过程中的不确定性缺乏感知与处理机制。
2、现有语音合成方法存在的缺陷在于:其输出过程缺乏对自身生成内容置信度的内省与自适应调整能力,系统以统一的声学表现方式输出所有内容,无法识别合成过程中高不确定性片段(如罕见词、数字串或易混淆指令),亦未针对此类高风险内容采取增强鲁棒性的声学补偿策略,这导致在高可靠性要求的人机交互场景中,语音输出错误可能引发理解歧义甚至操作风险,降低了交互系统的可靠性与用户信任度。
技术实现思路
1、本发明针对现有技术中存在的技术问题,提供一种用于人机交互的语音合成方法及系统。
2、本发明解决上述技术问题的技术方案如下:
3、本发明提供如下技术方案:
4、一种用于人机交互的语音合成方法,包括:
5、s1、获取待合成文本及其对应的声学特征预测值;
6、s2、计算声学特征预测值在时间维度上相邻语音单元之间的差分序列,并根据差分序列中的异常峰值确定每个语音单元的不确定性指标;
7、s3、基于不确定性指标计算待合成文本的局部信息熵序列,并根据局部信息熵序列的变化率识别熵值突变点;
8、s4、将不确定性指标与熵值突变点进行融合分析,识别出待合成文本中的高不确定性文本片段;
9、s5、识别高不确定性文本片段中的语义焦点单元,并分析高不确定性文本片段缺失前后的全局语境向量差异以获取语境依存度;
10、s6、基于语义焦点单元与高不确定性文本片段的位置交集以及语境依存度,协同确定其语义风险等级;
11、s7、根据语义风险等级调整高不确定性文本片段对应的韵律参数,并基于调整后的韵律参数生成合成语音。
12、进一步地,获取待合成文本及其对应的声学特征预测值,包括:
13、对待合成文本进行文本分析得到语言学特征;
14、将语言学特征输入至神经网络声学模型中进行前向计算;
15、获取神经网络声学模型输出的声学特征预测值。
16、进一步地,计算声学特征预测值在时间维度上相邻语音单元之间的差分序列,并根据差分序列中的异常峰值确定每个语音单元的不确定性指标,包括:
17、计算相邻语音单元对应声学特征预测值之间的差值形成差分序列;
18、检测差分序列中超过预设阈值的异常峰值;
19、将异常峰值的幅度映射为对应语音单元的不确定性指标。
20、进一步地,基于不确定性指标计算待合成文本的局部信息熵序列,并根据局部信息熵序列的变化率识别熵值突变点,包括:
21、以不确定性指标为基础,采用滑动窗口方式计算各窗口内不确定性指标的信息熵值,形成局部信息熵序列:设置固定长度的滑动窗口,沿时间顺序依次覆盖不确定性指标序列;对每个窗口内的不确定性指标值进行概率分布统计,计算概率分布的信息熵值;将各窗口中心位置对应的信息熵值按时间顺序排列,形成局部信息熵序列;
22、对局部信息熵序列进行一阶差分运算得到变化率序列:按时间顺序计算局部信息熵序列中相邻两个信息熵值之间的差值;将各差值按原顺序排列形成一阶差分序列;对一阶差分序列取绝对值得到变化率序列;
23、检测变化率序列中超过预设变化率阈值的点作为熵值突变点。
24、进一步地,将不确定性指标与熵值突变点进行融合分析,识别出待合成文本中的高不确定性文本片段,包括:
25、将不确定性指标超过预设不确定性阈值的语音单元位置与熵值突变点对应的语音单元位置进行匹配;
26、筛选出同时满足不确定性指标超过预设不确定性阈值且位于熵值突变点处的语音单元;
27、将连续分布的满足条件的语音单元合并为高不确定性文本片段。
28、进一步地,识别高不确定性文本片段中的语义焦点单元,并分析高不确定性文本片段缺失前后的全局语境向量差异以获取语境依存度,包括:
29、基于语法规则和语义角色分析从高不确定性文本片段中识别语义焦点单元;
30、分别提取包含高不确定性文本片段的完整语句语义向量和掩蔽高不确定性文本片段后的语句语义向量;
31、计算完整语句语义向量与掩蔽后语句语义向量之间的余弦距离作为语境依存度。
32、进一步地,分别提取包含高不确定性文本片段的完整语句语义向量和掩蔽高不确定性文本片段后的语句语义向量是通过以下方式实现的:
33、使用预训练的语义编码模型对完整语句进行编码得到完整语句语义向量;
34、将高不确定性文本片段替换为掩蔽标记后形成掩蔽语句,使用相同的语义编码模型对掩蔽语句进行编码得到掩蔽后语句语义向量。
35、进一步地,基于语义焦点单元与高不确定性文本片段的位置交集以及语境依存度,协同确定其语义风险等级,包括:
36、当语义焦点单元与高不确定性文本片段存在位置交集时,将语境依存度与预设依存度阈值进行比较;
37、根据语境依存度超过预设依存度阈值的程度确定语义风险等级;
38、当语义焦点单元与高不确定性文本片段不存在位置交集时,将语义风险等级确定为最低等级。
39、进一步地,根据语义风险等级调整高不确定性文本片段对应的韵律参数,并基于调整后的韵律参数生成合成语音,包括:
40、建立语义风险等级与韵律参数调整幅度的映射关系;
41、根据语义风险等级查询映射关系获得对应的韵律参数调整值;
42、将调整值作用于高不确定性文本片段对应的原始韵律参数;
43、基于调整后的韵律参数和声学特征预测值,通过声码器生成合成语音。
44、另一方面,本发明提供一种用于人机交互的语音合成系统,包括:
45、文本获取模块,用于获取待合成文本及其对应的声学特征预测值;
46、差分计算模块,用于计算声学特征预测值在时间维度上相邻语音单元之间的差分序列,并根据差分序列中的异常峰值确定每个语音单元的不确定性指标;
47、熵值分析模块,用于基于不确定性指标计算待合成文本的局部信息熵序列,并根据局部信息熵序列的变化率识别熵值突变点;
48、片段识别模块,用于将不确定性指标与熵值突变点进行融合分析,识别出待合成文本中的高不确定性文本片段;
49、语义分析模块,用于识别高不确定性文本片段中的语义焦点单元,并分析高不确定性文本片段缺失前后的全局语境向量差异以获取语境依存度;
50、风险评估模块,用于基于语义焦点单元与高不确定性文本片段的位置交集以及语境依存度,协同确定其语义风险等级;
51、语音合成模块,用于根据语义风险等级调整高不确定性文本片段对应的韵律参数,并基于调整后的韵律参数生成合成语音。
52、本发明的有益效果是:
53、1.通过计算声学特征预测值的差分序列并分析异常峰值,能够准确量化每个语音单元的不确定性程度,结合局部信息熵序列的变化率检测,实现了对语音合成过程中潜在风险片段的双重校验机制。这种基于信号处理和信息熵的混合分析方法,能够有效识别罕见词、数字串等易出错内容对应的声学特征异常,为后续针对性处理提供可靠依据。通过不确定性指标与熵值突变点的融合分析,系统能够精确定位高不确定性文本片段,避免了传统方法中单一特征检测可能造成的漏检或误检问题。
54、2.通过语义焦点单元识别和语境依存度分析,建立了从声学特征到语义层面的多层次风险评估体系。通过分析高不确定性片段在全局语境中的重要程度,系统能够智能区分不同风险等级,并据此调整韵律参数,既保持了合成语音的整体自然度,又对高风险内容进行了声学增强处理,显著提高了关键信息的传达准确性和可懂度。