本发明涉及数据处理领域,尤其涉及一种语音信号的特征提取方法及系统。
背景技术:
1、在语音信号处理领域,准确且高效地提取语音信号特征对于众多应用至关重要,如语音识别、说话人识别、语音情感分析等。语音信号包含了丰富的信息,如何从复杂的语音波形中精准提取有效特征一直是研究的重点和难点。
2、语谱图作为一种强大的语音信号分析工具,在语音特征提取中发挥着重要作用。它通过将语音信号从时域转换到频域,并结合时间维度,以直观的方式展示了语音信号的频谱随时间的变化情况。在生成语谱图的过程中,窗口尺寸的设置是一个关键因素。
3、在语音信号转换为语谱图的过程中,窗口尺寸的选择是影响转换效果的核心因素。当窗口尺寸过小时,虽然能够敏锐捕捉语音信号的瞬态变化,清晰展现短时特征细节,但由于单个窗口内包含的语音样本数量有限,导致在频域信息分析上力不从心。这种情况下,提取出的频域数据存在显著偏差,进而严重影响语音识别、说话人识别等下游任务的准确性。反之,若窗口尺寸过大,虽然能凭借充足的语音样本更有效地提取频域信息,却会不可避免地引入大量冗余的周边频域数据。这些多余信息会掩盖语音信号中的瞬态变化,使得语谱图难以呈现清晰的特征细节,最终造成关键语音特征信息的丢失。由此可见,窗口尺寸的精准选择是平衡语音信号时域与频域特征提取的关键,对后续语音处理任务的性能起着决定性作用。
4、当前,多数语音信号特征提取方法在设置窗口尺寸时,普遍依赖固定的经验值,这种处理方式严重缺乏对不同语音信号特性的自适应调整能力。由于人类在语言表达时,每个时刻的语速、语调都会动态变化,再叠加说话人发音习惯、语音内容差异,以及所处环境噪声干扰等因素,不同时刻的语音信号对应的最佳窗口尺寸必然各不相同。然而,现有方法却忽视了这些关键变量,导致生成的语谱图难以精准还原语音信号的真实特征。因而如何通过自适应的调整窗口尺寸来准确的提取出语谱图成为本发明的研究重点。
技术实现思路
1、为了解决如何通过自适应的调整窗口尺寸来准确的提取出语谱图问题,本发明提供一种语音信号的特征提取方法及系统。
2、第一方面,本发明提供一种语音信号的特征提取方法,采用如下的技术方案:
3、一种语音信号的特征提取方法,包括步骤:
4、a.对于语音信号中的任意一个中心数据点,计算一个自适应的稳定限定阈值,所述稳定限定阈值与所述中心数据点周围信号的规律变化程度负相关,与所述中心数据点自身信号的规律复杂性正相关;
5、b.从一个初始的基准长度开始,围绕所述中心数据点逐步增大窗口尺寸,并在每次增大后,计算一个表征频谱变化稳定性的稳定程度;
6、c.将所述稳定程度与自适应的稳定限定阈值进行比较,当所述稳定程度首次不满足预设关系时,将当前窗口尺寸确定为所述中心数据点的目标窗口尺寸;
7、d.基于为语音信号中各数据点确定的各自的目标窗口尺寸,对所述语音信号进行时频分析,以提取语音信号特征。
8、本发明通过设置合适的窗口尺寸,防止窗口较小时样本不足导致的无法提取频域信息的问题,同时也防止窗口较大时引入过多周围数据导致将瞬时变动信息被掩盖问题,从而实现准确的提取出语音信号中的频域信息,为准确语音信号特征提取提供基础;进一步地,在设置合适的窗口尺寸时,考虑到随着样本数量增加,提取出的频域信息越来越准确,提取出的频域信息越稳定,因而通过分析提取出频域信息的稳定性是否满足阈值要求的情况来判断窗口中是否有足够的样本用于频域信息提取,进而来筛选出合适的窗口尺寸;进一步地,在设置频域信息的稳定性限定阈值时,考虑该数据处与周围信息的差异越大越容易周围信息越容易干扰该数据频域信息提取,因而在计算稳定性限定阈值时引入了各数据处频域信息与周围频域信息的差异来将稳定性限定阈值调小,从而防止引入太多不同变动规律的其他信息干扰该数据处频域信息提取;进一步地,在设置频域信息的稳定性限定阈值时,考虑到各数据处的变动规律越复杂,因而各数据处提取频域信息的难度越大,越需要借助更多周围信息才能提取出频域信息,因而在设置稳定性限定阈值时引入规律复杂性来将稳定性限定阈值调大,从而引入更多的周围信息来完成频域信息提取。
9、优选的,稳定限定阈值的计算方法,包括:
10、以所述中心数据点为中心获取若干个不同长度的数据段;
11、通过对每两个相邻长度的数据段的拟合规律进行比较,得到一个平均规律差异性;
12、将一个表征最短数据段规律复杂性的指标,除以所述平均规律差异性,以得到所述稳定限定阈值。
13、本发明通过引入差异性分析以及规律复杂性分析来设置合适的稳定性限定阈值,从而防止将规律差异大的周围信息过度引入或者防止规律复杂性大无法将频域信息准确提取的问题,为后续准确获取窗口尺寸提供基础。
14、优选的,所述数据段的拟合规律是通过拟合三角多项式,并提取其各项的幅值系数和频率系数构成的描述子序列来表征的。
15、本发明通过引入幅值和频域两种信息来准确描述各项信息,从而准确度量序列的变动规律提供基础。
16、优选的,所述最短数据段规律复杂性,是基于拟合该数据段所需的最优三角多项式的项数数量、以及该最优三角多项式中各项描述子之间的离散程度共同计算得出。
17、本发明通过项数以及项数之间的差异较为全面准确的反映序列的规律复杂情况。
18、优选的,所述基准长度,是通过寻找所述中心数据点两侧最近的两个极值点,并计算这两个极值点之间的距离而确定。
19、优选的,所述稳定程度的计算方法,包括:
20、获取当前及过去预设数量次窗口尺寸调整后的频谱;
21、计算每一次调整相对于前一次调整的频谱相似性,得到一个频谱相似性序列;
22、基于所述频谱相似性序列的最新值及其历史方差,计算出所述稳定程度。
23、本发明考虑到仅看当前相似性高,可能是偶然;只有当相似性持续高且变化不大时,才能确信频谱已达到稳定。这种判断方式,有效避免了因单次相似度波动而导致的窗口尺寸提前或延迟确定,增强了最优窗口判断的可靠性。
24、优选的,所述频谱相似性是通过对两个频谱的幅值序列进行排序后,计算其排序后序列的余弦相似度而获得的。
25、优选的,当所述稳定程度首次小于所述稳定限定阈值时,确定目标窗口尺寸。
26、优选的,进行时频分析和特征提取的方法包括:
27、基于各数据点的目标窗口尺寸,对所述语音信号进行短时傅里叶变换,以生成一个具有时变分辨率的语谱图;
28、基于所述语谱图,提取梅尔频率倒谱系数作为所述语音信号特征。
29、第二方面,本发明提供一种语音信号的特征提取系统,采用如下的技术方案:
30、一种语音信号的特征提取系统,包括:处理器和存储器,所述存储器存储有计算机程序指令,当所述计算机程序指令被所述处理器执行时实现上述一种语音信号的特征提取方法。
31、通过采用上述技术方案,将上述的一种语音信号的特征提取方法生成计算机程序,并存储于存储器中,以被处理器加载并执行,从而根据存储器及处理器制作终端设备,方便使用。
32、本发明具有以下技术效果:
33、本发明通过设置合适的窗口尺寸,防止窗口较小时样本不足导致的无法提取频域信息的问题,同时也防止窗口较大时引入过多周围数据导致将瞬时变动信息被掩盖问题,从而实现准确的提取出语音信号中的频域信息,为准确语音信号特征提取提供基础;
34、进一步地,在设置合适的窗口尺寸时,考虑到随着样本数量增加,提取出的频域信息越来越准确,提取出的频域信息越稳定,因而通过分析提取出频域信息的稳定性是否满足阈值要求的情况来判断窗口中是否有足够的样本用于频域信息提取,进而来筛选出合适的窗口尺寸;
35、进一步地,在设置频域信息的稳定性限定阈值时,考虑该数据处与周围信息的差异越大越容易周围信息越容易干扰该数据频域信息提取,因而在计算稳定性限定阈值时引入了各数据处频域信息与周围频域信息的差异来将稳定性限定阈值调小,从而防止引入太多不同变动规律的其他信息干扰该数据处频域信息提取;
36、进一步地,在设置频域信息的稳定性限定阈值时,考虑到各数据处的变动规律越复杂,因而各数据处提取频域信息的难度越大,越需要借助更多周围信息才能提取出频域信息,因而在设置稳定性限定阈值时引入规律复杂性来将稳定性限定阈值调大,从而引入更多的周围信息来完成频域信息提取。