基于听觉掩蔽效应的语音可懂度测量方法

文档序号：2826259阅读：464来源：国知局

基于听觉掩蔽效应的语音可懂度测量方法
【专利摘要】本发明公开了一种基于听觉掩蔽效应的语音可懂度测量方法，其特征是：通过对参考信号及其通过通信或语音传输系统后的输出信号进行分帧，并以帧为基本单元，根据ISO/IEC11172-3标准中的心理声学模型，分别估计参考与输出信号的听觉掩蔽门限；根据听觉掩蔽门限提取参考与输出信号中的可听分量；根据ISO226-2003标准等响度级曲线，分别将参考信号可听分量、输出信号可听分量的幅度转换为响度，计算每帧信号的感知相似度、语音信息保真度和感知信噪比，进而得到输出信号失真度；根据失真度与可懂度关系曲线，对输出信号进行可懂度预测。与目前常用语音可懂度客观测量方法相比，本发明方法测量精度更高。
【专利说明】基于听觉掩蔽效应的语音可懂度测量方法
【技术领域】
[0001]本发明涉及一种基于输入/输出的语音可懂度客观测量方法，特别是一种基于听觉掩蔽效应的语音可懂度测量方法。
【背景技术】
[0002]可懂度是语音信号的重要品质因数，广泛应用于厅堂设计、医学研究(如助听器、人工耳蜗、听觉障碍等)、语音增强、扩声系统和通信系统性能测试等领域。
[0003]根据评价主体不同，可懂度测量有主客观之分。主观可懂度测量通过听音人直接对语音信号进行主观评价，是可懂度评价最基本、最常用的手段。但是，由于组织严格的听力测试需要耗费大量的人力和物力，测试结果易受主观因素的影响，难以实时应用。客观可懂度测量用机器代替人依据客观参数进行评价，具有应用灵活、不受条件限制和主观因素影响、不同时间和不同场合的测试结果可比较等特点。
[0004]根据是否需要系统输入作为参照，可懂度客观测量方法也可分为基于输入/输出的测量方法和基于输出的测量法，前者以纯净语音作参考计算失真语音的失真度，并以失真度作为可懂度预测的依据，与主观可懂度相关度高，是条件许可(能提供参考信号)情况下的首选方法。
[0005]语音可懂度指数法(Speech Intelligibility Index, SII)和语言传递指数法(Speech Transmission Index, STI)是目前最常用的语音可懂度客观测量方法。SII的实质是一种频带加权信噪比方法，没有考虑人耳的听觉特性，仅适用于一些简单的线性失真信号，应用范围有限；STI以人工合成信号为激励，虽能适应非线性失真信号，但其实质是系统性能测试，且计算量大。就总体而言，SII和STI的测量精度都不是很高。

【发明内容】

[0006]本发明的目的在于提供一种基于听觉掩蔽效应的语音可懂度测量方法，通过充分考虑人耳对声音大小、频率的感知特性，使输出信号失真度参数能更好地反映人耳感知失真度，从而获得更高的可懂度测量精度。
[0007]本发明为解决技术问题采用如下技术方案:
[0008]本发明基于听觉掩蔽效应的语音可懂度测量方法的特点是按如下步骤进行:
[0009]步骤一:分别对参考信号及所述参考信号通过通信或语音传输系统后的输出信号进行分巾贞，巾贞长取值为25ms?64ms,每巾贞前后各重叠1/8?1/3巾贞长；
[0010]步骤二:以帧为基本分析单元，根据IS0/IEC11172-3标准中的心理声学模型，分别估计参考信号与输出信号的听觉掩蔽门限，将能量大于听觉掩蔽门限的功率谱分量定义为信号可听分量，检查输出信号可听分量的各频率成份，如果对应参考信号的相应频率成份是参考信号可听分量，则定义为输出有效语音信息分量，否则定义为输出无效语音信息分量;
[0011]步骤三:根据IS0226-2003标准等响度级曲线，分别将参考信号可听分量、包括输出有效语音信息分量和输出无效语音信息分量的输出信号可听分量的幅度转换为响度；
[0012]步骤四:根据参考信号可听分量、输出信号可听分量和输出有效语音信息分量的响度，计算每帧输出信号的感知相似度、语音信息保真度和感知信噪比；根据输出每帧信号的感知相似度、语音信息保真度和感知信噪比计算输出信号失真度；
[0013]步骤五:根据输出信号失真度与可懂度的关系曲线，进行可懂度预测。
[0014]本发明基于听觉掩蔽效应的语音可懂度测量方法的特点也在于:
[0015]所述步骤四中，感知相似度定义为参考信号可听分量与输出信号可听分量之间的皮尔逊相关系数；语音信息保真度定义为参考信号的可听分量与输出有效语音信息分量之间的皮尔逊相关系数；感知信噪比定义为输出有效语音信息分量响度之和与输出无效语言信息分量响度之和的比值。
[0016]所述步骤四中输出信号失真度按如下步骤计算获得:
[0017]a、分别对感知相似度、语音信息保真度和感知信噪比的参数取值范围进行约束，并归一化到[0，1]区间；所述参数取值范围约束的方法是:分别对感知相似度、语音信息保真度和感知信噪比设置高门限和低门限，当参数值大于高门限时取值为高门限，当参数值小于低门限时取值为低门限，否则保持参数值大小不变；
[0018]b、根据加权系数计算输出信号感知相似度、语音信息保真度和感知信噪比的加权和，并将常数1.0与所述加权和的差值定义为局部失真度；
[0019]C、计算输出信号所有局部失真度的均值，并将所述均值定义为输出信号失真度。
[0020]所述步骤a中，高门限的获取方法为:任意选取不少于20个主观可懂度介于0.99和I之间的输出信号作为高门限训练样本，计算所有高门限训练样本的感知相似度均值、语音信息保真度均值、感知信噪比均值，分别作为感知相似度的高门限、语音信息保真度的高门限和感知信噪比的高门限；低门限的获取方法为:任意选取不少于20个主观可懂度介于O和0.01之间的输出信号作为低门限训练样本，计算所有低门限训练样本的感知相似度均值、语音信息保真度均值、感知信噪比均值，分别作为感知相似度的低门限、语音信息保真度的低门限和感知信噪比的低门限。
[0021]所述步骤b的加权系数的获取方法为:选取不少于40个主观可懂度在[0，I]区间均匀分布的输出信号作为加权系数训练样本，计算每个加权系数训练样本的感知相似度均值、语音信息保真度均值和感知信噪比均值；对每个加权系数训练样本进行主观可懂度测试，并分别计算感知相似度均值、语音信息保真度均值和感知信噪比均值与主观可懂度之间的皮尔逊相关系数，分别记为ra、rb和r。；分别将ra、rb、r。与ra+rb+r。的比值作为感知相似度、语音信息保真度和感知信噪比的加权系数。
[0022]本发明基于听觉掩蔽效应的语音可懂度测量方法的特点还在于:所述步骤五中失真度与可懂度关系曲线的获取方法为:选取不少于40个主观可懂度在[0，I]区间均匀分布的输出信号作为关系曲线训练样本，在按照权利要求1中步骤一至步骤四计算输出信号失真度的同时，对输出信号进行主观可懂度测试，得到一一对应的失真度与主观可懂度数据，采用最小二乘法进行多项式拟合，得出失真度与可懂度的关系曲线。
[0023]与已有技术相比，本发明有益效果体现在:
[0024]本发明方法基于人耳听觉掩蔽效应进行可懂度测量，在计算输出信号失真度时，主要分析人耳可感知信号分量的失真情况，通过将信号的物理特性(声压级)转换为人耳的主观感知特性(响度)，充分考虑人耳对声音大小、频率的感知特性，使输出信号失真度参数能更好地反映人耳感知失真度。因此，与语音可懂度指数法和语言传递指数法相比，本发明方法与主观可懂度测量的相关度更高，即测量精度更高。
【专利附图】

【附图说明】
[0025]图1为本发明方法原理框图。
[0026]图2为为说明本发明方法的某帧参考信号举例。
[0027]图3为图2所示波形受噪声污染后的输出信号波形。
[0028]图4为图2所示参考信号的功率谱及听觉掩蔽门限。
[0029]图5为图3所示输出信号的功率谱及听觉掩蔽门限。
[0030]图6为图2所不参考信号帧的可听分量。
[0031]图7为图3所不输出有效语首信息分量。
[0032]图8为图3所不输出信号帧的可听分量。
[0033]图9为采用本发明方法获得的失真度与主观可懂度关系曲线的举例。
【具体实施方式】
[0034]参见图1，本实施例中基于听觉掩蔽效应的语音可懂度客观测量方法流程为:
[0035]步骤一:分别对参考信号x(n)及参考信号通过通信或语音传输系统后的输出信号y(n)进行分帧，帧长取值范围为25ms~64ms,每帧前后各重叠1/8~1/3帧长,并将第m帧参考信号与输出信号分别表示为Xm(η)和7111(11)。图2所示信号波形是为说明本发明方法而列举的参考信号实例xm(n)，图3为图2所示信号通过通信或语音传输系统后的输出信号帧 Yni (η)。
[0036]步骤二:以帧为基本分析单元，分别对每一帧参考信号和输出信号进行短时功率谱估计(幅度用声压级表示)，将第m帧参考信号与输出信号的功率谱分别记为Xm(k)和Ym (k);根据IS0/IEC11172-3标准中的心理声学模型，分别对第m帧参考信号和输出信号进行听觉掩蔽门限估计，将听觉掩蔽门限分别记为TXm(k)和TYm(k);将参考信号中能量大于听觉掩蔽门限TXmGO的功率谱分量定义为参考信号可听分量X’m(k)，将输出信号中能量大于听觉掩蔽门限TYmGO的功率谱分量定义为输出信号可听分量Y’m(k);进一步检查输出信号可听分量的各频率成份，如果对应参考信号的相应频率成份是参考信号可听分量，则定义为输出有效语音信息分量Y’ ’m(k)，否则定义为输出无效语音信息分量。参考信号可听分量x’m(k)、输出信号可听分量Y’m(k)以及输出有效语音信息分量Y’’m(k)可由式(1)、(2)和(3)获得:
? 义(k),义(k) > TX (k)、
[0037]O):；ΛCl)
[U ，else
[0038]丫f)>TUk、(2)
L U 5 else
[0039]W = |⑷(3)
[0 , else[0040]图4为图2所示参考信号帧xm (η)的功率谱Xm (k)及听觉掩蔽门限TXm (k)，图5为图3所示输出信号帧^ (η)的功率谱￥?1(10及听觉掩蔽门限TYm (k)，图6为图2所示参考信号帧Xm (η)的可听分量X’m (k)，图7为图3所示输出有效语音信息分量Y’’m (k)，图8为图3所示输出信号帧的可听分量Y’ ffl (k)。
[0041]步骤三:根据IS0226-2003标准等响度级曲线，将参考信号可听分量X’m(k)、输出信号可听分量Y’ m(k)(包括输出有效语音信息分量和输出无效语音信息分量)、输出有效语音信息分量Y’’m (k)的幅度转换为响度，分别记为LX’ m (k)、LY’ m (k)和LY’’m(k)。
[0042]步骤四:根据参考信号可听分量、输出信号可听分量和输出有效语音信息分量的响度，计算每帧输出信号的感知相似度rps(m)、语音信息保真度rpf (m)和感知信噪比SNRp(m);基于rps(m)、rpf(m)和SNRp(m)计算输出信号的帧失真度dxy(m)，并将输出信号帧失真度的算术平均值定义为输出信号的失真度Dxy ；
[0043]步骤五:根据输出信号失真度与可懂度的关系曲线SI (Dxy)，进行可懂度预测。
[0044]本实施例的步骤四中，感知相似度rps(m)定义为参考信号可听分量与输出信号可听分量的皮尔逊相关系数，用公式(4)表示为:
【权利要求】
1.一种基于听觉掩蔽效应的语音可懂度测量方法，其特征是按如下步骤进行: 步骤一:分别对参考信号及所述参考信号通过通信或语音传输系统后的输出信号进行分中贞，帧长取值为25ms~64ms,每帧前后各重叠1/8~1/3帧长；步骤二:以帧为基本分析单元，根据IS0/IEC11172-3标准中的心理声学模型，分别估计参考信号与输出信号的听觉掩蔽门限，将能量大于听觉掩蔽门限的功率谱分量定义为信号可听分量，检查输出信号可听分量的各频率成份，如果对应参考信号的相应频率成份是参考信号可听分量，则定义为输出有效语音信息分量，否则定义为输出无效语音信息分量; 步骤三:根据IS0226-2003标准等响度级曲线，分别将参考信号可听分量、包括输出有效语音信息分量和输出无效语音信息分量的输出信号可听分量的幅度转换为响度；步骤四:根据参考信号可听分量、输出信号可听分量和输出有效语音信息分量的响度，计算每帧输出信号的感知相似度、语音信息保真度和感知信噪比；根据输出每帧信号的感知相似度、语音信息保真度和感知信噪比计算输出信号失真度；步骤五:根据输出信号失真度与可懂度的关系曲线，进行可懂度预测。
2.根据权利要求1所述的基于听觉掩蔽效应的语音可懂度测量方法，其特征是:所述步骤四中，感知相似度定义为参考信号可听分量与输出信号可听分量之间的皮尔逊相关系数；语音信息保真度定义为参考信号的可听分量与输出有效语音信息分量之间的皮尔逊相关系数；感知信噪比定义为输出有效语音信息分量响度之和与输出无效语言信息分量响度之和的比值。
3.根据权利要求1所述的基于听觉掩蔽效应的语音可懂度测量方法，其特征是:所述步骤四中输出信号失真度按如下步骤计算获得: a、分别对感知相似度、语音信息保真度和感知信噪比的参数取值范围进行约束，并归一化到[O，I]区间；所述参数取值范围约束的方法是:分别对感知相似度、语音信息保真度和感知信噪比设置高门限和低门限，当参数值大于高门限时取值为高门限，当参数值小于低门限时取值为低门限，否则保持参数值大小不变； b、根据加权系数计算输出信号感知相似度、语音信息保真度和感知信噪比的加权和，并将常数1.0与所述加权和的差值定义为局部失真度； C、计算输出信号所有局部失真度的均值，并将所述均值定义为输出信号失真度。
4.根据权利要求3所述的基于听觉掩蔽效应的语音可懂度测量方法，其特征是:所述步骤a中，高门限的获取方法为:任意选取不少于20个主观可懂度介于0.99和I之间的输出信号作为高门限训练样本，计算所有高门限训练样本的感知相似度均值、语音信息保真度均值、感知信噪比均值，分别作为感知相似度的高门限、语音信息保真度的高门限和感知信噪比的高门限；低门限的获取方法为:任意选取不少于20个主观可懂度介于O和0.01之间的输出信号作为低门限训练样本，计算所有低门限训练样本的感知相似度均值、语音信息保真度均值、感知信噪比均值，分别作为感知相似度的低门限、语音信息保真度的低门限和感知信噪比的低门限。
5.根据权利要求3所述的基于听觉掩蔽效应的语音可懂度测量方法，其特征在于:所述步骤b的加权系数的获取方法为:选取不少于40个主观可懂度在[0，I]区间均匀分布的输出信号作为加权系数训练样本，计算每个加权系数训练样本的感知相似度均值、语音信息保真度均值和感知信噪比均值；对每个加权系数训练样本进行主观可懂度测试，并分别计算感知相似度均值、语音信息保真度均值和感知信噪比均值与主观可懂度之间的皮尔逊相关系数，分别记为ra、rb和r。；分别将ra、rb> rc与ra+rb+r。的比值作为感知相似度、语音信息保真度和感知信噪比的加权系数。
6.根据权利要求1所述的基于听觉掩蔽效应的语音可懂度测量方法，其特征在于:所述步骤五中失真度与可懂度关系曲线的获取方法为:选取不少于40个主观可懂度在[0，I]区间均匀分布的输出信号作为关系曲线训练样本，在按照权利要求1中步骤一至步骤四计算输出信号失真度的同时，对输出信号进行主观可懂度测试，得到一一对应的失真度与主观可懂度数据，采用最小二乘法进行多项式拟合，得出失真度与可懂度的关系曲线。
【文档编号】G10L25/60GK103578479SQ201310430429
【公开日】2014年2月12日申请日期:2013年9月18日优先权日:2013年9月18日
【发明者】储飞黄, 孙战先, 李昂, 路后兵, 吴微露, 瞿洋, 南旭东, 许士敏申请人:中国人民解放军电子工程学院, 储飞黄

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：储飞黄;孙战先;李昂;路后兵;吴微露;瞿洋;南旭东;许士敏
技术所有人：中国人民解放军电子工程学院;储飞黄
我是此专利的发明人

上一篇：一种基于bp神经网络的本地语音识别方法
上一篇：基于正交正弦脉冲序列定位标签的语音时间规整方法