一种适用于噪声环境的汉语语音清晰度评测算法的制作方法

文档序号：12128644阅读：341来源：国知局

本发明属于声频测量领域，特别涉及一种适用于噪声环境的汉语语音清晰度客观评测算法。

背景技术：

语音清晰度是衡量语音传输系统性能优劣的重要评价指标，清晰度评测在通信、扩声、音质设计等领域广泛应用，一般用正确接收的语言单位(比如单音节)与全部发送语言单位的比值度量清晰度。清晰度的评测方法分为主观评测和客观评测两类，主观评测方法是组织人员进行现场清晰度测试打分，尽管主观评测结果直接准确，但实际操作困难，因此工程中更多采用客观评测方法。清晰度客观评测是用某个客观量评价系统的清晰度，这个客观量是根据一定的计算模型计算得到的，并且是与主观评测结果高度相关的。声频技术领域使用的语音清晰度客观评测指标主要有：清晰度指数AI(Articulation Index)，辅音损失率％Alcon(Articulation loss of consonant)，语言传输指数STI(Speech Transmission Index)等，这些客观评测方法均有其各自的计算模型，采用不同的信号处理方法，适用于不同的条件和场合。然而，将这些评测方法直接应用到汉语声传播环境的清晰度评测时会出现失效的问题，即客观评测结果与汉语语音清晰度主观测试结果不匹配，客观评测结果较差对应的汉语实际听闻感受可能尚可，而客观评测结果较好对应的汉语实际听感可能不佳。

分析现有技术评测汉语语音清晰度失效原因可知清晰度客观评测算法的可靠性与评测对象自身的特性有关，现有的清晰度客观评测方法是根据荷兰语或英语等印欧语系语言特性提出的，并没有考虑汉语的语音学和语言学特性。汉语属于汉藏语系，是一种声调语言，声调起到辨义作用，汉语以单音节为主，一个汉字就是一个单音节，每个音节包含声母、韵母和声调三个部分，有别于传统辅-元-辅的音节构造，由于存在较多的同音字，汉语的单字可以视作无语义，这些语音特点都与外语存在显著区别，因此在语音传输过程中各干扰要素对汉语语音清晰度的影响结果与外语会有所不同。此外，传统的清晰度客观评测算法是将语音传输系统视作一个整体，馈给系统一个标准测试信号，根据系统的输出信号相对输入信号的变化衰减程度，进而给出一个具体的客观量值，计算过程中不涉及传输系统中干扰因素的声学属性，因此不能反映传输系统的声学特性是如何导致语音清晰度的下降，评测结果难以对清晰度降低的原因起到“诊断”和“治疗”作用，无法指导声传输系统的功能设计。语音传输过程中影响清晰度的声学因素有很多，其中噪声掩蔽是一类主要的干扰条件，由于噪声与语音信号的混合导致接收端清晰度下降。目前并没有专门针对噪声环境以及汉语语音学和与语言学特性的清晰度评测方法。

技术实现要素：

本发明的提出了一种适用于纯噪声环境的汉语听感清晰度客观评测方法，建立了以信噪比为自变量的汉语单音节、声母、韵母和声调清晰度的客观评测模型。只需要测量传输系统的信噪比就可以直接计算出相应的汉语语音清晰度值，该方法针对汉语的语音学和听感特性，适用于汉语传播为主的声传输系统，同时计算结果还可以对系统的信噪比条件设置起到一定的设计指导作用。

提出一种适用于噪声环境的汉语语音清晰度客观评测算法，包括测量能够表征影响汉语语音清晰度的噪声条件下的客观声学参数的步骤，其特征在于，根据所建立的客观声学参数与汉语的主观听感清晰度间的对应函数关系，得到当前噪声条件下的汉语语音清晰度，其中，客观声学参数为自变量；其中，信噪比SNR对应噪声条件下的客观声学参数。

给出了在噪声条件下的汉语单音节清晰度Q_N与信噪比T之间的函数关系，其中，当信噪比SNR达到20dB以上，汉语单音节清晰度饱和值是0.86。

进一步给出了在噪声条件下的汉语声母清晰度Q_Nsm、韵母清晰度Q_Nym及声调清晰度Q_Nsd与信噪比SNR之间的函数关系；其中，当信噪比SNR达到20dB以上，声母清晰度饱和值是0.93，韵母清晰度饱和值是0.96，声调清晰度饱和值是0.96。

附图说明

图1为噪声环境下汉语语音清晰度主观听感实验示意图

图2为汉语单音节、声母、韵母和声调清晰度与信噪比的关系图

图3为噪声环境中汉语语音清晰度实测值与预测值的误差表示图

具体实施方式

本发明的思路是根据传输系统噪声特性和汉语实际听感清晰度的关系，提出一种符合汉语语音清晰度感知规律并且能对噪声环境下汉语语音清晰度进行评测的方法。通过开展不同噪声条件下的汉语语音清晰度主观听感实验，建立以信噪比为客观变量的汉语听感清晰度函数模型，依据此计算模型可以实现噪声环境下的汉语语音清晰度评测，并能够根据清晰度预测结果对传输系统的信噪比设置进行针对性的调整。需要说明的是本发明所指的汉语语音清晰度指的是汉语主观听感清晰度，具体指的是汉语单音节清晰度，语料使用的是不涉及语义的汉语单音节，与语言可懂度有所不同。

汉语语音清晰度主观听感实验示意图如图1所示，实验方法参照国家标准GB-T 15508-1995《声学—语言清晰度测试方法》进行。预先录制纯净的语音信号，将录制的语音信号与不同类型噪声按一定的信噪比叠加，以模拟受到噪声掩蔽作用的语音信号，实验中采用了不同频谱特性的噪声，包括粉红噪声，白噪声，语谱噪声和公共场合噪声等，信噪比条件充足以确保清晰度分布范围足够广。在听音室用隔声性能较好的监听耳机将处理后的语音信号回放给听音人进行清晰度测试。听音人听力正常，熟悉汉语普通话，听音人在答题纸上记录下自认为听到的音节拼音。比如听到：“序号X切哈宗”，被试记录“qièhāzōng”。只有当被试记录的拼音与实际播放的拼音一致时，才认为听对，否则记为错。为保证实验的信度，当某一被试记录表的得分与全体被试清晰度平均得分相差大于标准差3倍时，剔除掉该被试数据，重新计算清晰度得分。实验结束后通过多元回归分析的方法建立汉语节清晰度、声母清晰度、韵母清晰度、声调清晰度与信噪比的函数关系，从而得到汉语语音清晰度的客观评测模型。

本发明提出的噪声环境下的汉语语音清晰度客观评测算法模型可概括为式(1)所示的函数形式，其中信噪比SNR对应的是噪声传递条件的客观控制变量。

Q_N＝f(SNR) (1)

本发明提出的汉语语音清晰度客观评测算法模型如式(2)～(5)所示，该算法给出了汉语语音清晰度与信噪比SNR的函数关系，二者呈指数关系，拟合精度R²可以达到0.99。其中Q_N表示噪声环境的单音节清晰度，Q_Nsm表示噪声环境的声母清晰度，Q_Nym表示噪声环境的韵母清晰度，Q_Nsd表示噪声环境的声调清晰度。

Q_N＝-0.33×e^-0.07×SNR+0.92 (2)

Q_Nsm＝-0.29×e^-0.08×SNR+0.98 (3)

Q_Nym＝-0.09×e^-0.15×SNR+0.96 (4)

Q_Nsd＝-0.01×e^-0.25×SNR+0.95 (5)

本算法采用指数函数的形式，清晰度评测时，先确定传输系统客观声学参量信噪比SNR的取值，随后根据公式计算，计算结果直接就是汉语听感清晰度。当信噪比增长到一定值以后，清晰度不再明显增加，即使没有外加干扰噪声，清晰度值也不能达到1，因此算法模型存在饱和值，当信噪比达到20dB以上，汉语单音节清晰度饱和值是0.86，声母清晰度饱和值是0.93，韵母清晰度饱和值是0.96，声调清晰度饱和值是0.96。

噪声环境中的汉语单音节、声母、韵母、声调清晰度与信噪比的关系如图2所示，噪声环境中汉语语音清晰度实测值与预测值的误差如图3所示。

进一步的，本领域技术人员应当知晓，表征噪声干扰条件的客观参量也存在除信噪比SNR以外的客观参量，本发明仅针对用信噪比SNR表征噪声干扰情况下的汉语语音清晰度评测，对于存在的其他客观参量，本领域技术人员完全可以根据本发明给出的方法得到对应的评测算法。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：章斯宇;孟子厚;
技术所有人：中国传媒大学;
我是此专利的发明人