一种实现语音质量客观评价的测试方法与装置的制作方法

文档序号：7765295阅读：184来源：国知局

专利名称：一种实现语音质量客观评价的测试方法与装置的制作方法
技术领域：
本发明涉及语音测试，尤其涉及一种能够实现语音质量客观评价的测试方法与装置。
背景技术：
为了全面了解设备的音频性能，目前进行语音评价有两种方式，一种是组织一定数量的听众对音频处理设备输出的声音进行试听，试听者按优(5)、良(4)、中(3)、差(2)、劣(1)对声音打分，最后得到一个平均意见分(Mean Opinion Score，MOS)，但是该方法需要消耗大量的时间、人力和费用，并且经常要受到人的反应的内在不可重复性的影响；针对主观评价方法的不足之处，另一种方法，即基于客观测度的声音客观评价方法相继被提出，其中基于人耳听觉模型的客观评价方法与主观评价结果相关度高，而且充分考虑到了人的听觉特性，因此发展迅速。其基本原理如图1，原始输入信号经过待测设备后输出，当进行主观评价时，试听者对待测设备的输入和输出信号进行比较，从而对待测设备的处理性能进行评价，得到MOS分。当采用基于听觉模型的客观评价方法时，首先对人的听觉过程进行建模，然后用此模型对待测设备的输入输出信号进行比较并给出意见得分，该分值是对试听者可能会给出的MOS分的一个估计。目前基于人耳听觉模型的算法很多，这些客观测试算法最后由ITU形成了三个国际标准，即，ITU-T提出的P.861建议(1996年推出PSQM算法，1998年修订为PSQM+算法)、P.862建议(PESQ算法，2001年推出)和ITU-R提出的BS.1387建议(PEAQ算法，1998年推出)。其中，BS.1387算法主要针对20Hz～20kHz宽带音频质量的客观测试，P.861和P.862则针对300～3400Hz的话音质量进行评价。P.861建议仅适合于对编解码器进行评价，而没有更多的考虑滤波、可变延迟和短的局部失真对音频质量的影响，而P.862建议则将这些因素也包括进来加以考虑，这使得PESQ算法不仅可以用于音频编解码器的评价，同时也可以对网络上的分组语音质量进行测试。
客观评价方法相对简单、可重复性好，但是需要有专用的测试仪器，而且这些仪器通常都比较昂贵。

发明内容
本发明的目的在于提供简单的一种语音质量客观评价的方法和装置，利用双声道实现原始输入语音信号和失真输出语音信号之间的同步，该测试操作简单实用，结果准确可靠。
为了实现上述目的，本发明所采用的技术方案为一种实现语音质量客观评价的测试方法，包括如下步骤A)放音，即用双声道文件播放原始语音信号，其中一个声道播放的原始语音信号经过待测设备处理后输出为失真输出语音信号；B)录音，即以相同的采样率存储失真输出语音信号和另一个声道播放的原始语音信号；C)比较，即对存储的失真输出语音信号和原始语音信号进行比较计算，得出评价结果。
上述步骤中，可先启动录音装置，再进行步骤A和步骤B中的放音和录音，还可将原始输入语音信号循环放音，在持续录音一段时间后停止录音，根据测试的时间将原始输入语音信号与失真输出语音信号分段提取出来进行处理，并对每一段分别计算出评价结果。
上述方法中是使用用Cool Edit进行步骤A和步骤B中的放音和录音，将放音用Cool Edit的左声道输出的信号输入录音用Cool Edit的左声道，并存储为原始输入语音信号波形文件，将放音用Cool Edit的右声道输出的信号输入待测设备单元处理后再输入录音用Cool Edit的右声道，并存储为失真输出语音信号波形文件。
一种实现语音质量客观评价的测试装置，包括放音单元、录音单元和比较单元，其中所述放音单元的输入端输入原始语音信号，放音单元的一个声道与录音单元的一个声道直接相连，放音单元的另一个声道与待测设备的输入端相连，待测设备的输出端与录音单元的另一个声道相连，录音单元两个声道输出的信号再输入比较单元。录音单元将放音单元输出的原始语音信号和待测设备输出的失真输出语音信号存储为波形文件。
本发明的有益效果为利用PC机实现了语音质量的客观评价，实现简单实用，结果准确可靠，无须购买昂贵的测试仪器，方便了客观评价过程，尤其适用于研发阶段对待测产品的性能评价；以及利用声卡的左右声道实现了原始输入语音信号和失真输出语音信号之间的同步，无须采用复杂的算法实现二者之间的同步控制，简单可靠。

图1为利用听觉模型对语音质量进行客观评价的原理图；图2为本发明的语音质量测试装置图；具体实施方式
下面根据附图和实施例对本发明作进一步详细说明如图2所示，本发明需要的设备及软件为1)一台装有声卡的计算机，并且需要安装Cool Edit软件。声卡应选择质量较好的，否则可能会影响到语音评价结果。2)Cool Edit软件Cool Edit是一个集录音、混音、编辑于一体的多轨数字音频编辑软件。它可以工作在Windows 95/98/NT环境下，并要求系统中要装有一块兼容Windows的声卡。在本发明装置中用于对语音信号文件进行播放、录音、编辑和处理。3)pesqmain.exeDOS下的可执行文件，根据ITU-T P.862标准实现了PESQ客观评价算法，使用以PCM格式存储的.wav波形文件，支持8kHz和16kHz声音采样，计算结果以文本文件的形式保存，其结果列表中包含PESQ-MOS分值以及参考信号和降级信号之间的延时。P.862标准提供PESQ算法的标准实现源代码，本发明中利用了该源代码，无须另外编程实现。
在对待测设备进行客观评价时，首先应确认待测设备正常工作，然后按照上图连接测试装置和待测设备。将测试用计算机的放音单元左声道通过直连线直接连到录音的左声道上，放音单元右声道连到待测设备的音频输入端，待测设备的音频输出端则连到录音的右声道上。如果用于测试一个通信系统，可以将此通信系统看成一个大的待测系统，因此对于一个编解码设备或者一个通信系统，其测试方法是一样的。下文统称为待测设备。
在测试用计算机上打开两个Cool Edit窗口，其中一个用于播放原始输入信号，另一个则用于录音。两个Cool Edit窗口是必须的，因为CoolEdit不能在放音的同时又进行录音。
在录音用Cool Edit窗口中首先创建一个双声道文件，该文件的采样率必须和原始输入语音信号的采样率相一致。左声道用于接收直接来自放音单元的左声道信号，右声道则接收经过待测设备处理后的失真输出语音信号。
在放音用Cool Edit窗口中播放原始输入语音信号，原始输入语音信号的采样率为8kHz或16kHz。一般来说，原始输入语音信号是单声道的，Cool Edit播放单声道文件时会自动在左右两个声道上送出相同的信号，也可以用Cool Edit将单声道文件编辑为双声道文件然后播放。
测试时需要首先在录音用Cool Edit窗口中进行录音，然后到在放音用Cool Edit窗口中播放原始输入语音信号，这样可以避免由于人工操作延迟而导致先放音后录音时语音信号的开始段被剪切。当原始输入语音信号放音完毕，停止录音。
由于放音单元录音的左声道直接用线连在一起，因此可以认为，除了人工操作录音和放音之间的延时之外，从放音单元到录音之间不会引入额外的延时，而且不会引入失真而导致音质损伤，可以认为左声道录下的语音就是原始输入语音信号。而录音输出的右声道之间存在待测设备的处理过程，因此除了人工操作延时之外，还存在着待测设备的处理延时或者通信系统的传输延时，右声道录下的语音就是待测设备处理后的失真输出语音信号。由于人工操作延时对左右声道来说是相同的，因此该延时大小是无关紧要的，只要比较录音文件左右声道之间的相对延时就可以得到待测设备的处理延时。这种方法避免了通过在原始输入语音信号前面加上同步信号的方法来对输入输出信号进行同步。
使用Cool Edit将左右两个声道的信号分开，分别保存在两个.wav波形文件中，例如分别存为ref.wav和deg.wav。可知，ref.wav可以认为就是原始输入语音信号文件，而deg.wav就是待测设备处理得到的失真输出语音信号文件。
用pesqmain.exe对ref.wav和deg.wav进行计算，计算完成后可以打开结果文件观察客观评价结果PESQ-MOS值以及延时大小。
可以重复以上步骤进行多次测量，然后可以检查最大值、最小值并计算均方差。如果均方差较大，则本次测试可能有问题，测试结果不准确，需要重新检查测试设置、测试环境等，确认无误后重新测试。也可以在放音单元端将测试用原始输入语音信号循环放音，在录音端持续录音一段时间后停止录音，然后根据测试信号的时间长度，利用Cool Edit软件的编辑功能将原始输入语音信号与失真输出语音信号分段提取出来进行计算。
权利要求
1.一种实现语音质量客观评价的测试方法，其特征在于，它包括如下步骤A)放音，即用双声道文件播放原始语音信号，其中一个声道播放的原始语音信号经过待测设备处理后输出为失真输出语音信号；B)录音，即以相同的采样率存储失真输出语音信号和另一个声道播放的原始语音信号；C)比较，即对存储的失真输出语音信号和原始语音信号进行比较计算，得出评价结果。
2.根据权利要求1所述的实现语音质量客观评价的测试方法，其特征在于，先启动录音装置，再进行步骤A和步骤B中的放音和录音。
3.根据权利要求1所述的实现语音质量客观评价的测试方法，其特征在于，所述方法进一步包括将原始输入语音信号循环放音，在持续录音一段时间后停止录音，根据测试的时间将原始输入语音信号与失真输出语音信号分段提取出来进行处理，并对每一段分别计算出评价结果。
4.根据权利要求1、2或3所述的实现语音质量客观评价的测试方法，其特征在于，用Cool Edit进行步骤A和步骤B中的放音和录音。
5.根据权利要求4所述的实现语音质量客观评价的测试方法，其特征在于所述步骤B)还包括将放音用Cool Edit的左声道输出的信号输入录音用Cool Edit的左声道，并存储为原始输入语音信号波形文件，将放音用Cool Edit的右声道输出的信号输入待测设备单元处理后再输入录音用Cool Edit的右声道，并存储为失真输出语音信号波形文件。
6.根据权利要求1、2或3所述的实现语音质量客观评价的测试方法，其特征在于所述步骤C)包括对所述存储的两个语音信号文件进行处理，计算出对待测设备的PESQ-MOS值以及语音信号延时的大小。
7.根据权利要求1、2或3所述的实现语音质量客观评价的测试方法，其特征在于重复以上所述步骤进行多次测量，然后检查所得结果的最大值、最小值并计算其均方差，若均方差较大，则需重新测试。
8.一种实现语音质量客观评价的测试装置，其特征在于，包括放音单元、录音单元和比较单元，其中所述放音单元的输入端输入原始语音信号，放音单元的一个声道与录音单元的一个声道直接相连，放音单元的另一个声道与待测设备的输入端相连，待测设备的输出端与录音单元的另一个声道相连，录音单元两个声道输出的信号再输入比较单元。
9.根据权利要求8所述的实现语音质量客观评价的测试装置，其特征在于，录音单元将放音单元输出的原始语音信号和待测设备输出的失真输出语音信号存储为波形文件。
全文摘要
一种实现语音质量客观评价的测试方法和装置，其中方法包括A)放音，即用双声道文件播放原始语音信号，其中一个声道播放的原始语音信号经过待测设备处理后输出为失真输出语音信号；B)录音，即以相同的采样率存储失真输出语音信号和另一个声道播放的原始语音信号；C)比较，即对存储的失真输出语音信号和原始语音信号进行比较计算，得出评价结果。装置包括放音单元、录音单元和比较单元，其中所述放音单元的输入端输入原始语音信号，放音单元的一个声道与录音单元的一个声道直接相连，放音单元的另一个声道与待测设备的输入端相连，待测设备的输出端与录音单元的另一个声道相连，录音单元两个声道输出的信号再输入比较单元。
文档编号H04S1/00GK1523930SQ03104069
公开日2004年8月25日申请日期2003年2月20日优先权日2003年2月20日
发明者龙建军申请人:华为技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：龙建军
技术所有人：华为技术有限公司
我是此专利的发明人

上一篇：室外智能音响单元的制作方法
上一篇：Ip网络业务质量保证方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。