评估单通道音频信号中的音频帧的语音质量的方法

文档序号：7868014阅读：290来源：国知局

专利名称：评估单通道音频信号中的音频帧的语音质量的方法
技术领域：
本发明总体上涉及语音质量评估技术，并且尤其涉及用于评估单通道音频信号中的音频帧的语音质量的方法。
背景技术：
来自封闭空间内的远程声源的声学信号产生根据房间脉冲响应(RIR)变化的混响声。根据空间内混响级的观察信号中的人类语音质量的评估提供了有价值的信息。例如，在诸如互联网协议电话(VOIP)系统、视频会议系统、免提电话、声控系统和助听器的典型语音通信系统中，有利的是，无论房间混响如何，都知道在所产生的信号中语音是否清晰。

发明内容
在此描述的语音质量评估技术实施例通常涉及评估单通道音频信号中的音频帧的人类语音质量。在典型实施例中，输入音频信号的帧，并且评估该帧的基频。此外，将该帧从时域变换到频域。然后，计算变换后的帧的谐波分量和非谐波分量。然后，使用谐波分量和非谐波分量计算谐波与非谐波之比(HnHR)。该HnHR表示用于计算该比率的单通道音频信号中的用户语音的质量。这样，HnHR被指定为该帧的语音质量的评估值。在一个实施例中，利用音频信号的帧的评估语音质量向用户提供反馈。这通常包括输入所捕获的音频信号，然后确定音频信号的语音质量是否落在规定的可接受水平以下。如果在规定的可接受水平以下，则向用户提供反馈。在一个实现方式中，利用HnHR建立最小语音质量阈值，在该最小语音质量阈值以下，则认为信号中的用户语音质量是不可接受的。然后，基于规定数量的连续音频帧是否具有所计算的不超过规定的语音质量阈值的HnHR，向用户提供反馈。应当注意，提供本发明内容用于以简化形式引入所选择的概念，下面将在具体实施方式
中对它们做进一步描述。本发明内容不是旨在标识要求保护的主题的关键特征或者必要特征，也不是旨在用来帮助确定要求保护的主题的范围。

根据下面的描述、所附权利要求以及附图，将更好地理解本公开的具体特征、方面和优点。图1是用于实现在此描述的语音质量评估技术实施例的示例性计算程序架构。图2是示例性的基于帧的振幅加权因子的曲线图，其中，该振幅加权因子以混响尾部间隔逐渐降低合成的谐波分量信号的能量。图3是一般概括用于评估混响信号的帧的语音质量的处理的一个实施例的流程图。图4是一般概括用于向音频语音捕获系统的用户提供关于所捕获的单通道音频信号中的人类语音的质量的反馈的处理的一个实施例的流程图。
图bk 图5B是一般概括用于确定音频信号的语音质量是否落在规定水平以下的、图4的处理动作的一个实现方式的流程图。图6是示出构成用于实现在此描述的语音质量评估技术实施例的示例性系统的通用计算装置的图。
具体实施例方式在下面对语音质量评估技术实施例的描述中，参考构成本文一部分的附图，并且在附图中通过示例示出了可以实施本技术的具体实施例。应当明白，也可以采用其它实施例，并且在不脱离该技术的范围的情况下，可以进行结构改变。1. O语音质暈评估通常，在此描述的语音质量评估技术实施例通过自动地向用户反馈他或者她的话音质量可以改善用户的体验。诸如噪声水平、回音泄漏、增益水平以及混响的许多因素影响所感知的话音质量。在这些因素中，最大的挑战是混响。迄今为止，没有已知方法仅利用所观察的语音测量混响的量。在此描述的语音质量评估技术实施例提供了这样一种度量标准，它仅利用来自表示单音频通道的信号的观察语音样本盲目测量(即，不需要“干净的”用于比较的信号)混响。已发现这对于各种房间环境(包括具有适当量的背景噪声的环境)下的扬声器和传感器的随机位置是可能的。更具体地，在此描述的语音质量评估技术实施例盲目地采用所观察的单通道音频信号的谐度来评估用户语音的质量。谐度是人类话音语音的唯一特性。如上所述，关于观察信号的质量(取决于房间混响条件及扬声器到传感器的距离)的信息向扬声器提供有用的反馈。在下面的小节中将更详细地描述上面提到的谐度的采用。1.1信号建模可以利用封闭空间内从声源到传感器的声学声音的多路径传播处理来对混响建模。通常，所接收的信号被分解为两个分量早期混响(并且是直接路径声音)和晚期混响。早期混响(其在直接声音之后不久到达)加强该声音并且对于确定语音可懂度是有用的分量。由于早反射依据说话者和传感器位置改变的事实，其还提供关于空间体积和说话者的距离的信息。晚期混响由在直接声音到达后具有较长延迟的反射产生，其削弱语音可懂度。这些不利影响通常随着声源与传感器之间的距离变长而增加。1.1.1混响信号模型被表示为h(n)的房间脉冲响应(RIR)表示房间内传感器与说话者之间的声学属性。如上所述，混响信号可以被划分为两部分早期混响(包括直接路径)和晚期混响
权利要求
1.一种用于评估包括人类语音分量的单通道音频信号中的音频帧的语音质量的、计算机实现的方法，包括使用计算机执行以下处理操作输入所述音频信号的巾贞(300)；将所输入的帧从时域变换到频域(304)；计算变换后的帧的谐波分量(310)；计算变换后的帧的非谐波分量(312)；计算谐波与非谐波之比HnHR (314);以及将计算出的HnHR指定为所述单通道音频信号中的所输入的帧的语音质量的评估值(316)。
2.一种用于评估包括人类语音分量的单通道音频信号中的音频帧的语音质量的、计算机实现的方法，包括使用计算机执行以下处理操作输入所述音频信号的巾贞(300)；对所输入的帧的基频进行评估(302)；将所输入的帧从时域变换到频域以产生所述帧的频谱(304); 计算所述帧的频谱中与基频的规定数量的整数倍中的每一个相对应的频率的振幅和相位值(306)；基于计算出的振幅和相位值，计算所输入的帧的子谐波与谐波之比SHR (308)；基于计算出的SHR连同所述基频以及所述振幅和相位值，合成所输入的帧的谐波分量表示(310)；基于所述振幅和相位值连同所合成的谐波分量表示，计算所输入的帧的非谐波分量(312)；基于所合成的谐波分量表示和所述非谐波分量，计算谐波与非谐波之比HnHR (314)；以及将计算出的HnHR指定为所述单通道音频信号中的所输入的帧的语音质量的评估值(316)。
3.根据权利要求2所述的方法，其中所述基于计算出的振幅和相位值计算所输入的帧的子谐波与谐波之比SHR的处理操作包括计算如下在前的和除以在后的和的商针对所述帧的频谱中与基频的规定数量的整数倍中的每一个相对应的每个频率所计算的振幅值的和；针对所述帧的频谱中与基频的规定数量的整数倍减O. 5中的每一个相对应的每个频率所计算的振幅值的和。
4.根据权利要求2所述的方法，其中所述基于计算出的SHR连同所述基频以及所述振幅和相位值合成所输入的帧的谐波分量表示的处理操作包括计算振幅加权因子W(I)以便以所述帧的混响尾部间隔逐渐降低所述帧的谐波分量信号的合成表不的能量；使用下述等式在一系列样本时间内合成所述帧的时域谐波分量元“/,O:
5.根据权利要求4所述的方法，其中所述计算振幅加权因子W(I)的处理操作包括计算所计算出的SHR的四次幂除以如下和的商，该和为所计算出的SHR的四次幂与规定加权参数相加的和。
6.根据权利要求4所述的方法，其中所述基于所述振幅和相位值连同所合成的谐波分量表示计算所输入的帧的非谐波分量的处理操作包括对于所述帧的频谱中与基频的整数倍对应的每个频率，从所述帧在该频率下的计算出的振幅值中减去与该频率相关联的、合成的频域谐波分量，以产生差值；以及使用期望算子函数从所产生的差值计算非谐波分量期望值。
7.根据权利要求6所述的方法，其中所述计算HnHR的处理操作包括使用期望算子函数从与如下频率相关联的合成的频域谐波分量计算谐波分量期望值该频率为所述帧的频谱中与所述基频的整数倍对应的频率；计算所计算出的谐波分量期望值除以所计算出的非谐波分量期望值的商；以及将所述商指定为HnHR。
8.根据权利要求4所述的方法，其中所述计算HnHR的处理操作包括计算平滑HnHR，所述平滑HnHR是使用针对所述音频信号的一个或更多个先前帧计算的HnHR的一部分来进行平滑的。
9.根据权利要求8所述的方法，其中所述基于所述振幅和相位值连同所合成的谐波分量表示计算所输入的帧的非谐波分量的处理操作包括对于所述帧的频谱中与基频的整数倍对应的每个频率，从所述帧在该频率下的计算出的振幅值中减去与该频率相关联的、合成的频域谐波分量，以产生差值；使用期望算子函数从所产生的差值计算非谐波分量期望值；以及将针对音频信号的当前帧的紧前帧计算的平滑非谐波分量期望值的规定百分比与针对所述当前帧计算的非谐波分量期望值相加，以产生所述当前帧的平滑非谐波分量期望值。
10.根据权利要求9所述的方法，其中所述计算平滑HnHR的处理操作包括使用期望算子函数从与如下频率相关联的合成的频域谐波分量计算谐波分量期望值该频率为所述帧的频谱中与所述基频的整数倍对应的频率；将针对音频信号的当前帧的紧前帧计算的平滑谐波分量期望值的规定百分比与针对所述当前帧计算的谐波分量期望值相加，以产生所述当前帧的平滑谐波分量期望值；计算所述平滑谐波分量期望值除以所述平滑非谐波分量期望值的商；以及将所述商指定为平滑HnHR。
全文摘要
本申请公开了一种用于评估单通道音频信号中的音频帧的语音质量的方法。描述的语音质量评估技术实施例通常包括评估单通道音频信号中的音频帧的人类语音质量。合成所述帧的谐波分量表示并且利用它来计算所述帧的非谐波分量。然后，利用合成的谐波分量表示和非谐波分量计算谐波与非谐波之比(HnHR)。该HnHR表示用户语音质量，并且它被指定为所述帧的语音质量的评估值。在一个实现方式中，HnHR用于建立最小语音质量阈值，在该最小语音质量阈值以下，即认为用户语音的质量是不可接受的。然后，基于HnHR是否低于该阈值，向用户提供反馈。
文档编号H04L25/60GK103067322SQ20121052525
公开日2013年4月24日申请日期2012年12月7日优先权日2011年12月9日
发明者陈伟戈, 张正友, 耶-莫·扬申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈伟戈;张正友;耶-莫·扬
技术所有人：微软公司
我是此专利的发明人

上一篇：一种基于掌型匹配的在线登陆身份认证方法
上一篇：一种流量控制方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。