适应性音频捕获的制作方法

文档序号：7989478阅读：192来源：国知局

适应性音频捕获的制作方法
【专利摘要】本发明的实施例涉及适应性音频捕获。公开了一种用于适应性音频捕获的方法，该方法包括通过与用户终端上的音频捕获元件相关联的音频通道获取音频信号；通过对获取的音频信号进行处理来计算音频通道的信号幅值；以及基于信号幅值和与用户终端上的至少一个其他音频捕获元件关联的至少一个其他音频通道的其他信号幅值来确定音频捕获元件的功能。还公开了相应的装置、计算机程序产品和用户终端。
【专利说明】适应性音频捕获
【技术领域】
[0001]本发明的实施例总体上涉及音频处理，并且更具体地，涉及一种用于适应性音频捕获的方法、装置、计算机程序和用户终端。
【背景技术】
[0002]移动电话、平板式计算机或个人数字助理(PDA)之类的用户终端可具有多个音频捕获元件，诸如多个麦克风。这种配置在过去几年已变得流行起来。例如，可购得的智能移动电话通常配备有两个或多个麦克风。一般而言，在单个用户终端上的多个音频捕获元件中，某些音频捕获元件被设计为充当主音频捕获元件，并且用于例如捕获前景音频信号；而另一些音频捕获元件可以充当参考音频捕获元件或称辅音频捕获元件，并且用于例如捕获背景音频信号。例如，位于移动电话下半部的麦克风通常被假设能够捕获来自说话人的高质量的语音信号。因此，该麦克风通常被用作主音频捕获元件，以捕获用户在话音呼叫中的语音信号。另一位置的麦克风可以充当可用于捕获背景噪声的辅音频捕获元件，以用于环境噪声估计、噪声抑制，等等。
[0003]本领域的技术人员将会理解，用户终端相对于音频信号源的空间位置和周围环境将影响音频捕获效果。例如，在某些情况下，原始设计的主音频捕获元件可能被遮挡或者处于用户终端相对于音频信号源的背面，从而造成原始设计的主音频捕获元件无法捕获高质量的音频信号。然而，在现有技术中，辅音频捕获元件或参考音频捕获元件在这种情况下无法被激活以充当主音频捕获元件，即便该元件现位于较优或最优位置。换言之，用户终端上的音频捕获元件的功能在设计和制造时就已被固定，并且无法在使用中适应性地改变或切换。因此，音频捕获的质量将会降低。
[0004]鉴于前述内容，本领域需要一种能够适应各种使用条件的音频捕获解决方案。

【发明内容】

[0005]为了解决前述和其他潜在问题，本发明的实施例提出一种用于适应性音频捕获的方法、装置、计算机程序和用户终端。
[0006]在一个方面，本发明的实施例提供一种用于适应性音频捕获的方法。该方法包括:通过与用户终端上的音频捕获元件关联的音频通道获取音频信号；通过对获取的音频信号进行处理来计算音频通道的信号幅值；并且基于信号幅值和与用户终端上的至少一个其他音频捕获元件关联的至少一个其他音频通道的其他信号幅值，确定音频捕获元件的功能。本方面的其他实施例包括相应的计算机程序产品。
[0007]在另一方面，本发明的实施例提供一种用于适应性音频捕获的装置。该装置包括:获取单元，被配置为通过与用户终端上的音频捕获元件关联的音频通道获取音频信号；计算单元，被配置为通过对获取的音频信号进行处理来计算音频通道的信号幅值；以及确定单元，被配置为基于信号幅值和与用户终端上的至少一个其他音频捕获元件关联的至少一个其他音频通道的其他信号幅值，确定音频捕获元件的功能。[0008]在又一方面，本发明的实施例提供一种用户终端。该用户终端包括至少一个处理器；多个音频捕获元件；以及至少一个存储器，与至少一个处理器耦合并且存储计算机可执行指令的程序，计算机可执行指令被配置为与至少一个处理器一起使移动终端至少根据上文概述的方法执行。
[0009]本发明的这些和其他可选实施例可以被实施以实现以下一个或多个优点。对于配备有多个音频捕获元件的用户终端，通过实时地对音频信号进行处理和分析，单个用户终端上的多个音频捕获元件的功能可以动态地被确定并且改变。例如，根据用户终端相对于音频信号源的相对位置和/或用户终端本身的姿态等各种因素，最优音频捕获元件可以被适应性地确定为主元件，而一个或多个其他音频捕获元件可以相应地充当参考音频捕获元件。以此方式，捕获的音频信号的质量可以在各种使用条件下被维持在高水平。
[0010]在结合附图阅读时，还将从以下对示例性实施例的描述中理解本发明的实施例的其他特征和益处。附图以示例方式说明了本发明的精神和原理。
【专利附图】

【附图说明】
[0011]本发明的一个或多个实施例的细节将在附图和以下描述中得到阐述。本发明的其他特征、方面和益处将从说明书、附图和权利要求中变得明显，其中:
[0012]图1是示出了根据本发明的示例性实施例的一种用于适应性音频捕获的方法的流程图；
[0013]图2是示出了根据本发明的另一示例性实施例的一种用于适应性音频捕获的方法的流程图；
[0014]图3A和图3B是示出了根据本发明的示例性实施例的适应性音频捕获的示例的示意图；
[0015]图4是示出了根据本发明的示例性实施例的一种用于适应性音频捕获的装置的框图；
[0016]图5是示出了根据本发明的示例性实施例的用户终端的框图。
[0017]所有附图中，相同或相似的参考标号指示相同或相似的元素。
【具体实施方式】
[0018]总体上，本发明的实施例提供一种用于适应性音频捕获的方法、装置和计算机程序产品。根据本发明的实施例，对于配备有多个音频捕获元件的用户终端，通过实时地对音频信号进行处理和分析，单个用户终端上的多个音频捕获元件的功能可以动态地被确定和改变。由此，捕获的音频信号的质量可以在各种使用条件下被维持在较高水平。
[0019]首先参考图1，其示出了图示根据本发明的示例性实施例的一种用于适应性音频捕获的方法100的流程图。如图所示，方法100开始后，在步骤S101，通过与用户终端上的音频捕获元件相关联的音频通道来获取音频信号。根据本发明的实施例，用户终端配备有多个音频捕获元件。此处所使用的术语“音频捕获元件”是指可以被配置为捕获、记录或以其他方式获取音频信号的任何适当设备，诸如麦克风。每个音频捕获元件与一个音频通道相关联，音频捕获元件所捕获的音频信号可以通过音频通道被传递至例如用户终端的处理器或控制器。[0020]方法100继而进行到步骤S103，在此通过对获取的音频信号进行处理来计算音频通道的信号幅值(amplitude)。根据本发明的实施例，音频通道的信号幅值可以包括指示该通道上的音频信号的量值(magnitude)的任何信息。在一些示例性实施例中，在步骤S103处计算的信号幅值可以包括时域中的信号量值，其例如可以表示为音频信号的均方根值。备选地或附加地，获取的音频信号在频域中的幅值，如频谱幅值和/或功率谱，也可以用作信号幅值。将会理解，这些仅仅是信号幅值的一些示例，不应被解释为对本发明的限制。任何能够指示音频通道的信号幅值的信息都可以与本发明的实施例结合使用，无论是目前已知的还是将来开发的。具体示例将在下文参考图2详述。
[0021]此外，在话音呼叫等某些情况中，音频信号源(例如，说话人)相对于用户终端上的音频捕获元件的位置通常将至少将在一段特定时间内保持稳定。因此，在一些示例性实施例中，在步骤S103计算的信号幅值可以包括在给定的时间间隔中累计的信号幅值的平均。在这些实施例中，平均信号幅值例如可以用于确定音频捕获元件在下一时间间隔中的功能。下面将参考图2对这一方面的具体示例进行详细说明。
[0022]接下来，在步骤S104，基于信号幅值以及针对与用户终端上的至少一个其他音频捕获元件相关联的至少一个其他音频通道的另一信号幅值，确定音频捕获元件的功能。如上所述，除了步骤SlOl和S103考虑的音频通道之外，用户终端还配备有一个或多个其他音频捕获元件，每个音频捕获元件与相应的音频通道相关联。这些音频通道中一个或多个的信号幅值可以按照与上文描述的类似方式被计算。根据本发明的实施例，其他音频通道的信号幅值可以通过方法100或通过与该该音频通道相关联或者专用于该音频通道的类似过程而计算。
[0023]音频捕获元件的功能可以基于相关联的音频通道的信号幅值以及同一用户终端上的一个或多个其他音频通道的其他信号幅值而被确定。一般而言，如果一个音频通道具有较高的信号幅值，则相关联的音频捕获元件可被用作主元件，并且例如被配置为捕获前景音频信号(例如，用户在话音呼叫中的语声信号)。反之，如果一个音频通道具有较低信号幅值，则相关联的音频捕获元件可被用作辅音频捕获元件或参考音频捕获元件，并且例如被配置为捕获背景音频信号以用于噪声估计目的。
[0024]方法100在步骤S104之后结束。通过使用方法100，多个音频捕获元件的功能可以实时地根据具体情况而被适应性地确定。例如，假定移动电话具有两个麦克风，其中之一是用于捕获用户的语声信号的主麦克风，而另一个是用于捕获背景噪声的辅麦克风。如果原始的主麦克风被物体遮挡并且相关联的音频通道上的信号量值因此降低到低于与原辅麦克风相关联的音频通道的信号量值，那么这两个麦克风的功能可以相应地交换。即，原始的辅元件现在变为充当主音频捕获元件，而原始的主音频捕获元件可以变成充当辅音频捕获元件或是被直接停用。
[0025]现在将参考图2对一个更为具体的示例进行描述。图2示出了图示根据本发明的另一示例性实施例的一种用于适应性音频捕获的方法200。
[0026]方法200开始之后，在步骤S201，通过与用户终端上的音频捕获元件相关联的音频通道获取音频信号。假定用户终端包括多个麦克风作为音频捕获元件，音频信号可以从与一个麦克风相关联的音频通道被获取。步骤S201对应于上文参考图1描述的步骤S101，在此不再详述。[0027]接下来，方法200进行到步骤S202，在此执行话音活动检测(Voice ActivityDetection, VAD)，以确定用户终端的一个或多个音频通道上是否存在话音活动。如果不存在话音活动，方法200返回步骤S201。换言之，根据图2中示出的实施例，后续步骤只有在话音活动存在的情况下才会被执行。这主要是出于节能考虑。也即，如果用户终端的音频通道上不存在话音活动，则无需计算信号幅值以及确定或改变音频捕获元件的功能。以此方式，用户终端可以更有效地进行操作。
[0028]根据本发明的实施例，可以利用各种策略来实现话音活动检测。在一些示例性实施例中，话音活动检测可以仅在单个音频通道上执行。例如，话音活动检测可以在与用户终端上的当前主音频捕获元件相关联的音频通道上执行。备选地，音频活动检测可以在不止一个音频通道上执行。仅出于说明目的，下面将描述在多个音频通道上执行话音活动检测的实施例。
[0029]在这些实施例中，假定话音活动检测将在话音通道的一个子集(表示为Lsub)上被执行，该子集可以包括用户终端上的某些或所有话音通道。可以对集合中每个话音通道中的话音活动状态进行检测。一般地，话音活动可以基于音频信号的某个特征而被检测，特征例如包括但不限于:短时能量、过零率、倒谱特征、Itakura LPC谱距离和/或元音的周期性测量。一个或多个这种特征可从音频信号中被提取，继而与预定阈值进行比较以确定当前帧是话音帧还是噪声帧。任何适当的话音活动检测算法或过程都可以结合本发明的实施例使用。
[0030]如果第j个音频通道上存在话音活动，那么对于信号帧n，与第j个音频通道相关联的话音活动状态可以被设置为VADj(Ii) = 1，以指示当前帧是语音帧。否则，与第j个通道相关联的话音活动状态被标志为VADj (η) = O,以指示当前帧是噪声帧。当前用户终端的全部话音活动状态可以被计算为集合Lsub中的每个话音通道的VAD (η)的和，其可以如下表达:
【权利要求】
1.一种用于适应性音频捕获的方法，所述方法包括: 通过与用户终端上的音频捕获元件相关联的音频通道获取音频信号；通过对获取的所述音频信号进行处理，来计算所述音频通道的信号幅值；以及基于所述信号幅值以及与所述用户终端上的至少一个其他音频捕获元件相关联的至少一个其他音频通道的其他信号幅值，来确定所述音频捕获元件的功能。
2.根据权利要求1所述的方法，还包括: 检测所述用户终端的一个或多个音频通道上是否存在话音活动，其中所述音频捕获元件的所述功能在所述一个或多个音频通道上存在所述话音活动的情况下被确定。
3.根据权利要求1所述的方法，其中计算所述信号幅值包括计算获取的所述音频信号的时域幅值或频域幅值。
4.根据权利要求1所述的方法，其中计算所述信号幅值包括计算所述音频通道在一个时间间隔内的平均信号幅值，其中所述其他信号幅值包括所述至少一个其他音频通道在所述时间间隔内的其他平均信号幅值，以及其中确定所述音频捕获元件的所述功能包括比较所述平均信号幅值和所述其他平均信号幅值。
5.根据权利要求1所述的方法，其中所述用户终端具有主音频通道，其中计算所述信号幅值包括计算所述音频通道相对于所述主音频通道的相对幅值；其中所述其他信号幅值包括所述至少一个其他音频通道相对于所述主音频通道的其他相对幅值，以及其中确定所述音频捕获元件的所述功能包括比较所述相对幅值和所述其他相对幅值。
6.根据权利要求1-5中的任一项所述的方法，其中确定所述音频捕获元件的所述功能包括: 将所述音频捕获元件归类为用于捕获前景音频信号的主音频捕获元件组或者用于捕获背景音频信号的辅音频捕获元件组。
7.一种用于适应性音频捕获的装置，所述装置包括: 获取单元，被配置为通过与用户终端上的音频捕获元件相关联的音频通道获取音频信号; 计算单元，被配置为通过对获取的所述音频信号进行处理，来计算所述音频通道的信号幅值；以及确定单元，被配置为基于所述信号幅值和与所述用户终端上的至少一个其他音频捕获元件相关联的至少一个其他音频通道的其他信号幅值，来确定所述音频捕获元件的功能。
8.根据权利要求7所述的装置，还包括: 话音活动检测单元，被配置为检测所述用户终端的一个或多个话音通道上是否存在话音活动，其中所述确定单元被配置为在所述一个或多个音频通道上存在所述话音活动的情况下，确定所述音频捕获元件的所述功能。
9.根据权利要求7所述的装置，其中所述计算单元包括以下至少一个:时域幅值计算单元，被配置为计算获取的所述音频信号的时域幅值；以及频域幅值计算单元，被配置为计算获取的所述音频信号的频域幅值。
10.根据权利要求7所述的装置，其中所述计算单元包括平均幅值计算单元，被配置为计算所述音频通道在一个时间间隔内的平均信号幅值，其中所述其他信号幅值包括所述至少一个其他音频通道在所述时间间隔内的其他平均信号幅值，以及其中所述确定单元包括平均幅值比较单元，被配置为比较所述平均幅值和所述其他平均幅值。
11.根据权利要求7所述的装置，其中所述用户终端具有主音频通道，其中所述计算单元包括相对幅值计算单元，被配置为计算所述音频通道相对于所述主音频通道的相对幅值，其中所述其他信号幅值包括所述至少一个其他音频通道相对于所述主音频通道的其他相对幅值，以及其中所述确定单元包括相对幅值比较单元，被配置为比较所述相对幅值和所述其他相对幅值。
12.根据权利要求7-11中的任一项所述的装置，其中所述确定单元包括: 归类单元，被配置为将所述音频捕获元件归类为用于捕获前景音频信号的主音频捕获元件组或者用于捕获背景音频信号的辅音频捕获元件组。
13.一种计算机程序产品包括有形地体现在计算机可读介质上的计算机程序代码，所述计算机程序代码包含被配置为执行根据权利要求1-6中的任一项所述的方法的程序代码。
14.一种用户终端，包括: 至少一个处理器；多个音频捕获元件；以及至少一个存储器，耦合至所述至少一个处理器并且存储计算机可执行指令的程序，所述计算机可执行指令被配置为与所述至少一个处理器一起使所述移动终端至少根据权利要求1-6中的任一项所述的方法执行。
【文档编号】H04W88/02GK104025699SQ201280017109
【公开日】2014年9月3日申请日期:2012年12月31日优先权日:2012年12月31日
【发明者】蒋斌, 吴晟, 林福辉, 徐晶明申请人:展讯通信（上海）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋斌;吴晟;林福辉;徐晶明
技术所有人：展讯通信(上海)有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。