音频处理装置以及音频处理方法

文档序号：2826393阅读：117来源：国知局

音频处理装置以及音频处理方法
【专利摘要】本发明涉及音频处理装置和音频处理方法。一种音频处理装置，包括：分解单元，用于将通过对来自于多个通道的音频信号执行时间-频率变换而获得的频率信息分解为表示通道方向的特征的通道矩阵、表示频率方向的特征的频率矩阵和表示时间方向的特征的时间矩阵；以及提取单元，用于基于所述通道矩阵、所述频率矩阵和所述时间矩阵提取来自于任意指定方向的音频的频率信息。
【专利说明】音频处理装置以及音频处理方法
【技术领域】
[0001]本发明涉及音频处理装置、方法和程序，特别涉及能够更容易地从期望方向上的声源提取音频的音频处理装置、方法和程序。
【背景技术】
[0002]现有技术可以将来自多个声源的音频输出分离为各个声源的音频。例如，已经提出了一种方法，即使在具有噪声影响的环境中，该方法通过分离来自多个混合音频信号的一个或多个声源信号并使用基于独立成分分析法的声源分离处理使他们受到二值掩码处理，来实现高的声源分离能力(例如，参照日本未审查专利申请公报N0.2006-154314)。

【发明内容】

[0003]然而，在上述技术中，可以从多个声源的音频中分离预定声源的音频，但是不能提取来自任意方向的音频，换言之，来自期望方向上的声源的音频。
[0004]期望提供一种能够更容易地从期望方向上的声源提取音频的音频处理装置、方法和程序。
[0005]根据本发明的实施例的音频处理装置包括:分解单元，用于将通过对来自于多个通道的音频信号执行时间-频率变换而获得的频率信息分解为表示通道方向的特征的通道矩阵、表示频率方向的特征的频率矩阵和表示时间方向的特征的时间矩阵；以及提取单元，用于基于所述通道矩阵、所述频率矩阵和所述时间矩阵提取来自于任意指定方向的音频的频率信息。
[0006]音频处理装置还可以包括:方向规定单元，用于基于表示所指定方向的方向信息及所述通道矩阵来获得规定与来自于所指定方向的音频相关的矩阵成分的方向规定信息；其中，所述提取单元基于所述通道矩阵、所述频率矩阵、所述时间矩阵以及所述方向规定信息来提取来自于所指定方向的音频的频率信息。
[0007]提取单元可以通过使用由所述方向规定信息确定的放大因子放大所述频率信息，提取来自于所指定方向的音频的频率信息。
[0008]提取单元可以基于所述频率矩阵或所述时间矩阵的统计特征来改变所述放大因子。
[0009]分解单元假设所述频率信息是通道、频率和时间帧作为相应维度的三维张量，并且可以通过执行张量分解来将所述频率信息分解为所述通道矩阵、所述频率矩阵和所述时间矩阵。
[0010]张量分解可以是非负张量分解。
[0011]音频处理装置还可以包括:频率-时间变换单元，用于通过对由所述提取单元获得的、来自于所指定方向的音频的所述频率信息执行频率-时间变换，产生来自于多个通道的音频信号。
[0012]根据本发明的实施例，提供了一种音频处理方法或程序，包括:将通过对来自于多个通道的音频信号执行时间-频率变换而获得的频率信息分解为表示通道方向的特征的通道矩阵、表示频率方向的特征的频率矩阵和表示时间方向的特征的时间矩阵；以及基于所述通道矩阵、所述频率矩阵和所述时间矩阵提取来自于任意指定方向的音频的频率信
肩、O
[0013]根据本发明的实施例，通过在来自于多个通道的音频信号上执行时间-频率变换而获得的频率信息被分解为表示通道方向的特征的通道矩阵、表示频率方向的特征的频率矩阵和表示时间方向的特征的时间矩阵；并且基于通道矩阵、频率矩阵和时间矩阵提取来自于任意指定方向的音频的频率信息。
[0014]根据本发明的实施例，可以更容易地从期望方向上的声源提取音频。
【专利附图】

【附图说明】
[0015]图1是示出了眼镜式设备的外观的构造的示例的图；
[0016]图2是示出了方向指定的音频放大器的构造的示例的图；
[0017]图3是示出了输入复合谱的图；
[0018]图4是示出了输入复合谱图的图；
[0019]图5是不出了张量分解的图；
[0020]图6是示出了通道矩阵的图；
[0021]图7是示出了指定方向的规定的图；
[0022]图8是示出了声源放大处理的流程图；以及
[0023]图9是示出了计算机的构造的示例的图。
【具体实施方式】
[0024]之后将会参照附图描述用于实施本发明的实施例。
[0025]眼镜式设备的构造示例
[0026]本发明涉及从来自多个声源的音频提取来自在期望方向上的声源的音频的方向指定的声源提取装置。
[0027]下文中，将会给出关于在眼镜式设备的内部中设置的方向指定的音频放大器的描述，该方向指定的音频放大器作为方向指定的声源提取装置的示例。使用仅对用户指定的任意方向的音频进行放大的应用程序来实现方向指定的音频放大器。此外，通过负的放大因子实现音频的衰减。
[0028]具有内置方向指定的音频放大器的眼镜式设备的外观被构造为例如如图1所示。换言之，设置了眼镜式设备11、摄像机21、麦克风22-1、麦克风22-2、耳机23-1和耳机23-2。
[0029]在眼镜式设备11中，摄像机21被设置在眼镜的中央，并且左通道麦克风22-1和右通道麦克风22-2被分别设置在左镜片和右镜片附近。此外，左通道耳机23-1和右通道耳机23-2被分别设置在眼镜式设备11的左、右镜腿部分上。
[0030]此外，在下文中，当没有特别原因来区分麦克风22-1和麦克风22-2时，它们将会被简称做麦克风22，并且当没有特别原因来区分耳机23-1和耳机23-2时，它们将会被简称做耳机23。此外，在眼镜式设备11中共设置了两个麦克风22，但是，也可以设置三个以上的麦克风22。类似地，也可以设置三个以上的耳机23。
[0031]在眼镜式设备11中，周围音频由设置在左侧和右侧上的单声道麦克风22收集，由此获得的音频信号受到声学处理，并且由用户指定的方向的音频被放大。此外，已经受到放大处理的音频信号被提供给耳机23，并且音频被从耳机23输出。
[0032]这里，在指定要被放大的音频的方向时，例如，用户将他的左手食指FGlI立起，并且指定要被提取的音频的声源方向。
[0033]因为设置在眼镜式设备11的眼镜的中央处的摄像机21拍摄佩戴眼镜式设备11的用户的前方的图像，所以食指FGll出现在由摄像机21拍摄的图像上。之后，眼镜式设备11从由摄像机21拍摄的图像检测到食指FG11，并且基于检测结果规定由用户指定的方向。在眼镜式设备11中，仅来自以此方式规定的方向的音频被放大并再现。
[0034]此外，在图像上的食指FGll的检测例如由使用特征值等的对象检测来执行，然而，由用户指定的方向的规定方法可以是任何方式的方法。例如，指定方向可以由用户在食指FGll上佩戴预定手指套并且该手指套被检测来规定，并且也可以由用户直接输入要指定的方向来规定。
[0035]此外，在这里，作为本技术的应用示例，将会描述仅放大由用户指定的方向的音频的应用程序，然而，本发明也可以例如应用到乐器提取、具有面部识别的声源分离等。乐器提取是这样的应用程序:其在示出了可以预先获得示出乐器的三维布置的乐器地图信息的情况下指定特定乐器，并且利用在先信息使用声源分离仅提取特定乐器的音频信号。此外，具有面部识别的声源分离是这样的应用程序:其使用面部识别来规定存在多个人的方向，并且使用方向信息和人声的一般特征来分离每个人的语音。
[0036]方向指定的音频放大器的构造示例。
[0037]之后，将会给出关于设置在图1中示出的眼镜式设备11的内部中的方向指定的音频放大器的描述。图2是示出了方向指定的音频放大器的构造的示例的图。
[0038]方向指定的音频放大器51由时间-频率变换单元61、声源分解单元62、方向规定单元63、声源放大单元64和频率-时间变换单元65构成。
[0039]在时间-频率变换单元61中，由麦克风22收集的多个通道的音频信号被提供作为多通道输入信号。时间-频率变换单元61对所提供的多通道输入信号执行时间-频率变换，并且将因此获得的输入复合谱提供给声源放大单元64，此外还将由非负谱形成的非负谱图提供给声源分解单元62，该非负谱是通过使得输入复合谱非负而获得的。
[0040]声源分解单元62假设从时间-频率变换单元61提供的非负谱图是三维张量，其中各个维度是通道、频率和时间帧，并且执行非负张量分解(NTF)。声源分解单元62将使用非负张量分解获得的通道矩阵Q、频率矩阵W和时间矩阵H提供给声源放大单元64，并且还将通道矩阵Q提供到方向规定单元63。
[0041]方向信息u被提供给方向规定单元63，该方向信息u示出了由用户指定并且基于由摄像机21拍摄的图像获得的方向，换言之，该方向信息u是要被放大的声源的方向(下文中也被称作为指定方向)。基于所提供的方向信息u和来自于声源分解单元62的通道矩阵Q，方向规定单元63从包含在从非负谱获得的矩阵中的指定方向获得规定了关于音频的矩阵成分的方向规定信息q，并且将方向规定信息q提供给声源放大单兀64。
[0042]基于来自于时间-频率变换单元61的输入复合谱、来自于声源分解单元62的通道矩阵Q、频率矩阵W和时间矩阵H以及来自于方向规定单元63的方向规定信息q，声源放大单元64产生其中来自指定方向的音频被放大的输出时间-频率谱并且将该输出时间-频率谱提供给频率-时间变换单元65。换言之，在声源放大单元64中，由方向规定信息q规定的被分解的张量成分被选择，与选择结果相对应的放大因子与每个张量成分相乘，并且在谱图上执行来自指定方向的音频成分的振幅的放大。
[0043]通过在从声源放大单元64提供的输出时间-频率谱上执行频率-时间变换之后获得的时间信号上执行交叠相加，频率-时间变换单元65产生经放大的多通道输出信号，并且将经放大的多通道输出信号输出到耳机23。
[0044]关于时间-频率变换单元
[0045]之后将会更具体地描述图2的方向指定的音频放大器51的每个部分。首先，将会给出时间-频率变换单元61的描述。
[0046]时间-频率变换单元61分析从麦克风22提供的多通道输入信号x(c，t)的时间-频率信息。换言之，时间-频率变换单元61在多通道输入信号X (c，t)上执行固定大小的时间帧划分，将因此获得的多通道帧信号X’(c，n，I)与窗口函数Wana(η)相乘，并且获得应用了窗口函数的信号wx (c，η, I)。
[0047]这里，多通道输入信号X (c，t)中的c和t分别指的是通道索引和时间。
[0048]此外，多通道帧信号X’(c, η, I)和应用了窗口函数的信号wx(c, η, I)中的C、η和I分别指的是通道索引、时间索引和时间帧索引。
[0049]换言之，通道索引c示出了该信号是哪个通道的，例如左通道或右通道，并且是c=0,……，C-1。此外，时间索引η示出了多通道帧信号X’ (c,n, I)是在时间帧内哪个编号的样本，并且n=0，……，N-1。时间帧索引I示出了多通道帧信号X’(c，n，l)是哪个编号的时间帧，并且1=0，……，L-1。此外，C是通道的总数目，N是帧大小(换言之，一个帧内的样本的数目)，并且L是时间帧的总数目。
[0050]更具体地，时间-频率变换单元61通过执行以下表达式(I)的计算来从多通道帧信号X’(c，η, I)计算应用了窗口函数的信号wx (c，η, I)。
[0051]wx(c, n, I) =Wana(n) Xx' (c, η, I)...(I)
[0052]此外，用在表达式(I)的运算中的窗口函数wana(η)例如是诸如以下表达式(2)中示出的函数。
【权利要求】
1.一种音频处理装置，包括: 分解单元(62)，用于将通过对来自于多个通道的音频信号执行时间-频率变换(61)而获得的频率信息分解为表示通道方向的特征的通道矩阵(Q)、表示频率方向的特征的频率矩阵(W)和表示时间方向的特征的时间矩阵(H);以及提取单元(64)，用于基于所述通道矩阵(Q)、所述频率矩阵(W)和所述时间矩阵(H)提取来自于任意指定方向的音频的频率信息。
2.根据权利要求1所述的音频处理装置，还包括: 方向规定单元(63)，用于基于表示所指定方向的方向信息及所述通道矩阵(Q)来获得规定与来自于所指定方向的音频相关的矩阵成分的方向规定信息；其中，所述提取单元(64)基于所述通道矩阵(Q)、所述频率矩阵(W)、所述时间矩阵(H)以及所述方向规定信息来提取来自于所指定方向的音频的频率信息。
3.根据权利要求2所述的音频处理装置，其中，所述提取单元(64)通过使用由所述方向规定信息确定的放大因子放大所述频率信息，提取来自于所指定方向的音频的频率信息。
4.根据权利要求3所述的音频处理装置，其中，所述提取单元(64)基于所述频率矩阵(W)或所述时间矩阵(H)的统计特征来改变所述放大因子。
5.根据权利要求4所述的音频处理装置，其中，所述分解单元(62)假设所述频率信息是通道、频率和时间帧作为相应维度的三维张量，并且通过执行张量分解来将所述频率信息分解为所述通道矩阵(Q)、所述频率矩阵(W)和所述时间矩阵(H)。
6.根据权利要求5所述的音频处理装置，其中，所述张量分解是非负张量分解。
7.根据权利要求6所述的音频处理装置，还包括: 频率-时间变换单元(65)，用于通过对由所述提取单元(64)获得的、来自于所指定方向的音频的所述频率信息执行频率-时间变换，产生来自于多个通道的音频信号。
8.根据权利要求1所述的音频处理装置，还包括: 方向规定单元(63)，用于基于表示所指定方向的方向信息和所述通道矩阵(Q)来获得规定与来自于所指定方向的音频相关的矩阵成分的方向规定信息；其中，基于所规定的方向规定信息来确定所述通道矩阵(Q)的初始值。
9.一种音频处理方法，包括: 将通过对来自于多个通道的音频信号执行时间-频率变换(S12)而获得的频率信息分解为表示通道方向的特征的通道矩阵(Q)、表示频率方向的特征的频率矩阵(W)和表示时间方向的特征的时间矩阵(H);以及基于所述通道矩阵(Q)、所述频率矩阵(W)和所述时间矩阵(H)提取(S16)来自于任意指定方向的音频的频率信息。
10.一种使得计算机执行以下功能的程序: 将通过对来自于多个通道的音频信号执行时间-频率变换(S12)而获得的频率信息分解为表示通道方向的特征的通道矩阵(Q)、表示频率方向的特征的频率矩阵(W)和表示时间方向的特征的时间矩阵(H);以及基于所述通道矩阵(Q)、所述频率矩阵(W)和所述时间矩阵(H)提取(S16)来自于任意指定方向的音频的频率信息。
【文档编号】G10L25/18GK103811023SQ201310540742
【公开日】2014年5月21日申请日期:2013年11月5日优先权日:2012年11月13日
【发明者】光藤祐基, 何亚瑟申请人:索尼公司, 声学及音乐调配研究院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：光藤祐基;何亚瑟
技术所有人：索尼公司;声学及音乐调配研究院
我是此专利的发明人

上一篇：模拟原声音调的方法和音调信号合成系统的制作方法
上一篇：一种语音线性预测模型的非线性量化方法