音频信号的时频定向处理的制作方法_2

文档序号:9816456阅读:来源:国知局
了在用户设备的计算能力限制内提供获取的声信号的精确 处理的技术问题。在用户设备处执行获取的声信号的基于方向的处理的方法容许减少传送 到服务器计算机以便进一步处理所需的数据量。服务器缉私局用于经常涉及到语言识别的 进一步处理容许使用可在服务器计算机中可用的更多的计算资源(例如,处理器速度、运行 时间和永久存储容量,等等)。
[0029] 本发明的其它特征和优点将从下面的说明书以及从权利要求书中变得明显。
【附图说明】
[0030] 图1是示出代表性的用户设备和服务器的图;
[0031] 图2是示出汽车应用的图;
[0032]图3是显示处理声信号以产生转录的流程图;
[0033]图4是示出代表信号分布的非负矩阵因子分解(NMF)方法的图;以及 [0034]图5是流程图。
【具体实施方式】
[0035] -般地,本文描述的实施方案涉及获取典型地代表了来自多个源的信号的组合的 音频信号集合的问题,以及处理信号以将特定兴趣源的信号从其它非期望信号中分离出的 问题。至少一些实施方案涉及到如下问题:当获取信号包括感兴趣的语言语调以及干涉语 言和/或非语言信号时为自动语言识别而分离出感兴趣信号。其它实施方案涉及到增强音 频信号以呈现给人类收听者的问题。又有另外的实施方案涉及自动语言处理的其它形式, 例如扬声器校验或基于语音的搜索查询。
[0036] 实施方案还包括如下一个或两个:(a)在音频信号获取期间获取方向信息,以及 (b)在多层体系结构中处理音频信号,其中可以对不同的计算设备,例如在客户端-服务器 布置中,执行处理的不同部分。应当理解,这两个特征的独立且且一些实施方案可以使用关 于单个计算设备的方向信息,并且其它实施方案可以不使用方向信息,尽管如此可以使用 多层体系结构。最后,至少一些实施方案可以既不使用方向信息又不使用多层体系结构,例 如,仅使用下文所描述的时频因子分解方法。
[0037] 参考图1,在示例性实施方案的背景下描述了可以在各个实施方案中呈现的特征, 其中多个个人计算设备,具体为智能手机210(在图中仅示出了其中单个),包括一个或多个 麦克风110,其中每个麦克风具有多个紧密间隔的元件(例如,1.5111111,2111111,3111111间距)。这些麦 克风的示例性结构可见于美国专利公开2014/0226838中。智能手机包括处理器212,其与模 拟-数字转换器(ADC)耦合,ADC提供在麦克风110处获取的数字化音频信号。处理器包括:存 储设备140,存储设备部分地用于表示获取的声信号的数据;以及CPU 120,其实现下文描述 的各程序。智能手机210经由数据链路(例如,经由蜂窝数据连接)与服务器220耦合。服务器 包括CPU 122和关联的存储设备142。如下文所描述的,在智能手机处获取的音频信号处理 期间和/或处理之后紧接着,数据在智能手机与服务器之间传送。例如,部分处理的音频信 号从智能手机传送到服务器,并且进一步处理的结果(例如,自动语言识别的结果)从服务 器传回智能手机。作为另一实施例,服务器220可以将数据提供给智能手机,例如源的估计 定向信息或谱原型,其在智能手机中用于全部地或者部分地处理在智能手机中获取的音频 信号。
[0038]应当理解,智能手机应用仅为用户设备的多个实施例中的一个。另一实施例显示 在图2中,其中多元件麦克风集成到车辆250中,利用车辆中的计算设备来处理来自扬声器 205的所获取的音频信号的至少一些处理,并且计算设备可以任选地与服务器通信以执行 获取信号的至少一些处理。
[0039]在一个实施例中,多个元件麦克风110获取多个并行的音频信号。例如,麦克风从 紧密间隔的元件112(例如,间隔小于2_)获取四个并行音频信号并且将这些信号作为模拟 信号(例如,在单独的电线或光纤上的电信号或光信号,在共同的线或光纤上多路复用的电 信号或光信号) X1(t),. . .,x4(t)传递到ADC 132。一般地,获取的音频信号的处理包括执行 生成正实量X(f,n)的时频分析,其中f是频率仓上的索引,η是时间间隔上的索引(即,帧)。 例如,对具有1024个频率仓的每一增量偏移30ms的一系列时间窗中的每一个("帧")中的时 间信号执行短时傅立叶变换(STFT)分析,对于每个输入信号在每个帧上产生1024个复量。 在一些实现方式中,将一个输入信号选为代表,并且代表量值的量X(f,η)(或者可替代地, 平方量值或者量值的压缩变换,诸如平方根)从时间信号的STFT分析得到,对于稍后的分离 时间信号的重构保持复量的角度。在一些实现方式中,不是选择代表性的输入信号,时间信 号或其STFT表示的组合(基于先前方向估计的加权平均或线性束成形器的输出)用于形成X (f,n)和关联的相位量。
[0040] 除了量值相关信息之外,到达方向(D0A)信息从时间信号计算出,也按频率和帧来 索引。例如,可以表示为标量或多维向量的连续入射角估计D (f,η)得自STFT的相差。到达方 向计算方法的实施例如下。麦克风的几何结构先验得知,并且因此用于每个麦克风信号的 相位的线性等式可表示为% +戌:)二_其中%是第1^个麦克风的三维位置,3是到达 方向上的三维向量,δ〇是共用于全部麦克风的固定延时,并且SkicK/GM是是根据第k个麦 克风的复STFT的相位Φ k计算出的频率ω i处的频率成分的第k个麦克风处观察到的延时。多 个麦克风的等式能够表达为矩阵等式Ax = b,其中A是KX 4矩阵(K是麦克风的数量),其取决 于麦克风的位置,X表示到达方向(j以单位元件扩增的4维向量),并且b是表示观测到的K 个相位的向量。当存在四个非共面麦克风时,该等式能够唯一地被求解。如果存在多个数量 的麦克风或者该独立性不满足,则系统能够在最小二乘意义上进行求解。对于固定几何结 构,A的伪逆P能够计算一次(例如,作为麦克风上的端口的物理布置的属性)并且硬编码到 将到达方向X的估计实现为Pb的计算模块中。然后,方向D直接从向量方向X上获得。在一些 实施例中,应当与声速一致(例如,等于)的方向向量X的量值用于确定例如该方向的置信得 分,如果量值与声速不一致,则表示出低置信度。在一些实施例中,利用固定的方向集合(例 如,20个仓)或者利用与观测到的到达方向的长期分布一致的适应的方向集合来量化(即, 分仓)到达方向。
[0041] 注意的是,使用伪逆方法来估计方向信息仅为一个实施例,其适合于麦克风元件 紧密间隔的情形,从而降低短语"缠绕"的效应。在其它实施方案中,至少一些对麦克风元件 可以更宽的间隔,例如,以36mm ad 63mm间距的矩形布置。在该布置中,替代的实施方案利 用如在名称为 "SOURCE SEPARATION USING A CIRCULAR MODEL" 的国际申请公开W02014/ 047025中所描述的方向估计技术(例如,线性最小二乘估计)。在另外其它实施方案中,短语 解绕方法与如上所述的伪逆方法相结合应用,利用,在应用了伪逆方法之后,使用解绕方法 来产生近似延时估计。当然,本领域技术人员将理解,可以使用处理信号(以及尤其是信号 的处理相位信息)而产生方向估计的另外其它方法。注意,所谓的方向估计,值得是单一方 向或者排除了一些方向或者使得一些方法基本上不可能出现的方向的至少一些表征。
[0042] 各个实施方案利用包括作为频率和时间函数的量值和方向信息的时频分析,并且 形成在用于从获取的音频信号中分离感兴趣信号的相同的频率和时间索引上所索引的时 频掩码M(f,n)。在一些实施例中,使用批处理方法,其中用户205讲出语调并且通过麦克风 110将语调获取作为并行的音频信号 X1(t),...,x4(t)。这些信号作为一个单元被处理,例 如,计算语调的持续时间内的整个掩码。在不同实施方案中使用若干可替代的多层处理方 法,包括例如:
[0043] ?在用户设备处计算谱量值和X(f,n)到达方向D(f,n)且然后将其传送给服务器, 并且所有其余的处理在一个或多个服务器上执行,结果传回给用户设备。在一些实施例中, 使用多层方法,其中一个计算机服务器执行期望信号(即,时间信号或等同表示)的分离,而 另外的服务器计算机执行期望信号的其它处理。
[0044] ?在用户设备处计算掩码,并且处理获取的时间信号X1(t),. . .,X4(t)以形成单一 分离信号我ο,并且将分离的信号传递到服务器,在服务器中例如使用自动语言识别处理 来处理该分离的信号。
[0045] ?在用户设备处计算掩码,并且获取的时间信号^(〇,...^4(〇中的一个(或者 平均或其它组合)连同计算出的掩码一起传递给服务器,在服务器中处理该掩码。在一些实 现中,服务器执行首先利用掩码分离出期望信号以及然后应用自动语言识别处理的串联操 作。在一些实现中,掩码信息集成到语言识别处理中,例如,应用"缺失数据"方法来估计自 动语言识别处理的输入特征向量。在一些实施例中,获取的时间信号如其被采集时
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1