信号源分离的制作方法_3

文档序号：9278247阅读：来源：国知局

，实施方式在产生增强期望信号的上下文中描述，其可以通过限制在声输出信号路径引入的延迟而适用于人到人通信系统（例如，电话）。在其他实施方式中，该方法用在人机通信系统中，其中延迟可不是那么大的问题。例如，该信号可被提供给自动语音识别或理解系统。
[0078] 参照图1，在一个实施方式中，四个并行音频信号由MEMS多传声器电源110并作为模拟信号（如，分开的金属丝或纤维上的电或光信号，或者复用在共同电线或光纤上） Xl (t)，. . .，x4 (t) 113a-d传递到信号处理单元120。所获得的音频信号包括源自源S105的分量，以及源自一个或多个其他来源（未示出）的分量。在下面所示的例子中，信号处理单元120输出试图最好从其它信号源分开源自源S的信号的单个信号。一般地，信号处理单元利用输出掩码137,它代表选择（例如，二进制或加权）作为估计源自所需源S的所获取的音频分量的时间和频率的函数。此掩模然后由输出重建元件138用于形成所需信号。
[0079] 作为第一阶段，信号处理单元120包括模数转换器。应当理解：在其他实施方式中，在传递到信号处理单元之前，原始音频的每个信号可以在传声器内数字化（例如，转换成多位数字或二进制2 △流），这种情况下，输入接口是数字的，以及在信号处理单元中不需要全模数转换。在其他实施方式中，传声器元件可以与信号处理单元的一部分或全部集成在一起，例如作为多芯片模块，或可集成在共同的半导体晶片上。
[0080] 数字化的音频信号从模数转换器传递到方向估算模块134,其一般决定源方向或位置的估计作为时间和频率的函数。参照图3,方向估计模块取k个输入信号 Xl(t)，. . .，xk(t)和独立地对一系列分析帧中的各输入信号执行短时傅立叶变换（STFT)分析232。例如，该帧是30毫秒的持续时间，对应于在采样率16kHz的1024个样本。可使用其他分析窗口，例如，更短的帧用于减少分析的延迟。分析的输出是一组复杂数量值XtlU，对应于第k个传声器、第n个帧和第i个频率分量。其他形式的信号处理可例如基于时域处理用于确定到达估计的方向，因此，短时傅立叶分析不应该被认为是必要或根本的。
[0081] 傅立叶分析232的复合输出被应用于相位计算234。对于每个传声器帧频率 (k，n，i)组合，从复量计算相位(在这里和以下省略下标n)。在一些替代品，也计算幅度|Xti|由随后模块使用。
[0082] 在一些示例中，对每个频率独立地处理四个传声器的相位以产生表示为连续的或精细量化量的到达方向的最佳估计0i(?nt)。在本实施例中，到来方向估计一种程度或自由，例如，对应于平面中的到达方向。在其它示例中，方向可以通过多个角度表示（例如，水平/方位角和垂直/仰角，或直角坐标中的向量），并可用范围以及方向来表示。注意：如下面关联传声器元件的设计特性进一步描述的，使用三个以上的音频信号和单角度表示，所述输入信号的相位可过度约束方向估计，以及可以使用到达方向的最佳拟合 (任选还表示度拟合）例如作为最小二乘估计。在一些示例中，方向计算还提供例如表示为参数分WPi( 0 )的到达方向的确定性的测量（例如，适合的定量程度），例如通过平均值和标准偏差参数化或作为到达量化方向上的明确分布。在一些示例中，到达估计的方向容纳未知声速，其可以在估计到达方向的过程中隐含地或明确地估计。
[0083] 计算方法的特定方向的示例如下。传声器的几何形状是已知先验，因此对于每个传声器的信号相位的线性方程可被表示为f*3 + 4 =4，其中f是第k个传声器的三维位置，孓是在到达方向的三维矢量，h是所有的传声器共同的固定延迟，Sk=巾^^^是第k个传声器在频率的频率分量观察到的延迟。所述多个传声器的公式可以表示为矩阵方程Ax=b，其中A是取决于传声器的位置的KX4矩阵（K是传声器的数量），x代表到达方向（具有5增加单位元件的4-维向量），和b是表示观察到的K相的向量。当有四个非共面的传声器时，该方程可以唯一解决。如果有不同数量的传声器或该独立性是不满足，则系统可以在最小二乘意义上加以解决。对于固定几何形状，A的伪逆P能够被计算一次 (例如，作为传声器上端口的物理布置的属性），并硬编码到实现到达方向估计x作为Pb的计算模块。
[0084] 问题是在某些实施例中相位不一定是唯一数量。相反，每个仅确定直达2JT的倍数。因此可以无穷多种不同的方式解开相位，向任何其中加入2 31的倍数和然后执行如上类型的计算。在若干实施例中为了简化这一问题，传声器的间隔接近小于波长相距的事实被利用，以避免不必处理相位展开。因此，任何两个展开相位之间的差不能超过2 31 (或在中间情况下，231的较小倍数）。这减少了从无穷多个到有限数量的可能展开数量：一个用于每个传声器，对应于首先由波击中的传声器。如果绘制单位圆周围的相位，这相当于利用事实：即特定的传声器被首先击中，然后绕了一圈移动到另一个传声器的相位值，使得另一个接下来被击中等。
[0085] 可替代地，对应于所有可能展开的方向被计算，以及最准确的被保留，但最常见的，选择使用这些展开中的哪些的简单启发式是相当有效的。启发式是假设所有的传声器将较快连续地击中（即，它们比波长间隔少得多），所以我们发现任何两个相位之间的单位圆的弧时间首次发现为展开的基础。该方法最小化最大和最小展开相位值之间的差。
[0086]在一些实现方式中，在标题为"SOURCESEPARATIONUSINGACIRCULARMODEL" 的国际申请No.PCT/US2013/060044中描述的方法用于使用圆形相位模型解决到达方向，而不明确要求展开。这些方法中的一些利用每个源都和直线-圆相位特性相关联的观察，其中成对传声器之间的相对相位遵循线性（模2 31)模式作为频率的函数。在一些示例中，修改的RANSAC(随机采样一致性）方法用于识别被分配给各源的频率/相位样本。在一些示例中，无论是与改性RANSAC法组合或使用其他方法，封装变量表示用于表示相位的概率密度，从而避免在施加概率技术中需要"解包"相位以估计源之间的延迟。
[0087] 也可以在该程序的过程中计算多个辅助值，以确定计算方向的置信度。最简单的是最长弧的长度：如果是长（2 31的大部分），那么我们可以确信我们的假设，即传声器被连续快速击中和正确启发式解开。如果是短，较低置信度值被馈送到算法的其余部分以提高性能。也就是说，如果大量的工具箱说^malmostpositivethebincamefromthe east"和一些附近的工具箱说"Maybeitcamefromthenorth,Idon'tknow"，我们知道它忽略。
[0088] 另一个辅助值是估计方向矢量的大小（以上d)。理论预测，这应该与声音的速度成反比。我们预计由于噪音有些偏差，但对于给定工具箱太大偏差是提示：我们的单平面波假设已破坏，所以我们不应该在这种情况下确信方向。
[0089] 正如上面介绍的，在一些替代实施例中，幅度|Xti|也提供给方向计算，其可以使用绝对或相对幅度，用于确定方向和/或估计的确定性或分布。作为一个例子，从频率的高能量（等效高振幅）信号确定的方向可以比如果能量很低更可靠。在一些示例中，例如基于相位差集的拟合和传声器之间绝对幅度或者该组的各大小的差异的程度而计算到达方向估计的的置信估计值。
[0090] 在一些实施方式中，例如在单一角度估计的情况下，到达估计方向被量化为16个均匀的扇区，9i=量化（9i(c；°nt))。在二维方向估计的情况下，两个角度可以单独量化，或者可以使用方向的联合（矢量）量化。在一些实施方式中，从输入信号的相位直接确定量化估计。在一些示例中，到达估计器的方向的输出不是简单量化的方向估计，而是离散分布 pri ( 0 )(即，后验分布得到置信估计）。例如，在低的绝对幅度，到达方向的分布可以是更广泛的（例如，更高的熵）比幅度也高。作为另一个例子，如果相对值信息与相位信息不一致，该分布可以是更广泛的。作为又一示例，因为音频信号传播的物理特性，低频率区域固有地具有更宽分布。
[0091] 再参考图1，原始方向估计135 (例如，在时间对频率网格）被传递到源推理模块 136。注意，该模块的输入基本上独立地对于每个频率分量和对于每个分析帧计算。通常，推理模块使用在时间和频率上分布的信息，以确定其中重建所需信号的适当输出掩码137。
[0092] 源推理模块136的一种实施方式类型使用概率推理，并且更具体地，能使用置信传播的方法来概率推理。这个概率推理可以表示为因子图，其中输入节点对应当前帧n= nQ的到来估算方向0 ，频率分量i的集合，以及用于先前帧的窗口n= %-W，…，队-1 (或在执行批量处理的实施例中包括未来帧）。在一些实现方式中，存在隐藏（潜在）变量的时间序列Smi，指示（n，i)时间-频率位置是否对应于期望的源。例如，S是二进制变量，用1表示所希望的源和0表示不存在所希望的源。在其它示例中，所希望的和/或不希望的（例如，干扰）的来源的较大数被表示在这个指标变量。
[0093] 因子图的一个例子引入要素耦合Sn,i，具有其他指标的集合{S^; |m-n|§ 1，1}。这个因子图例如通过倾向于产生与不同源相关联的时间-频率空间的连续区域而提供"平滑"。另一个隐藏变量表征所需的源。例如，在因子图中表示预计到达（离散）方向9 S。
[0094] 更复杂的隐变量也可以在因子图中表示。示例包括清浊节距变量，起始指示符 (例如，用于模拟显示在频率箱范围上的开始，语音活动指标（例如，用于模拟交谈），源的频谱形状特征（例如，作为长期平均或得到作为语音期间模拟频谱形状的变化的动态特性的结果）。
[0095] 在一些实施方式中，外部信息被提供到信号处理单元120的源推导136模块。作为一个示例，对到达方向的约束由容纳传声器的设备的用户例如，使用图形界面提供，所述图形界面呈现有关该设备的360度范围，并允许选择范围的部分（或多个部分）或范围的大小（例如，聚焦），其中估计的到达方向被允许或者从其排除到达方向。例如，在用于与远程方免提通信的音频输入的情况下，在该设备获取音频的用户可以选择方向以排除，因为这是干扰源。在一些应用中，某些方向是已知的先验以表示干扰源的方向和/或其中所希望的源不允许的方向。例如，在其中传声

完整全部详细技术资料下载

当前第3页1 2 3 4 5 6