音频信号的时频定向处理的制作方法_4

文档序号:9816456阅读:来源:国知局
干扰信号的特征化,例如风噪声、挡风板刮水器噪声,等等。该先验信息可用于统计先验模 型架构,或者可用作上述的迭代优化程序的初始化。
[0097] 在一些实现方式中,服务器向用户设备提供反馈,其有助于期望信号的分离。例 如,用户的设备可以将谱信息X(f,n)提供给服务器,并且服务器通过语言识别处理可以向 用户设备返回确定期望源(例如所确定的干扰语言或非语言源)的适当的谱原型q s(f|z)。 用户的设备随后可以使用这些作为固定值,作为先验估计,或者作为迭代再估计的初始化。
[0098] 应当理解,上文提供的用于分布模型的特定结构以及用于模型成分的估计的程序 不是唯一方法。非常一般地,除了非负矩阵因子分解之外,可以使用诸如独立成分分析 (ICA)的其它方法。
[0099]在形成期望信号的掩码和/或分离的又另外的新颖方法中,通过基于例如在时间 窗上的一个或多个获取信号计算时间相对频率的分布P(f,η)来处理获取的声信号。该分布 的值是非负的,并且在该实施例中,分布在频率值f e [1,F]和时间值ne [1,N]的离散集合 上。在一些实现方式中,P(f,n〇)的值利用短时傅立叶变换在对应STFT的第no个分析窗(帧) 的输入信号的时点to附近的离散频率f来确定。
[0100] 除了谱信息之外,获取信号的处理还包括对于信号的多个成分确定每个时间帧的 定向特性。计算定向特性的信号的成分的一个实施例是分离的谱成分,但是应当理解可以 使用其它分解。在该实施例中,对于每个(f,n)对确定方向信息,并且在索引上的到达方向 估计D(f,n)被确定为离散化(例如,量化)值,例如对于D(例如,20)个离散(即,"分仓")到达 方向,de[l,D]。
[0101] 对于获取信号的每个时间帧,形成定向直方图P(d|n),表示时间帧η处的不同频率 成分所源自的方向。在该使用离散化方向的实施方案中,该方向直方图由对于D个方向中的 每一个由数字构成:例如,在以该方向标记的该帧中的频率仓的总数(即,D (f,n )= d的仓f 的数量)。不是对对应于方向的仓计数,能够利用这些仓的TFT量值的总和(例如,P(d I η) 〇c 2|^(£,^=(^(到11))或者这些量值的平方或者更重地加权较高能量仓的效应的类似方法来 实现更佳的性能。在其它实施例中,获取信号的处理提供了连续值(例如,精细量化)方向估 计D(f,n)或者参数化或非参数化分布P(d | f,n),并且根据方向估计来计算直方图或者连续 分布P(d|n)。在下面的方法中,详细描述P(d|n)形成直方图(即,d的离散值的值)的情况,然 而应当理解方法可同样适用于解决连续的情况。
[0102] 所得到的定向直方图能够解释为在每个时间帧来自每个方向的信号强度的度量。 除了由于噪声导致的变化之外,期望这些直方图随着一些源打开和关闭随时间而变化(例 如,当人停止少讲话到没有能量来自他的大致方向,除非在他后面有另一噪声源,我们不处 理的情况)。
[0103] 一种使用该信息的方式是在时间上对这些直方图求和或求平均(例如,为 得到的总量直方图的峰值则对应于源。这些能够由峰值发现算法 来检测到,并且通过例如取峰值之间的中点能够界定源之间的界限。
[0104] 另一方法是考虑在时间上所有定向直方图的集合并且分析哪些方向趋向于一起 增加或减少权重。做这些的一种方式是计算这些直方图的样本方差或相关矩阵。方向估计 的分布的相关或方差用于确定与不同源相关联的单独的分布。一种这样的方法利用方向直方 图的方差,例如计算为

[0107] 其中Ρ(η)和ρ是D维列向量。
[0108] 可以对方差矩阵Q或者对相关矩阵执行各种分析。例如,Q的主成分(即,与最大本 征值相关联的本征向量)可视为代表不同源的原型定向分布。
[0109] 其它检测这种模式的方法还可用于相同目的。例如,计算时间帧和多个(例如,5 个,这趋于仅仅在1后略微变化)帧的方向对的联合(可能是加权)直方图,随后在所有时间 上平均化,能够实现相似的结果。
[oho]另一种使用相关或方差矩阵的方式是形成方向对cU与办之间的两两"相似度"。我 们将方差矩阵视为方向之间的相似度矩阵,并且将诸如亲和度传播或k-medoids的聚类方 法应用于对共同相关的方向进行分组。所得到的聚类随后取为对应于各个源。
[0111] 以此方式,环境中的离散的源集合被确定,并且判定每个的定向分布图。这些分布 图能够用于利用上述掩码方法重构各源发射的声音。它们还能够用于为用户呈现每个源相 对于麦克风阵列的位置的图形示例,允许手动选择哪些源通过以及阻挡或可视反馈哪些源 被自动阻挡。
[0112] 在另一实施方案中,由上述一个或多个方法确定在一组时频位置上的输入掩码 值。这些掩码值可以具有局部误差或偏差。这些误差或偏差具有由掩码信号构造的输出信 号具有非期望特性诸如音频伪迹的可能结果。
[0113] 作为能够与上述方法组合的任选特征,可以"平滑"所确定的掩码信息。例如,"平 滑"或以其它方式处理掩码值的一种普通类别的方法利用二进制马尔科夫随机场,将输入 掩码值有效地处理为真实而未知(即,实际所需)的输出掩码值的"噪声"观察。下面描述的 多种技术解决了二进制掩码的情况,但是应当理解,技术直接可用于或者可适应于非二进 制(例如,连续或多值)掩码的情况。在许多情形下,利用Gibbs算法或相关方法的顺序更新 可能在计算上受抑制。可用的并行更新程序可能不可用,因为马尔科夫随机场的相邻结构 不允许以使能实现当前并行更新程序的方式对位置进行分区。例如,以时频网格中的八个 近邻上的每个值为条件的模型不适于划分到确切并行更新的位置的子集中。
[0114] 本文公开了另一方法,其中对于类Gibbs算法的并行更新基于多个更新位置的子 集的选择,应当理解条件独立假设可以在并行更新的多个位置上被违反。虽然这意味着被 采样的分布不精准地是对应于MRF的一个,但是实际上该方法提供了有用的结果。
[0115] 因此,本文提供的程序按更新周期顺序重复。在每个更新周期,根据确定性模式随 机地选择(例如,选择随机小部分,诸如一半)位置子集(即,掩码的时频成分),或者在一些 实施例中形成位置的整个集合。
[0116] 当在底层MRF齐次的情形下并行更新时,根据固定核的位置不变卷积用于计算所 有位置上的值,然后在所更新的位置处的值的子集用于常规Gibbs更新(例如,抽取随机值 以及在至少一些实施例中在每个更新位置进行比较)。在一些实施例中,卷积实现在变换域 中(例如,傅立叶变换域中)。使用变换域和/或固定卷积方法也可应用于选择适当的模式更 新(例如,棋盘模式)的确切情形下,例如,因为计算规则度提供了优于最终未使用的值的计 算的益处。
[0117] 程序的概括显示在图5的流程图中。注意的是,步骤的具体次序可以在一些实施方 案中改变,并且可以利用不同的数学公式而不改变方法的实质方面来实现步骤。首先,在多 个传感器(例如,麦克风)处获取例如音频信号的多个信号(步骤612)。在至少一些实现方式 中,在分析步骤中确定在连续分析帧(η)和频率(f)处的相对相位信息(步骤614)。基于该分 析,对于每个时频位置确定-1.0(即,表示"可能关闭"的数值量)与+1.0(即,表示"可能打 开"的数值量)之间的值作为原始(或输入)掩码M(f,η)(步骤616)。当然,在其它应用中,按 照除了根据相位或到达方向信息以外的其它方式确定输入掩码。该程序的输出是确定平滑 掩码S(f,n),其初始化为等于原始掩码(步骤618)。执行另外步骤的迭代序列,例如在预定 迭代次数(例如,50次迭代)后终止。每次迭代以具有局部核的当前平滑掩码的卷积开始而 形成滤波掩码(步骤622)。在一些实施例中,该核在时间和频率上正负延伸一个样本,权重 为:
[0119] 通过sigmoid l/(l+exp(_x))滤波掩码加上原始掩码的多个α倍,形成值在〇.〇至 1.0范围内的滤波掩码F(f,η)(步骤124),例如,α = 2.0。随机地或者根据确定性模式可替代 地选择(f,n)位置的小部分h的子集,例如,h = 0.5(步骤626)。迭代地或者并行地,在这些随 机位置上的平滑掩码S进行概率更新,使得被选定为更新的位置(f,n)被设定为概率为F(f, η)的+1.0,以及概率为(l_F(f,n))的-1.0(步骤628)。迭代测试(步骤632)的结束允许步骤 122-128的迭代在例如预定迭代次数内继续。
[0120] 任选地执行进一步的计算(图5的流程图中没有示出)以确定平滑滤波掩码SF(f, η)。该掩码计算为sigmoid函数,其应用于在拖尾范围的迭代上计算出的滤波掩码的平均 值,例如在最后40至50次迭代上计算出的平均值,而产生具有范围在0.0至1.0内的量的掩 码。
[0121 ]上述方法的实现方式可以通过软件、硬件或者硬件和软件的组合来实现。例
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1