基于源和室内声学的概率模型的语音去混响方法和设备的制作方法

文档序号:2837016阅读:644来源:国知局
专利名称:基于源和室内声学的概率模型的语音去混响方法和设备的制作方法
技术领域
本发明通常涉及用于语音去混响的方法和设备。更具体而言,本发 明涉及基于源和室内声学的概率模型的语音去混响方法和设备。
背景技术
以下在本申请中将被引用或标识的所有专利、专利申请、专利公开、 科学文献等等将在此以其整体被包含作为参考以便更全面地描述本发 明所属技术领域的状态。
在普通室内通过远距离麦克风捕获的语音信号不可避免地包含混 响,这对于语音信号的感知质量和清晰度具有有害的影响并且使自动语
音识别(ASR)系统的性能降低。当混响时间长于0.5秒时,甚至当使 用已经在匹配的混响条件下被训练的声学模型时,不能够提高识别性 能。这在B. Kingsbury和N. Morgan的"Recognizing reverberant speech with rasta-plp,,( Proc. 1997 IEEE International Conference Acoustic Speech and Signal Processing ( ICASSP-97 ) , Vol.2,第1259—1262 页,1997年)中被公开。语音信号的去混响无论对于高质量记录和重放 或对于自动语音识别(ASR)都是必需的。
尽管语音信号的盲去混响仍是有挑战性的问题,但是近来已经提出 若干技术。已经提出将观测信号去相关同时在信号的短时间段内保持相 关性的4支术。这由B.W.Gillespie和L. E. Atlas的"Strategies for improving audible quality and speech recognition accuracy of reverberant speech" (Proc. 2003 IEEE International Conference Acoustics, Speech and Signal Processing ( ICASSP-2003 ) , Vol.1, 第676-679页,2003年)公开。这还由H. Buchner、 R. Aichner、和 W. Kellemann的 "Trinicon: a versat i le f ramework f or mul t ichannel blind signal processing" (Proc. of the 2004 IEEE International Conference Acoustics, Speech and Signal Processing( ICASSP-2004 ), Vol. III,第889-892页,2004年5月)公开。
已经提出用于估计和均衡室内的声响应中的极点的方法。这由T. Hikichi禾口 M. Miyoshi的 "B1 ind algor i thm for calculat ing common poles based on linear prediction" ( Proc. of the 2004 IEEE International Conference on Acoustics , Speech , and Signal Processing ( ICASSP 2004 ) , Vol. IV,第89-92页,2004年5月)公 开。这还由J. R. Hopgood和P丄W. Rayner的 "Blind single channel deconvolution using nonstationary signal processing" ( IEEE Transact ions Speech and Audio process ing, vol. 11, no. 5,第467-488 页,2003年9月)公开。
而且,已经提出基于语音信号的本质特征的两种方法,即在下文中 被称为HERB的基于调和性的去混响、和在下文中被称为SBD的基于稀 發u'l"生的去'混响。HERB 由 T. Nakatani禾口 M. Miyoshi 的 "Blind dereverberat ion of single channel speech signal based on harmonic structure" (Proc. ICASSP-2003, vol,l,第92-95页,2003年4月) 公开。首次出版第2004-274234号的日本未审查专利申请公开了用于 HERB的传统4支术的一个实例。SBD由K. Kinoshita、 T. Nakatani和 M.Miyoshi 的 "Efficient blind dereverberation framework for automatic speech recognition" (Proc. Interspeech-2005, 2005年 9月)公开。
这些方法广泛使用源信号的初始估计中的各语音特征。然后,初始 源信号估计和观测到的混响信号被 一 起用于估计用于去混响的逆滤波 器,这允许进一步改进源信号估计。为了获得初始源信号估计,HERB利 用自适应谐波滤波器,以及SBD利用基于最小统计的频谱相减。在实验 上已经显示如果信号足够长,这些方法大大地提高观测到的混响信号 的ASR性能。
用于语音去混响的改进设备和/或方法的需要。本发明解决本领域中的 这种需要以及其他需要,这对于本领域普通技术人员来说根据本公开内 容将会变得显而易见。

发明内容
相应地,本发明的主要目的是提供语音去混响设备。 本发明的另一个目的是提供语音去混响方法。本发明的再 一 个目的是提供将通过计算机执行的用于执行语音去 混响方法的程序。
本发明的又一个目的是提供存储将通过计算机执行的用于执行语 音去混响方法的程序的存储介质。
根据本发明的第 一 方面,语音去混响设备包括确定最大化似然函数 的源信号估计的似然最大化单元。参考观测信号、初始源信号估计、表 示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进 行所述确定。
所述似然函数可以优选地基于根据未知参数、丢失数据的第 一 随机 变量、和观测数据的第二随机变量所评估的概率密度函数被定义。参考 源信号估计来定义未知参数。丟失数据的第一随机变量表示室内传递函 数的逆滤波器。参考观测信号和初始源信号估计来定义观测数据的第二 随机变量。
上述似然最大化单元可以优选地使用迭代优化算法来确定源信号 估计。迭代优化算法可以优选地是期望最大化算法。
似然最大化单元可以进一步包括但不限于逆滤波器估计单元、滤波 单元、源信号估计和收敛检验单元、以及更新单元。所述逆滤波器估计 单元参考观测信号、第二方差、以及初始源信号估计和更新的源信号估 计之一计算逆滤波器估计。滤波单元将逆滤波器估计应用于观测信号, 并且产生滤波信号。源信号估计和收敛检验单元参考初始源信号估计、 第一方差、第二方差、和滤波信号计算源信号估计。源信号估计和收敛 检验单元进一 步确定是否源信号估计的收敛被获得。如果源信号估计的 收敛被获得,所述源信号估计和收敛检验单元进一步输出源信号估计作 为去混响的信号。所述更新单元将源信号估计更新为更新的源信号估 计。如果源信号估计的收敛未被获得,则所述更新单元进一步提供更新 的源信号估计给逆滤波器估计单元。该更新单元进一步在初始更新步骤 中提供初始源信号估计给逆滤波器估计单元。
似然最大化单元可以进一步包括但不限于第一长时傅立叶变换单
元、LTFS到STFS变换单元、STFS到LTFS变换单元、第二长时傅立叶 变换单元、和短时傅立叶变换单元。第一长时傅立叶变换单元执行波形 观测信号到变换后的观测信号的第一长时傅立叶变换。第一长时傅立叶 变换单元进一步将变换后的观测信号作为观测信号提供给逆滤波器估计单元和滤波单元。LTFS到STFS变换单元执行滤波信号到变换后的滤 波信号的LTFS到STFS变换。LTFS到STFS变换单元进一步将变换后的 滤波信号作为滤波信号提供给源信号估计和收敛检验单元。STFS到LTFS 变换单元执行源信号估计到变换后的源信号估计的STFS到LTFS变换。 如果源信号估计的收敛未被获得,则STFS到LTFS变换单元进一步将变 换后的源信号估计作为源信号估计提供给更新单元。第二长时傅立叶变 换单元执行波形初始源信号估计到第一变换初始源信号估计的第二长 时傅立叶变换。第二长时傅立叶变换进一步将第一变换初始源信号估计 作为初始源信号估计提供给更新单元。短时傅立叶变换单元执行波形初 始源信号估计到第二变换初始源信号估计的短时傅立叶变换。短时傅立 叶变换单元进一步将第二变换初始源信号估计作为初始源信号估计提 供给源信号估计和收敛检验单元。
所述语音去混响设备可以进一步包括但不限于执行源信号估计到 波形源信号估计的逆短时傅立叶变换的逆短时傅立叶变换单元。
所述语音去混响设备可以进一步包括但不限于基于观测信号产生 初始源信号估计、第一方差、和第二方差的初始化单元。在这种情况下, 初始化单元可以进一步包括但不限于基频估计单元和源信号不确定性 确定单元。基频估计单元估计来自变换后的信号的每个短时间帧的基频 和发声量度(voicing measure),其中通过,见测信号的短时傅立叶变 换来给定所述变换后的信号。源信号不确定性确定单元基于基频和发声 量度确定第一方差。
所述语音去混响设备可以进一步包括4旦不限于初始化单元、和收敛 检验单元。初始化单元基于观测信号产生初始源信号估计、第一方差、 和第二方差。收敛检验单元从似然最大化单元接收源信号估计。收敛检 验单元确定是否源信号估计的收敛被获得。如果获得源信号估计的收 敛,则所述收敛检验单元进一步输出源信号估计作为去混响的信号。如 果未获得源信号估计的收敛,则收敛检验单元进一 步提供源信号估计给 初始化单元以使初始化单元能够基于该源信号估计产生初始源信号估 计、第一方差、和第二方差。
在最后描述的情况下,初始化单元可以进一步包括但不限于第二短 时傅立叶变换单元、第一选择单元、基频估计单元、和自适应谐波滤波 单元。第二短时傅立叶变换单元执行观测信号到第 一变换观测信号的第二短时傅立叶变换。第 一选择单元执行第 一选择操作以产生第 一选择输 出以及第二选择操作以产生第二选择输出。第 一和第二选择操作是相互 独立的。当第 一选择单元接收第 一变换观测信号的输入而不接收源信号 估计的任何输入时,第 一选择操作用于选择第 一变换观测信号作为第一 选择输出。当第 一选择单元接收第 一 变换观测信号和源信号估计的输入 时,第一选择操作还用于选择第一变换观测信号和源信号估计之一作为 第 一选择输出。当第 一选择单元接收第 一变换观测信号的输入而不接收 源信号估计的任何输入时,第二选择操作用于选择第 一 变换观测信号作 为第二选择输出。当第 一选择单元接收第 一变换观测信号和源信号估计 的输入时,第二选择操作还用于选择第一变换观测信号和源信号估计之 一作为第二选择输出。基频估计单元接收第二选择输出。基频估计单元 还估计来自第二选择输出的每个短时间帧的基频和发声量度。自适应谐 波滤波单元接收第一选择输出、基频和发声量度。自适应谐波滤波单元 基于基频和发声量度增强第 一选择输出的谐波结构以产生初始源信号 估计。
初始化单元可以进一步包括但不限于第三短时傅立叶变换单元、第 二选择单元、基频估计单元、和源信号不确定性确定单元。第三短时傅 立叶变换单元执行观测信号到第二变换观测信号的第三短时傅立叶变 换。第二选择单元执行第三选择操作以产生第三选择输出。当第二选择 单元接收第二变换观测信号的输入而不接收源信号估计的任何输入时, 第三选择操作用于选择第二变换观测信号作为第三选择输出。当第二选 择单元接收第二变换观测信号和源信号估计的输入时,第三选择操作还 用于选择第二变换观测信号和源信号估计之一作为第三选择输出。基频 估计单元接收第三选择输出。基频估计单元估计来自第三选择输出的每 个短时间帧的基频和发声量度。源信号不确定性确定单元基于基频和发 声量度确定第一方差。
所述语音去混响设备可以进一步包括但不限于逆短时傅立叶变换 单元,如果获得源信号估计的收敛,则该逆短时傅立叶变换单元执行源 信号估计S ,J波形源信号估计的逆短时傅立叶变换。
根据本发明的第二方面,语音去混响设备包括确定最大化似然函数 的逆滤波器估计的似然最大化单元。参考观测信号、初始源信号估计、 表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进^f亍所述确定。
似然函数可以优选地基于根据第一未知参数、第二未知参数、以及 观测数据的第 一 随机变量所评估的概率密度函数被定义。参考源信号估 计来定义第一未知参数。参考室内传递函数的逆滤波器来定义第二未知 参数。参考观测信号和初始源信号估计来定义观测数据的第一随机变 量。逆滤波器估计是室内传递函数的逆滤波器的估计。
似然最大化单元可以优选地使用迭代优化算法来确定逆滤波器估计。
所述语音去混响设备可以进一步包括但不限于将逆滤波器估计应 用于观测信号并产生源信号估计的逆滤波器应用单元。
该逆滤波器应用单元可以进一步包括但不限于第一逆长时傅立叶 变换单元、和巻积单元。第一逆长时傅立叶变换单元执行逆滤波器估计 到变换后的逆滤波器估计的第一逆长时傅立叶变换。巻积单元接收变换 后的逆滤波器估计和观测信号。巻积单元将观测信号与变换后的逆滤波 器估计进行巻积以产生源信号估计。
该逆滤波器应用单元可以进一步包括但不限于第一长时傅立叶变 换单元、第一滤波单元、和第二逆长时傅立叶变换单元。第一长时傅立 叶变换单元执行观测信号到变换后的观测信号的第一长时傅立叶变换。 第 一滤波单元将逆滤波器估计应用于变换后的观测信号。第 一滤波单元 产生滤波源信号估计。第二逆长时傅立叶变换单元执行滤波源信号估计 到源信号估计的第二逆长时傅立叶变换。
似然最大化单元可以进一步包括但不限于逆滤波器估计单元、收敛 检验单元、滤波单元、源信号估计单元、和更新单元。逆滤波器估计单 元参考观测信号、第二方差、以及初始源信号估计和更新的源信号估计 之一计算逆滤波器估计。收敛检验单元确定是否逆滤波器估计的收敛被 获得。如果获得源信号估计的收敛,收敛;险验单元进一步输出逆滤波器 估计作为将对所述观测信号进行去混响的滤波器。如果未获得源信号估 计的收敛,滤波单元从收敛检验单元接收逆滤波器估计。滤波单元进一 步将逆滤波器估计应用于观测信号。滤波单元进一步产生滤波信号。源 信号估计单元参考初始源信号估计、第一方差、第二方差、和滤波信号 计算源信号估计。更新单元将源信号估计更新为更新的源信号估计。更 新单元进一步在初始更新步骤中提供初始源信号估计给逆滤波估计单元。更新单元进一 步在除初始更新步骤之外的更新步骤中提供更新的源 信号估计给逆滤波器估计单元。
似然最大化单元可以进一步包括但不限于第二长时傅立叶变换单
元、LTFS到STFS变换单元、STFS到LTFS变换单元、第三长时傅立叶 变换单元、和短时傅立叶变换单元。第二长时傅立叶变换单元执行波形 观测信号到变换后的观测信号的第二长时傅立叶变换。第二长时傅立叶 变换单元进一步将变换后的观测信号作为观测信号提供给逆滤波器估 计单元和滤波单元。LTFS到STFS变换单元执行滤波信号到变换后的滤 波信号的LTFS到STFS变换。LTFS到STFS变换单元进一步将变换后的 滤波信号作为滤波信号提供给源信号估计单元。STFS到LTFS变换单元 执行源信号估计到变换后的源信号估计的STFS到LTFS变换。STFS到 LTFS变换单元进一步将变换后的源信号估计作为源信号估计提供给更 新单元。第三长时傅立叶变换单元执行波形初始源信号估计到第一变换 初始源信号估计的第三长时傅立叶变换。第三长时傅立叶变换单元进一 步将第一变换初始源信号估计作为初始源信号估计提供给更新单元。短 时傅立叶变换单元执行波形初始源信号估计到第二变换初始源信号估 计的短时傅立叶变换。短时傅立叶变换单元进一步将第二变换初始源信 号估计作为初始源信号估计提供给源信号估计单元。
所述语音去混响设备可以进一步包括但不限于基于观测信号产生 初始源信号估计、第一方差、和第二方差的初始化单元。
所述初始化单元可以进一步包括但不限于基频估计单元、和源信号 不确定性确定单元。基频估计单元估计来自变换后的信号的每个短时间 帧的基频和发声量度,其中通过观测信号的短时傅立叶变换来给定所述 变换后的信号。源信号不确定性确定单元基于基频和发声量度确定第一 方差。
根据本发明的第三方面,语音去混响方法包括确定最大化似然函数 的源信号估计。参考观测信号、初始源信号估计、表示源信号不确定性 的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
所述似然函数可以优选地基于根据未知参数、丢失数据的第 一随机 变量、和观测数据的第二随机变量所评估的概率密度函数被定义。参考 源信号估计来定义未知参数。丢失数据的第一随机变量表示室内传递函 数的逆滤波器。参考观测信号和初始源信号估计来定义观测数据的第二随机变量。
可以优选地使用迭代优化算法来确定源信号估计。该迭代优化算法 可以优选地是期望最大化算法。
用于确定源信号估计的过程可以进一步包括但不限于以下过程。参 考观测信号、第二方差、以及初始源信号估计和更新的源信号估计之一 计算逆滤波器估计。将该逆滤波器估计应用于观测信号,以产生滤波信 号。参考初始源信号估计、第一方差、第二方差、和滤波信号来计算所 述源信号估计。确定是否源信号估计的收敛被获得。如果获得源信号估 计的收敛,则输出源信号估计作为去混响的信号。如果未获得源信号估 计的收敛,则将源信号估计更新为更新的源信号估计。
用于确定源信号估计的过程可以进 一 步包括但不限于以下过程。执 行第 一长时傅立叶变换以将波形观测信号变换为变换后的观测信号。执
行LTFS到STFS变换以将滤波信号变换为变换后的滤波信号。如果未获 得源信号估计的收敛,则执行STFS到LTFS变换以将源信号估计变换为 变换后的源信号估计。执行第二长时傅立叶变换以将波形初始源信号估 计变换为第 一 变换初始源信号估计。执行短时傅立叶变换以将波形初始 源信号估计变换为第二变换初始源信号估计。
所述语音去混响方法可以进 一 步包括但不限于执行源信号估计到 波形源信号估计的逆短时傅立叶变换。
所述语音去混响方法可以进 一 步包括但不限于基于观测信号产生 初始源信号估计、第一方差、和第二方差。
在最后描述的情况下,产生初始源信号估计、第一方差、和第二方 差可以进 一 步包括但不限于以下过程。估计来自变换后的信号的每个短 时间帧的基频和发声量度,其中通过观测信号的短时傅立叶变换来给定 所述变换后的信号。基于所述基频和发声量度确定第一方差。
所述语音去混响方法可以进一步包括但不限于以下过程。基于观测 信号产生初始源信号估计、第一方差、和第二方差。确定是否源信号估 计的收敛被获得。如果获得源信号估计的收敛,则输出源信号估计作为 去混响的信号。如果未获得源信号估计的收敛,则该过程将返回产生初 始源信号估计、第一方差、和第二方差。
在最后描述的情况下,产生初始源信号估计、第一方差、和第二方 差可以进一步包括但不限于以下过程。执行第二短时傅立叶变换以将观测信号变换为第 一 变换观测信号。执行第 一选择操作以产生第 一选择输 出。当接收第 一 变换观测信号的输入而不接收源信号估计的任何输入 时,第一选择操作用于选择第一变换观测信号作为第一选择输出。当接 收笫 一 变换观测信号和源信号估计的输入时,第 一 选择操作用于选择第 一变换观测信号和源信号估计之一作为第一选择输出。执行第二选择操 作以产生第二选择输出。当接收第 一变换观测信号的输入而不接收源信 号估计的任何输入时,第二选择操作用于选择第 一 变换观测信号作为第 二选择输出。当接收第一变换观测信号和源信号估计的输入时,第二选 择操作用于选择第 一 变换观测信号和源信号估计之一作为第二选择输 出。估计来自第二选择输出的每个短时间帧的基频和发声量度。基于基 频和发声量度增强第 一选择输出的谐波结构以产生初始源信号估计。
产生初始源信号估计、第一方差、和第二方差可以进一步包括但不 限于以下过程。执行第三短时傅立叶变换以将观测信号变换为第二变换 观测信号。执行第三选择操作以产生第三选择输出。当接收第二变换观 测信号的输入而不接收源信号估计的任何输入时,第三选择操作用于选 择第二变换观测信号作为第三选择输出。当接收第二变换观测信号和源 信号估计的输入时,第三选择操作用于选择第二变换观测信号和源信号 估计之一作为第三选择输出。估计来自第三选择输出的每个短时间帧的 基频和发声量度。基于所述基频和发声量度确定第一方差。
所述语音去混响方法可以进一步包括但不限于如果获得源信号估 计的收敛,贝'j执行源信号估计至lj波形源信号估计的逆短时傅立叶变换。
根据本发明的第四方面,语音去混响方法包括确定最大化似然函数 的逆滤波器估计。参考观测信号、初始源信号估计、表示源信号不确定 性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
所述似然函数可以优选地基于根据第 一 未知参数、第二未知参数、 观测数据的第 一 随机变量所评估的概率密度函数被定义。参考源信号估 计来定义第一未知参数。参考室内传递函数的逆滤波器来定义第二未知 参数。参考观测信号和初始源信号估计来定义观测数据的第一随机变 量。逆滤波器估计是室内传递函数的逆滤波器的估计。
可以优选地使用迭代优化算法来确定逆滤波器估计。
所述语音去混响方法可以进一步包括但不限于将逆滤波器估计应 用于观测信号以产生源信号估计。在一种情况下,最后描述的用于将逆滤波器估计应用于观测信号的 过程可以进一步包括但不限于以下过程。执行第 一逆长时傅立叶变换以 将逆滤波器估计变换为变换后的逆滤波器估计。将观测信号与变换后的 逆滤波器估计进行巻积以产生源信号估计。
在另一种情况下,最后描述的用于将逆滤波器估计应用于观测信号 的过程可以进一步包括但不限于以下过程。执行笫 一长时傅立叶变换以 将观测信号变换为变换后的观测信号。将逆滤波器估计应用于变换后的 观测信号以产生滤波源信号估计。执行第二逆长时傅立叶变换以将滤波 源信号估计变换为源信号估计。
在再一种情况下,确定逆滤波器估计可以进一步包括但不限于以下 过程。参考观测信号、第二方差、以及初始源信号估计和更新的源信号 估计之一计算逆滤波器估计。确定是否逆滤波器估计的收敛被获得。如 果获得源信号估计的收敛,则输出逆滤波器估计作为将对所述观效'J信号 进行去混响的滤波器。如果未获得源信号估计的收敛,则将逆滤波器估 计应用于观测信号以产生滤波信号。参考初始源信号估计、第一方差、 第二方差、和滤波信号计算源信号估计。将源信号估计更新为更新的源 信号估计。
在最后描述的情况下,用于确定逆滤波器估计的过程可以进一步包 括但不限于以下过程。执行第二长时傅立叶变换以将波形观测信号变换
为变换后的观测信号。执行LTFS到STFS变换以将滤波信号变换为变换 后的滤波信号。执行STFS到LTFS变换以将源信号估计变换为变换后的 源信号估计。执行第三长时傅立叶变换以将波形初始源信号估计变换为 第 一 变换初始源信号估计。执行短时傅立叶变换以将波形初始源信号估 计变换为第二变换初始源信号估计。
所述语音去混响方法可以进一步包括但不限于基于观测信号产生 初始源信号估计、笫一方差、和第二方差。
在一种情况下,最后描述的用于产生初始源信号估计、第一方差、 和第二方差的过程可以进一步包括但不限于以下过程。估计来自变换后 的信号的每个短时间帧的基频和发声量度,其中通过观测信号的短时傅 立叶变换来给定所述变换后的信号。基于所述基频和发声量度确定第一 方差。
根据本发明的第五方面,要通过计算机执行的用于执行语音去混响方法的程序,所述方法包括确定最大化似然函数的源信号估计。参考观 测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声 学环境不确定性的第二方差进行所述确定。
根据本发明的第六方面,要通过计算机执行的用于执行语音去混响 方法的程序,所述方法包括确定最大化似然函数的逆滤波器估计。参考 观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示 声学环境不确定性的第二方差进行所述确定。
根据本发明的第七方面,存储介质存储要通过计算机执行的用于执 行语音去混响方法的程序,所述方法包括确定最大化似然函数的源信号 估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一方 差、和表示声学环境不确定性的第二方差进行所述确定。
根据本发明的第八方面,存储介质存储要通过计算机执行的用于执 行语音去混响方法的程序,所述方法包括确定最大化似然函数的逆滤波 器估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一 方差、和表示声学环境不确定性的第二方差进行所述确定。
根据以下结合附图进行的详细描述,本发明的这些和其他目的、特 征、方面和优点对于本领域普通技术人员来说将会变得显而易见,所述 附示本发明的实施例。


现在参考形成本原始公开内容的一部分的附图
图1是图示在本发明的第 一 实施例中基于源和室内声学的概率模型 的语音去混响设备的方框图2是图示包括在图1中所示的语音去混响设备中的似然最大化单 元的配置的方框图3A是图示包括在图2中所示的似然最大化单元中的STFS到LTFS 变换单元的配置的方框图3B是图示包括在图2中所示的似然最大化单元中的LTFS到STFS 变换单元的配置的方框图4A是图示包括在图2中所示的似然最大化单元中的长时傅立叶 变换单元的配置的方框图4B是图示包括在图3B中所示的LTFS到STFS变换单元中的逆长时傅立叶变换单元的配置的方框图5A是图示包括在图3B中所示的LTFS到STFS变换单元中的短时 傅立叶变换单元的配置的方框图5B是图示包括在图3A中所示的STFS到LTFS变换单元中的逆短
时傅立叶变换单元的配置的方框图6是图示包括在图1中所示的初始化单元中的初始源信号估计单 元的配置的方框图7是图示包括在图1中所示的初始化单元中的源信号不确定性确 定单元的配置的方框图8是图示包括在图1中所示的初始化单元中的声学环境不确定性 确定单元的配置的方框图9是图示根据本发明第二实施例的另 一种语音去混响设备的配置 的方框图IO是图示包括在图9中所示的初始化单元中的修改的初始源信 号估计单元的配置的方框图11是图示包括在图9中所示的初始化单元中的修改的源信号不 确定性确定单元的配置的方框图12是图示根据本发明第三实施例的又一种语音去混响设备的配 置的方框图13是图示包括在图12中所示的语音去混响设备中的似然最大化
单元的配置的方框图14是图示包括在图12中所示的语音去混响设备中的逆滤波器应
用单元的配置的方框图15是图示包括在图12中所示的语音去混响设备中的另一个逆滤
波器应用单元的配置的方框图16A图示当女人说话时在RT60=1. 0秒的能量衰减曲线; 图16B图示当女人说话时在RT60-0. 5秒的能量衰减曲线; 图16C图示当女人说话时在RT60=0. 2秒的能量衰减曲线; 图16D图示当女人说话时在RT60=0. 1秒的能量衰减曲线; 图16E图示当男人说话时在RT60=1. O秒的能量衰减曲线; 图16F图示当男人说话时在RT60=0. 5秒的能量衰减曲线; 图16G图示当男人说话时在RT60-0. 2秒的能量衰减曲线;以及图16H图示当男人说话时在RT60-0. 1秒的能量衰减曲线。
具体实施例方式
根据本发明的一个方面,提供单声道语音去混响方法,其中源信号 和室内声学的特征通过概率密度函数(pdf )表示以及通过最大化基于 概率密度函数(pdf )定义的似然函数来估计源信号。基于两种基本语 音信号特征、即调和性和稀疏性,两种类型的概率密度函数(pdf)被 引入用于源信号,同时基于逆滤波操作来定义室内声学的概率密度函数 (pdf )。期望最大化(EM)算法被用于有效地解决最大似然问题。所 产生的算法通过经由期望最大化(EM)迭代将其源信号特征与室内声学 特征结合来精心制作仅仅基于其源信号特征所给定的初始源信号估计。 用去混响脉冲响应的能量衰减曲线来显示本方法的有效性。
尽管上述的HERB和SBD在获得去混响滤波器中有效地利用语音信 号特征,但是它们并不提供能够优化其性能的分析构架。根据本发明的 一个方面,上述的HERB和SBD被重新用公式表示为最大似然(ML)估 计问题,其中源信号被确定为在给定观测信号的情况下最大化似然函数 的信号。为此目的,两个概率密度函数(pdf )被引入用于初始源信号 估计和去混响滤波器,以便基于期望最大化(EM)算法最大化似然函数。 实验结果显示在给定相同数量的观测信号的情况下在去混响脉冲响应 的能量衰减曲线方面能够进一步提高HERB和SBD的性能。以下描述将 针对在本发明的一个方面中使用的傅立叶频i普。
短时傅立叶频i普和长时傅立叶频谱
本发明的一个方面将合并有关考虑源特性的语音信号特征和有关 考虑混响效果的室内声学特征的信息。大约几十毫秒的短时间帧的相继 应用对于分析这样的随时间变化的语音特征可能是有用的,而通常可能 需要大约几千毫秒的相对长的时间帧来计算室内声学特征。本发明的一 个方面将引入基于这两种分析帧的两种类型的傅立叶频谱、即在下文中 被称为"STFS"的短时傅立叶频谱和在下文中^^皮称为"LTFS"的长时傅 立叶频谱。STFS和LTFS中的各频率分量通过具有尾标的符号被 表示为《、以及通过另一个不具有尾标的符号被表示为A、其中、r的/ 是用于LTFS的长时间帧的索引,yT是用于LTFS的频率索引,《、的/是包括用于STFS的短时间帧的长时间帧的索引,&、的m是包括在长时 间帧中的短时间帧的索引,以及力(^的A:是用于STFS的频率索引。短时 间帧能够被视为长时间帧的组成部分。所以,STFS中的频率分量具有两 个下标/和w。两个频谱4皮如下定义
<formula>formula see original document page 26</formula>(1)
其中s[n]是数字化波形信号,/V3和g[n]、 ^"和K、以及"w和"分别是 窗函数、离散傅立叶变换(DFT)点的数量、和用于STFS和LTFS的时 间索引。设置"故和"之间的关系为对于m= 0到A/-1, ^-々+抓,其 中t是相继的短时间帧之间的帧移。此外,引入以下归一化条件
ff[n
=& E:- mT〗,
其中ST是整数常量。利用该条件,在STFS 以下方程,其中
(3)
其中re/2j^X^。定义逆操作,通过LSJ' }来表示,该逆操作将由^,W'/所 表示的在长时间帧/的一组LTFS仓"t.'(A:、 1 -〖)变换为在短时间帧附 和频率索引々的STFS仓(bin):
(2)
,4二和LTFS, ",r之间保持<formula>formula see original document page 27</formula>(4)
通过级联逆长时傅立叶变换和短时傅立叶变换能够实现这种变换。
显然,lsm{'}是线性操作符。
信号的三种类型的表示、即波形数字化信号、短时傅立叶频谱
(STFS)和长时傅立叶频谱(LTFS)包含相同的信息,并且能够使用已 知的变换在无任何主要信息丢失的情况下从一种类型被变换到另一种类型。
源和室内声学的概率模型 定义以下术语
《"观测到的混响信号的STFS 气"。'未知源信号的STFS ^U:初始源信号估计的STFS 払V:未知逆滤波器的LTFS ^-4)
<formula>formula see original document page 27</formula>(5)
假设《"、^i、、 ^ii和^分别是随机过程X&、 S^、》^和1^'的
实现,以及苟力'是根据观测信号基于语音信号的特征、诸如调和性和稀 疏性而给定的。
在以下描述的本发明的 一 个实施例中,*%》或巧,'被作为未知参数处 理,A、被作为丟失数据的第一随机变量处理,以及'^^或^*'被作为第
二随机变量的 一 部分处理,和或^'被作为第二随机变量的另 一 部分 处理。
假设针对 一 定的持续时间给定和,以及给定 4'')M其中(.h表示在频率索引k的STFS仓的时间系列。
在此情况下,假设语音通过估计最大化在每个频率索引A定义的似然函
数的源信号能够去混响0fc =. argi^xbgp(4 1^ft):
6fc ' . '
- argmaxl(;)g / p;[卿,4"》IQfc)麵',
(6)
其中^-(S^k ^M《:"fe以及&'-^是LTFS仓的频率索引。^:的上述方 程中的积分是对的实部和虛部的简单二重积分。未被观测的逆滤波 器被作为上述似然函数中的丢失数据处理并通过积分被排斥 (marginalize)。为了分析该函数,进一步假设在给定W&h的情况 下,"&H以及(-《^和^联合事件在统计上是独立的。在此情况下,上 述方程(6)中的/K^"^^》能够被如下分成两个函数
p(卿,a le"=' (4i; j.* X伪(「i j* 一".
前者是与室内声学有关的概率密度函数(pdf ),即在给定源信号 的情况下观测信号和逆滤波器的联合概率密度函数(pdf)。后者是与 由初始估计提供的信息有关的另一个概率密度函数(pdf ),即在给定 源信号的情况下初始源信号估计的概率密度函数(Pdf )。第二分量能 够被解释为在给定真实源信号的情况下语音特征的概率存在。它们将分 别在下文中被称为"声学概率密度函数(声学pdf ),,以及"源概率密 度函数(源pdf)"。理想地,逆传递函数'W^将^"'变换成"f,即 Wjta^'-"t'。但是,在实际的声学环境中,该方程由于诸如不足够的逆
滤波器长度和室内传递函数的波动这样的原因而可能包含 一 定误差 4 =**'.*"-W。所以,声学pdf能够被认为是这种误差的概率密度函数 (pdf),如顺'"-C'冊类似地,源概率密度函数(源 pdf )能够被认为是误差《lt 《i'或者源信号和基于特征的信号之 差的另一个概率密度函数(pdf ),如/^^^l^"Hs浩)俯"'。为了简化
起见,假设这些误差是在给定^g》h的情况下顺序地独立的随机过程。 ,支设上述两个误差过程的实部和虚部以相同的方差相互独立并且能够 单独地通过具有零平均值的高斯随机过程被建模。利用这些假设,误差概率密度函数(误差pdf )被表示为
gMefc} -缀},
-^f '
(8)
其中^i)'和"&分别是两个概率密度函数(pdf )的方差,在下文中被称 为声学环境不确定性和源信号不确定性。假设这两个值是基于语音信号 和室内声学的特征被给定的。
EM算法的说明
期望最大化(EM)算法是找到最大化包括丢失数据的给定似然函数 的一纟且参数的4尤4b方法。这通过A. P. Dempster、N. M. Laird、和D. B. Rubin 在"maximum 1 ikel ihood from incorporate data via the EM a Igor i thm,' (Journal of the Royal Statistical Society, Series B, 39 ( 1 ): 1-38, 1977年)中被公开。通常,似然函数被表示为
鹏-
- ,ppT-T,Y-鹏勿,
(9.)
其中H' l納表示在参数集 被给定并且X和Y是随机变量的条件下随机变 量的概率密度函数(pdf ) 。 X-x意味着x作为关于X的观测数据被给 定。在上述似然函数中,假设Y未被观测到,被称为丢失数据,因此利 用Y排斥概率密度函数(pdf )。通过找到最大化似然函数的参数集极— 的实现能够求解最大似然问题。
根据期望最大化(EM)算法,利用辅助函数${剰的的期望步骤 (E-step)和最大化步骤(M-step)被分别定义为<formula>formula see original document page 30</formula> (10)
其中在上述方程(IO)的标记为"E-step"的上面方程中的,.柳是在@=0 为固定的条件下的期望函数,其被更具体地定义为所述方程在E-step 中的第二行。似然函数"^被显示为通过经由期望步骤(E-step)和最 大化步骤(M-step)的一次迭代利用€>=^更新 =^进行增加,其中在期 望步骤(E-step)中计算"0问,而在最大化步骤(M-step)中获得最大 化m0购的0^ 。最大似然问题的解通过重复所述迭代获得。
基于EM算法的解
求解^的上述方程(6 )的 一种有效方式是使用上述期望最大化(EM )
算法。利用这种方法,为了语音去混响,利用辅助函数e咏i粉的期望步
骤(E-step)和最大化步骤(M-step)净皮分别定义为
其中假设^是以下随机过程的实现
根据EM算法,对数似然logpM"陶通过利用经由EM迭代获得的^更 新&而增加,并且通过重复所述迭代收敛到平稳点解。

取代直接计算E-step和M-step,由于2(^陶-5他陶在相同的&具 有其最大值如"匈伤〗,因此它被分析。在2卿陶-2脚粉的某种排列之后 并且仅仅提取包含^的项,从而获得以下函数。<formula>formula see original document page 31</formula> 其中
(12)
其中"一意味着复数共轭。应该注意&最大化^{0*|叫并且也最大化
组%称,%产生并且也产生e卿陶^e的陶。最大化
^0俏^U的^r能够通过以S&对它求微分、将它设置成零、以及求解所 产生的联立方程而获得。但是,获得该解的计算成本相当高,这是因为 需要针对每个/和A求解具有M个未知变量的该方程。
替代地,为了以更有效的方式最大化上述方程(12)的^(&l似, 引入以下假设。通过基于上述方程(3)对构成LTFS仓的STFS仓的幂 求和,能够近似LTFS仓的幂,即
<formula>formula see original document page 31</formula>(13),
利用这种假设,通过上述方程(12 )给定的&{@&峰}能够被重写为
<formula>formula see original document page 31</formula>
(14)
通过对上述方程求微分并将它设置成零,能够如下针对通过上述方 程(11)的M-step所给定的《获得封闭形式解<formula>formula see original document page 32</formula>(15)
讨论
利用这种方法,通过依次重复地计算由上述方程(12)给定的&.以 及由上述方程(15)给定的S&来实现去混响。
上述方程(12)中的&'对应于在给定初始源信号估计为&,y和观测 信号为^U'的情况下通过传统HERB和SBD方法获得的去混响滤波器。
上述方程(15)通过初始源信号估计^^和通过将^y乘以^获得的
源估计的加权平均来更新所述源估计。根据源信号不确定性和声学环境 不确定性来确定权重。换而言之, 一次EM迭代通过集成基于源和室内 声学特性获得的两种类型的源估计来精心制作源估计。
从不同的观点来看,能够将通过上述方程(12)计算的逆滤波器估 计W^^视为最大化如下在《'是固定的条件下所定义的似然函数的逆
滤波器估计,<formula>formula see original document page 32</formula>(16)
其中采用与上述方程(8)相同的定义用于上述似然函数中的概率密度 函数(pdf )。另外,通过上述方程(15)计算的源信号估计^-《也在 逆滤波器估计&'是固定的条件下最大化上述似然函数。所以,通过分 别重复地计算上述方程(12)和(15),能够获得最大化上述似然函数 的逆滤波器估计袋*'和源信号估计茗。换而言之,通过这种迭代优化算 法,能够计算最大化上述似然函数的逆滤波器估计效*'。
现在将参考附图描述本发明的所选择的实施例。对于本领域普通技 术人员来说根据本公开内容将显而易见的是,本发明的实施例的以下描 述仅仅被提供用于说明而不是用于限制如通过所附的权利要求及其等 同物定义的本发明的目的。
第一实施例图1是图示根据本发明的第一实施例的、基于源和室内声学的概率 模型的语音去混响设备的方框图。能够通过一组功能单元来实现语音去
混响设备10000,该组功能单元协作用于接收观测信号x[n]的输入并产 生波形信号?["的输出。功能单元中的每一个都可以包括被构造和/或被 编程用于执行预定功能的硬件和/或软件。术语"被适配"和"被配置" 被用于描述被构造和/或被编程用于执行一个或多个期望功能的硬件和 /或软件。语音去混响设备100Q0能够例如通过计算机或处理器来实现。 语音去混响设备IOOOG执行语音去混响操作。语音去混响方法能够通过 要由计算机执行的程序来实现。
语音去混响i殳备10000可以典型地包^"初始化单元1000、似然最大 化单元2000和逆短时傅立叶变换单元4000。初始化单元1000可以被适 配用于接收能够是数字化波形信号的观测信号x[n],其中n是样本索 引。数字化波形信号x[n]可以包含具有未知混响程度的语音信号。通过 诸如一个或多个麦克风的设备能够捕获该语音信号。初始化单元1000 可以被适配用于从观测信号提取与源信号和声学环境有关的初始源信 号估计和不确定性。初始化单元1000还可以:故适配用于用爿^式表达初 始源信号估计、源信号不确定性和声学环境不确定性的表示。针对所有 索引/、 m、 A和yr,这些表示被列举为是数字化波形初始源信号估计的 *、是表示源信号不确定性的方差或离差的W-、以及是表示声学环境 不确定性的方差或离差的c^。即,初始化单元1000可以被适配用于接 收数字化波形信号x[n]的输入作为观测信号并产生数字化波形初始源 信号估计刷、表示源信号不确定性的方差或离差《k以及表示声学环 境不确定性的方差或离差A、
似然最大化单元2000可以与初始化单元1000协作。即,似然最大 化单元2000可以被适配用于从初始化单元1000接收数字化波形初始源
信号估计纟W的输入、源信号不确定性ff^、和声学环境不确定性o^。似
然最大化单元2000还可以被适配用于接收数字化波形观测信号x[n]的 另一个输入作为观测信号。眷〗是数字化波形初始源信号估计。"JS是表 示源信号不确定性的第一方差。"^是表示声学环境不确定性的笫二方 差。似然最大化单元2000还可以;故适配用于确定最大化似然函数的源 信号估计《,其中参考数字化波形观测信号x[n]、数字化波形初始源信 号估计^]、表示源信号不确定性的第一方差"fS、以及表示声学环境不确定性的第二方差W 来进行所述确定。通常,可以基于概率密度函数 来定义似然函数,该概率密度函数根据参考源信号估计所定义的未知参 数、表示室内传递函数的逆滤波器的丢失数据的第一随机变量、和参考 观测信号和初始源信号估计所定义的观测数据的第二随机变量进行评 估。使用迭代优化算法来执行源信号估计A的确定。
迭代优化算法的典型实例可以包括但不限于上述期望最大化算法。 在一个实例中,似然最大化单元2000可以:被适配用于针对所有A搜索 源信号《-fc2^,并估计最大化如下定义的似然函数的源信号
其中f - $>a j是此刻的短时观测《工和初始源信号估计d的联
合事件。已经参考上述方程(6)描述了该函数的细节。因此,似然最 大化单元2000可以—皮适配用于确定并输出最大化所述似然函数的源信 号估计《二。
逆短时傅立叶变换单元4000可以与似然最大化单元2000协作。即, 逆短时傅立叶变换单元4000可以被适配用于从似然最大化单元2000接
收最大化似然函数的源信号估计的输入。逆短时傅立叶变换单元
4000还可以被适配用于将源信号估计《&变换成数字化波形信号^]并输 出该数字化波形信号W《
似然最大化单元2000能够通过相互协作以确定并输出最大化似然 函数的源信号估计^^的一组子功能单元来实现。图2是图示图1中所 示的似然最大化单元2000的配置的方框图。在一种情况下,似然最大 化单元2000还可以包括长时傅立叶变换单元2100、更新单元"00、STFS 到LTFS变换单元2300、逆滤波器估计单元2400、滤波单元"00、 LTFS 到STFS变换单元2600、源信号估计和收敛检-验单元2700、短时傅立叶 变换单元2800、以及长时傅立叶变换单元2900。这些单元协作以继续 执行迭代操作,直到已经确定最大化似然函数的源信号估计为止。
长时傅立叶变换单元210(H皮适配用于/人初始化单元IOOO接收数字 化波形观测信号x[n]作为观测信号。长时傅立叶变换单元2100还纟皮适 配用于执行数字化波形观测信号x[n]到作为长期傅立叶频谱(LTFS)的 变换后的观测信号"^'的长时傅立叶变换。短时傅立叶变换单元2800 -故适配用于从初始化单元1000接收数字 化初始源信号估计;["〗。短时傅立叶变换单元2800被适配用于执行数字 化波形初始源信号估计*1到初始源信号估计苟二f的短时傅立叶变换。
长时傅立叶变换单元290(H皮适配用于从初始化单元IOOO接收数字 化波形初始源信号估计丰]。长时傅立叶变换单元2900被适配用于执行 数字化波形初始源信号估计到初始源信号估计的长时傅立叶变 换。
更新单元"0G与长时傅立叶变换单元2900和STFS到LTFS变换单 元2300协作。更新单元2200被适配用于在迭代的初始步骤中从长时傅 立叶变换单元2900接收初始源信号估计^,并且还被适配用于用源信号 估计《.代替feA。更新单元2200此外纟皮适配用于发送更新的源信号估计 4'给逆滤波器估计单元2400。更新单元2200还被适配用于在迭代的随 后步骤中从STFS到LTFS变换单元2300接收源信号估计l.,并且用于 用源信号估计&,代替^丄。更新单元2200还被适配用于发送更新的源信 号估计《'给逆滤波器估计单元2400。
逆滤波器估计单元2400与长时傅立叶变换单元2100、更新单元 2200和初始化单元1 000协作。逆滤波器估计单元2400 一皮适配用于从长 时傅立叶变换单元2100接收观测信号&^。逆滤波器估计单元2400还 被适配用于从更新单元2200接收更新的源信号估计《'。逆滤波器估计 单元2400还^皮适配用于从初始化单元1000接收表示声学环境不确定性 的第二方差《 '。逆滤波器估计单元2400进一步被适配用于根据上述方 程(12)基于观测信号&w、更新的源信号估计&和表示声学环境不确

定性的第二方差A》'来计算逆滤波器估计巧'。逆滤波器估计单元2400进 一步被适配用于输出逆滤波器估计^'。
滤波单元"0G与长时傅立叶变换单元21G0和逆滤波器估计单元 2400协作。滤波单元2500被适配用于从长时傅立叶变换单元2100接收 )f见测信号巧》。滤波单元2500还纟皮适配用于乂人逆滤波器估计单元2400 接收逆滤波器估ij;^。滤波单元2500还被il配用于将观测信号、w应用 于逆滤波器估计巧'以产生滤波源信号估计$》'。将观测信号、w应用于 逆滤波器估计的滤波过程的,型实例可以包括但不限于计算观测信 号*"'和逆滤波器估计&的乘积^;A。在这种情况下,通过观测信号^' 和逆滤波器估计^的乘积来给定滤波源信号估计5,。LTFS到STFS变换单元2600与滤波单元2500协作。LTFS到STFS 变换单元2600被适配用于从滤波单元2500接收滤波源信号估计^'。 LTFS到STFS变换单元2600进一步被适配用于执行滤波源信号估计^'到 变换后的滤波源信号估计^Sit的LTFS到STFS变换。当滤波过程是计算 观测信号-"'和逆滤波器估计、^1的乘积^i"M'时,LTFS到STFS变换单元 2600进一步被适配用于执行乘积变换后的信号LS、」fe^化的 LTFS到STFS变换。在这种情况下,乘积^^W表示滤波源信号估计^', 以及变换后的信号Lsw fe'^ U表示变换后的滤波源信号估计^fi*'。
源信号估计和收敛纟企^验单元2700与LTFS到STFS变换单元2600、 短时傅立叶变换单元2800、以及初始化单元1000协作。源信号估计和 收敛检验单元2700被适配用于从LTFS到STFS变换单元2600接收变换 后的滤波源信号估计S^。源信号估计和收敛检验单元2700还被适配用 于从初始化单元1000接收表示源信号不确定性的第一方差《i和表示声 学环境不确定性的第二方差"ffi。源信号估计和收敛检验单元2700还被 适配用于从短时傅立叶变换单元2800接收初始源信号估计苟二。源信号 估计和收敛检验单元2700进一步被适配用于基于变换后的滤波源信号 估计《&、表示源信号不确定性的第一方差Wju表示声学环境不确定性 的第二方差"3:和初始源信号估计^e估计源信号?Z么,其中根据上述方
程(15)进行所述估计。
源信号估计和收敛检验单元2700此外被适配用于例如通过比较当 前已经被估计的源信号估计的当前值和之前已经被估计的源信号估 计《5的前一值以及检验是否当前值偏离前一值小于 一定的预定量来确 定迭代过程的收敛状态。如果源信号估计和收敛检验单元2700确认源 信号估计《^的当前值偏离其前一值小于一定的预定量,那么源信号估 计和收敛检验单元2700识别出已经获得源信号估计、W的收敛。如果源 信号估计和收敛检验单元2700确认源信号估计S&的当前值偏离其前一 值不小于一定的预定量,那么源信号估计和收敛检验单元2700识别出 还未获得源信号估计的收敛。
作为修改有可能的是当迭代次数达到 一定的预定值时终止迭代过 程。即,源信号估计和收敛检验单元2700已经确认迭代次数达到一定 的预定值,于是源信号估计和收敛检验单元2700识别出已经获得源信 号估计7&的收敛。如果源信号估计和收敛检验单元2700已经确认已经获得源信号估计SS》的收敛,那么源信号估计和收敛检验单元2700向逆 短时傅立叶变换单元4 0 0 0提供源信号估计作为第 一 输出。如果源信 号估计和收敛检验单元2700已经确认还未获得源信号估计DS的收敛, 那么源信号估计和收敛4全-验单元2700向STFS到LTFS变换单元2300提 供源信号估计《5作为第二输出。
STFS到LTFS变换单元2300与源信号估计和收敛检验单元2700协 作。STFS到LTFS变换单元2300被适配用于从源信号估计和收敛检验单 元2700接收源信号估计^2i。STFS到LTFS变换单元2300被适配用于执 行源信号估计《!^到变换后的源信号估计1*的STFS到LTFS变换。
在迭代操作的随后步骤中,更新单元2200从STFS到LTFS变换单 元2300接收所述源信号估计^u',并用源信号估计&代替fc'L,以及发 送更新的源信号估计《'给逆滤波器估计单元2400。
上述迭代过程将被继续,直到源信号估计和收敛检验单元2700已 经确认源信号估计?&的收敛已经被获得。在迭代的初始舟骤中,更新 的源信号估计《'是从长时傅立叶变换单元2Q0f)提供的feA。在迭代的 第二或随后步骤中,更新的源信号估计^是feA。
如果源信号估计和收敛检验单元2700已经确认已经获得源信号估 计实^的收敛,那么源信号估计和收敛检验单元2700向逆短时傅立叶变 换单元4000提供源信号估计^/作为第一输出。逆短时傅立叶变换单元 4000可以被适配用千将源信号估计^么'变换成数字化波形信号7 W并输 出该数字化波形信号?["。
将参考图2描述似然最大化单元2000的操作。
在迭代的初始步骤中,将数字化波形观测信号x[n]从初始化单元 1000提供给长时傅立叶变换单元2100。由长时傅立叶变换单元2100执 行长时傅立叶变换以便数字化波形观测信号x[n]被变换成作为长期傅 立叶频谱(LTFS)的变换后的观测信号'V。数字化波形初始源信号估计 》["]从初始化单元10 G 0 #:提供给短时傅立叶变换单元2 8 0 0和长时傅立叶 变换单元2900。由短时傅立叶变换单元2800执行短时傅立叶变换以便 将数字化波形初始源信号估计趕"j变换成初始源信号估计fh 。由长时傅 立叶变换单元2900执行长时傅立叶变换以便将数字化波形初始源信号 估计l"j:变换成初始源信号估计^^'。
从长时傅立叶变换单元2900提供初始源信号估计^^'给更新单元2200。通过更新单元2200用源信号估计^代替初始源信号估计fei'。 然后从更新单元2200提供初始源信号估计《,K4给逆滤波器估计单元 2400。观测信号《^'从长时傅立叶变换单元21Q0被提供给逆滤波器估计 单元2400。表示声学环境不确定性的第二方差4!从初始化单元1000被 提供给逆滤波器估计单元2400。逆滤波器估计单元2400基于观测信号 艮t 、初始源信号估计《.、以及表示声学环境不确定性的第二方差°S计 算逆滤波器估计&',其中根据上述方程(12)进行所述计算。
逆滤波器估计&'从逆滤波器估计单元2400被提供给滤波单元 2500。观测信号"w进一步从长时傅立叶变换单元21Q0被提供给滤波单 元2500。滤波单元2500将逆滤波器估计^*应用于) 见测信号"^以产生 滤波源信号估计^'.。将观测信号*^应用于逆滤波器估计遇'的滤波过 程的典型实例可以用于计算观测信号^.和逆滤波器估计的乘积
^,%'。在这种情况下,通过观测信号^""和逆滤波器估计^'的乘积^^:'
来给定滤波源信号估计^'、。
从滤波单元2500提供滤波源信号估计l'给LTFS到STFS变换单元 2600。由LTFS到STFS变换单元2600执行LTFS到STFS变换以便滤波 源信号估计?W被变换成变换后的滤波源信号估计^^。当滤波过程用于 计算观测信号^'和逆滤波器估计&'的乘积^W时,乘积'^""'被变换 成变换后的信号^"f^vlj。
从LTFS到STFS变换单元2600提供变换后的滤波源信号估计^,fe'给 源信号估计和收敛检验单元2700。从初始化单元10QQ提供表示源信号 不确定性的第一方差《夂和表示声学环境不确定性的笫二方差^给源信 号估计和收敛检验单元2700。从短时傅立叶变换单元2800提供初始源 信号估计萄二给源信号估计和收敛检验单元2700。源信号估计和收敛检 验单元2700基于变换后的滤波源信号估计sw'、表示源信号不确定性的 第一方差《V、表示声学环境不确定性的第二方差"ffi和初始源信号估计
萄i计算源信号估计《&,其中根据上述方程(15)进行所述估计。
在迭我的初始步骤中,从源信号估计和收敛检验单元"OO提供源 信号估计给STFS到LTFS变换单元2300以便将源信号估计变换 成变换后的源信号估计l'。从STFS到LTFS变换单元2300提供变换后 的源信号估计l'给更新单元2200。更新单元2200用源信号估计&代替 变换后的源信号估计^L。从更新单元2200提供更新的源信号估计^.给逆滤波器估计单元2400。
在迭代的第二或随后步骤中,从更新单元2200提供源信号估计 《'-fcL给逆滤波器估计单元2400。观测信号巧A'也从长时傅立叶变换单 元2100被提供给逆滤波器估计单元2400。从初始化单元IOOO提供表示 声学环境不确定性的第二方差^!给逆滤波器估计单元2400。逆滤波器 估计单元2400基于观测信号;%'、更新的源信号估计《^fc丄、和表示声 学环境不确定性的第二方差计算更新的逆滤波器估计^ ,其中根据 上述方程(12 )进行所述计算。
从逆滤波器估计单元2 4 0 G提供更新的逆滤波器估计给滤波单元 2500。观测信号3^,进一步被从长时傅立叶变换单元2100提供给滤波单 元2500。滤波单元250二将7见测信号^A'应用于更新的逆滤波器估计^V 以产生滤波源信号估计 W 。
从滤波单元2500提供更新的滤波源信号估计l"给LTFS到STFS变 换单元2600。 LTFS到STFS变换单元2600执行LTFS到STFS变换以便 将更新的滤波源信号估计^^变换成变换后的滤波源信号估计5^。
从LTFS到STFS变换单元2600提供更新的滤波源信号估计萄i给源 信号估计和收敛检验单元2700。还从初始化单元1GQ0提供表示源信号
不确定性的第一方差45和表示声学环境不确定性的第二方差°^给源 信号估计和收敛检验单元27GG。从短时傅立叶变换单元2800提供更新 的初始源信号估计苟i给源信号估计和收敛检验单元2700。源信号估计
—</、
和收敛检验单元2700基于变换后的滤波源信号估计么、表示源信号不 确定性的第 一方差《S-和表示声学环境不确定性的第二方差°1 和初始
4rt W
源信号估计^:*计算源信号估计^".*,其中根据上述方程(15)进行所 述估计。比较当前已经被估计的源信号估计?Sfr的当前值与之前已经被 估计的源信号估计S&.的前一值。源信号估计和收敛检验单元2700验证 是否当前值偏离前一值小于一定的预定量。
如果源信号估计和收敛检验单元2700确认源信号估计然 的当前 值偏离其前一值小于一定的预定量,那么源信号估计和收敛检验单元 2700识别出已经获得源信号估计S^的收敛。源信号估计《&作为第一输 出从源信号估计和收敛检^^单元2700 ;故提供给逆短时傅立叶变换单元 4000。逆短时傅立叶变换单元4000将源信号估计^St变换成数字化波形 源信号估计 M。如果源信号估计和收敛检验单元2700确认源信号估计&w的当前
值不偏离其前一值小于一定的预定量,那么源信号估计和收敛检验单元
2700识别出还未获得源信号估计?i的收敛。从源信号估计和收敛检验 单元2700提供源信号估计"厶给STFS到LTFS变换单元2300以便将源 信号估计巧变换成变换后的源信号估计^'。从STFS到LTFS变换单元 2300提供变换后的源信号估计^'给更新单元2200。更新单元2200用源 信号估计《'代替变换后的源信号估计^i.。从更新单元2200提供更新的 源信号估计《'给逆滤波器估计单元2400。
作为修改有可能的是当迭代次数达到 一定的预定值时终止迭代过 程。即,已经通过源信号估计和收敛检验单元2700确认迭代次数达到 一定的预定值,那么源信号估计和收敛检验单元2700识别出已经获得 源信号估计巧!1'的收敛。如果已经通过源信号估计和收敛检验单元2700 确认已经获得源信号估计^Sfr.的收敛,那么源信号估计巧&作为第 一 输 出从源信号估计和收敛检验单元2700被提供给逆短时傅立叶变换单元 4000。如果已经通过源信号估计和收敛^^睑单元2700确认还未获得源 信号估计?/么的收敛,那么源信号估计 &作为第二输出从源信号估计和 收敛检验单元2700被提供给STFS到LTFS变换单元"00以便然后将源 信号估计《^变换成变换后的源信号估计^。进一步用源信号估计《'代 替变换后的源信号估计l。
上述迭代过程将被继续,直到通过源信号估计和收敛检验单元2700 已经确认已经获得源信号估计《2t的收敛。在迭代的初始步骤中,更新 的源信号估计《'是从长时傅立叶变换单元2900提供的。在迭代的第二或 随后步骤中,更新的源信号估计&是fc、L。
如果已经通过源信号估计和收敛检验单元2700确认已经获得源信 号估计S^.的收敛,那么源信号估计《St作为第 一输出从源信号估计和 收敛检验单元2700被提供给逆短时傅立叶变换单元4Q0Q。逆短时傅立 叶变换单元4000将源信号估计?/么变换成数字化波形源信号估计^W并 输出该数字化波形源信号估计^"]。
图3A是图示在图2中所示的STFS到LTFS变换单元"00的配置的 方框图。STFS到LTFS变换单元2300可以包括逆短时傅立叶变换单元 2310和长时傅立叶变换单元2320。逆短时傅立叶变换单元2M0与源信 号估计和收敛检验单元2700协作。逆短时傅立叶变换单元2310被适配用于从源信号估计和收敛检验单元2700接收源信号估计^"。逆短时傅 立叶变换单元2310进一步被适配用于将源信号估计萄&变换成作为输 出的数字化波形源信号估计^"J 。
长时傅立叶变换单元2320与逆短时傅立叶变换单元2310协作。长 时傅立叶变换单元2320被适配用于从逆短时傅立叶变换单元2310接收 数字化波形源信号估计永]。长时傅立叶变换单元2320进一步被适配用 于将数字化波形源信号估计^"!变换成作为输出的变换后的源信号估计

图3B是图示在图2中所示的LTFS到STFS变换单元2600的配置的 方框图。LTFS到STFS变换单元2600可以包括逆长时傅立叶变换单元 2610和短时傅立叶变换单元2620。逆长时傅立叶变换单元2610与滤波 单元2500协作。逆长时傅立叶变换单元2610被适配用于从滤波单元 2500接收滤波源信号估计&,。逆长时傅立叶变换单元261Q进一步;f皮适 配用于将滤波源信号估计^,变换成作为输出的数字化波形滤波源信号 估计补1]。
短时傅立叶变换单元2620与逆长时傅里叶变换单元2610协作。短 时傅立叶变换单元2620被适配用于从逆长时傅立叶变换单元2610接收 数字化波形滤波源信号估计y["〗。短时傅里叶变换单元2620进一步被适 配用于将数字化波形滤波源信号估计变换成作为输出的变换后的滤 波源信号估计-i。
图4A是图示图2中所示的长时傅立叶变换单元2100的配置的方框 图。长时傅立叶变换单元2100可以包括开窗单元2110和离散傅立叶变 换单元2120。开窗单元2100被适配用于接收数字化波形观测信号x [n]。 开窗单元2100进一步被适配用于如以下所给定的那样将分析窗函数 g [n]重复地应用于数字化波形观测信号x [n]:
<formula>formula see original document page 41</formula>
其中"/是长时间帧/所开始的样本索引。开窗单元211(H皮适配用于针对 所有/产生分段波形观测信号x,[n]。
离散傅立叶变换单元2120与开窗单元2110协作。离散傅立叶变换 单元2120被适配用于从开窗单元2110接收分段波形观测信号x;[n]。离散傅立叶变换单元2120进一步被适配用于执行分段波形信号x,[n]中的 每一个到变换后的观测信号^a'的如下给定的K点离散傅立叶变换
图4B是图示图3B中所示的逆长时4粵立叶变4奐单元2610的配置的 方框图。逆长时傅立叶变换单元2610可以包括逆离散傅立叶变换单元 2612以及重叠相加合成单元2614。逆离散傅立叶变换单元2612与滤波 单元2500协作。逆离散傅立叶变换单元2612被适配用于接收滤波源信 号估计^'。逆离散傅立叶变换单元2612进一步被适配用于应用滤波源 信号估计^的每个帧到作为如下所给定的输出的分段波形滤波源信号 估计4"]的相应逆离散傅立叶变换
重叠相加合成单元2614与逆离散傅立叶变换单元2612协作。重叠 相加合成单元2614被适配用于从逆离散傅立叶变换单元"U接收分段 波形滤波源信号估计4"〗。重叠相加合成单元2614进一步被适配用于根 据重叠相加合成技术利用重叠相加合成窗""]针对所有/连接或合成分 段波形滤波源信号估计SW ,以便获得如下给定的数字化波形滤波源信号 估计f["l。
图5A是图示在图3B中所示的短时傅立叶变换单元2620的配置的 方框图。短时傅立叶变换单元2620可以包括开窗单元26"和离散傅立 叶变换单元2624。开窗单元2622与逆长时傅立叶变换单元"10协作。 开窗单元2622被适配用于从逆长时傅立叶变换单元2610接收数字化波 形滤波源信号估计 ["]。开窗单元2622进一步被适配用于将分析窗函数 以窗偏移r重复地应用于数字化波形滤波源信号估计+]以便产生如
下给定的分段滤波源信号估计。其中巧w是时间帧所开始的样本索引。针对所有/和w,开窗单元2622 产生分段波形滤波源信号估计^["1 。
离散傅立叶变换单元2624与开窗单元2622协作。离散傅立叶变换 单元2624被适配用于从开窗单元2622接收分段波形滤波源信号估计 l[n],。离散傅立叶变换单元2624进一步被适配用于执行分段波形滤波 源信号估计巧> ["〗中的每 一 个到如下给定的变换后的滤波源信号估计《、 的Kw点离散傅立叶变换。
图5B是图示在图3A中所示的逆短时傅立叶变换单元2310的配置 的方框图。逆短时傅立叶变换单元2310可以包括逆离散傅立叶变换单 元2312和重叠相加合成单元2314。逆离散傅里叶变换单元2312与源信 号估计和收敛检验单元2700协作。逆离散傅立叶变换单元2312被适配 用于从源信号估计和收敛检验单元2700接收源信号估计?fflt。逆离散傅 立叶变换单元2312进一步被适配用于将相应的逆离散傅立叶变换应用 于源信号估计巧"的每个帧并产生如下给定的分段波形源信号估计 葛》]。
<formula>formula see original document page 43</formula>
重叠相加合成单元2314与逆离散傅立叶变换单元2312协作。重叠 相加合成单元2314被适配用于从逆离散傅立叶变换单元2312接收分段 波形源信号估计;M。重叠相加合成单元2314进一步被适配用于针对 所有/和w基于重叠相加合成技术利用合成窗rt]连接或合成分段波 形源信号估计以便获得如下给定的数字化波形源信号估计。
<formula>formula see original document page 43</formula>
初始化单元1000被适配用于执行三个操作,即初始源信号估计、源信号不确定性确定和声学环境不确定性确定。如上所述,初始化单元
1000被适配用于接收数字化波形观测信号x[n]并产生表示源信号不确 定性的第一方差^S、表示声学环境不确定性的第二方差0^以及数字 化波形初始源信号估计3"
。详细地,初始化单元1000 一皮适配用于执行 初始源信号估计,该估计根据数字化波形观测信号x[n]产生数字化波形 初始源信号估计《"]。初始化单元1000进一步被适配用于执行源信号不 确定性确定,该确定根据数字化波形观测信号x[n]产生表示源信号不确 定性的第一方差crgj。初始化单元1000此外被适配用于执行声学环境不 确定性确定,该确定根据数字化波形观测信号x[n]产生表示声学环境不 确定性的第二方差ag。
初始化单元1000可以包括三个功能子单元,即执行初始源信号估 计的初始源信号估计单元1100、执行源信号不确定性确定的源信号不确 定性确定单元1200、以及执行声学环境不确定性确定的声学环境不确定 性确定单元1300。图6是图示包括在图1中所示的初始化单元1000中 的初始源信号估计单元1100的配置的方框图。图7是图示包括在图1 中所示的初始化单元1000中的源信号不确定性确定单元UOO的配置的 方框图。图8是图示包括在图1中所示的初始化单元1 000中的声学环 境不确定性确定单元1300的配置的方框图。
参考图6,初始源信号估计单元1100可以进一步包括短时傅立叶变 换单元1110、基频估计单元120和自适应谐波滤波单元1130。短时傅 立叶变换单元1110被适配用于接收数字化波形观测信号x[n]。短时傅 立叶变换单元1110被适配用于执行数字化波形观测信号x[n]到作为输 出的变换后的观测信号《、的短时傅立叶变换。
基频估计单元1120与短时傅立叶变换单元1110协作。基频估计单 元1120被适配用于从短时傅立叶变换单元1110接收变换后的观测信号
。基频估计单元1120进一步被适配用于估计来自变换后的观测信号 ^^的每个短时间帧的基频力一和发声量度力,《 。
自适应谐波滤波单元11 3G与短时傅立叶变换单元1110和基频估计 单元1120协作。自适应谐波滤波单元1130被适配用于从短时傅立叶变 换单元111Q接收变换后的观测信号-S,A。自适应谐波滤波单元1130还 被适配用于从基频估计单元1120接收基频/^和发声量度巧,、自适应谐 波滤波单元1130还被适配用于基于基频/'. 和发声量度巧.《增强《、.的谐波结构以便谐波结构的增强产生所得到的数字化波形初始源信号估计
;W作为專命出。本实例的过牙呈流禾呈在由Tomohiro Nakatani、 Masato Miyoshi和Keisuke Kinoshita在Speech Enhancement ( (Benesty, J.Makino, S,,和Chen, J. Eds ) , Chapterll,第247 — 270页,2005 年春)中发表的"Single Microphone Blind Dereverberation,, 中被详 细公开。
参考图7,源信号不确定性确定单元1200可以进一步包括短时傅立 叶变换单元1110、基频估计单元1120和源信号不确定性确定子单元 1140。短时傅立叶变换单元1110被适配用于接收数字化波形观测信号 x[n]。短时傅立叶变换单元1110被适配用于执行数字化波形观测信号 x [n]到作为输出的变换后的观测信号的短时傅立叶变换。
基频估计单元1120与短时傅立叶变换单元111G协作。基频估计单 元1120被适配用于从短时傅立叶变换单元1110接收变换后的观测信号 -&。基频估计单元1120进一步被适配用于估计来自变换后的观测信号 4的每个短时间帧的基频/"'和发声量度气w 。
源信号不确定性确定子单元1140与基频估计单元1120协作。源信 号不确定性确定子单元1140被适配用于从基频估计单元1120接收基频 ^和发声量度^'。源信号不确定性确定子单元1140进一步被适配用于 根据基频"^和发声量度^"'确定表示源信号不确定性的第一方差^^。如 下给定表示源信号不确定性的第 一 方差O 。
°W 一
CO
v,,, 一^
l迈m
ifv ^^并iLi是谐波频率 :if.v,,w > &并且&不是谐波频率
(n)
其中G(u)是被定义为例如具有某些正的常量"a"和"b"的G(^-e,'-"的 归一化函数,并且谐波频率意味着用于基频及其倍数之一的频率索引。 参考图8,声学环境不确定性确定单元1300可以包括声学环境不确 定性确定子单元1150。声学环境不确定性确定子单元1150被适配用于 接收数字化波形观测信号x[n]。声学环境不确定性确定子单元1150进 一步被适配用于产生表示声学环境不确定性的第二方差"g。在一种典型情况下,对于所有/和r来说,第二方差巧V能够是常量,即如在图8 中所示,。,fc—1。
所述混响信号能够通过修改的包括执行反馈过程的反馈回路的语
音去混响设备20000更有效地去混响。根据反馈过程的流程,通过利用 反馈回路迭代相同的处理流程,能够提高源信号估计《"的质量。尽管 只有数字化波形观测信号x[n]在初始步骤中被用作流程的输入,但是已 经被包含在前 一 步骤中的源信号估计7&也在随后的步骤中被用作输 入。更优选的是使用源信号估计^i而不是使用观测信号x [n]来对源概 率密度函数(源pdf )的参数趕2>和化\进行估计。
第二实施例
图9是图示根据本发明的第二实施例进一步包括反馈回路的另 一语 音去混响设备的配置的方框图。修改的语音去混响设备20000可以包括 初始化单元10G0、似然最大化单元20GG、收敛检-验单元3000、和逆短 时傅立叶变换单元4000。初始化单元1000、似然最大化单元2000和逆 短时傅立叶变换单元4000的配置和操作如上所述。在本实施例中,在 似然最大化单元2000和逆短时傅立叶变换单元4000之间附加地引入收 敛检验单元3000以便收敛检验单元3000检验已经从似然最大化单元 2000输出的源信号估计 &的收敛。如果收敛检验单元3000识别出已经 获得源信号估计 &的收敛,那么收敛检验单元3000发送源信号估计 & 给逆短时傅立叶变换单元4000。如果收敛检验单元3000识别出还未获 得源信号估计《i的收敛,那么收敛检验单元3000发送源信号估计^二给 初始化单元1000。以下描述将聚焦于第二实施例与第一实施例的差异。
收敛检^r单元3000与初始化单元1000和似然最大化单元2000协 作。收敛检验单元3000被适配用于从似然最大化单元2000接收源信号 估计s'^。收敛检验单元3000进一步被适配用于例如通过验证是否源信 号估计的当前更新的值偏离源信号估计《&的前 一 值小于 一 定的预 定量来确定迭代过程的收敛状态。如果收敛检验单元3000确认源信号 估计巧i的当前更新的值偏离源信号估计的前 一 值小于 一 定的预定 量,那么收敛检验单元3000识别出已经获得源信号估计S'U的收敛。如 果收敛检^r单元3000确认源信号估计^"的当前更新的值不偏离源信号 估计V^的前一值小于一定的预定量,那么收敛检^r单元3000识别出还未获得源信号估计的收敛。
作为修改有可能的是当反馈或迭代次数达到一定的预定值时终止
所述反馈过程。当收敛检验单元3000已经确认源信号估计巧A的收敛已 经被获得时,那么收敛检验单元3000发送源信号估计《、给逆短时傅立 叶变换单元4000。如果收敛检验单元3000已经确认还未获得源信号估 计5么的收敛,那么收敛检验单元3000将源信号估计巧"乍为输出提供给 初始化单元1000以执行上述迭代的进一步的步骤。
收敛检验单元3000提供反馈回路给初始化单元1000。即,初始化 单元1000与收敛检验单元1000协作。因此,初始化单元1000需要适 配于反馈回路。根据第一实施例,初始化单元1000包括初始源信号估 计单元1100、源信号不确定性确定单元1200、和声学环境不确定性确 定单元1300。根据第二实施例,修改的初始化单元1000包括修改的初 始源信号估计单元1400、修改的源信号不确定性确定单元l500、和声 学环境不确定性确定单元1300。以下描述将聚焦于修改的初始源信号估 计单元1400、和修改的源信号不确定性确定单元1500。
图IO是图示包括在图9中所示的初始化单元1000中的》务改的初始 源信号估计单元1400的配置的方框图。修改的初始源信号估计单元 1400可以进一步包括短时傅立叶变换单元1110、基频估计单元1H0、 自适应谐波滤波单元1130、和信号切换单元1160。信号切换单元1160 的增加能够提高数字化波形初始源信号估计#"1的精度。
短时傅立叶变换单元1110被适配用于接收数字化波形观测信号 x[n]。短时傅立叶变换单元1110被适配用于执行数字化波形观测信号 x [ n ]到作为输出的变换后的观测信号巧V的短时傅立叶变换。信号切换 单元1160与短时傅立叶变换单元1110和收敛检-验单元3000协作。信 号切换单元1160:故适配用于从短时傅立叶变换单元1110接收变换后的 观测信号《V信号切换单元116G被适配用于从收敛检验单元3GQ0接收 源信号估计?《*。信号切换单元1160被适配用于执行第一选择操作以产 生第一输出。信号切换单元1160还被适配用于执行第二选择操作以产 生第二输出。第一和第二选择操作是相互独立的。第一选择操作是用于 选择变换后的观测信号-!^和源信号估计S&之一。在一种情况下,第一 选择操作可以用于在除了一个或多个限制步骤之外的迭代的所有步骤
中选择变换后的观测信号《、。例如,第一选择操作可以是用于在除了迭代的最后 一个或两个步骤之外的迭代的所有步骤中选择变换后的观 测信号Xgjfc以及仅仅在最后 一个或两个步骤中选择源信号估计宛i。在一
种情况下,第二选择操作可以是用于在除初始步骤之外的迭代的所有步
骤中选择源信号估计&、在迭代的初始步骤中,信号切换单元1160仅
接收变换后的观测信号《、并选择变换后的观测信号《V更优选的是就 基频力>和发声量度气w两者的估计而言使用源信号估计SS^而不使用变
换后的观测信号g&。
信号切换单元1160执行第一选择操作并产生第一输出。信号切换 单元1160执行第二选择操作并产生第二输出。
基频估计单元1120与信号切换单元1160协作。基频估计单元1120 被适配用于从信号切换单元1160接收第二输出。即,基频估计单元1U0 被适配用于在迭代的初始或第一步骤中从信号切换单元1160接收变换 后的观测信号^》以及在迭代的第二或随后步骤中从信号切换单元1160 接收源信号估计3^。基频估计单元1120进一步被适配用于基于变换后 的观测信号4、或源信号估计《么估计每个短时间帧的基频在-及其发声量 度l。
自适应谐波滤波单元1130与信号切换单元1160和基频估计单元 1120协作。自适应谐波滤波单元1130被适配用于从信号切换单元1160 接收第一输出以及还从基频估计单元1120接收基频力,"和发声量度乃,m。 即,自适应谐波滤波单元1130被适配用于在除迭代的最后一个或两个 步骤之外的迭代的所有步骤中从信号切换单元1160接收变换后的观测 信号-l。自适应谐波滤波单元1130还被适配用于在迭代的最后一个或 两个步骤中从信号切换单元1160接收源信号估计巧S。自适应谐波滤波 单元1130还被适配用于在迭代的所有步骤中从基频估计单元1U0接收 基频^和发声量度%。自适应谐波滤波单元1130还被适配用于基于基
频Am和发声量度^增强观测信号^,i或源信号估计7&的谐波结构。增强
操作产生估计精度被提高的数字化波形初始源信号估计^。
如上所述,更优选的是就基频A"和发声量度V/,w两者的估计而言基频
估计单元1120使用源信号估计 /工而不是使用观测信号4^。因此在迭代 的第二或随后步骤中提供源信号估计S;^而不是观测信号^&给基频估计 单元1120能够改善数字化波形初始源信号估计纟M的估计。
在某些情况下,可能更适合于将自适应谐波滤波器应用于源信号估计然!t而不是观测信号以便获得数字化波形初始源信号估计丰〗的较
佳估计。去混响步骤的一次迭代可能将一定的特殊失真添加到源信号估
计力#中以及当将自适应谐波滤波器应用于源信号估计^丄时,该失真被 直接继承到数字化波形初始源信号估计芈]。另外,这种失真可能通过迭 代的去混响步骤被累积到源信号估计巧A中。为了避免失真的这种累积,
有效的是信号切换单元1160被适配用于除了在迭代结束之前的最后一 个步骤或最后几个步骤中之外将观测信号《"提供给自适应谐波滤波单 元1130,在所述迭代中使源信号估计《么的估计精确。
图ll是图示包括在图9中所示的初始化单元1 000中的修改的源信 号不确定性确定单元1500的配置的方框图。修改的源信号不确定性确 定单元1500可以进一步包括短时傅立叶变换单元1112、基频估计单元 1122、源信号不确定性确定子单元1140和信号切换单元1162。信号切 换单元1162的增加能够改善源信号不确定性c忍的估计。根据第二实施 例,似然最大化单元2000的配置与在第一实施例中描述的配置相同。
短时傅立叶变换单元1112被适配用于接收数字化波形观测信号 x[n]。短时傅立叶变换单元1112被适配用于执行数字化波形观测信号 x [n]到作为输出的变换后的观测信号的短时傅立叶变换。信号切换 单元1162与短时傅立叶变换单元1110和收敛检验单元3000协作。信 号切换单元1162被适配用于从短时傅立叶变换单元1110接收变换后的 观测信号》仏。信号切换单元1162被适配用于从收敛检验单元3000接收 源信号估计《&。信号切换单元1162被适配用于执行第一选择操作以产 生第 一输出。第 一 选择操作是用于选择变换后的观测信号《,t和源信号 估计《之一。在一种情况下,第一选择操作可以是用于在除了迭代的 初始步骤之外的迭代的所有步骤中选择源信号估计?& 。在迭代的初始步 骤中,信号切换单元1162仅接收变换后的观测信号^!、*并选择变换后的 观测信号《、。更优选的是就基频^和发声量度巧,《两者的估计而言使用 源信号估计%!t而不使用变换后的观测信号《。
基频估计单元1122与信号切换单元1162协作。基频估计单元1122 被适配用于从信号切换单元1162接收笫一输出。即,基频估计单元1122 被适配用于在迭代的初始步骤中接收变换后的观测信号《'以及在除迭 代的初始步骤之外的迭代的所有步骤中接收源信号估计。基频估计 单元1122进一步被适配用于估计每个短时间帧的基频力"及其发声量度VU 。参考变换后的观测信号《、或源信号估计^进行所述估计。
源信号不确定性确定单元1140与基频估计单元1122协作。源信号 不确定性确定单元1140纟支适配用于从基频估计单元1122接收基频力"和 发声量度"M。源信号不确定性确定单元1140进一步被适配用于确定源 信号不确定性《i'。如上所述,更优选的是就基频/&和发声量度""两者
W W
的估计而言使用源信号估计力A而不使用观测信号^丄。 第三实施例
图12是图示根据本发明的第三实施例基于源和室内声学的概率模 型的语音去混响设备的配置的方框图。语音去混响设备30000能够通过 一组功能单元来实现,这些功能单元协作用于接收观测信号x[n]的输入 并产生数字化波形源信号估计 M或滤波源信号估计制的输出。语音去 混响设备3GG0Q能够例如通过计算机或处理器来实现。语音去混响设备 30000执行语音去混响操作。语音去混响方法能够通过要由计算机执行 的程序来实现。
语音去混响设备30000典型地可以包括上述初始化单元1000、上述 似然最大化单元2000-1和逆滤波器应用单元5000。初始化单元1000可 以被适配用于接收数字化波形观测信号x [n]。数字化波形观测信号x [n] 可以包含具有未知混响程度的语音信号。通过诸如一个或多个麦克风的 设备能够捕获该语音信号。初始化单元1000可以一皮适配用于从观测信 号提取与源信号和声学环境有关的初始源信号估计和不确定性。初始化 单元1000还可以一皮适配用于用爿^式表达初始源信号估计、源信号不确 定性和声学环境不确定性的表示。针对所有索引/、 m、 A和F,这些表 示被列举为是数字化波形初始源信号估计的^]、是表示源信号不确定性
的方差或离差的一S 、以及是表示声学环境不确定性的方差或离差的 力!。即,初始化单元1000可以被适配用于接收数字化波形信号x[n]的
输入作为观测信号并产生数字化波形初始源信号估计嗣、表示源信号不 确定性的方差或离差0^、以及表示声学环境不确定性的方差或离差4^。 似然最大化单元2000-1可以与初始化单元1000协作。即,似然最 大化单元2000-1可以被适配用于从初始化单元1000接收数字化波形初
始源信号估计^]、源信号不确定性<::"和声学环境不确定性"ff的输入。
似然最大化单元2000-1还可以被适配用于接收数字化波形观测信号x [n]的另 一个输入作为观测信号。趕"]是数字化波形初始源信号估计。 °^'是表示源信号不确定性的第一方差。""是表示声学环境不确定性的 第二方差。似然最大化单元2000-1还可以;故适配用于确定最大化似然 函数的逆滤波器估计^,其中参考数字化波形观测信号x[n]、数字化 波形初始源信号估计*]、表示源信号不确定性的第一方差力S、以及表 示声学环境不确定性的第二方差<^进行所述确定。通常,可以基于概率
密度函数定义似然函数,该概率密度函数根据第一未知参数、第二未知 参数、和观测数据的第一随机变量进行评估。参考源信号估计定义所述 第一未知参数。参考室内传递函数的逆滤波器定义第二未知参数。参考 观测信号和初始源信号估计定义观测数据的笫一随机变量。逆滤波器估 计是室内传递函数的逆滤波器的估计。使用迭代优化算法来执行逆滤波 器估计A'的确定。
迭代优化算法可以在不使用上述期望最大化算法的情况下进行组 织。例如,能够获得逆滤波器估计&,和源信号估计《作为最大化如下定 义的似然函数的逆滤波器估计和源信号估计
(16)
能够通过紧接着的迭代算法最大化该似然函数。 第一步骤是设置初始值为《-《。
第二步骤是计算在《固定的条件下最大化似然函数的逆滤波器估计
第三步骤是计算在巧,固定的条件下最大化似然函数的源信号估计
《-《。
第四步骤是重复上述第二和第三步骤,直到迭代的收敛被确认为止。
当与上述方程(8)相同的定义被用于上述似然函数中的概率密度 函数(pdf )时,容易地显示出能够分别通过上述方程(l2)和(l5) 获得上述第二步骤中的逆滤波器估计A.和上述第三步骤中的源信号估 计《。通过检验是否逆滤波器估计^的当前获得的值和逆滤波器估计% 的之前获得的值之差小于预定的阈值,可以完成第四步骤中的上述收敛确认。最后,该观测信号可以通过将在上述第二步骤中获得的逆滤波器 估计A.应用于观测信号来去混响。
逆滤波器应用单元5000可以与似然最大化单元2000-1协作。即, 逆滤波器应用单元5000可以被适配用于从似然最大化单元2000-1接收 最大化似然函数(16)的逆滤波器估计&'的输入。逆滤波器应用单元 5000还可以被适配用于接收数字化波形观测信号x[n]。逆滤波器应用 单元5000还可以纟皮适配用于将逆滤波器估计巧应用于数字化波形观测 信号x[n]以便产生恢复后的数字化波形源信号估计咖]或滤波数字化波 形源信号估计《"]。
在某一情况下,逆滤波器应用单元5000可以被适配用于将长时傅 立叶变换应用于数字化波形观测信号x [ n ]以产生变换后的观测信号 。逆滤波器应用单元5000可以进一步被适配用于将每个帧中的变换 后的观测信号巧"乘以逆滤波器估计以产生滤波源信号估计& ^'^'。 逆滤波器应用单元5000可以进一步^皮适配用于将逆长时傅立叶变换应 用于滤波源信号估计&, = 以产生滤波数字化波形源信号估计嗣。
在另一情况下,逆滤波器应用单元5000可以被适配用于将逆长时
傅立叶变换应用于逆滤波器估计以产生数字化波形逆滤波器估计
《"]。逆滤波器应用单元5000可以被适配用于将数字化波形观测信号 x[n]与数字化波形逆滤波器估计对"进行巻积以产生恢复后的数字化波
形源信号估计永]-5l4rt-M]河"'〗。
似然最大化单元2000-1能够通过相互协作以确定并输出最大化所 述似然函数的逆滤波器估计&的一组子功能单元来实现。图13是图示 在图12中所示的似然最大化单元2000-1的配置的方框图。在一种情况 下,似然最大化单元2000-1可以进一步包括上述长时傅立叶变换单元 2100、上述更新单元2200、上述STFS到LTFS变换单元2300、上述逆 滤波器估计单元2400、上述滤波单元2500、LTFS到STFS变换单元2600、 源信号估计单元2710、收敛检验单元2720、上述短时傅立叶变换单元 2800、以及上述长时傅立叶变换单元2900。这些单元协作以继续执行迭 代操作,直到最大化似然函数的逆滤波器估计已经被确定为止。
长时傅立叶变换单元2100被适配用于从初始化单元1000接收数字 化波形观测信号x[n]作为观测信号。长时傅立叶变换单元2100还被适 配用于执行数字化波形观测信号x[n]到作为长期傅立叶频谱(LTFS)的变换后的观测信号A》'的长时傅立叶变换。
短时傅立叶变换单元280(H皮适配用于从初始化单元IOGG接收数字 化波形初始源信号估计《"L短时傅立叶变换单元2800被适配用于执行 数字化波形初始源信号估计到初始源信号估计纟。、4的短时傅立叶变换。
长时傅立叶变换单元2900 一皮适配用于从初始化单元1000接收数字 化波形初始源信号估计丰]。长时傅立叶变换单元2900被适配用于执行 数字化波形初始源信号估计s["〗到初始源信号估计的长时傅立叶变换。
更新单元2200与长时傅立叶变换单元2900和STFS到LTFS变换单 元2300协作。更新单元2200 一皮适配用于在迭代的初始步骤中从长时傅 立叶变换单元2 9 0 0接收初始源信号估计l'以及进 一 步— 皮适配用于用源 信号估计4代替k4。更新单元2200此外被适配用于发送更新的源信号 估计《'给逆滤波器估计单元2400。更新单元2200还被适配用于在迭代 的随后步骤中从STFS到LTFS变换单元2300接收源信号估计^',以及 用源信号估计《'代替k4。更新单元2200还被适配用于发送更新的源信 号估计《'给逆滤波器估计单元2400。
逆滤波器估计单元2400与长时傅立叶变换单元2100、更新单元 2200和初始化单元1000协作。逆滤波器估计单元2400纟皮适配用于/人长 时傅立叶变换单元2100接收观测信号"a'。逆滤波器估计单元2400还 被适配用于从更新单元2200接收更新的源信号估计《'。逆滤波器估计 单元2400还被适配用于从初始化单元1000接收表示声学环境不确定性 的第二方差affi。逆滤波器估计单元2400还被适配用于根据上述方程 (12)基于观测信号&'、更新的源4t号估计&、和表示声学环境不确定 性的第二方差flj计算逆滤波器j古计^'。逆滤波器估计单元2400进一步 被适配用于输出逆滤波器估计^'。
收敛检验单元2720与逆滤波器估计单元2400协作。收敛检验单元 2720被适配用于从逆滤波器估计单元2400接收逆滤波器估计^。收敛 检验单元2720被适配用于例如通过比较当前已经被估计的逆滤波器估 计仏'的当前值与之前已经;故估计的逆滤波器估计环*,的前一值以及检-睑 是否所述当前值偏离前一值小于一定的预定量来确定迭代过程的收敛 状态。如果收敛检验单元2720确认逆滤波器估计^的当前值偏离其前一值小于一定的预定量,那么收敛检验单元2720识别出已经获得逆滤 波器估计&的收敛。如果收敛检验单元2720确认逆滤波器估计^:'的当 前值偏离其前一值不小于一定的预定量,那么收敛检验单元2720识别 出还未获得逆滤波器估计^的收敛。
作为修改有可能的是当迭代次数达到一定的预定值时终止所述迭 代过程。即,收敛检验单元2720已经确认迭代次数达到一定的预定值, 那么收敛检验单元2720识别出已经获得逆滤波器估计^'的收敛。如果 收敛检验单元2720已经确认已经获得逆滤波器估计的收敛,那么收 敛检验单元2720将逆滤波器估计&'作为第一输出提供给逆滤波器应用 单元5000。如果收敛检验单元2720已经确定还未获得逆滤波器估计&' 的收敛,那么收敛检验单元2720将逆滤波器估计^,作为第二输出提供 给滤波单元2500。
滤波单元2500与长时傅立叶变换单元2100和收敛检验单元2720 协作。滤波单元25G0;故适配用于从长时傅立叶变换单元2100接收观测 信号""'。滤波单元2500还被适配用于从收敛检验单元2720接收逆滤 波器估计&'。滤波单元2500还被适配用于将观测信号巧,i',应用于逆滤波 器估计^t'以产生滤波源信号估计。
用于将观测信号应用于逆滤波器估计A'的滤波过程的典型实例 可以包括但不限于计算观测信号^,*.和逆滤波器^计^的乘积环—;,r。在 这种情况下,通过观测信号A,ft,和逆滤波器估计巧"的乘积^""'来给定滤 波源信号估计^'。
LTFS到STFS变换单元2600与滤波单元2500协作。LTFS到STFS 变换单元2600被适配用于从滤波单元2500接收滤波源信号估计Sy。 LTFS到STFS变换单元2600进一步被适配用于执行滤波源信号估计&到 变换后的滤波源信号估计《二的LTFS到STFS变换。当滤波过程是计算 观测信号^*'和逆滤波器估计^'的乘积%.^.时,LTFS到STFS变换单元 2600进一步被适配用于执行乘积^""'到变换后的信号LS^fe'x"'it的LTFS 到STFS变换。在这种情况下,乘积巧'&'表示滤波源信号估计^'以及变 换后的信号ls"^,U表示变换后的滤波源信号估计《么。
源信号估计单元2710与LTFS到STFS变换单元2600、短时傅立叶 变换单元2800、以及初始化单元IOOO协作。源信号估计单元2710被适 配用于从LTFS到STFS变换单元2 6 0 0接收变换后的滤波源信号估计。源信号估计单元2710还#:适配用于从初始化单元1000接收表示源信号
不确定性的第一方差"&以及表示声学环境不确定性的第二方差^ 。源
信号估计单元271Q还被适配用于从短时傅立叶变换单元28G0接收初始 源信号估计舒-。源信号估计单元2710还被适配用于基于变换后的滤波 源信号估计《i、表示源信号不确定性的第一方差0^、表示声学环境不 确定性的第二方差《以及初始源信号估计苟3 ^估计源信号Sff *',其中根 据上述方程(15 )进行所述估计。
STFS到LTFS变换单元2300与源信号估计单元2710协作。STFS到 LTFS变换单元2300被适配用于从源信号估计单元2710接收源信号估计 Sgh STFS到LTFS变换单元2300被适配用于执行源信号估计《么到变换 后的源信号估计5t,的STFS到LTFS变换。
在迭代操作的随后步骤中,更新单元2200从STFS到LTFS变换单 元2300接收源信号估计7"',并且用源信号估计《,代替fe,i.以及发送更 新的源信号估计《'给逆滤波器估计单元2400。在迭代的初始步骤中,更 新的源信号估计4是从长时傅立叶变换羊元"00提供的fe,t,。在迭代的 第二或随后步骤中,更新的源信号估计^是H。
将参考图13描述似然最大化单元2000-1的操作。
在迭代的初始步骤中,提供数字化波形观测信号x[n]给长时傅立叶 变换单元2100。长时傅立叶变换单元2100执行长时傅立叶变换以便将 数字化波形观测信号x[n]变换成变换后的观测信号巧』'作为长期傅立叶 频谱(LTFS)。将数字化波形初始源信号估计《》]从初始化单元IOOO提 供给短时傅立叶变换单元28QG和长时傅立叶变换单元2900。短时傅立 叶变换单元2800执行短时傅立叶变换以便将数字化波形初始源信号估 计4"变换成初始源信号估计《"。长时傅立叶变换单元2900执行长时 傅立叶变换以便将数字化波形初始源信号估计*变换成初始源信号估 计。
从长时傅立叶变换单元2900提供初始源信号估计^'给更新单元 2200。更新单元2200用源信号估计《'代替初始源信号估计fc.i.。然后将 初始源信号估计^-fei4'从更新单元2200提供给逆滤波器估计单元 2400。从长时傅立叶变换单元21GQ提供观测信号x议给逆滤波器估计单 元2400。从初始化单元1000提供表示声学环境不确定性的第二方差7没 给逆滤波器估计单元2400。逆滤波器估计单元240G基于观测信号i'a'、初始源信号估计《'、和表示声学环境不确定性的第二方差W 计算逆滤
波器估计^',其中根据上述方程(12)进行所述计算。
从逆滤波器估计单元2400提供逆滤波器估计&.给收敛检验单元 2720。收敛4企验单元2720进行迭代过程的收敛状态的确定。例如,通 过比较当前已经被估计的逆滤波器估计%.的当前值与之前已经被估计 的逆滤波器估计&'的前一值来进行所述确定。收敛检验单元2720检验 是否当前值偏离前一值小于一定的预定量。如果收敛检验单元2720确 认逆滤波器估计A,的当前值偏离其前一值小于一定的预定量,那么收敛 检验单元2720识别出已经获得逆滤波器估计A,的收敛。如果收敛检验 单元2720确认逆滤波器估计&的当前值偏离其前一值不小于一定的预 定量,那么收敛检验单元2720识别出还未获得逆滤波器估计^'的收敛。
如果已经获得逆滤波器估计A,的收敛,那么从收敛检验单元2720 提供逆滤波器估计^给逆滤波器应用单元5000。如果还未获得逆滤波器 估计逸'的收敛,那么从收敛检验单元2720提供逆滤波器估计巧'给滤波 单元2500。观测信号^.*'进一步从长时傅立叶变换单元2100被提供给滤 波单元2500。滤波单元2500将逆滤波器估计诼应用于观测信号"^以产 生滤波源信号估计。用于将观测信号应用于逆滤波器估计的滤 波过程的典型实例可以是计算观测信号和逆滤波器估计^的乘积 iA"U,。在这种情况下,通过观测信号"W和逆滤波器估计的乘积迅^V 来给定滤波源信号估计5^ 。
从滤波单元2500提供滤波源信号估计^'给LTFS到STFS变换单元 2600。 LTFS到STFS变换单元2600执行LTFS到STFS变换以便将滤波源 信号估计'1''变换成变换后的滤多源信号估计5& 。当所述滤波过程是计 算观测信号巧^'和逆滤波器估计^'的乘积&"w时,该乘积^""'被变换成 变换后的信号^"tfe U。
从LTFS到STFS变换单元2600提供变换后的滤波源信号估计《^给 源信号估计单元2710。从初始化单元1000提供表示源信号不确定性的 笫一方差《^和表示声学环境不确定性的第二方差°§给源信号估计单 元2710。从短时傅立叶变换单元2800提供初始源信号估计斧^给源信号 估计单元2710。源信号估计单元2710基于变换后的滤波源信号估计苟丄、 表示源信号不确定性的第一方差<、和表示声学环境不确定性的笫二 方差力〗以及初始源信号估计5&计算源信号估计,其中根据上述方程(15)进行所述估计。
从源信号估计单元2710提供源信号估计?&给STFS到LTFS变换单 元2300以便将源信号估计苟^变换成变换后的源信号估计^:'。从STFS 到LTFS变换单元2300提供所述变换后的源信号估计《f给更新单元 2200。更新单元2200用源信号估计^代替变换后的源信号估计H。从 更新单元2200提供更新的源信号估计&给逆滤波器估计单元2400。
在迭代的第二或随后步骤中,从更新单元"00提供源信号估计 ^-fci给逆滤波器估计单元2400。还将观测信号^t'从长时傅立叶变换 单元21GG提供给逆滤波器估计单元2400。从初始化单元1Q00提供表示 声学环境不确定性的第二方差^S给逆滤波器估计单元2400。逆滤波器 估计单元2400基于观测信号、,、更新的源信号估计&H^i、和表示声 学环境不确定性的第二方差<计算更新的逆滤波器估计^',其中根据上 述方程(12)进行所述计算。
从逆滤波器估计单元2400提供更新的逆滤波器估计%给收敛检验 单元2720。收敛检验单元2720进行对迭代过程的收敛状态的确定。
上述迭代过程将被继续,直到收敛检^r单元2720已经确认逆滤波 器估计&,的收敛已经被获得为止。
图14是图示在图12中所示的逆滤波器应用单元5000的配置的方 框图。逆滤波器应用单元5000的典型实例可以包括但不限于逆长时傅 立叶变换单元5100和巻积单元5200。逆长时傅立叶变换单元MOO与似 然最大化单元2000-1协作。逆长时傅立叶变^单元MOO被适配用于从 似然最大化单元2Q00-1接收逆滤波器估计^'。长时傅立叶变换单元 5100进一步被适配用于执行逆滤波器估计&"到数字化波形逆滤波器估 计 〗的逆长时傅立叶变换。
巻积单元5200与逆长时傅立叶变换单元5100协作。巻积单元"00 被适配用于从逆长时傅立叶变换单元5100接收数字化波形逆滤波器估 计4 j。巻积单元5200还^皮适配用于接收数字化波形观测信号x[n]。巻 积单元5200还净皮适配用于^丸行巻积过程以将数字化波形观测信号x[n] 与数字化波形逆滤波器估计对"]进行巻积以产生恢复后的数字化波形源 信号估计刷=E^ -作为去混响的信号。
图15是图示在图12中所示的逆滤波器应用单元5000的配置的方 框图。逆滤波器应用单元5000的典型实例可以包括^f旦不限于长时傅立叶变换单元5300、滤波单元5400、以及逆长时傅立叶变换单元5500。 长时傅立叶变换单元5300被适配用于接收数字化波形观测信号x[n]。 长时傅立叶变换单元5300被适配用于执行数字化波形观测信号x[n]到 变换后的观测信号&的长时傅立叶变换。
滤波单元5400与长时傅立叶变换单元5300和似然最大化单元 2000-1协作。滤波单元5400:故适配用于从长时傅立叶变换单元53G0接 收变换后的观测信号^'。滤波单元5400还被适配用于从似然最大化单 元2000-1接收逆滤波器估计&。滤波单元5400进一步被适配用于将逆 滤波器估计^应用于变换后的观测信号以产生滤波源信号估计 al'V。将逆滤波器估计 应用于变换后的观测信号X/,可以通过将每 个帧中的变换后的观测信号^"'乘以逆滤波器估计^'来进行。 .、逆长时傅立叶变换单元5:00与滤波单元、540:协:。逆长时,立p:
长时傅立叶变换单元5500被适配用于执行滤波源信号估计^^到作为去 混响的信号的滤波数字化波形源信号估计? ["l的逆长时傅立叶变换。
试验
借助于确认本方法的性能执行了简单的试验。如由Tomohiro Nakatani和Masato Miyoshi 的 "Blind dereverberation of single channel speech signal based on harmonic struture', ( Proc. ICASSP -2003, vol.1,第92 - 95页,2003年4月)详细公开的,以0. 1秒、 0. 2秒、0. 5秒、和1. 0秒的RT60时间采用了单词话语(word utterances ) 的相同的源信号以及相同的脉冲响应。通过将源信号与脉沖响应进行巻 积来合成观测信号。准备了与用于HERB和SBD相同的两种类型的初始
源信号估计,即苟二 =巧>&》和苟:1-对4^.},其中瑪')和^'》分别是用于
HERB的谐波滤波器和用于SBD的噪声减小滤波器。相对于发声量度W t 确定源信号不确定性,其中该发声量度和HERB —起被用于判定观测信 号的每个短时间帧的语音状态。根据该量度,当对于固定的阈值5, ^>3时,帧被确定为有声(voiced)。特别是,<$在试验中被确定为<T"r〉 一<
'4^^^} if化,附> S并且A是谐波频率,
if'W m > 5并且fc不是谐波频率,
00
(17)
其中G~是被定义成G~ - <TW"'95>的非线性归 一化函数。另 一方面,g被 设置成常量值l。结果,当G^中的u从O移动到1时,上述方程(15) 中的衫^的权重变成从0到1变化的S形函数。对于每个试"睑,EM步骤 被迭代了四次。另外,还引入了具有反馈回路的重复估计方案。采用对 应于42ms的K"^504、对应于10. 9s的〖=130800、对应于lms的t = 12、 以及12kHz采样频率作为分析条件。
能量衰减曲线
图12A到12H显示使用女人和男人所说的IOO单词观测信号在利用 和不利用EM算法的情况下室内脉冲响应和通过HERB和SBD去混响的脉 冲响应的能量衰减曲线。图12A图示当女人说话时在RT60=1. 0秒的能 量衰减曲线。图12B图示当女人说话时在RT60=0. 5秒的能量衰减曲线。 图12C图示当女人说话时在RT60=0. 2秒的能量衰减曲线。图12D图示 当女人说话时在RT60=0. 1秒的能量衰减曲线。图12E图示当男人说话 时在RT604. O秒的能量衰减曲线。图12F图示当男人说话时在RT60-0. 5 秒的能量衰减曲线。图12G图示当男人说话时在RT60=0. 2秒的能量衰 减曲线。图12H图示当男人说话时在RT60=0. 1秒的能量衰减曲线。图 12A到12H清楚地表明EM算法能够利用HERB和SBD有效地减小混响能 量。
相应地,如上所述,本发明的一个方面针对新的去混响方法,其中 源信号和室内声学的特征借助高斯概率密度函数(pdf )来表示,以及 源信号被估计为最大化基于这些概率密度函数(pdf)所定义的似然函 数的信号。迭代优化算法被用于有效地解决这种优化问题。试验结果显 示出就去混响脉冲响应的能量衰减曲线而言,本方法能够大大地提高基 于语音信号特征的两种去混响方法、即HERB和SBD的性能。由于HERB 和SBD在提高在混响环境中捕获的语音信号的ASR性能方面是有效的, 所以本方法能够利用较少的观测信号提高性能。尽管以上已经描述和图示了本发明的优选实施例,但是应该理解这 些优选实施例是本发明的示例并且不应被认为是限制性的。在不背离本 发明的精神或范围的情况下能够进行添加、省略、替换、和其他修改。 因此,本发明不应该被认为是受上述描述限制,而是仅仅受所附的权利 要求书的范围限制。
权利要求
1. 一种语音去混响设备,包括确定最大化似然函数的源信号估计的似然最大化单元,其中参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
2. 根据权利要求1所述的语音去混响设备,其中所述似然函数基 于根据未知参数、丢失数据的笫一随机变量、和观测数据的第二随机变 量所评估的概率密度函数被定义,其中参考源信号估计来定义所述未知 参数,丟失数据的第一随机变量表示室内传递函数的逆滤波器,以及参 考观测信号和初始源信号估计来定义观测数据的第二随机变量。
3. 根据权利要求2所述的语音去混响设备,其中所述似然最大化 单元使用迭代优化算法来确定源信号估计。
4. 根据权利要求3所述的语音去混响设备,其中所述迭代优化算 法是期望最大化算法。
5. 根据权利要求1所述的语音去混响设备,其中所述似然最大化 单元进一步包括逆滤波器估计单元,其参考观测信号、第二方差、以及初始源信号 估计和更新的源信号估计之一来计算逆滤波器估计;滤波单元,其将逆滤波器估计应用于观测信号并产生滤波信号;源信号估计和收敛检验单元,其参考初始源信号估计、第一方差、 第二方差、和滤波信号来计算源信号估计,所述源信号估计和收敛检验 单元进一 步确定是否源信号估计的收敛被获得,如果源信号估计的收敛 被获得,所述源信号估计和收敛检验单元进一步输出源信号估计作为去 混响的信号;以及更新单元,其将所述源信号估计更新为更新的源信号估计,如果源 信号估计的收敛未被获得,所述更新单元进一步提供更新的源信号估计 给逆滤波器估计单元,以及所述更新单元在初始更新步骤中进一步提供 所述初始源信号估计给逆滤波器估计单元。
6. 根据权利要求5所述的语音去混响设备,其中所述似然最大化 单元进一步包括第一长时傅立叶变换单元,其执行波形观测信号到变换后的观测信 号的第一长时傅立叶变换,该第一长时傅立叶变换单元进一步将变换后的观测信号作为观测信号提供给逆滤波器估计单元和滤波单元;LTFS到STFS变换单元,其执行滤波信号到变换后的滤波信号的LTFS到STFS变换,该LTFS到STFS变换单元进一步将变换后的滤波信号作为滤波信号提供给源信号估计和收敛检验单元;STFS到LTFS变换单元,其执行源信号估计到变换后的源信号估计的STFS到LTFS变换,如果源信号估计的收敛未^皮获得,该STFS到LTFS变换单元进一步将变换后的源信号估计作为源信号估计提供给更新单元;第二长时傅立叶变换单元,其执行波形初始源信号估计到第一变换 初始源信号估计的第二长时傅立叶变换,该第二长时傅立叶变换进一步 将第一变换初始源信号估计作为初始源信号估计提供给更新单元;以及短时傅立叶变换单元,其执行波形初始源信号估计到第二变换初始 源信号估计的短时傅立叶变换,该短时傅立叶变换单元进一步将第二变 换初始源信号估计作为初始源信号估计提供给源信号估计和收敛检验 单元。
7. 根据权利要求1所述的语音去混响设备,进一步包括执行源信号估计到波形源信号估计的逆短时傅立叶变换的逆短时 4專立叶变4灸单元。
8. 根据权利要求1所述的语音去混响设备,进一步包括 基于观测信号产生初始源信号估计、第一方差、和第二方差的初始化单元。
9. 根据权利要求8所述的语音去混响设备,其中所述初始化单元 进一步包括基频估计单元,其估计来自变换后的信号的每个短时间帧的基频和 发声量度,其中通过观测信号的短时傅立叶变换来给定所述变换后的信 号;以及源信号不确定性确定单元,其基于所述基频和发声量度确定第一方差。
10. 根据权利要求1所述的语音去混响设备,进一步包括 初始化单元,其基于观测信号产生初始源信号估计、第一方差、和第二方差;和收敛检验单元,其从似然最大化单元接收源信号估计,该收敛检验单元确定是否源信号估计的收敛被获得,如果获得源信号估计的收敛, 则所述收敛检验单元进一步输出源信号估计作为去混响的信号,并且如 果未获得源信号估计的收敛,则所述收敛检验单元进一步提供源信号估 计给初始化单元以使初始化单元能够基于该源信号估计产生初始源信 号估计、第一方差、和第二方差。
11. 根据权利要求10所述的语音去混响设备,其中所述初始化单元进一步包括第二短时傅立叶变换单元,其执行观测信号到第 一变换观测信号的第二短时傅立叶变换;第 一选择单元,其执行第 一选择操作以产生第 一选择输出以及第二 选择操作以产生第二选择输出,第一和笫二选择操作是相互独立的,当所述第一选择单元接收第一变换观测信号的输入而不接收源信号估计 的任何输入时,第 一选择操作用于选择第 一变换观测信号作为第 一选择 输出,而当所述第一选择单元接收第一变换观测信号和源信号估计的输 入时,第 一选择操作用于选择第 一 变换观测信号和源信号估计之一作为 第一选择输出,当所述第 一选择单元接收第 一变换观测信号的输入而不 接收源信号估计的任何输入时,第二选择操作用于选择第 一 变换观测信 号作为第二选择输出,而当所述第 一选择单元接收第 一变换观测信号和 源信号估计的输入时,第二选择操作用于选择第 一变换观测信号和源信 号估计之一作为第二选择输出;基频估计单元,其接收第二选择输出并估计来自第二选择输出的每 个短时间帧的基频和发声量度;以及自适应谐波滤波单元,其接收第一选择输出、基频和发声量度,该 自适应谐波滤波单元基于基频和发声量度增强第 一选择输出的谐波结 构以产生初始源信号估计。
12. 根据权利要求10所述的语音去混响设备,其中所述初始化单 元进一步包括第三短时傅立叶变换单元,其执行观测信号到第二变换观测信号的 第三短时傅立叶变换;第二选择单元,其执行笫三选择操作以产生第三选择输出,当所迷 第二选择单元接收第二变换观测信号的输入而不接收源信号估计的任 何输入时,第三选择操作用于选择第二变换观测信号作为第三选择输出,而当所述第二选择单元接收第二变换观测信号和源信号估计的输入 时,第三选择操作用于选择第二变换观测信号和源信号估计之一作为第三选择输出;基频估计单元,其接收第三选择输出并估计来自第三选择输出的每 个短时间帧的基频和发声量度;以及源信号不确定性确定单元,其基于基频和发声量度确定第一方差。
13. 根据权利要求10所述的语音去混响设备,进一步包括 逆短时傅立叶变换单元,如果获得源信号估计的收敛,则所述逆短时傅立叶变换单元执行源信号估计到波形源信号估计的逆短时傅立叶 变换。
14. 一种语音去混响设备,包括确定最大化似然函数的逆滤波器估计的似然最大化单元,其中参考 观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示 声学环境不确定性的第二方差进行所述确定。
15. 根据权利要求14所述的语音去混响设备,其中所述似然函数 基于根据第一未知参数、第二未知参数、以及观测数据的第一随机变量 所评估的概率密度函数被定义,其中参考源信号估计来定义第一未知参 数,参考室内传递函数的逆滤波器来定义第二未知参数,参考观测信号 和初始源信号估计来定义观测数据的第一随机变量,逆滤波器估计是室 内传递函数的逆滤波器的估计。
16. 根据权利要求15所述的语音去混响设备,其中所述似然最大 化单元使用迭代优化算法来确定逆滤波器估计。
17. 根据权利要求14所述的语音去混响设备,进一步包括将逆滤波器估计应用于观测信号并产生源信号估计的逆滤波器应 用单元。
18. 根据权利要求17所述的语音去混响设备,其中所述逆滤波器 估计应用单元进一步包括第一逆长时傅立叶变换单元,其执行逆滤波器估计到变换后的逆滤波器估计的笫一逆长时傅立叶变换;以及巻积单元,其接收变换后的逆滤波器估计和观测信号,以及将观测 信号与变换后的逆滤波器估计进行巻积以产生源信号估计。
19. 根据权利要求17所述的语音去混响设备,其中所述逆滤波器应用单元进一步包括第 一长时傅立叶变换单元,其执行观测信号到变换后的观测信号的 第一长时傅立叶变换;第一滤波单元,其将逆滤波器估计应用于变换后的观测信号,以及 产生滤波源信号估计;和第二逆长时傅立叶变换单元,其执行滤波源信号估计到源信号估计 的第二逆长时傅立叶变换。
20. 根据权利要求14所述的语音去混响设备,其中所述似然最大 化单元进一步包括逆滤波器估计单元,其参考观测信号、第二方差、以及初始源信号 估计和更新的源信号估计之一计算逆滤波器估计;收敛检验单元,其确定是否逆滤波器估计的收敛被获得,如果获得 源信号估计的收敛,该收敛检验单元进一步输出逆滤波器估计作为将要 对所述观测信号进行去混响的滤波器,滤波单元,如果未获得源信号估计的收敛,该滤波单元从所述收敛 检验单元接收逆滤波器估计,该滤波单元进一步将逆滤波器估计应用于 观测信号并产生滤波信号;源信号估计单元,其参考初始源信号估计、第一方差、第二方差、 和滤波信号计算源信号估计;更新单元,其将源信号估计更新为更新的源信号估计,该更新单元 进一步在初始更新步骤中提供初始源信号估计给逆滤波器估计单元,该 更新单元进一步在除初始更新步骤之外的更新步骤中提供更新的源信 号估计给逆滤波器估计单元。
21. 根据权利要求20所述的语音去混响设备,其中所述似然最大 化单元进一步包括第二长时傅立叶变换单元,其执行波形观测信号到变换后的观测信 号的第二长时傅立叶变换,该第二长时傅立叶变换单元进一步将变换后 的观效'J信号作为观观'j信号提供给逆滤波器估计单元和滤波单元;LTFS到STFS变换单元,其执行滤波信号到变换后的滤波信号的 LTFS到STFS变换,该LTFS到STFS变换单元进一步将变换后的滤波信 号作为滤波信号提供给源信号估计单元;STFS到LTFS变换单元,其执行源信号估计到变换后的源信号估计的STFS到LTFS变换,该STFS到LTFS变换单元进一步将变换后的源信 号估计作为源信号估计提供给更新单元;第三长时傅立叶变换单元,其执行波形初始源信号估计到第 一 变换 初始源信号估计的第三长时傅立叶变换,该第三长时傅立叶变换单元进一步将笫一变换初始源信号估计作为初始源信号估计提供给更新单元; 以及短时傅立叶变换单元,其执行波形初始源信号估计到第二变换初始 源信号估计的短时傅立叶变换,该短时傅立叶变换单元进一步将第二变 换初始源信号估计作为初始源信号估计提供给源信号估计单元。
22. 根据权利要求14所述的语音去混响设备,进一步包括 基于观测信号产生初始源信号估计、第一方差、和第二方差的初始化单元。
23. 根据权利要求22所述的语音去混响设备,其中所述初始化单 元进一步包括基频估计单元,其估计来自变换后的信号的每个短时间帧的基频和 发声量度,其中通过观测信号的短时傅立叶变换来给定所述变换后的信 号;以及源信号不确定性确定单元,其基于基频和发声量度确定第一方差。
24. —种语音去混响方法,包括确定最大化似然函数的源信号估计,其中参考观测信号、初始源信 号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的 第二方差进行所述确定。
25. 根据权利要求24所述的语音去混响方法,其中所述似然函数 基于根据未知参数、丟失数据的第一随机变量、和观测数据的第二随机 变量所评估的概率密度函数被定义,其中参考源信号估计来定义未知参 数,丟失数据的第一随机变量表示室内传递函数的逆滤波器,参考观测 信号和初始源信号估计来定义观测数据的第二随机变量。
26. 根据权利要求25所述的语音去混响方法,其中使用迭代优化 算法来确定源信号估计。
27. 根据权利要求26所述的语音去混响方法,其中所述迭代优化 算法是期望最大化算法。
28. 根据权利要求24所述的语音去混响方法,其中确定源信号估计进一步包括参考观测信号、第二方差、以及初始源信号估计和更新的源信号估计之一计算逆滤波器估计;将逆滤波器估计应用于观测信号,以产生滤波信号; 参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信号估计;确定是否源信号估计的收敛被获得;如果获得源信号估计的收敛,U 'J输出源信号估计作为去混响的信 号;以及如果未获得源信号估计的收敛,则将源信号估计更新为更新的源信 号估计。
29. 根据权利要求28所述的语音去混响方法,其中确定源信号估 计进一步包括执行波形观测信号到变换后的观测信号的第一长时傅立叶变换;执行滤波信号到变换后的滤波信号的LTFS到STFS变换;如果未获得源信号估计的收敛,执行源信号估计到变换后的源信号估计的STFS到LTFS变换;执行波形初始源信号估计到第一变换初始源信号估计的第二长时傅立叶变换;以及执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换。
30. 根据权利要求24所述的语音去混响方法,进一步包括 执行源信号估计至ij波形源信号估计的逆短时傅立叶变换。
31. 根据权利要求24所述的语音去混响方法,进一步包括 基于观测信号产生初始源信号估计、第一方差、和第二方差。
32. 根据权利要求31所述的语音去混响方法,其中产生初始源信 号估计、第一方差、和第二方差进一步包括估计来自变换后的信号的每个短时间帧的基频和发声量度,其中通 过观测信号的短时傅立叶变换来给定所述变换后的信号;以及 基于所述基频和发声量度确定第一方差。
33. 根据权利要求24所述的语音去混响方法,进一步包括 基于观测信号产生初始源信号估计、第一方差、和第二方差;确定是否源信号估计的收敛被获得;如果获得源信号估计的收敛,则输出源信号估计作为去混响的信号;以及如果未获得源信号估计的收敛,则返回到产生初始源信号估计、第 一方差、和第二方差。
34. 根据权利要求33所述的语音去混响方法,其中产生初始源信 号估计、第一方差、和第二方差进一步包括执行观测信号到第 一 变换观测信号的第二短时傅立叶变换; 执行第 一选择操作以产生第 一选择输出,当接收第 一变换观测信号 的输入而不接收源信号估计的任何输入时,第 一选择操作用于选择第一 变换观测信号作为第一选择输出,当接收第一变换观测信号和源信号估 计的输入时,第一选择操作用于选择第一变换观测信号和源信号估计之 一作为第一选择输出;执行第二选择操作以产生第二选择输出,当接收第 一变换观测信号 的输入而不接收源信号估计的任何输入时,第二选择操作用于选择第一 变换观测信号作为第二选择输出,当接收第 一 变换观测信号和源信号估 计的输入时,第二选择操作用于选择第一变换观测信号和源信号估计之 一作为第二选择输出;估计来自第二选择输出的每个短时间帧的基频和发声量度;以及 基于基频和发声量度增强第 一 选择输出的谐波结构以产生初始源 信号估计。
35. 根据权利要求33所述的语音去混响方法,其中产生初始源信 号估计、第一方差、和第二方差进一步包括执行观测信号到第二变换观测信号的第三短时傅立叶变换;执行第三选择操作以产生第三选择输出,当接收第二变换观测信号 的输入而不接收源信号估计的任何输入时,第三选择操作用于选择第二 变换观测信号作为第三选择输出,当接收第二变换观测信号和源信号估 计的输入时,第三选择操作用于选择第二变换观测信号和源信号估计之 一作为第三选择输出;估计来自第三选择输出的每个短时间帧的基频和发声量度;以及基于所述基频和发声量度确定第一方差。
36. 根据权利要求33所述的语音去混响方法,进一步包括如果获得源信号估计的收敛,则执行源信号估计到波形源信号估计 的逆4豆时〗專立叶变^灸。
37. —种语音去混响方法,包括确定最大化似然函数的逆滤波器估计,其中参考观测信号、初始源 信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性 的第二方差进行所述确定。
38. 根据权利要求37所述的语音去混响方法,其中所述似然函数 基于根据第一未知参数、笫二未知参数、和观测数据的第一随机变量所 评估的概率密度函数被定义,其中参考源信号估计来定义第一未知参 数,参考室内传递函数的逆滤波器来定义第二未知参数,以及参考观测 信号和初始源信号估计来定义观测数据的第一随机变量,所述逆滤波器 估计是室内传递函数的逆滤波器的估计。
39. 根据权利要求38所述的语音去混响方法,其中使用迭代优化 算法来确定逆滤波器估计。
40. 根据权利要求37所迷的语音去混响方法,进一步包括 将逆滤波器估计应用于观测信号以产生源信号估计。
41. 根据权利要求40所述的语音去混响方法,其中将逆滤波器估 计应用于观测信号进一步包括执行逆滤波器估计到变换后的逆滤波器估计的第一逆长时傅立叶 变换;以及将观测信号与变换后的逆滤波器估计进行巻积以产生源信号估计。
42. 根据权利要求40所述的语音去混响方法,其中将逆滤波器估计 应用于观测信号进一步包括执行观测信号到变换后的观测信号的第一长时傅立叶变换; 将逆滤波器估计应用于变换后的观测信号以产生滤波源信号估计;以及执行滤波源信号估计到源信号估计的第二逆长时傅立叶变换。
43. 根据权利要求37所述的语音去混响方法,其中确定逆滤波器 估计进一步包括参考观测信号、第二方差、以及初始源信号估计和更新的源信号估 计之一计算逆滤波器估计;确定是否逆滤波器估计的收敛被获得;如果获得源信号估计的收敛,则输出逆滤波器估计作为将要对所述 观测信号进行去混响的滤波器;如果未获得源信号估计的收敛,则将逆滤波器估计应用于观测信号以产生滤波信号;参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信 号估计;以及将源信号估计更新为更新的源信号估计。
44. 根据权利要求43所述的语音去混响方法,其中确定逆滤波器 估计进一步包括执行波形观领'H言号到变换后的观测信号的第二长时傅立叶变换; 执行滤波信号到变换后的滤波信号的LTFS到STFS变换; 执行源信号估计到变换后的源信号估计的STFS到LTFS变换; 执行波形初始源信号估计到第一变换初始源信号估计的第三长时傅立叶变换;以及执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换。
45. 根据权利要求37所述的语音去混响方法,进一步包括 基于观测信号产生初始源信号估计、第一方差、和第二方差。
46. 根据权利要求45所述的语音去混响方法,其中产生初始源信 号估计、第一方差、和第二方差进一步包括估计来自变换后的信号的每个短时间帧的基频和发声量度,其中通 过观测信号的短时傅立叶变换来给定所述变换后的信号;以及 基于所述基频和发声量度确定第一方差。
47. —种程序,该程序要通过计算机来执行以执行语音去混响方法, 该方法包括确定最大化似然函数的源信号估计,其中参考观测信号、初始源信 号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的 第二方差进行所述确定。
48. —种程序,该程序要通过计算机来执行以执行语音去混响方法, 该方法包4舌确定最大化似然函数的逆滤波器估计,其中参考观测信号、初始源 信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的笫二方差进行所述确定。
49. 一种存储介质,其存储要通过计算机来执行以执行语音去混响 方法的程序,该方法包4舌确定最大化似然函数的源信号估计,其中参考观测信号、初始源信 号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的 第二方差进行所述确定。
50. —种存储介质,其存储要通过计算机来执行以执行语音去混响 方法的程序,该方法包括确定最大化似然函数的逆滤波器估计,其中参考观测信号、初始源 信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性 的第二方差进行所述确定。
全文摘要
通过接受用于初始化(1000)的观测信号以及执行包括傅立叶变换(4000)的似然最大化(2000)来实现语音去混响。
文档编号G10L21/02GK101416237SQ200680054124
公开日2009年4月22日 申请日期2006年5月1日 优先权日2006年5月1日
发明者中谷智广, 庄炳湟 申请人:日本电信电话株式会社;佐治亚科技研究公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1