校正二进掩模中的错误的方法

文档序号：2830191阅读：200来源：国知局

专利名称：校正二进掩模中的错误的方法
技术领域：
本发明涉及信号处理。本发明尤其涉及确定和校正有噪声二进掩模中的错误的方法。本发明还涉及数据处理系统、计算机可读介质和听力仪器。本发明可用在如语音处理的应用中。
背景技术：
下面的现有技术说明涉及本发明的应用领域之一，即助听器。理想二进掩模已表明能够明显增加语音可懂度。使用术语“理想”是因为关于纯净目标语音或纯净噪声信号的知识必须可得到以计算理想二进掩模。在许多应用中，只可得到有噪声的语音，这使得很难满足前述要求。“理想二进掩模”的不同概念例如在[Wang， 2005]和[Kjems et al.，2009]中描述。使用有噪声语音而不是纯净语音计算二进掩模在二进掩模中引起错误。本申请涉及校正这些错误的方法。

发明内容
一般想法是使用统计模型确定表示有噪声语音的二进掩模中的错误及计算二进掩模中的单元被校正的概率。例如，统计模型可基于隐Markov模型(HMM)(例如参见 [Rabiner，1989])或动态时间规整(DTff)(例如参见[Sakoe et al.，1978])，其基于来自纯净信号(如语音)及可能来自有噪声信号(如噪声中的语音)的二进掩模进行培训。术语“纯净信号”(如纯净语音)用于指没有任何另外的(噪声)信号的目标(如语音)信号。术语“有噪声信号”(如有噪声语音)用于描述(纯净)目标(如语音)信号与一个或多个其它信号(称为噪声)混合。相比于对波形起作用或使用有噪声信号(如语音)的时频表示的更传统的方法，校正二进域中的错误的努力可降低处理算法的复杂性。然而，大大简化的(二进)域也使得该方法可实现的有一个上限。在目前的文献中，使用目标二进掩模(参见[Kjems et al.， 2009])，但该方法可能使用在所有类型的二进掩模或其它二进模式上。本发明的目标是提供改进表示(噪声中的)语音的二进掩模的方案。其它目标是提供改进表示其它信号或模式的二进掩模的方案，其它信号如光学信号，例如与字符识别有关的光学信号。本发明的目标通过所附权利要求及下面描述的发明实现。本发明的目标由确定和校正有噪声二进掩模中的错误的方法实现。该方法包括a)提供包括信号如声信号的功率密度的二进表示的有噪声二进掩模，信号包括在预定的多个离散频率和多个离散时间时目标信号与噪声信号的混合信号；b)提供表示目标信号的功率密度的纯净二进掩模的统计模型；及c)使用统计模型检测和校正有噪声二进掩模中的错误。本发明方法提供备选及相对简单的改进表示信号(如语音信号)的二进掩模的估计的方式。在实施例中，有噪声二进掩模表示噪声中的(目标)语音。在其它实施例中，将要改进的二进掩模可表示任何其它适当的信号模式。在实施例中，二进掩模表示图像，如光学字符识别(OCR)过程中要改进的字符的图像。术语“有噪声二进掩模”用于指从有噪声目标信号确定的二进掩模。总的来说，统计模型可以是适合模式识别和比较的任何类型。在特定实施例中，统计模型基于隐Markov模型。在特定实施例中，提供统计模型的步骤包括提供纯净二进掩模的培训集，包括在预定的多个离散频率和多个离散时间时目标信号的功率密度的二进表示。在特定实施例中，提供统计模型的步骤包括提供有噪声二进掩模的培训集，包括在预定的多个离散频率和多个离散时间时目标信号与噪声信号的混合信号的功率密度的
二进表不。在特定实施例中，统计模型包括状态和观察值，其中状态由表示在多个时间点在预定的多个离散频率下的二进域中的目标信号的向量构成，及其中观察值由表示在多个时间点在预定的多个离散频率下目标信号与噪声信号的混合信号的二进向量构成。在特定实施例中，每一状态由在给定时间点t在预定的多个离散频率下目标信号的二进向量Qt表示构成。在特定实施例中，本发明方法实现，对于每一状态Qt，对应的观察值Xt由包括给定状态在预定的多个离散频率中的每一频率下为1的概率的向量构成。在特定实施例中，本发明方法实现，提供状态转变概率，其定义从状态Qt改变为 Qt+1的概率，例如安排在大小为NXN的方矩阵A中，其中N为状态的总数，及其中在矩阵的第m行、η列的矩阵元表示从状态m变为状态η的概率。在特定实施例中，观察概率安排在大小为FXN的矩阵B中，其中F为频率的数量及N为状态的总数，及其中在矩阵的第P行、q列的矩阵元表示第q状态在第P频率为1的概率。在特定实施例中，本发明方法包括纯净二进掩模的量化，其中确定Nq个状态的子集，其中Nq < N，每一状态由在预定的多个离散频率下目标信号的二进模态向量表示构成。优选地，选择状态的数量Nq以使纯净二进掩模的表示的错误最小。对于给定状态数量Nq，最佳二进模态向量可通过K平均算法确定，例如参见[Li，2005]。在特定实施例中，矩阵A的状态转变概率从量化的二进掩模计算，其通过计数 Qi到Qj的状态变化的数量并使每一数量除以从状态i量化的二进掩模的状态变化总数Nse, 1进行计算，其中i = 1，2，...，Nq和j = 1，2，...，。换言之，计算a。= nij/Nsc, i，其中
_ nij
Σ;:Λ = ‘，· = 5 因此，Σ =1在特定实施例中，矩阵B的观察概率B(k，η)根据公式B(k，η) = Bc(k, η) +bn(k) -Bc (k，η) · bn(k)基于两个贡献量Bc和bn进行计算，其中，k = 1，2，· · ·，F为频率指数及η = 1，2，...，Nq为状态指数，其中Bn(k，n)为纯净二进掩模和量化的纯净二进掩模确定的观察概率，及其中观察概率bn(k)确定在每一频率下噪声信号产生1的概率。在特定实施例中，观察概率bn(k)从所涉及噪声信号的特性计算。
5
在特定实施例中，观察bn(k)概率在没有话音信号存在的时间段期间计算(例如使用话音检测器检测前述时间段)。在实施例中，这在本发明方法的运行应用(例如在听力仪器中)之前在统计模型的特定培训阶段进行。在实施例中，这在该方法的运行应用期间进行，或代替前述在特定培训阶段进行的做法，或作为在前述培训阶段期间确定的概率的补充或更新。不是使用话音检测器，在只有噪声存在的情形下时间单元的确定也可按[Martin， 2001]中所述进行。在特定实施例中，目标二进掩模TBMest从下述公式进行估计
权利要求
1.确定和校正有噪声二进掩模中的错误的方法，该方法包括a)提供包括声信号的功率密度的二进表示的有噪声二进掩模，声信号包括在预定的多个离散频率和多个离散时间时目标信号与噪声信号的混合信号；b)提供表示目标信号的功率密度的纯净二进掩模的统计模型；及c)使用统计模型检测和校正有噪声二进掩模中的错误。
2.根据权利要求1的方法，其中统计模型基于隐Markov模型。
3.根据权利要求1或2的方法，其中提供统计模型的步骤包括提供纯净二进掩模的培训集，纯净二进掩模包括在预定的多个离散频率和多个离散时间时目标信号的功率密度的二进表不。
4.根据权利要求1-3任一所述的方法，其中提供统计模型的步骤包括提供有噪声二进掩模的培训集，有噪声二进掩模包括在预定的多个离散频率和多个离散时间时目标信号与噪声信号的混合信号的功率密度的二进表示。
5.根据权利要求1-4任一所述的方法，其中统计模型包括状态和观察值，其中状态由表示在多个时间点在预定的多个离散频率下的目标信号的向量构成，及其中观察值由表示在多个时间点在预定的多个离散频率下目标信号与噪声信号的混合信号的向量构成。
6.根据权利要求5的方法，其中每一状态由在给定时间单元t在预定的多个离散频率下目标信号的二进向量Qt表示构成。
7.根据权利要求5或6的方法，其中对于每一状态Qt，对应的观察值Xt由包括给定状态在预定的多个离散频率中的每一频率下为1的概率的向量构成。
8.根据权利要求5-7任一所述的方法，其中提供定义从状态Qt变为Qt+1的概率的状态转变概率，其安排在大小为NXN的方矩阵A中，其中N为状态的总数，及其中在矩阵的第m 行、η列的矩阵元表示从状态m变为状态η的概率。
9.根据权利要求7或8的方法，其中观察概率安排在大小为FXN的矩阵B中，其中F 为频率的数量及N为状态的总数，及其中在矩阵的第P行、q列的矩阵元表示第q状态在第 P频率为1的概率。
10.根据权利要求5-9任一所述的方法，包括纯净二进掩模的量化，其中确定Nq个状态的子集，其中Nq < N，每一状态由在预定的多个离散频率下目标信号的二进模态向量表示构成。
11.根据权利要求10的方法，其中矩阵A的状态转变概率从量化的二进掩模计算，其通过计数Qi到Qj的状态变化的数量Hij并使每一数量Hij除以从状态i量化的二进掩模的状态变化总数Nse, 1进行计算，其中i = 1，2，...，Nq和j = 1，2，...，Nq。
12.根据权利要求10或11的方法，其中矩阵B的观察概率B(k，η)根据公式B(k，η) = B。(k，n)+bn(k)-B。(k，n) · bn(k)基于两个贡献量 B。和 bn 进行计算，其中，k = 1,2,..., F为频率指数及η = 1，2，. . .，Nq为状态指数，其中B。(k，η)为纯净二进掩模和量化的纯净二进掩模确定的观察概率，及其中观察概率比(10确定在每一频率下噪声信号产生1的概率。
13.根据权利要求12的方法，其中观察概率比(10从所涉及噪声信号的特性计算。
14.根据权利要求13的方法，观察概率bn(k)在没有话音信号存在的时间段期间计算。
15.根据权利要求12-14任一所述的方法，其中观察概率在使用统计模型检测和校正有噪声二进掩模中的错误之前仅基于噪声信号的记录进行计算。
16.根据权利要求1-15任一所述的方法，其中目标二进掩模TBMest从下述公式进行估计
17.根据权利要求1-16任一所述的方法，其中无噪声二进掩模的估计使用Viterbi算法从有噪声二进掩模确定为最可能的状态序列，状态由表示在多个时间点在预定的多个离散频率下二进域中的目标信号的向量构成。
18.根据权利要求17的方法，其中最可能的状态序列基于多个过去的、目前的、及未来的观察值进行计算，观察值由表示在多个时间点在预定的多个离散频率下目标信号与噪声信号的混合信号的二进向量构成。
19.根据权利要求1-18任一所述的方法，其中有噪声二进掩模表示噪声中的语音。
全文摘要
本发明涉及确定和校正有噪声二进掩模中的错误的方法，该方法包括a)提供包括声信号的功率密度的二进表示的有噪声二进掩模，声信号包括在预定的多个离散频率和多个离散时间时目标信号与噪声信号的混合信号；b)提供表示目标信号的功率密度的纯净二进掩模的统计模型；及c)使用统计模型检测和校正有噪声二进掩模中的错误。本发明具有提供备选及相对简单的、改进表示语音信号的二进掩模的估计的方式。本发明可用于例如听力仪器中的语音处理。
文档编号G10L21/02GK102005207SQ201010265189
公开日2011年4月6日申请日期2010年8月26日优先权日2009年8月26日
发明者J·B·博尔特, M·S·彼德森, U·谢姆斯申请人:奥迪康有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ｊ.Ｂ.博尔特;Ｕ.谢姆斯;Ｍ.Ｓ.彼德森
技术所有人：奥迪康有限公司
我是此专利的发明人

上一篇：基于重音突显度的英语发音质量评价方法
上一篇：基于二进时频单元的自动声音识别的制作方法