基于二进时频单元的自动声音识别的制作方法

文档序号：2830190阅读：349来源：国知局

专利名称：基于二进时频单元的自动声音识别的制作方法
技术领域：
本发明涉及声音识别，尤其涉及自动声音识别的方法和系统。此外，本发明涉及分别用于运行和存储实施自动声音识别如自动语音识别方法的软件指令的数据处理系统和计算机可读介质。本发明用在如包括自动声音识别的装置的应用中，用于装置的声音如话音控制，或用在听音装置如助听器中，用于改善语音感知。
背景技术：
语音识别已在多种装备中涉及并使用多种途径和方法用于多种不同的目的。本申请涉及时频掩蔽的概念，其已用于在混合听觉环境中使语音与噪声分开。该领域的评论及其用于助听器的潜力在[Wang，2008]中提供。US 2008/0183471 Al描述了一种识别语音的方法，包括提供多个所存储音素的培训数据库并基于奇异值分解将每一音素变换为正交形式。接收的音频语音信号分为单个音素并基于奇异值分解变换为正交形式。所接收的变换后的音素与所存储的变换后的音素比较以确定哪些所存储的音素最接近地对应于所接收的音素。[Srinivasan et al.，2005]描述了用于音素恢复的模型。该模型的输入为具有包含掩蔽音素的词的掩蔽说话，所使用的掩蔽器例如为宽带声源。掩蔽音素转换为声谱图及该声谱图的二进掩模以识别可靠的部分(即主要包含语音能量的时频单元)，(否则)产生不可靠的部分。二进掩模用于将声谱图分为纯净部分和有噪声部分。识别基于词级模板及隐Markov模型(HMM)计算。

发明内容
最近已发现，提供比较纯净语音信号和语音形式的噪声估计的二进掩模包含足够的关于语音可懂度的信息。在现实世界应用中，只有二进掩模的估计量可用。然而，如果估计的掩模被识别为某一语音元素，如词或音素，估计的掩模(模式)(如语音元素的能量的增益或其它表示) 可进行修改以更像所估计的语音元素如音素的模式。藉此可增加语音可懂度和语音质量。本申请描述一种方法或声音识别系统，其中声音识别培训数据基于二进掩模，即指示高能时间和频率区域的二进时频单元。在本说明书中，术语“掩蔽”意为“加权”或“滤波”，不应与其在心理声学领域的含义(“阻塞”或“堵塞”)混淆。已知语音的词可由有限数量的不同声音元素如音素如30-50个元素组成。每一声音元素可由模型(如统计模型)或模板表示。必要的有限数量的模型可保存在相当小的存储器中，因此根据本发明的语音识别系统可用于低功率、小尺寸、便携装置如通信装置中，例如听音装置如助听器。本发明的目标在于提供自动识别声音如人类语音的备选方案。
3
方法。本发明的目标由自动声音识别方法实现，该方法包括_提供包括多个模型的培训数据库，每一模型表示下述形式的声音元素■包括二进时频(TF)单元的二进掩模，二进时频单元指示所涉及声音元素的高能时间和频率区域；或■从二进掩模提取的特性特征或统计量；-提供包括输入声音元素的输入信号；-基于培训数据库的模型估计输入声音元素以提供输出声音元素。本发明方法具有相对简单及适应所涉及应用的优点。术语“估计输入声音元素”指试图在有限数量的已知声音元素之中确定(识别) 输入声音元素的过程。术语“估计”意图指示前述过程中因已知声音元素的非精确表示引起的元素不准确度(已知声音元素可以多种方式表示，没有哪一种可称为“唯一正确的方式”)。如果成功，则声音元素得以识别。在实施例中，表示声音元素的一组培训数据通过将声音元素转换为(如使用输入变换器如传声器)电输入信号进行提供。在实施例中，(模拟)电输入信号以采样频率之进行采样(如通过模数(AD)转换器)以提供数字化电输入信号，其包括输入信号(振幅) 在连续时间点tn = n*(l/fs)的数字时间样本sn，η = 1，2，...。因此，样本的持续时间由 Ts = l/fs 给出。优选地，输入变换器包括传声器系统，该传声器系统包括多个用于分离环境中的声源的传声器。在实施例中，数字化电输入信号按时频表示提供，其中信号的时间表示对构成处理所考虑的频率范围(从最小频率fmin到最大频率fmax，例如从IOHz到20kHz如从20Hz到 12kHz)的每一频带均存在。这样的表示可通过滤波器组实现。在实施例中，电输入信号的多个连续样本Sn安排成时间帧FmOii= 1,2, ···)，每一时间帧包括预定数量Nds的、对应于帧时间长度L = Nds/fs, = Nds · Ts的数字时间样本 SndsOidS = 1,2, ..., Nds)，每一时间样本包括信号振幅在给定采样时间tn(或η)的数字化值sn(或s[n])。作为备选，例如根据预定方案，时间帧Fm的长度可不同。在实施例中，相继的时间帧(Fm，Fm+1)具有预定的数字时间样本重叠。总的来说，该重叠可包括> 1的任何数量的样本。在实施例中，从一帧Fn^lj下一帧Fm+1，帧的Q个样本的四分之一或一半同样。在实施例中，提供每一帧中的信号(m)的频谱。在给定时间(m)的频谱由跨所考虑频率范围的多个时频单元(P = 1,2, ...,P)表示。时频单元TF (m，ρ)包括信号在特定时间(m)和频率(ρ)单元中的(通常复)值。在实施例中，只考虑信号的实数部分(量值，
TF (m, p) I)，而忽视虚数部分(相位，Arg (TF (m, ρ)))。时间到时频的变换可通过傅立叶变换算法进行，例如快速傅立叶变换(FFT)算法。在实施例中，传声器系统的DIR单元适于检测特定时频区或TF单元源自空间上不同方向的哪一方向。这可以多种不同的方式实现，如US 5，473，701或EP 1 005 783中描述的方式。EP 1 005 783涉及通过比较不同的波束成形器模式而估计基于方向的时频增益。两个传声器之间的时间延迟可用于确定音频信号的频率加权(滤波)。在实施例中，空
4间上不同的方向自适应确定，例如参见US 5，473，701或EP 1 579 728B1。在根据本发明的语音识别系统中，二进培训数据(包括不同语音元素的模型或模板)可通过将来自不同人(例如包括不同的男人和/或女人)讲出来的音素、词或整句的一组培训(纯净语音)时频单元(TF单元，TF(f, t)，f为频率，t为时间)与类似变换为时频单元的语音形式的噪声单元比较例如参见下面的等式(2)而进行估计(或类似地，与每一频带中的固定阈值比较，例如参见下面的等式(1)；理想情形下，固定阈值应与每一频带中的目标语音信号的长期能量估计量成正比)。当多个不同的男人和女人(例如具有不同的年龄和/或基频)讲话时，记录基本语音元素(如音素)。对同一基本语音元素的多个版本求平均或进行处理以提取所涉及语音元素的特性从而提供该语音元素的模型或模板。对其它基本语音元素执行相同的处理以对每一基本语音元素提供模型或模板。培训数据库可进行组织以包括与将要识别的二进掩模类似的二进掩模(对频率)的矢量。比较应在一阈值范围进行，其中阈值跨产生所有0二进掩模到产生所有1二进掩模的区域。前述比较的例子由下面的二进掩模BM(f，t)的表达式(固定阈值)给出
权利要求
自动声音识别方法，包括提供包括多个模型的培训数据库，每一模型表示下述形式的声音元素■包括二进时频单元的二进掩模，二进时频单元指示所涉及声音元素的高能时间和频率区域；或■从二进掩模提取的特性特征或统计量；提供包括输入声音元素的输入信号；基于培训数据库的模型估计输入声音元素以提供输出声音元素。
2.根据权利要求1的方法，包括提供表示输入声音元素的下述形式的输入数据集 -指示所涉及声音元素的高能时间和频率区域的二进时频单元；或-从二进掩模提取的特性特征。
3.根据权利要求2的方法，包括通过将表示输入声音元素的输入数据集与培训数据库的多个模型进行比较而估计输入声音元素，从而根据预定判据确定最相似的培训声音元素以提供估计输入声音元素的输出声音元素。
4.根据权利要求1-3任一所述的方法，包括提供输出声音元素的二进掩模。
5.根据权利要求2或3的方法，包括通过根据所确定的培训声音元素和预定判据修改每一相应输入声音元素的二进掩模而提供输出声音元素的二进掩模。
6.根据权利要求1-5任一所述的方法，包括将输出声音元素组合为输出信号。
7.根据权利要求4-6任一所述的方法，包括_将每一输出声音元素的二进掩模转换为对应的增益模式； -将所述增益模式应用于输入信号从而提供输出信号。
8.根据权利要求6或7的方法，包括将输出信号呈现给用户。
9.根据权利要求1-8任一所述的方法，其中基于所确定的输出声音元素的行动包括控制一装置的功能。
10.根据权利要求1-9任一所述的方法，其中声音元素包括语音元素。
11.根据权利要求10的方法，其中语音元素选自下组音素、音节、词、形成句子或句子的一部分的多个词、及其组合。
12.根据权利要求1-11任一所述的方法，其中产生对应于最常预期的声音元素的二进掩模模式码本并用于估计输入声音元素，所述码本包括少于50个的元素。
13.自动声音识别系统，包括-包括培训数据库的存储器，培训数据库包括多个模型，每一模型表示下述形式的声音元素■包括二进时频单元的二进掩模，二进时频单元指示所涉及声音元素的高能时间和频率区域；或■从二进掩模提取的特性特征或统计量； -输入装置，提供包括输入声音元素的输入信号；及-处理单元，适于基于输入信号和存储器中保存的培训数据库的模型估计输入声音元素以提供输出声音元素。
全文摘要
本发明公开了一种自动声音识别方法，包括提供包括多个模型的培训数据库，每一模型表示下述形式的声音元素包括二进时频单元的二进掩模，二进时频单元指示所涉及声音元素的高能时间和频率区域；或从二进掩模提取的特性特征或统计量；提供包括输入声音元素的输入信号；基于培训数据库的模型估计输入声音元素以提供输出声音元素。本发明具有相对简单及可适应所涉及应用的优点。本发明可用在包括自动声音识别如装置的声音控制的装置中或用在听音装置如助听器中以改善语音可懂度。
文档编号G10L15/06GK101996630SQ20101026263
公开日2011年3月30日申请日期2010年8月24日优先权日2009年8月24日
发明者M·S·彼德森申请人:奥迪康有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ｍ.Ｓ.彼德森
技术所有人：奥迪康有限公司
我是此专利的发明人

上一篇：校正二进掩模中的错误的方法
上一篇：基于分数傅里叶变换的二维维纳滤波的取证语音增强方法