基于二进时频单元的自动声音识别的制作方法

文档序号:2830190阅读:349来源:国知局
专利名称:基于二进时频单元的自动声音识别的制作方法
技术领域
本发明涉及声音识别,尤其涉及自动声音识别的方法和系统。此外,本发明涉及分别用于运行和存储实施自动声音识别如自动语音识别方法的 软件指令的数据处理系统和计算机可读介质。本发明用在如包括自动声音识别的装置的应用中,用于装置的声音如话音控制, 或用在听音装置如助听器中,用于改善语音感知。
背景技术
语音识别已在多种装备中涉及并使用多种途径和方法用于多种不同的目的。本申 请涉及时频掩蔽的概念,其已用于在混合听觉环境中使语音与噪声分开。该领域的评论及 其用于助听器的潜力在[Wang,2008]中提供。US 2008/0183471 Al描述了一种识别语音的方法,包括提供多个所存储音素的培 训数据库并基于奇异值分解将每一音素变换为正交形式。接收的音频语音信号分为单个音 素并基于奇异值分解变换为正交形式。所接收的变换后的音素与所存储的变换后的音素比 较以确定哪些所存储的音素最接近地对应于所接收的音素。[Srinivasan et al.,2005]描述了用于音素恢复的模型。该模型的输入为具有包 含掩蔽音素的词的掩蔽说话,所使用的掩蔽器例如为宽带声源。掩蔽音素转换为声谱图及 该声谱图的二进掩模以识别可靠的部分(即主要包含语音能量的时频单元),(否则)产生 不可靠的部分。二进掩模用于将声谱图分为纯净部分和有噪声部分。识别基于词级模板及 隐Markov模型(HMM)计算。

发明内容
最近已发现,提供比较纯净语音信号和语音形式的噪声估计的二进掩模包含足 够的关于语音可懂度的信息。在现实世界应用中,只有二进掩模的估计量可用。然而,如果估计的掩模被识别为 某一语音元素,如词或音素,估计的掩模(模式)(如语音元素的能量的增益或其它表示) 可进行修改以更像所估计的语音元素如音素的模式。藉此可增加语音可懂度和语音质量。本申请描述一种方法或声音识别系统,其中声音识别培训数据基于二进掩模,即 指示高能时间和频率区域的二进时频单元。在本说明书中,术语“掩蔽”意为“加权”或“滤波”,不应与其在心理声学领域的含 义(“阻塞”或“堵塞”)混淆。已知语音的词可由有限数量的不同声音元素如音素如30-50个元素组成。每一声 音元素可由模型(如统计模型)或模板表示。必要的有限数量的模型可保存在相当小的存 储器中,因此根据本发明的语音识别系统可用于低功率、小尺寸、便携装置如通信装置中, 例如听音装置如助听器。本发明的目标在于提供自动识别声音如人类语音的备选方案。
3
方法。本发明的目标由自动声音识别方法实现,该方法包括_提供包括多个模型的培训数据库,每一模型表示下述形式的声音元素■包括二进时频(TF)单元的二进掩模,二进时频单元指示所涉及声音元素的高 能时间和频率区域;或■从二进掩模提取的特性特征或统计量;-提供包括输入声音元素的输入信号;-基于培训数据库的模型估计输入声音元素以提供输出声音元素。本发明方法具有相对简单及适应所涉及应用的优点。术语“估计输入声音元素”指试图在有限数量的已知声音元素之中确定(识别) 输入声音元素的过程。术语“估计”意图指示前述过程中因已知声音元素的非精确表示引 起的元素不准确度(已知声音元素可以多种方式表示,没有哪一种可称为“唯一正确的方 式”)。如果成功,则声音元素得以识别。在实施例中,表示声音元素的一组培训数据通过将声音元素转换为(如使用输入 变换器如传声器)电输入信号进行提供。在实施例中,(模拟)电输入信号以采样频率之 进行采样(如通过模数(AD)转换器)以提供数字化电输入信号,其包括输入信号(振幅) 在连续时间点tn = n*(l/fs)的数字时间样本sn,η = 1,2,...。因此,样本的持续时间由 Ts = l/fs 给出。优选地,输入变换器包括传声器系统,该传声器系统包括多个用于分离环境中的 声源的传声器。在实施例中,数字化电输入信号按时频表示提供,其中信号的时间表示对构成处 理所考虑的频率范围(从最小频率fmin到最大频率fmax,例如从IOHz到20kHz如从20Hz到 12kHz)的每一频带均存在。这样的表示可通过滤波器组实现。在实施例中,电输入信号的多个连续样本Sn安排成时间帧FmOii= 1,2, ···),每 一时间帧包括预定数量Nds的、对应于帧时间长度L = Nds/fs, = Nds · Ts的数字时间样本 SndsOidS = 1,2, ..., Nds),每一时间样本包括信号振幅在给定采样时间tn(或η)的数字化 值sn(或s[n])。作为备选,例如根据预定方案,时间帧Fm的长度可不同。在实施例中,相继的时间帧(Fm,Fm+1)具有预定的数字时间样本重叠。总的来说, 该重叠可包括> 1的任何数量的样本。在实施例中,从一帧Fn^lj下一帧Fm+1,帧的Q个样本 的四分之一或一半同样。在实施例中,提供每一帧中的信号(m)的频谱。在给定时间(m)的频谱由跨所考 虑频率范围的多个时频单元(P = 1,2, ...,P)表示。时频单元TF (m,ρ)包括信号在特定 时间(m)和频率(ρ)单元中的(通常复)值。在实施例中,只考虑信号的实数部分(量值,
TF (m, p) I),而忽视虚数部分(相位,Arg (TF (m, ρ)))。时间到时频的变换可通过傅立叶变 换算法进行,例如快速傅立叶变换(FFT)算法。在实施例中,传声器系统的DIR单元适于检测特定时频区或TF单元源自空间上不 同方向的哪一方向。这可以多种不同的方式实现,如US 5,473,701或EP 1 005 783中描 述的方式。EP 1 005 783涉及通过比较不同的波束成形器模式而估计基于方向的时频增 益。两个传声器之间的时间延迟可用于确定音频信号的频率加权(滤波)。在实施例中,空
4间上不同的方向自适应确定,例如参见US 5,473,701或EP 1 579 728B1。在根据本发明的语音识别系统中,二进培训数据(包括不同语音元素的模型或模 板)可通过将来自不同人(例如包括不同的男人和/或女人)讲出来的音素、词或整句的 一组培训(纯净语音)时频单元(TF单元,TF(f, t),f为频率,t为时间)与类似变换为时 频单元的语音形式的噪声单元比较例如参见下面的等式(2)而进行估计(或类似地,与每 一频带中的固定阈值比较,例如参见下面的等式(1);理想情形下,固定阈值应与每一频带 中的目标语音信号的长期能量估计量成正比)。当多个不同的男人和女人(例如具有不同 的年龄和/或基频)讲话时,记录基本语音元素(如音素)。对同一基本语音元素的多个版 本求平均或进行处理以提取所涉及语音元素的特性从而提供该语音元素的模型或模板。对 其它基本语音元素执行相同的处理以对每一基本语音元素提供模型或模板。培训数据库可 进行组织以包括与将要识别的二进掩模类似的二进掩模(对频率)的矢量。比较应在一阈 值范围进行,其中阈值跨产生所有0二进掩模到产生所有1二进掩模的区域。前述比较的 例子由下面的二进掩模BM(f,t)的表达式(固定阈值)给出
权利要求
自动声音识别方法,包括 提供包括多个模型的培训数据库,每一模型表示下述形式的声音元素■包括二进时频单元的二进掩模,二进时频单元指示所涉及声音元素的高能时间和频率区域;或■从二进掩模提取的特性特征或统计量; 提供包括输入声音元素的输入信号; 基于培训数据库的模型估计输入声音元素以提供输出声音元素。
2.根据权利要求1的方法,包括提供表示输入声音元素的下述形式的输入数据集 -指示所涉及声音元素的高能时间和频率区域的二进时频单元;或-从二进掩模提取的特性特征。
3.根据权利要求2的方法,包括通过将表示输入声音元素的输入数据集与培训数据库 的多个模型进行比较而估计输入声音元素,从而根据预定判据确定最相似的培训声音元素 以提供估计输入声音元素的输出声音元素。
4.根据权利要求1-3任一所述的方法,包括提供输出声音元素的二进掩模。
5.根据权利要求2或3的方法,包括通过根据所确定的培训声音元素和预定判据修改 每一相应输入声音元素的二进掩模而提供输出声音元素的二进掩模。
6.根据权利要求1-5任一所述的方法,包括将输出声音元素组合为输出信号。
7.根据权利要求4-6任一所述的方法,包括_将每一输出声音元素的二进掩模转换为对应的增益模式; -将所述增益模式应用于输入信号从而提供输出信号。
8.根据权利要求6或7的方法,包括将输出信号呈现给用户。
9.根据权利要求1-8任一所述的方法,其中基于所确定的输出声音元素的行动包括控 制一装置的功能。
10.根据权利要求1-9任一所述的方法,其中声音元素包括语音元素。
11.根据权利要求10的方法,其中语音元素选自下组音素、音节、词、形成句子或句子 的一部分的多个词、及其组合。
12.根据权利要求1-11任一所述的方法,其中产生对应于最常预期的声音元素的二进 掩模模式码本并用于估计输入声音元素,所述码本包括少于50个的元素。
13.自动声音识别系统,包括-包括培训数据库的存储器,培训数据库包括多个模型,每一模型表示下述形式的声音 元素■包括二进时频单元的二进掩模,二进时频单元指示所涉及声音元素的高能时间和频 率区域;或■从二进掩模提取的特性特征或统计量; -输入装置,提供包括输入声音元素的输入信号;及-处理单元,适于基于输入信号和存储器中保存的培训数据库的模型估计输入声音元 素以提供输出声音元素。
全文摘要
本发明公开了一种自动声音识别方法,包括提供包括多个模型的培训数据库,每一模型表示下述形式的声音元素包括二进时频单元的二进掩模,二进时频单元指示所涉及声音元素的高能时间和频率区域;或从二进掩模提取的特性特征或统计量;提供包括输入声音元素的输入信号;基于培训数据库的模型估计输入声音元素以提供输出声音元素。本发明具有相对简单及可适应所涉及应用的优点。本发明可用在包括自动声音识别如装置的声音控制的装置中或用在听音装置如助听器中以改善语音可懂度。
文档编号G10L15/06GK101996630SQ20101026263
公开日2011年3月30日 申请日期2010年8月24日 优先权日2009年8月24日
发明者M·S·彼德森 申请人:奥迪康有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1