语音识别方法和通信设备的制作方法

文档序号:2834632阅读:385来源:国知局
专利名称:语音识别方法和通信设备的制作方法
技术领域
本发明涉及一种语音识别方法以及一种通信装置,特别是带有一个语音识别装置的移动电话或者一个便携计算机。
通信设备,例如移动电话或者便携计算机在近十年经历了不断的小型化,以方便路途中的使用。在带来更好的便携性的同时,不断地小型化在另一个方面引起操作舒适性上的显著的问题。由于与早期的通信设备相比较小的外壳表面,不再可能在外壳表面上设置与设备功能范围对应的数量的按键。
因为增加了按键的多重占用也对操作舒适性不利,高值的通信设备具有语音控制的可能性。这以通信设备中的语音识别可能性为前提。
因此,一些通信设备提供一种讲话者相关的语音控制。如在公知的简短拨号那样,在语音控制时使用者为此输入命令词,例如“拨号”、“电话号薄”、“求救信号”、“拒收”、 “接收”。与这样命令词关联的电话应用可以由使用者直接地以对应的方式使用,不必他自己为此事先用这些词组训练所述系统。
针对这种讲话者相关的语音识别,把构成语音识别系统使用者圈子的代表性概要的词库的语音样本收集在一个数据库中。为了确保存在所述的代表性概要,在选择人员时要注意各种方言、不同的年龄段和性别。借助于一种所谓的“群集方法”,例如一种互动的算法,把类似的语音样本汇集成组或者说汇集成所谓的群。给所述组或群配属相应的一个音位、一个音位群或者有可能地配属一个完整的词。从而在每一个组或者说每一个群中存在多个音位、音位群或者说还有的一个完整的词的对应模型向量的代表。以此方式通过较少的代表囊括多个不同的人员的讲话方式。
尽管这种在工厂方预定的命令词词汇并且有可能还有姓名对于使用者是很舒适的,但是却不取代一种使用者专用适配,例如输入新的命令。这尤其在姓名拨号情况下如此,这种情况一种特别的语音控制,其中通过姓名的语音拨出某一号码。因此,高端设备除了提供讲话者无关的语音控制以外还附加地提供讲话者相关的语音控制。
一个讲话者相关的语音控制系统是对相应的使用者优化的,因为在第一次使用前是用使用者的语音对之进行训练。在此,人们称之为“悄悄告诉”的或者说“讲入”或者训练。它用作制定由至少一个特征向量组成的一个特征向量序列。
一个其中结合使用讲话者相关的和讲话者无关的语音识别的这样一个系统在

图1中示出其在工作中,也就是说在进行语音识别时。在一个特征提取FE的方框中把语音信号SS在时间上划分成时帧或者说帧F(成帧)并且送交预处理PP。一个时帧可以与一个音素吻合也可以具有多个音素。同样地可以一个音素位先由时帧构成。在预处理PP的方框中把它送交傅立叶变换。
该变换以及其它预处理步骤的结果是一个特征向量F_IS,所述特征向量F_IS借助于一种线性甄别分析LDA-L(linear DiscriminateAnalysis)经降低维数(dimension),从而出现一个降低维数的特征向量F_S。因为是语音特定地进行维数降低,所以由此产生的维数降低的特征向量也是语音特定的。从该维数降低的特征向量出发,在一个单语语音源HMM-L的基础上进行一种讲话者相关的语音识别HMM-SI。作为可供选择的技术方案从特征向量F-IS着手进行一个讲话者相关的语音识别SD。
对于讲话者无关的语音识别HMM-SI计算所涉及的维数降低的特征向量F-S与存在于所述语音源HMM-L中的模型向量之间的间距D。在该间距计算的基础上,在工作中进行对一个模型向量配属的确定,或者说一个特征向量序列对一个模型向量序列配属的确定。有关允许的模型向量序列的信息存在于在工厂方制定的或者说制造商方制定的讲话者相关词汇VOC-SI-L中。在例如采用一种格构算法(Trellis-Algorithmus)进行的一种检索S中从间距计算着手在词汇VOC-SI-L的辅助下确定适当的配属或者说模型向量的序列。在检索时,作为结果R得出一个配属给模型向量的命令词。
附加地设置的讲话者相关的例如可以在“动态时间卷积”(动态时域卷积)DTM的基础上或者在神经网络的基础上进行,也就是基于相干的方法或者是模式比较方法,或者其它的领域内普通技术人员公知的措施。
在此缺点是,图1中所示的系统不能够混合讲话者相关的和讲话者无关的语音识别,就是说,必须在语音识别以前知道进行讲话者相关的语音识别还是讲话者无关的语音识别。
为了能够进行这种混合,有人提出进行讲话者无关的语音识别HMM-SI时还完成讲话者相关的词汇VOC-SD-L1。这在图2中在这样一个系统的训练或者悄悄告诉的方框中示出。在图2中在图1中已经出现的方法步骤的对象用相同的标号指代。
在此,从维数降低的特征向量F_S出发对存在于一个语音资源HHM-L1中的模型向量进行间距计算D。进行这种对一个指数或者说对一个配属信息的间距的换算。在此情况下,所述配属信息还表示讲话者相关的词汇VOC-SD-L1。
在图3中示出图2的训练情况下的系统在工作中,也就是说在进行语音识别时。在此相同的对象或者方法步骤还是用相同的标号指代。
因为这种讲话者相关的词汇也在语音资源HMM-L1的基础上产生,也就是说通过对存在于其中的模型向量的间距计算D产生,所以可以在图3中所示的系统中把讲话者相关的词汇VOC-SD-L1与讲话者无关的词汇混合成语音L1,由此消除在图1所示系统中出现的混合的问题。
在此的缺点是,这时所述系统在采用语音资源HMM-L1的基础上产生词汇是语音相关的,因为语音资源HMM-L1代表一定的语音或者语音环境,涉及配属信号存储。
鉴于这种现有技术,本发明的任务是,创建消除所述系统的缺点的该方法可选择的技术方案。特别地,本发明的任务是提出一种语音识别方法或者说一种带有一个语音识别装置的通信设备,其中可以使用者友好地结合地使用讲话者相关的和讲话者无关的语音控制。
该任务通过独立权利要求1所述的方法和根据权利要求11所述的通信设备解决。本发明的扩展是从属权利要求的主题。
一个语音信号,也就是例如一个词或者一个句,由至少一个声学单元组成。声学单元可以理解为一个或者多个音节、音位、一组音位、词段,或者在一个语句的情况下理解为一个词。这种语音信号首先按时间段分解。
在每个时间段中的语音信号都可以通过一个特征向量描述。
因为一般有意义的单元,就是说例如控制指令或者说命令词主要通过语音帧的相互排列出现,所以首先构成一个特征向量序列。在此在所述序列中也可以只有一个特征向量。一般地在所述特征向量序列中的特征向量的数量也可以由例如控制指令的长度决定,或者还可以由时间段或者说时帧的长度决定。
这时给一个模型向量序列配属特征向量序列。例如,如前序部分所述,为了进行语音识别借助于模型向量模拟一个语音的有意义的单元。一定量的模型向量包含在一个语音资源中,这就是,例如用所述模型向量表达一定的语音以达到语音识别的目的。同样地,一个语音资源还可以产生一个确定的环境中,例如在汽车中的一定的语音的表达或者说“工作模式”。例如通过环境确定环境声强。
为了用一定的语音资源进行语音识别,例如通过悄悄告诉或者说训练,对一个模型向量序列存储一个特征向量序列的配属或者说配属信息。所述存储例如在一个所谓的词汇中进行。
在采用一个语音资源的条件下借助于模型向量序列进行语音识别。一个语音资源除了包含一组模型向量以外还至少包含两个模型向量之间的过渡概率。
这样本发明的核心就是存储特征向量本身而不是仅存储特征向量对一个模型向量的序列的配属。
这样的优点是,在转换语音资源时,就是说例如在转换成另一种语音时不必重新录取由之构成所述特征向量序列的语音信号。在并列地使用讲话者相关的和讲话者无关的系统时这也是可能的。
为了降低所要求的存储位置可以在把特征向量配序列属给一个模型向量序列时在其维数方面降低特征向量序列。这种降低的优点是,可以按降低了的维数存储模型向量本身,因而对于语音资源要求较少的存储位置。重要的是,特征向量或者说特征向量序列的维数降低只在配属的范畴内进行,同时还保留特征向量或者说特征向量序列的不降低的表达。
优选地,可以在转换特征向量序列的语音资源时直接地把一个模型向量序列配属到另一个语音资源中。
作为基础的语音资源特别地可以在采用一种所谓的海登-马尔可夫模型(Hidden-Markov-ModelHMM)的条件下产生,其中对于每个声学单元,例如一个音位,例如在构成一个词时把对下一个单元的过渡概率作为基础。HMM的优点是它可以在进行讲话者无关的识别情况下良好地利用,从而附加于讲话者相关的指令可以预设一个不必由使用者自己去训练的较宽的词组。
在把一个这样的讲话者相关的语音识别与一个讲话者无关的语音识别结合时还可以得出特别的优点。在存储的讲话者相关和讲话者无关的特征向量的序列的基础上,还可以进行特征向量序列与模型向量序列之间的一种配属。所述配属可以与例如在讲话者无关的语音识别的范围内已经对使用者预先设置的其它配属共同存在。这就是说,所述语音识别涉及共同的配属量或者说共同的“词汇”,从而不在不同的语音识别之间切换。
这样特别的优点是,不必事先知道是涉及讲话者无关的语音指令还是讲话者相关的语音指令,因为例如使用了与之相关的语音识别。
一个适用的通信设备具有至少一个用之采集语音信号的麦克风、一个用之处理语音信号的处理器单元,处理语音信号也就是例如分解成时帧或者对一个时帧提取特征向量。此外,有一个存储器单元用于存储处理过的语音信号以及至少一个语音资源。为了语音识别本身麦克风、存储器单元和语音识别单元协同工作。
下面参照附图中所示的实施例详细地说明本发明的其它优点,其中图1示出根据现有技术的结合的讲话者相关的和讲话者无关的语音识别的过程,其中不能够混合讲话者相关的和讲话者无关的语音识别;图2示出根据现有技术在一个带有一个语音资源HMM-L1的系统中一个训练或者说“悄悄告诉”的流程。所制定的词汇VOC-SD-L1是讲话者相关并且语音相关的语音识别,并且可以在讲话者相关的和讲话者无关的语音识别的结合(未示出)中使用;图3示出图2所示的系统在工作中,就是说在进行语音识别时,其中实现讲话者相关的和讲话者无关的语音识别的结合,其中可以混合两种技术,但是却是语音相关的;图4示出在一个根据本发明的实施方式中的一种训练或者说“悄悄告诉”的流程;
图5示出根据本发明的一个实施方式在从根据图4产生的使用者专用的词汇的语音资源从一个第一语音资源L1向一个第二语音资源L2的资源转换时没有使用者进行的代码转换的互动的代码转换流程图;图6示出图4和图5中所示的实施方式在工作中;图7示出在时间上划分和预处理语音信号范围内各个步骤的流程;图8示出用于实施一种语音识别方法的通信设备;为了加强理解,首先要说明一些基本概念。每个语音可以划分成对相应的语音特定的音位。音位是声音的组件或者还有意义区别的声音。例如一个元音就是一个这样的音位。然而一个音位还还可以由多个字母组成并且对应一个单个的声音,例如“scn”或者“ch”、由于在拼写与发音之间的差别在此不能够自动地把字母等同于音位、在德语中例如字母“a”可以读成长元音,如在单词“Hase”中那样,也可以读成短元音,如在单词“Hass”中那样。在此尽管涉及相同的字母,却涉及不同的音位。由于不同的发音,不能够把一个语音中的一个音位与另一个语音中的音位自动地等同。
下面说明一种在音位基语音识别的基础上的语音识别的原理流程。
如前面已经说明,还有不以音位为基础而是大致地以词或者词段为基础的语音识别。
在基于音位的语音识别中,这时为了分析所涉及的数据流把语音信号划分到短的时间窗,即所谓的时帧中,所述时帧例如有10或者20毫秒的长度。接着专一地计算或者说提取对于解释说话所需要的那些要素。从而语音识别滤除那些关于讲话者的音调、其性别、语速、音域和背景噪音中的起伏的信息。这主要地起减少在语音识别时出现的数据量,因为在语音识别时出现的数据量大到一般地不能够实时地处理,特别是不能够由在通信设备中的那样的小型计算单元实时地处理。
从如此提取的语音信号或者说声音信号中产生一种按频率分解语音信号的傅立叶变换。通过把所述傅立叶变换与只在有限的时窗中有等于零的值的至少一个在一定的情况下多个可能的窗口函数相联结,达到语音信号的对比度的提高和或语音信号的噪音的降低。作为结果,得到一系列表达语音信号的时间过程的特征向量或转录。
单个的特征向量可以划分为特征向量的不同等级。特征向量的等级分别包含类似特征向量的组。通过把特征向量划分为各个特征向量等级可以标识语音信号,就是说语音信号存在于一个声音的译文(Umschrift)中。如果向特征向量的等级配属关于哪个音素(Laut)由所涉特征向量等级代表的信息,该语音的译文就可以指定一个意义内容。
特征向量的等级本身不能够单独地给出关于正好发出什么音素的信息。为了让特征向量的等级重现哪个音素的信息,需要录取语音,从之向特征向量的等级配属各个音素或音位、音位群集或者完整的词。也可以称之为一个音位段的一个音位集群同时把多个单个的音位汇集成一个单元。由此同样可以减少全部在语音识别时要处理的数据量。
在语音识别中至此所述的步骤主要起数据减少和数据整理的作用。现在进行向意义内容或者说文本的转换。在此一个识别程序产生概率最大的词链。作为这种概念的计算基础,当今多数语音识别装置采用用一种所谓“海登-马尔可夫模型”或者说HMM产生的语音资源。这种模型应当克服单个讲话者以不同地长度地发出词或者单个音节发音甚至连读的困难。这样一种时间上的失真不能够用函数准确地表达,因此在此采用尽管其有多种发音可能性也能够识别词的模型。简而言之用一种所谓的“正向-反向算法”计算单个音位之间的过渡概率。然后得出什么状态,也就是说什么音位的系列概率最大。
在厂方或者说制造商方产生一种语音资源,也就是一群用之可以表达一定的语音的向量。此外在一个语音资源中确定单个模型向量之间的过渡概率,从而例如可以构成一个语音中的词。
下面参照附图详细地说明刚才泛泛地描述的语音识别。为此参见图4,在此图中示意地示出根据本发明的一个安排的一种“悄悄告诉”或者说训练。相同的特征或者方法步骤用图1、2、3中相同的附图标记指代。
一个语音信号SS首先经受一个特征提取FE。一般地这种特征提取首先包含一种向时帧或者说帧F的划分(成帧),后接按帧划分了的语音信号SS的预处理。这一般地包含一个傅立叶变换。可供选择地还进行一种干扰噪音抑制或者说信道补偿。在此信道理解为从麦克风至AD转换器的通路,而补偿的是干扰噪音。所述信道可因不同的麦克风而异,在车载盒中或者在移动无线电终端设备本身中。在没的空间中所述信道也有不同的特性,因为音响效果的脉冲响应不同。
例如在确定一种特征向量的特征提取的范围内的步骤可以如图7中所示的进行在把信号划分F成时帧以后进行预处理。所述预处理可以包含以下的步骤用一种有限的脉冲响应滤波器或者说“finite impulsefilter”(FIR)滤波FI所述信号、构成所谓的“汉明窗口”以达到一种抗混淆滤波,就是说避免带来非实际得出的频率。接着进行一种快速的或者说“Fast”傅立叶变换FFT。其结果是一种功率频谱或者说“Power-Spectrum”,在此功率是频率的函数。为了适应人耳的灵敏度该功率频谱用15个三角滤波器进行一种所谓的“美(Mel)”滤波。其结果是为减少动态范围例如取对数计算的15个系数。经过一种离散的余弦变换DCT得出12个所谓的“对数倒频谱系数向量”,从而在此与取对数计算出的能量一起有13个系数。一个这样得出的向量也称为MFCC向量或者说“美滤波器对数倒频谱系数向量”。为了降低这种系数出错率进行一种所谓的德尔塔映射和德尔塔-德尔塔映射,用之得到对上一帧和再上一帧的关联。所述关联也用13个系数描述,从而在该变换链39进行完成以后有了39个系数。这39个系数表达一个特征向量的项或分量。所述的程序涉及一个优选实施例。本领域内技术人员公知各种不同的特征提取可能性,因此本文不对此加以详细说明。
下面再参见图4。该过程的结果是一种语音无关的特征向量F_IS。由至少一个语音无关的特征向量F_IS组成的序列存储在讲话者相关的、语音无关的特征向量的一个汇总或者数据库FV-SD(F_IS)中。
另一个方面,语音无关的特征向量F_IS被处理成讲话者相关的和语音相关的词汇。从而为了在所述的线性甄别分析LDA-L1时减少存储位置,用一个已经地厂方制定的专用于语音资源(L1)的LDA-矩阵进行一种矩阵乘法。
从该时间点起有了一种语音相关的特征向量F_S。与语音无关的特征向量F_IS相比,由于在维数降低时非无损的数据减少语音无关的特征向量F_IS包含较少信息内容。即不可能从讲话者相关的特征向量F_S中重新产生语音相关的特征向量F_IS。
通过乘以一个LDA矩阵产生进行一种对角化,其中可以通过选择适当的基础向量的本征系统可以降低特征向量的维数。这种LDA矩阵是语音特定的,因为基于各种语音或者语音模型的或者说语音环境的差别性也移动本征向量。它是在工厂方已经确定的。如何例如在所谓的亚音位和其它子群例如“d-音素”的基础上通过建立平均值和对应的权重确定这种矩阵是领域内普通技术人员公知的,在本文中不加详细说明。
例如在LDA乘法的范围内两个(彼此相继的)39维MFCC向量综合在一个78维的超级向量中,该78维的超级向量乘以70×24LDA矩阵。其结果是一个24维的所谓后LDA特征向量。该后LDA特征向量是语音相关的,因为LDA矩阵是语音相关的。语音资源特别地理解为一群用之可以表达一个语音的模型向量。此外,语音资源还可以表达一个一定的环境中的语音。这例如用在通信设备在汽车中的应用中,其中由于随意说话决定了有一种不同于正常谈话时的噪音电平。
下面再参见图4,其中在一种语音无关的HMM模拟HMM-SI的范围内把这种特征向量配属给首先存在的模型向量组。这种配属经过一种对模型向量的间距计算D进行,所述间距计算例如可以大致对应于一种类似模型向量的确定,其中所述模型向量存在于一个单语的HMM语音资源HMM-L中。在特征向量与模型向量之间或者说特征向量序列与模型向量序列之间的配属信息存储在一种所谓的词汇中。对语音资源L1的讲话者相关的词汇VOC-SD-L1通过对模型向量的间距计算从语音资源HMM-L1和对配属或者指数信息的间距的转换D2I中产生。
如图2和图3中所示,有别于现有技术的也就是还存储语音无关的特征向量或者说特征向量序列,通过所述语音无关的特征向量或者说特征向量序列描述一种控制指令。这具有原理上的优点在切换语音资源时不必重新进行所述悄悄告诉。
现在参见图5,然后在切换成另一个语音资源HMM-L2时可以在该语音无关的向量F_IS的基础上进行语音相关的维数降低LDA-L2。
例如使用者通过一个使用者界面从语音L1切换到一个语音L2或者在采用通信设备的车载装置(车载盒)时自动地从寂静的语音环境L1切换到一个响亮的语音环境L2。也就是说L1和L2标示一种语音或者说一种语音环境。
接着进行所谓的代码转换TC,这是一种语音相关的特征向量F_S对一种从一个语音资源得出的模型向量的配属或者说是一个语音相关的特征向量F_S的序列对一个模型向量的序列的配属。在图5中示出命令词的代码转换,所述命令词的训练在图4中示出。借助于工厂方已经制定的语音资源,离线地,也就是说不与使用者互动地,在存储于数据库FV-SD(F_IS)中的语音无关的特征向量F_IS的基础上进行所述的代码转换TC。然后,可以为每个例如在工厂方或者制造商方对之制定一个语音资源的语音制定一个配属并且从而制定一个控制指令,而没有使用者主动参与。
图5中用虚线在方框中示出时间上的划分F和预处理PP,因为与在代码转换时的训练相反不采用语音信号,并且因此不需要该单元,而在训练的同时顾及产生和存储的语音无关的特征向量F_IS。
总而言之,所述代码转换地结果是讲话者相关的词汇VOC-SD-L2,该词汇是采用所存储的语音无关特征向量在语音资源HMM-L2的基础上制定的。该讲话者相关的词汇包含了特征向量序列与模型向量序列之间的配属。
下面参见图6。在图6中示出图4的在训练时并且在图5中在代码转换时示出的语音识别系统在工作中。相同的概念还是用相同的附图标记表示。
例如选择图5中向其中进行代码转换的语音或者语音环境L2。因此例如依据语音或者语音环境L2进行维数降低。
在采用语音或者语音环境L2的语音资源HMM-L2的条件下进行间距计算D。这时在语音环境L2的图3中所示的语音无关的词汇VOC-SI-L1中的对应于讲话者无关的词汇VOC-SI-L1的讲话者无关的词汇VOC-SI-L2的基础上和讲话者相关的词汇VOC-SD-L2的基础上进行检索S。也就是与讲话者相关的词汇VOC-SD-L2同时使用工厂方制定的词汇VOC-SI-L2,而不在讲话者相关的和讲话者无关的语音识别之间进行选择。
换言之,其优点是,可以相互并存讲话者相关的和讲话者无关的词汇使得语音识别,而不需要知道是讲话者相关的还是讲话者无关的指令,这显著地提高例如综合在一起的指令的灵活性。例如在使用特征向量的条件下运行讲话者相关的语音识别时和在配属信号的基础上运行讲话者无关的语音识别时,本来要求知道进行讲话者相关的讲话者无关的命令。
最后在图8中示出适用于实施所述语音识别的一种通信设备。通信设备CD具有至少一个用之采集语音信号的麦克风M、一个用之处理语音信号的处理器单元CPU,所述语音信号处理例如分解成时帧或者对一个时帧提取特征向量。此外设有一个用于存储处理过的语音信号的存储器单元SU以及至少一个语音资源。对于语音识别本身,麦克风、存储器单元和语音识别装置SE协同工作。
附图标记列表AA 构成用于抗混淆的窗口CD 通信设备D 间距计算D2I对配属信息转换的间距或者“对指数的间距”DA 德尔塔分析DCT离散的傅立叶变换DDA德尔塔-德尔塔分析F 划分成时帧或者说(成帧)FE 特征提取FI 滤波FV-SD(F_IS)根据本发明在训练或者说“悄悄告诉”时存储的F_IS向量的数据库。
HMM-L 音素语音资源HMM-L1 语音或者语音环境L1中的语音资源HMM-L2 在语音或者语音环境L2中的语音资源HMM-SI 讲话者无关的海登马尔可夫模型LDA-L 语音或者语音环境的线性甄别分析LOG对数M 麦克风
MF 美滤波(Mel-Filterung)PP 预处理R 结果S 检索SS 语音信号SU 存储器单元TC 代码转换VOC-SD-L1 讲话者相关的配属信息或者语音或者语音环境L1中的词汇VOC-SI-L1 讲话者无关的配属信息或者说语音或者语音环境L1中的词汇VOC-SI-L2 讲话者无关的配属信息或者说语音或者语音环境L2中的词汇
权利要求
1.讲话者相关的语音识别的方法,包括以下的步骤(a)检测包含语音命令的语音信号(SS);(b)把该语音信号(SS)分解成时帧(F);(c)通过构成一个对应的特征向量(F_IS)表征每个检测的时帧中的语音信号;(d)由一个或者多个特征向量(F_IS)构成一个特征向量序列;(e)存储该特征向量序列;(f)给一个有多个模型向量的语音资源(HMM-L1)中的模型向量序列配属特征向量序列,(g)存储一种说明把特征向量序列配属给一个模型向量序列的配属信息(VOC-SD-L1);(h)识别所配属的模型向量序列的语音命令;(i)把调节了的语音资源(HMM-L1)转换成另一个语音资源(HMM-L2);(j)给该新调节的了的语音资源(HMM-L2)中的模型向量序列配属存储的特征向量序列;(k)存储该新的配属信息(VOC-SD-L2)。
2.根据权利要求1所述的方法,其中语音信号由声学单元组成。
3.根据权利要求1或2所述的方法,其中语音资源(HMM-L)以一种语音信号的声学单元的海登马尔可夫模拟为基础。
4.根据以上权利要求之一所述的方法,其中所述声学单元由一个词或者一个音位构成、
5.根据以上权利要求之一所述的方法,其中一个声学单元由词群或者同源的音位的组构成。
6.根据以上权利要求之一所述的方法,其中不同的语音资源(HMM-L1、HMM-L2)配属不同的语音或者不同的语音环境。
7.根据以上权利要求之一所述的方法,其中不同的语音环境表示不同的环境噪音状态。
8.根据以上权利要求之一所述的方法,其中在其配属一个模型向量或者一个模型向量序列以之前通过一种矩阵乘法在其维数上降低特征向量(F_IS)或者特征向量序列。
9.根据权利要求8所述的方法,其中从一种线性甄别分析或者一种原则分量分析或者一种独立分量分析中确定用于维数降低的矩阵。
10.带有根据权利要求1至9之一所述讲话者相关的语音识别和一种讲话者无关的语音识别的方法,所述讲话者无关的语音识别特别是语音相关的。
11.用于实施根据权利要求1至10之一所述方法的通信设备(CD)-带有一个用于录取一种语音信号(SS)的麦克风(MM),-带有一个用于处理语音信号(SS)的处理器单元-带有一个用于存储从语音信号(SS)中得到的数据的存储器单元(SU)-带有一个与麦克风(M)耦连的语音识别装置,所述语音识别装置被配置成用于讲话者相关的语音识别并且可供选择地用于讲话者无关的语音识别。
12.用于运行如权利要求11所述通信设备的方法,其中同时使用以讲话者相关方式和讲话者无关方式制定的词汇。
全文摘要
公开了一种讲话者相关的语音识别的方法,包括以下的步骤检测一种包含语音命令的语音信号(SS);把该语音信号(SS)分解成时帧;通过构成一个对应的特征向量(F_IS)表达每个列入的时帧中的语音信号的特征;从一个或者多个特征向量(F_IS)中构成一个特征向量序列;存储该特征向量序列;对一个有多个模型向量的语音资源(HMM-L1)中的模型向量序列配属特征向量序列,存储一种说明特征向量序列对一个模型向量序列的配属的配属信息(VOC-SD-L1);识别配属模型向量的语音命令。
文档编号G10L15/22GK1856820SQ200480027941
公开日2006年11月1日 申请日期2004年5月4日 优先权日2003年7月28日
发明者T·芬谢德特, S·施坦 申请人:西门子公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1