多模型自适应和语音识别装置及其方法

文档序号：2825126阅读：151来源：国知局

专利名称：多模型自适应和语音识别装置及其方法
技术领域：
本发明涉及一种语音识别系统，更具体地涉及一种多模型自适应和语音识别装置及其方法，借此对说话人按照特性的语音分别进行自适应并存储到基本语音模型与独立的新的多模型中，并通过利用多元自适应模型的语音识别，提供稳定的实时语音识别。
背景技术：
语音识别系统不针对每个用户分别具备模型，而是谋求具有一个非特定人模型的非特定人语音识别，以便能够识别非特定多数人的语音。由于语音识别通过基础技术即统计建模的方式来执行，因此根据说话人，识别率出现偏差，而且根据周围环境识别率也有所不同。因周围环境而识别率下降的问题，可通过使用噪音消除技术来提高识别率，但是因不同说话人的发音特性而识别率下降的问题与噪音消除技术是不同层次的问题。为解决由于不同说话人的发音特性而识别率下降的问题，已经开发并正在使用自适应技术。自适应技术可分为将用于语音识别的语音模型调整为符合当前使用的说话人发音特性的技术。自适应方法将语音识别不理想的说话人的语音自适应到语音识别系统的一个基本语音模型，最终可用一个模型来进行语音识别。而且，在进行语音识别时，提取并使用说话人发出的语音中必要的信息即特征向量(特征参数)。尤其，在语音识别系统为具有非特定人模型的非特定人式的情况下，为了识别不同说话人的语音，使用多维特征向量建立语音模型，并将其作为标准模型。图14是现有语音识别系统中根据不同说话人的自适应来表示模型的平均值变化偏差的示意图，例如表示具有10次因素的语音模型的一部分。如图所示，可用多维向量32的平均和方差来表示语音模型31。如果将说话人的语音输入到语音模型31并进行自适应，则平均和方差值相应于进行自适应的说话人的特征而移动，在一般的自适应情况下，由基本模型的平均和方差值 (32)不会发生多大变化(33)，但增加发音特别的说话人或者环境因素的情况下，由基本模型的平均和方差值发生很大变化(34)。因此，语音识别不理想的多个人依次对语音识别系统进行自适应时，起初识别率会急剧上升，但随着依次进行自适应，先进行自适应的说话人的识别率逐渐降低，而只有最后进行自适应的说话人的识别率才比较良好。

发明内容
本发明是为了解决上述问题而提出的，其目的在于，对说话人的按照特性的语音分别进行自适应并存储到基本语音模型与独立的新的多模型中，并通过选择对应于输入语音的多元自适应模型以进行语音识别，从而提供稳定的实时语音识别。本发明的另一个目的在于，组成针对每个说话人的独立的自适应模型、针对音色的独立的自适应模型、由具有相似特性的说话人组成群体的独立的自适应模型，并通过符合每个独立模型的自适应而提供稳定的实时语音识别。为达到上述目的的本发明的特征是提供一种多模型自适应装置，其包括模型模型编号选择单元，用于选择说话人为了语音自适应而指定的某一个模型；特征向量提取单元，用于从为了自适应而输入的说话人语音中提取特征向量；自适应处理单元，适用所设定的发音信息列模型和基本语音模型的标准值以对说话人的语音进行自适应之后，将结果存储到说话人指定的模型中，并对已进行自适应的模型设定标志；多元自适应模型，由多个模型组成，根据说话人的指定且按照特性进行自适应的语音存储到所述多元自适应模型中。另外，本发明的特征是提供一种语音识别装置，其包括特征向量提取单元，用于从说话人的输入语音中提取语音识别所需要的特征向量；模型确定单元；用于从多元自适应模型中依次只选择标志被设定为已进行自适应的模型；相似度计算单元；计算从说话人的语音中提取的特征向量与存储在所选模型中的自适应值的相似度，以提取具有最大相似度值的模型；语音识别单元，其通过解码来进行语音识别，所述解码适用存储于所述具有最大相似度值的模型中的自适应值与存储在通过学习而设定的模型中的值。而且，本发明的特征是提供一种多模型自适应方法，其包括以下步骤选择说话人指定的某一个模型；从说话人的输入语音中提取用于语音模型的特征向量；使用所设定的发音信息列模型和基本语音模型对所提取的特征向量进行自适应，并将结果存储在所述多个模型中说话人所指定的模型中，且设定指示为是否已进行自适应的标志。另外，本发明的特征是提供一种语音识别方法，其包括以下步骤从要求语音识别的说话人的输入语音中提取特征向量；读取设定于多元自适应模型中的标志，从而只选择已进行自适应的模型；依次比较从说话人的输入语音中提取的特征向量和通过读取标志来选择的模型，以计算自适应值的相似度；对所选全体模型完成相似度计算后，选择具有最大相似度值的一个模型，然后通过解码来进行语音识别。此外，本发明的特征是提供一种语音识别方法，其包括以下步骤从要求语音识别的说话人的输入语音中提取特征向量；读取设定于多元自适应模型的标志，从而只选择说话人识别模型；依次比较说话人输入语音的特征向量和所选的说话人识别模型，以计算自适应值的相似度；对所有说话人识别模型完成相似度计算后，选择具有最大相似度值的一个模型，然后通过解码来进行语音识别。另外，本发明的特征是提供一种语音识别方法，其包括以下步骤从要求语音识别的说话人的输入语音中提取特征向量；读取设定于多元自适应模型的标志，从而只选择音色模型；依次比较说话人输入语音的特征向量和所选音色模型，以计算自适应值的相似度；对所有音色模型完成相似度计算后，选择具有最大相似度值的一个模型，然后通过解码来进行语音识别。此外，本发明的特征是提供一种多模型自适应方法，其包括以下步骤选择说话人指定的某一个模型；从说话人的输入语音中提取用于自适应语音模型的特征向量；适用所设定的发音信息列模型和基本语音模型进行特征向量的自适应后，将结果存储在所指定的模型中，以生成自适应模型；比较在上述过程中生成的自适应模型与基本模型的相似度，并以相似度大小为对象建立二叉树。而且，本发明的特征是提供一种语音识别方法，其包括以下步骤从要求语音识别的说话人的输入语音中提取特征向量；计算基本模型与设定在所有自适应模型的指令字的子字模型(subword model)的相似度；当维特比得分(Viterbi Score)差值为一定值以上时，在以后的帧(frame)中选择维特比得分最高的模型，并通过解码来进行语音识别。此外，本发明的特征是提供一种多模型自适应方法，其包括以下步骤选择说话人指定的某一个模型；从说话人的输入语音中提取用于自适应语音模型的特征向量，并进行自适应；在进行自适应的过程中，通过动态时间规整模型学习语音指令字的时间信息中相应于关键字的时间信息的特征向量部分；将所述已进行自适应的模型和经过学习的动态时间规整模型的信息存储在上述过程中说话人指定的模型中。此外，本发明的特征是提供一种语音识别方法，其包括以下步骤从要求语音识别的说话人的输入语音中提取特征向量；适用基本语音模型进行解码；提取所述解码过程中计算的单词时间信息，判断是否为相应于关键字的单词时间信息列；如果是相应于关键字的单词时间信息列，提取相当于单词时间信息的特征向量，并计算与动态时间规整模型的相似度；选择相似度最高的模型，并通过解码来进行语音识别。此外，本发明的特征是提供一种多模型自适应装置，在语音识别系统中适用指定位置信息的多话筒，并利用波束形成技术来判断为了自适应而输入的音源位置，借以对相应的模型进行自适应。如上所述的本发明在语音识别系统的语音识别自适应过程中，不是只使用一个模型来对多个人的语音进行自适应，而是按照说话人或群组使用不同的独立模型，从而最大限度地提高自适应效果，并提供准确的语音识别率，以提高语音识别系统的可靠性，对大众化普及带来巨大的效果。

图1是表示根据本发明实施例的多模型自适应装置结构的示意图。图2是表示根据本发明实施例的语音识别装置结构的示意图。图3是表示根据本发明第一实施例的多模型自适应步骤的示意图。图4是表示根据本发明第一实施例的语音识别步骤的示意图。图5是表示根据本发明第二实施例的语音识别步骤的示意图。图6是表示根据本发明第三实施例的语音识别步骤的示意图。图7是表示根据本发明第二实施例的多模型自适应步骤的示意图。图8是表示根据本发明第二实施例的多模型自适应步骤中相似度二叉树的示意图。图9是表示根据本发明第四实施例的语音识别步骤的示意图。图10是表示根据本发明第三实施例的多模型自适应步骤的示意图。图11是表示根据本发明第五实施例的语音识别步骤的示意图。图12是表示根据本发明第六实施例的语音识别步骤的示意图。图13是表示根据本发明的第三实施例利用多话筒且按照位置进行多模型自适应的示意图。
图14是表示现有的语音识别系统中根据不同说话人的自适应而发生的模型平均值的变化偏差。图中主要部分的附图标记110:模型编号选择单元 120:特征向量提取单元130:自适应处理单元 140:发音信息列模型150:基本语音模型160:多远自适应模型
具体实施例方式下面，参照附图详细地说明本发明的优选实施例，以使所属领域的技术人员容易实施。本发明能够以各种不同方式实现，因此并不局限于下述实施例，为了明确说明本发明，图中省略了与说明无关的部分。图1是表示根据本发明实施例的多模型自适应装置结构的示意图。根据本发明的多模型自适应装置，包括模型编号选择单元110、特征向量提取单元 120、自适应处理单元130、发音信息列模型140、基本语音模型150及多元自适应模型160。所述模型编号选择单元110选择说话人为了进行语音自适应而指定的某一个语音模型，并将有关该模型的信息提供给自适应处理单元130。特征向量提取单元120从通过未图示的语音输入装置输入的说话人的语音中提取用于语音模型的特征向量(特征参数)，并提供给自适应处理单元130。当由模型编号选择单元110选择说话人指定的语音模型，并由特征向量提取单元 120从所输入的说话人的语音中提取特征向量(特征参数)并将其施加于自适应处理单元 130时，自适应处理单元130适用设定于发音信息列模型140和基本模型150中的值，对所输入的语音进行自适应之后存储到所述指定的语音模型中。在对说话人的输入语音进行自适应的过程中，所述自适应处理单元130生成说话人识别模型、由声压对时间的斜率信息建模的音色模型后予以存储。所述发音信息列模型140中存储为了对所提取的特征向量(特征参数)的发音信息列进行自适应的标准值。所述基本语音模型150中存储为了对所提取的特征向量(特征参数)的语音信息进行自适应的标准值。多元自适应模型160由两个以上的自适应模型组成，每个自适应模型160A 160N 包含针对每个说话人的自适应模型、针对音色的自适应模型、由具有相似特性的说话人组成群体的自适应模型等而构成独立的模型，在每个独立的模型中存储根据说话人的指定且按照特性进行自适应的语音。对组成所述多元自适应模型160的多个独立的自适应模型设定标志，用于指示是否已进行自适应的信息。例如，模型只要进行过一次自适应，标志会被设定为“ 1 ”，如果未进行自适应而处于初始状态，标志会被设定为“0”。图2是表示根据本发明实施例的语音识别装置结构的示意图。根据本发明的语音识别装置，包括特征向量提取单元210、模型确定单元220、相似度计算单元230、语音识别单元M0、多元自适应模型250及解码模型单元沈0。特征向量提取单元210从通过未图示的语音输入装置输入的说话人的语音中提取有利于语音识别的特征向量(特征参数)。用于语音识别的所述特征向量有LPC (线性预测倒谱，Linear PredictiveC印strum)、MFC (美尔频率倒谱，Mel Frequency C印strum)、PLP (感知线性预 illj, Perceptual Linear Predictive)等。为了针对所提取的特征向量(特征参数)进行语音识别，模型确定单元220从多元自适应模型250中依次只选择标志设定为“ 1”的自适应模型251，使之适用于相似度的计算，而对于标志设定为“0”的模型252，使之无法适用于相似度的计算。为了针对所提取的特征向量(特征参数)进行语音识别，模型确定单元220从多元自适应模型250中依次只提取标志设定为“1”的说话人识别模型，使之适用于相似度的计算。而且，为了针对所提取的特征向量(特征参数)进行语音识别，模型确定单元220 从多元自适应模型250中依次只提取标志设定为“1”的音色模型，使之适用于相似度的计
笪弁。在充分考虑量变和向变的情况下，相似度计算单元230计算从所输入的语音中提取的特征向量(特征参数)与存储在所选模型中的自适应值的相似度，并选择具有最大相似度值的自适应模型。在对音色模型的相似度计算中，所述相似度计算单元230使用声压和斜率信息。语音识别单元240通过解码来进行语音识别，并输出语音识别结果，所述解码适用具有最大相似度的自适应模型，以及经过事先的学习过程预先设定的解码模型单元260 的词典模型261、语法模型沈2。包含前述功能而构成的本发明的多模型自适应步骤如下。图3是表示根据本发明第一实施例的多模型自适应步骤的示意图。首先，拟进行语音自适应的说话人为了不让自己的自适应模型与别人的自适应模型重叠而进行区别化，利用模型编号选择单元110从多个自适应模型中选择某一个所希望的模型编号(SlOl)。于是，自适应处理单元130使对应于通过模型编号选择单元110说话人所选编号的模型进入待机模式。然后，当说话人的语音被输入610 后，特征向量提取单元120从所输入的语音中提取自适应所需要的特征向量(特征参数)(S103)，之后适用通过学习而决定并被预先设定的发音信息列模型140与基本语音模型150，对特征向量进行自适应(S104)。通过上述过程，对所输入的说话人的语音完成自适应后，将结果存储到在步骤 SlOl中说话人所指定的自适应模型中(S105)，并将指示为已进行自适应的标志设定为“1” 之后，结束自适应动作。例如，当说话人选择第一自适应模型160A并输入自己的语音后，提取特征向量，然后适用经过预先学习而决定的发音信息列模型和基本语音模型进行自适应，并将结果存储到说话人选择的第一自适应模型160A中，在该自适应模型160A中指示为已由某一个说话人进行自适应的标志被设定为“ 1 ”。
所述自适应步骤能够让说话人根据自身的特性而选择各不相同的模型以进行自适应，从而不会与其他说话人的自适应模型重叠，而提高语音识别率。图4是表示根据本发明第一实施例的语音识别步骤的示意图。当说话人的语音被输入(S201)后，特征向量提取单元210提取有利于语音识别的特征向量(特征参数)(S202)。然后，从N个的多元自适应模型250中读取设定在模型中的标志，进而依次只选择由任一个说话人进行自适应的模型，并分析是否为与所输入的语音具有相似度的模型
(5203)。S卩，在N个的自适应模型中，将标志被设定为“1”的模型251适用于和所输入的语音数据的相似度的判断上，而标志被设定为“0”的模型252是未曾进行一次自适应的初始状态，因此从相似度判断中排除。然后，判断通过读取标志而选择的模型是否为能够适用于语音识别的模型
(5204)。如果在所述步骤S204中判断所选模型无法适用于语音识别，则重复针对下一个模型进行选择及分析的过程。如果在所述步骤S204中判断所选模型能够适用于语音识别，则计算从所输入的语音中提取的特征向量与设定于模型中的数据的相似度(S205)，并判断是否已针对标志设定为“1”的所有模型依次完成数据相似度的计算(S206)。在所述步骤S206中，如果处于未对所有模型完成相似度计算的状态，则对模型进行升值计数(count up) (S207)之后，返回所述步骤S203，以对已进行自适应的所有模型依次进行相似度计算。在所述步骤S206中，如果处于对所有模型已完成相似度计算的状态，则选择具有最大相似度值的模型(S208)之后，通过适用了经过学习过程预先被设定的单词词典模型、语法信息模型的解码来进行语音识别(S209) (S210)。通过所述步骤进行语音识别后输出其结果，以进行对应于语音输入的控制 (S211)。在通常的语音识别中，依次输入N个多元自适应模型和基本模型，并计算所有模型与输入语音的相似度，因此模型的数量越多计算量也会增加而复杂。但是，本发明的第一实施例中，在寻找与输入的语音最相似的模型的过程中，由于未曾进行一次自适应的初始状态的模型标志被设定为“0”，因此对于这种模型从相似度计算中排除，而已经进行了自适应的模型标志被设定为“1”，因此只选择这种模型依次进行相似度计算，从而提高计算速度。S卩，通过读取标志只选择至少进行过一次自适应的模型，进行相似度计算，从而提高计算速度，并从基本语音模型与经过不同的自适应化过程的模型中，选择具有与所输入的语音最相似特性的模型，从而能够根据语音输入实时进行识别处理。图5是表示根据本发明第二实施例的语音识别步骤的示意图。当说话人的语音被输入(S301)后，特征向量提取单元210提取有利于语音识别的特征向量(特征参数)(S302)。然后，从基本说话人模型与N个的说话人识别模型310中读取设定在模型的标志，并只选择已进行自适应的说话人识别模型210 (S303)。S卩，在N个的说话人识别模型310中，标志被设定为“ 1，，的模型321为已进行自适应的说话人识别模型，因此将其适用于和所输入语音数据的相似度计算中，而标志被设定为“0”的模型331是未曾进行一次自适应的初始状态的说话人识别模型，因此从相似度计算中排除。在上述步骤中，当选择已进行自适应的说话人识别模型310后，计算从输入语音中提取的特征向量与设定于说话人识别模型中的数据的相似度(S304)，并判断是否已对标志被设定为“1”的所有说话人识别模型310完成相似度的计算(S305)。在所述步骤S305中，如果处于未对所有说话人识别模型310完成相似度计算的状态，则对说话人识别模型310进行升值计数之后，返回到所述步骤S303，以对已进行自适应的所有说话人识别模型依次进行相似度计算。在所述步骤S305中，如果判断为已经完成了对所有说话人识别模型310的相似度计算，则选择具有最大相似度的模型(S306)，之后通过适用经过学习过程预先被设定的单词词典模型、语法信息模型等的解码来进行语音识别(S307) (S308)。通过上述步骤进行语音识别后输出其结果，以进行对应于语音输入的控制 (S309)。如上所述，在本发明的第二实施例中，适用说话人识别模型310以取代基本模型和自适应模型，并通过读取标志只选择已进行自适应的说话人识别模型310，从而提供精确度更高的模型选择，并对所选的说话人识别模型310进行相似度计算，从而能够实现快速计算且对语音输入进行实时识别处理。图6是表示根据本发明第三实施例的语音识别步骤的示意图。当说话人的语音被输入(S401)后，特征向量提取单元210提取有利于语音识别的特征向量(特征参数)(S402)。然后，读取设定在基本音色模型和N个音色模型410的标志，进而只选择已进行自适应的音色模型410(S403)。S卩，在由N个构成的音色模型410中标志被设定为“ 1，，的模型421为已进行自适应的音色模型，因此适用于和所输入的语音数据的相似度判断上，而标志被设定为“0”的模型431为未曾进行一次自适应的初始状态的音色模型，因此从相似度判断中排除。在上述步骤中，当选择已进行自适应的音色模型410后，计算从输入语音中提取的特征向量与设定于音色模型中的数据的相似度(S404)，并判断是否已对标志被设定为 “1”的所有音色模型410完成数据相似度的计算(S405)。在所述步骤S405中，如果处于未对所有音色模型410完成相似度计算的状态，对音色模型410进行升值计数之后，返回到所述步骤S403，对已进行自适应的所有音色模型依次进行相似度的计算。在所述步骤S405中，如果判断为已对所有音色模型410完成相似度计算的状态，则选择具有最大相似度的模型(S406)，之后通过适用了经过学习过程而设定的单词词典模型、语法信息模型的解码来进行语音识别(S407) (S408)。通过上述步骤进行语音识别后输出其结果，以进行对应于语音输入的控制 (S409)。
以上说明的本发明第三实施例的语音识别方法，对已进行音色自适应的模型进行标志处理，并计算所输入的语音与自适应模型的相似度，从而选择与说话人输入的语音最为相似的模型，因此能够以最少的计算量进行语音识别。所述音色模型是将声压对时间的斜率信息模型化而生成的，因此在计算音色模型的相似度时也只使用声压和斜率信息，因而与第二实施例的说话人识别算法相比对相似度的计算量少。图7是表示根据本发明第二实施例的多模型自适应步骤的示意图。当语音自适应步骤开始后，说话人为了使自己的自适应模型与其他说话人的自适应模型不重叠，利用模型编号选择单元110从多个自适应模型中选择某一个模型(S501)。随之，自适应处理单元130通过模型编号选择单元110识别说话人选择的模型的编号，并使所述模型进入自适应待机模式。然后，当说话人的语音被输入650 后，特征向量提取单元120提取输入语音的特征向量(特征参数)(S503)，之后适用经过学习预先设定的发音信息列模型500A和基本语音模型500B，对输入语音的特征向量进行自适应(S504)。通过上述过程，对步骤S501中所选模型完成自适应后，为了指示关于自适应执行的信息，将标志设定为“1”，以生成自适应模型(S505)。然后，计算存储于自适应模型中的自适应数据与存储于基本语音模型500B中的数据的相似度(S506)，并以相似度值的大小为对象建立二叉树，以便提供更为快捷的语音识别(S507)。如上所述，根据本发明第二实施例的自适应方法，在自适应步骤中计算通过从输入语音中提取的特征向量(特征参数)值来计算与基本语音模型500B的相似度，并根据相似度值的大小来建立二叉树，从而能够提供更为快捷的语音识别。图8是表示根据本发明第二实施例的多模型自适应步骤中相似度二叉树的示意图。根据相似度值的大小建立二叉树以生成结点的方法如下如果相似度值大于父结点，将自适应模型安排于左侧结点，如果相似度值小于父结点，将自适应模型安排于右侧结点，从而设定相应父结点索引的方法来生成二叉树。没有子结点的终端结点相应于模型的索引值即模型编号。如图所示，例如如果是相似度值大于父结点即基本模型601的自适应模型A602，则将其安排于基本模型601的左侧结点，而如果是相似度值小于父结点即基本模型601的自适应模型，则将其安排于右侧结点，从而设定针对父结点即基本模型601的索引。通过反复建立这种二叉树，检索出子结点，从而能够迅速找出所需要的模型。图9是表示根据本发明第四实施例的语音识别步骤的示意图。如图所示，当输入用于自适应的语音时，在预定帧内，例如包含帧1至帧t的预定帧内(S701)，对基本模型和所有自适应模型进行语音识别，并在此后的帧中只选择维特比得分最高的模型670 (S703)来进行语音识别。这种语音识别方法在初始预定帧内的计算过程中，计算针对所有模型的所有指令字的子字模型(subword model)，因此具有计算量多的特性，但是当预定帧(S701)的试验值或者维特比得分的差值为一定值以上时，在以后的步骤中不对所剩下的所有模型进行计算，因此最大限度地减少语音识别的相似度判断计算量。图10是表示根据本发明第三实施例的多模型自适应步骤的示意图。根据第三实施例的自适应方法如下在语音指令中相同的关键字在最前面时，使用动态时间规整(DTW)法对输入语音中直至关键字的特征向量(特征参数)进行动态时间规整，从而计算输入语音和模型的相似度。当说话人选择拟对自己的语音进行自适应的模型(S801)，并输入语音(S802)后，从所输入的语音中提取特征向量(特征参数)(S803)，并适用通过预先学习而决定的发音信息列模型和基本模型，以进行自适应(S804)。对如此进行自适应(S80;3)的指令字的特征向量(特征参数)部分计算时间信息 (S805)，并用时间信息将指令字最前面的单词(关键字)构成特征列，并通过动态时间规整 (DTff)模型进行学习之后(S806)，存储所选的自适应模型编号和经过学习的动态时间规整 (DTff)信息，并停止对语音输入的自适应(S807)。图11是表示根据本发明第五实施例的语音识别步骤的示意图。适用已通过动态时间规整(DTW)进行自适应的模型来进行语音识别的步骤如下。当用户语音被输入(S901)之后，从输入语音中提取特征向量(特征参数)(S902)，然后适用通过学习预先设定的基本语音模型900A，执行用于语音识别的解码(S903)。在所述步骤S903的解码过程中，提取所计算的单词的时间信息(S904)，并判断是否为最前单词(关键字)的时间信息列(S905)。在所述步骤S905中，如果判断为不属于最前单词(关键字)的时间信息列，则返回到所述步骤S903，如果属于最前单词(关键字)的时间信息列，则提取相当于最前单词时间信息的特征向量(特征参数)，并对通过学习预先设定的基本语音模型的动态时间规整 (DTff)信息和每个自适应模型的动态时间规整(DTW)信息计算动态时间规整(DTW)的相似度(S906)，以选择相似度最高的模型(S907)。通过上述步骤选择相似度最高的模型之后，通过解码来进行语音识别(S908)，并输出识别结果，以执行所输入的语音控制指令(S909)。图12是表示根据本发明第六实施例的语音识别步骤的示意图。语音识别系统为了识别用户指令而总处于待机状态时，不仅输入语音指令，也会输入生活中的多个用户的声音及噪音等(S1001)。因此，在所述语音识别待机状态下，语音识别系统判断是否已选择特定自适应模型(S1002)。在所述步骤S1002的判断中，如果判断为已选择了特定自适应模型，则通过所选的自适应模型判断待机状态下所输入的语音指令字及生活中的各种声音的相似度
(51003)，如果处于未选择特定自适应模型的状态，识别待机状态下所输入的语音指令字及生活中的各种声音后，找出对应于所识别语音的自适应模型，以进行相似度的判断
(51004)。如上所述，根据与自适应模型的相似度的判断，来判定是否为合适的指令字
(51005)，如果不是合适的指令字则返回所述步骤S1001，如果是合适的指令字则处理通过相似度的判断对所输入的语音进行识别的结果(S1006)。然后，针对识别结果进行与所选自适应模型的验证(再识别)(S1007)，从而判断是否为有效的自适应模型(S1008)。在所述步骤S1008的判断中，如果判断为有效的自适应模型，则返回到所述 S1001，并重复上述步骤以进行语音识别。然而，在所述步骤S1008的判断中，如果判断为无效的自适应模型，则对识别结果进行再处理(S1009)，之后进行自适应模型的变更，并返回所述步骤S1001。例如，在家庭网络控制用语音识别系统中会出现如下情况用户A发出了 “开电视”的指令，但识别中使用的模型为说话人B的模型，且由误选的模型发生错误识别的结果执行“开客厅灯”的识别结果，从而导致客厅灯开启。因此，在后处理过程中进行再识别，从而验证为用户A的自适应模型且判断为“开电视”的指令字时，处理“开电视”这一识别结果，之后对之前的错误处理进行更正。即，将错误执行的“开客厅灯”指令字识别为“关闭客厅灯”而进行处理。图13是表示根据本发明的第三实施例利用多话筒按照位置进行多模型自适应的示意图。如图所示，语音识别系统1400中适用多话筒系统，当用于自适应的说话人的音源输入到特定位置时，利用波束形成技术自动判定音源位置，并对对应于音源位置的模型进行自适应，从而根据音源位置对不同的模型进行自适应。当适用所述多话筒系统时，在对说话人的语音进行自适应的过程中，通过波束形成技术辨别说话人的位置，并据此自动决定自适应模型，因此无需选择拟进行自适应的模型编号。所述方法在进行语音识别时，判断从哪一个方向输入指令，借以选择相应位置的自适应模型而进行语音识别。假设以语音识别系统为中心，不同用户的动迹在概率上离相应位置没有多大变化的情况下，该方法提供有效的语音识别。例如，如果通过波束形成技术判定的音源位置为5号话筒MIC5，输入于5号话筒 MIC5的说话人的语音会经过自适应存储到自适应模型4中，此后在5号话筒MIC5的位置识别到说话人的语音时，判断该语音与存储在自适应模型4中的自适应值的相似度，以进行语音识别。适应前述多模型自适应和语音识别技术的本发明的语音识别系统，考虑到物理存储器的有效使用和扩展性及费用问题，适用于大致以10人(最好为5人)家庭为对象的家庭用语音识别产品时，能够获得最佳效果。适用于自适应人数为10人以下的家庭用语音识别产品时，作为非特定人及特定人多模型自适应语音识别系统，能够获得最佳的语音识别效果。
权利要求
1.一种多模型自适应装置，其特征在于，包括模型编号选择单元，用于选择说话人为了语音自适应而指定的某一个模型；特征向量提取单元，用于从为了自适应而输入的说话人语音中提取特征向量；自适应处理单元，适用所设定的发音信息列模型和基本语音模型的标准值以对说话人的语音进行自适应之后，将结果存储到说话人指定的模型中，并对已进行自适应的模型设定标志；多元自适应模型，由多个模型组成，根据说话人的指定且按照特性进行自适应的语音存储到该多元自适应模型中。
2.根据权利要求1所述的多模型自适应装置，其特征在于，所述自适应处理单元对于因说话人的指定而已进行自适应的模型，将标志设定为“1”，而对于未进行自适应的模型，将标志设定为“0”。
3.根据权利要求1所述的多模型自适应装置，其特征在于，所述多元自适应模型包括针对每个说话人的独立的自适应模型、针对音色的独立的自适应模型、由具有相似特性的说话人组成群体的独立的自适应模型，每个独立的模型中存储根据说话人的指定且按照特性而进行语音自适应的结果。
4.语音识别装置，其特征在于，包括特征向量提取单元，用于从说话人的输入语音中提取语音识别所需要的特征向量；模型确定单元；用于从多元自适应模型中依次只选择标志被设定为已进行自适应的模型；相似度计算单元；计算从说话人的语音中提取的特征向量与存储在所选模型中的自适应值的相似度，以提取具有最大相似度值的模型；语音识别单元，其通过解码来进行语音识别，所述解码适用存储于所述具有最大相似度值的模型中的自适应值与存储在通过学习而设定的模型中的值。
5.根据权利要求4所述的语音识别装置，其特征在于针对从说话人的输入语音中提取的特征向量和存储在所选模型的自适应值，所述相似度计算单元在考虑量变和向变的情况下计算相似度。
6.根据权利要求4所述的语音识别装置，其特征在于在为了语音识别而进行解码的过程中，所述语音识别单元适用通过学习而设定的词典模型、语法模型的数据值。
7.根据权利要求4所述的语音识别装置，其特征在于所述模型确定单元从多元自适应模型中依次只选择已设定标志的说话人识别模型，并将其适用于相似度的计算中。
8.根据权利要求4所述的语音识别装置，其特征在于所述模型确定单元从多元自适应模型中依次只选择已设定标志的音色模型，并将其适用于相似度的计算中。
9.根据权利要求4所述的语音识别装置，其特征在于在与音色模型的相似度计算中，所述相似度计算单元只适用声压与斜率信息。
10.根据权利要求4所述的语音识别装置，其特征在于当语音指令字中相同的关键字存在于最前时，所述相似度计算单元针对输入语音中直至关键字的特征向量进行动态时间规整，以计算输入语音与模型的相似度。
11.一种多模型自适应方法，其特征在于，包括以下步骤选择说话人指定的某一个模型；从说话人的输入语音中提取用于语音模型的特征向量；使用所设定的发音信息列模型和基本语音模型对所提取的特征向量进行自适应，并将结果存储在所述多个模型中说话人所指定的模型中，且设定指示为是否已进行自适应的标ο
12.根据权利要求11所述的多模型自适应方法，其特征在于通过说话人的指定而被选择的模型只予以存储经过自适应的说话人的语音，从而不与他人的自适应模型重叠。
13.根据权利要求11所述的多模型自适应方法，其特征在于所述已进行自适应的模型标志被设定为“1”，而未进行自适应的初始模型标志被设定为 “0”。
14.根据权利要求11所述的多模型自适应方法，其特征在于在所述说话人的输入语音的自适应过程中，生成说话人识别模型，并设定指示为是否已生成说话人识别模型的标志。
15.根据权利要求11所述的多模型自适应方法，其特征在于在所述说话人输入语音的自适应过程中，由声压对时间的斜率信息建模生成音色模型，并设定指示为是否已生成音色模型的标志。
16.一种语音识别方法，其特征在于，包括以下步骤从要求语音识别的说话人的输入语音中提取特征向量；读取设定于多元自适应模型中的标志，从而只选择已进行自适应的模型；依次比较从说话人的输入语音中提取的特征向量和通过读取标志来选择的模型，以计算自适应值的相似度；对所选全体模型完成相似度计算后，选择具有最大相似度值的一个模型，然后通过解码来进行语音识别。
17.根据权利要求16所述的语音识别方法，其特征在于在所述解码过程中，适用通过学习而设定的单词词典模型、语法信息模型，以进行语音识别。
18.一种语音识别方法，其特征在于，包括以下步骤从要求语音识别的说话人的输入语音中提取特征向量；读取设定于多元自适应模型中的标志，从而只选择说话人识别模型；依次比较说话人输入语音的特征向量和所选的说话人识别模型，以计算自适应值的相似度；对所有说话人识别模型完成相似度计算后，选择具有最大相似度值的一个模型，然后通过解码来进行语音识别。
19.一种语音识别方法，其特征在于，包括以下步骤从要求语音识别的说话人的输入语音中提取特征向量；读取设定于多元自适应模型的标志，从而只选择音色模型；依次比较说话人输入语音的特征向量和所选音色模型，以计算自适应值的相似度；对所有音色模型完成相似度计算后，选择具有最大相似度值的一个模型，然后通过解码来进行语音识别。
20.根据权利要求19所述的语音识别方法，其特征在于所述音色模型的相似度计算只使用声压和斜率信息。
21.一种多模型自适应方法，其特征在于，包括以下步骤选择说话人指定的某一个模型；从说话人的输入语音中提取用于自适应语音模型的特征向量；适用所设定的发音信息列模型和基本语音模型进行特征向量的自适应后，将结果存储在所指定的模型中，以生成自适应模型；比较在上述过程中生成的自适应模型与基本模型的相似度，并以相似度大小为对象建立二叉树。
22.根据权利要求21所述的多模型自适应方法，其特征在于在所述以相似度大小为对象建立二叉树的步骤中，经过比较如果大于父结点的相似度则安排在左侧结点，如果小于父结点的相似度则安排在右侧结点，以设定相应父结点索引的方法来生成二叉树。
23.一种语音是被方法，其特征在于，包括以下步骤从要求语音识别的说话人的输入语音中提取特征向量；计算基本模型与设定在所有自适应模型的指令字的子字模型的相似度；当维特比得分的差值为一定值以上时，在以后的帧中选择维特比得分最高的模型，并通过解码来进行语音识别。
24.一种多模型自适应方法，其特征在于，包括以下步骤选择说话人指定的某一个模型；从说话人的输入语音中提取用于自适应语音模型的特征向量，并进行自适应；在进行自适应的过程中，通过动态时间规整模型学习语音指令字的时间信息中相应于关键字的时间信息的特征向量部分；将所述已进行自适应的模型和经过学习的动态时间规整模型的信息存储在上述过程中说话人指定的模型中。
25.根据权利要求M所述的多模型自适应方法，其特征在于所述动态时间规整模型对相同的关键字位于最前的语音指令字进行学习。
26.一种语音识别方法，其特征在于，包括以下步骤从要求语音识别的说话人的输入语音中提取特征向量；适用基本语音模型进行解码；提取所述解码过程中计算的单词时间信息，判断是否为相应于关键字的单词时间信息列；如果是相应于关键字的单词时间信息列，提取相当于单词时间信息的特征向量，并计算与动态时间规整模型的相似度；选择相似度最高的模型，并通过解码来进行语音识别。
27.一种多模型自适应装置，其特征在于语音识别系统中适用位置信息被指定的多话筒，并利用波束形成技术来判断为了自适应而输入的音源位置，且将其自适应到相应的模型。
28. 一种多模型自适应方法，其特征在于，包括以下步骤选择说话人指定的某一个模型；从说话人的输入语音中提取用于语音模型的特征向量并进行自适应后将结果存储到说话人指定的模型中，并设定指示为是否已进行自适应的标志；在进行所述自适应的过程中，适用说话人识别模型、音色模型、根据相似度大小的二叉树、以及适用波束成形技术的音源位置识别中的至少一种。
全文摘要
本发明包括以下步骤选择说话人指定的某一个模型；从说话人的输入语音中提取用于语音模型的特征向量；用所设定的发音信息列模型和基本语音模型对所提取的特征向量进行自适应，并将结果存储在所述多个模型中说话人所指定的模型中，且设定指示为是否已进行自适应的标志；从说话人为了语音识别而输入的语音中提取特征向量；读取设定于多元自适应模型中的标志，并只选择已进行自适应的模型；依次比较从说话人的输入语音中提取的特征向量与通过读取标志而选择的模型，从而计算自适应值的相似度；对全体模型完成相似度计算后，选择具有最大相似度值的一个模型，并通过解码来进行语音识别。
文档编号G10L15/18GK102270450SQ20111009786
公开日2011年12月7日申请日期2011年4月19日优先权日2010年6月7日
发明者李成燮申请人:株式会社曙飞电子

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李成燮
技术所有人：株式会社曙飞电子
我是此专利的发明人

上一篇：一种大功率电磁脉冲换能器的制作方法
上一篇：电子装置及音频数据的解码方法