语音变异模型建立装置、方法及语音辨识系统和方法

文档序号：2822345阅读：191来源：国知局

专利名称：语音变异模型建立装置、方法及语音辨识系统和方法
技术领域：
本发明是有关于本发明关于语音变异模型建立的技术领域，还关于应用该语音变异模型以进行语音辨识的技术领域。
背景技术：
一种语言往往随着地域、使用者的背景而存在各种不同的腔调。除此之外，某语言在受其他语言的影响下，往往又会产生新的腔调。举例而言，华语被闽南语影响而有“台湾国语”(闽南语式华语，或简称“台湾腔”)、英文被中文影响而有“中式英语”等。这些相对某标准语言不标准的腔调即所谓的“语音变异”。然而，由于语音辨识装置通常无法对不标准的语音进行辨识，因此这些语音变异皆会使语音辨识装置的辨识率剧降。虽然某些习知的语音辨识装置亦会建立“语音变异模型”而对不标准的语音进行辨识，但“语音变异模型”的建立必需依靠对这些不标准的腔调进行广泛而大量的收集始得以完成，相当耗费人力和时间，并且，有限的非标准语音语料仅能训练及建立出有限的语音变异模型，进而造成整体语音辨识率不佳。单一语言本身即可能具有各种语音变异，遑论全球近7000种语言又会彼此交错影响，要收集所有的变异语料几乎不可行。因此，如何设计出一种语音变异模型建立方法或装置，使其能在少量收集非标准语音语料的情况下达成理想语音辨识率，实乃一重要课题。

发明内容
本发明提供一种语音变异模型建立装置，包括一语音语料数据库，用以记录一语言的至少一标准语音模型以及该语言的多个非标准语音语料；一语音变异验证器，用以验证出该等非标准语音语料与该至少一标准语音模型间的多个语音变异；一语音变异转换计算器，用以依据该等语音变异以及一语音变异转换函式，产生该语音变异转换函式所需的系数；以及一语音变异模型产生器，用以依据该语音变异转换函式及其系数、以及该至少一标准语音模型，产生至少一语音变异模型。本发明另提供一种语音辨识系统，包括一语音输入装置，用以输入一语音；一种本发明前述的语音变异模型建立装置，用以产生至少一语音变异模型；一语音辨识装置，用以依据该至少一标准语音模型及该语音变异模型建立装置所产生的至少一语音变异模型，对该语音进行辨识。本发明另提供一种语音变异模型建立方法。该语音变异模型建立方法包括提供一语言的至少一标准语音模型以及该语言的多个非标准语音语料；验证出该等非标准语音语料与该至少一标准语音模型间的多个语音变异；依据该等语音变异以及一语音变异转换函式，产生该语音变异转换函式所需的系数；以及依据该语音变异转换函式及其系数、以及该至少一标准语音模型，产生至少一语音变异模型。本发明另提供一种语音辨识方法。该语音辨识方法包括经由一语音输入装置输入一语音；经由本发明前述的方法产生至少一语音变异模型；以及依据该至少一标准语音模型及所产生的至少一语音变异模型，对该语音进行辨识。藉由执行本发明的方法，可减少非标准语音语料的收集，解决未收集非标准语音语料即无法训练出语音变异模型的问题，并且能够以鉴别方法来判断并剔除无用的语音变异模型，进而提升语音辨识装置或系统的整体语音辨识率。

图1为语音辨识装置示意图2为前处理模块所执行的步骤流程图3为声学模型训练模块所执行的步骤流程图4为依照本发明一实施例的语变异模型建立方法的流程图
图5为步骤S406中验证出语音变异的示意图6即依据本发明一实施例的语辨识方法流程图7为依据本发明一实施例的语变异模型建立装置的方块图
图8即依据本发明一实施例的语辨识系统示意图。
主要元件符号说明
100语音辨识装置；
110前处理模块；
120声学模型比对模块；
130辨识结果解码模块；
140声学模型训练模块；
150语音辞典数据库；
160语法规则数据库；
XO标准语音模型；
Xl周边语音模型；
Χ2周边语音模型；
Χ3周边语音模型；
Χ4周边语音模型；
X，非标准语音语料；
700语音变异模型建立装置；
702语音语料数据库；
706语音变异验证器；
708语音变异转换计算器；
710语音变异模型产生器；
712语音变异模型鉴别器；
722标准语音模型；
724非标准语音语料；
800语音辨识系统；
810语音输入装置；
700语音变异模型建立装置；
820 语音辨识装置；830 辨识结果可能性计算器。
具体实施例方式下文为介绍本发明的最佳实施例。各实施例用以说明本发明的原理，但非用以限制本发明。本发明的范围当以后附的权利要求项为准。图1为习知语音辨识装置示意图。语音辨识装置100包括前处理模块110、声学模型比对模块120、辨识结果解码模块130、声学模型训练模块140、语音辞典数据库150及语法规则数据库160。前处理模块110对输入的语音进行初步的处理之后，将处理过的语音输出至声学模型比对模块120。声学模型比对模块120接着将该处理过的语音与声学模型训练模块140训练出的声学模型进行比对，其中，举例而言，上述声学模型可为某语言的标准语音模型，或是非标准语音模型(即变异语音模型)。最后，辨识结果解码模块130参照语音辞典数据库150及语法规则数据库160而对声学模型比对模块120比对的结果进行语意辨识，进而产生最终辨识结果。举例而言，该辨识结果解码模块130所产生的最终辨识结果为一段可被理解的字串。一般来说，若语音辨识装置100在输入语音之后以完整的语音档进行语音辨识，可经由一前处理模块Iio对输入的语音进行“前处理”。图2为前处理模块110所执行的步骤流程图。前处理程序200包括接收语音类比信号输入S202、语音取样S204、语音切割 S206、端点检测S208、预强调S210、乘上汉明窗S212、预强调S214、自相关系数求取S216、 LPC参数求取S218、求取倒频谱系数S220、输出语音特征S222等步骤，用以在前处理程序 S200执行后撷取出语音特征以供该声学模型比对模块120进行声学模型比对之用。声学模型训练模块140可提供该声学模型比对模块120进行声学模型比对所需的比对基础。图3为声学模型训练模块140所执行的步骤流程图。声学模型训练流程300包括收集语音语料S302 (包括收集标准或非标准的语音语料)、模块初始化S304、利用维特比(Viterbi)演算法计算相似度S306、判断声学模型是否收敛S310。若步骤S310的结果为是，则进入最后步骤建立声学模型S312 ；若结果为否，则重新评估S308。就辨识某语言而言，其所有的语音单元都要建立相对应的声学模型，而声学模型的建立，举例而言，可使用隐藏式马可夫模型(Hidden Makov Model，HMM)，由于其非本发明的重点，故不再赘述。声学模型作为与待辨识的语音进行比对的基础，因此，声学模型的建立在语音辨识中占有举足轻重的地位，而其中收集语音语料S302又是建立声学模型的基本步骤。而本发明的主要目的，为了减轻收集过多“变异”语音语料所产生的负担，提供一种系统化自动扩增语音变异模型的装置及方法，其实施方式说明如后。图4为依照本发明一实施例的语音变异模型建立方法的流程图。本发明的语音变异模型建立方法400包括步骤S402，提供一语言的至少一标准语音模型；步骤S404，提供该语言的多个非标准语音语料；步骤S406，验证出该等非标准语音语料与该至少一标准语音模型间的多个语音变异；步骤S408，依据该等语音变异以及一语音变异转换函式，产生该语音变异转换函式所需的系数；步骤S410，依据该语音变异转换函式及其系数、以及该至少一标准语音模型，产生至少一语音变异模型；以及步骤S412，用以将所产生的该等语音变异模型中鉴别度低的语音变异模型予以剔除。为使上述发明易于理解，后文将以一实
7施例作更详尽的说明。以建立华语的语音变异模型的作说明。在此实施例中，按照上述步骤S402提供 “标准华语”的语音模型，其中该标准语音模型包括“标准华语”中所有语音单元的声学模型。之后，按照上述步骤S404提供多个的“台湾国语”(闽南语式华语)语音语料。值得注意的是，本发明的目的即在于减少非标准语音语料的收集量，因此，此步骤不需提供所有 “台湾国语”的语音语料。之后，本实施例进入步骤S406。此步骤可验证出该等有限的“台湾国语”语料与“标准华语”发明模型间多个语音变异。简单地说，验证，指去“听取” 一语音的语音是否标准。详细地说，验证的方法可藉由比较一待验证语料与另一标准语料在声学模型相似度关系而判断该待验证语料是否相对该标准语料发生变异。一般而言，语言可分类为多种语音特征，且标准语音模型及非标准语音语料皆可分别对应该等语音特征其中之一，因此本发明可利用对应至该标准语音模型的语音特征而对各个非标准语音语料进行验证。上述语音特征可应用国际语音字母(International Phonetic Alphabet, IPA)，如下表1所示，但本发明不必以此为限表 1
权利要求
1.一种语音变异模型建立装置，其特征在于，所述的装置包括一语音语料数据库，用以记录一语言的至少一标准语音模型以及所述的语言的多个非标准语音语料；一语音变异验证器，用以验证出所述的非标准语音语料与所述的至少一标准语音模型间的多个语音变异；一语音变异转换计算器，用以依据所述的语音变异以及一语音变异转换函式，产生所述的语音变异转换函式所需的系数；以及一语音变异模型产生器，用以依据所述的语音变异转换函式及其系数、以及所述的至少一标准语音模型，产生至少一语音变异模型。
2.如权利要求1所述的装置，其特征在于，所述的语言分类为多种语音特征，且所述的至少一标准语音模型及所述的多个非标准语音语料分别对应所述的多种语音特征其中之一。
3.如权利要求2所述的装置，其特征在于，所述的语音变异验证器验证对应同一语音特征的所述的非标准语音语料与所述的标准语音模型间的所述的多个语音变异；所述的语音变异转换计算器依据所述的语音特征的语音变异及对应所述的语音特征的语音变异转换函式，产生所述的语音变异转换函式所需的系数；以及，所述的语音变异模型产生器依据对应所述的语音特征的语音变异转换函式及其系数、以及所述的语音特征的至少一标准语音模型，产生所述的至少一语音变异模型。
4.如权利要求1所述的装置，其特征在于，所述的语音变异转换计算器，还包括用以依据所述的语音变异以及一语音变异转换函式，产生多组所述的语音变异转换函式的系数。
5.如权利要求1所述的装置，其特征在于，所述的装置还包括一语音变异模型鉴别器，用以将所产生的所述的语音变异模型中鉴别度低的语音变异模型予以剔除。
6.如权利要求1所述的装置，其特征在于，所述的语音语料数据库还记录了所述的语言的多个周边语音模型，而所述的语音变异验证器还包括用以验证出所述的非标准语音语料分别与所述的标准语音模型、所述的周边语音模型间的多个语音变异。
7.如权利要求1所述的装置，其特征在于，所述的语音语料数据库还记录了多个语言其个别的至少一标准语音模型及其对应的多个非标准语音语料；所述的语音变异验证器还包含用以分别验证出各语言的多个语音变异；语音变异转换计算器还包含分别为各语言产生对应的语音变异转换函式所需的系数；以及所述的语音变异模型产生器还包含用以分别为所述的多个语言分别产生对应的多个语音变异模型。
8.一种语音辨识系统，其特征在于，所述的系统包括一语音输入装置，用以输入一语音；一种如权利要求1所述的语音变异模型建立装置；以及一语音辨识装置，用以依据所述的至少一标准语音模型及所述的语音变异模型建立装置所产生的至少一语音变异模型，对所述的语音进行辨识。
9.如权利要求8所述的语音辨识系统，其特征在于，所述的语音辨识系统还包括一辨识结果可能性计算器，用以计算各语音变异模型下对所述的语音进行辨识而产生的各辨识结果的可能性机率值。
10.如权利要求8所述的语音辨识系统，其特征在于，所述的语音变异模型建立装置的语音语料数据库还记录了多个语言，而所述的语音变异模型建立装置的语音变异模型产生器还用以分别为所述的多个语言分别产生对应的多个语音变异模型；以及，所述的语音辨识装置还用以依据所述的多种语言的至少一标准语音模型及其所建立的至少一语音变异模型，对所述的语音进行多语言的语音辨识。
11.一种语音变异模型建立方法，其特征在于，所述的方法包括以下步骤提供一语言的至少一标准语音模型以及所述的语言的多个非标准语音语料；验证出所述的非标准语音语料与所述的至少一标准语音模型间的多个语音变异；依据所述的语音变异以及一语音变异转换函式，产生所述的语音变异转换函式所需的系数；以及依据所述的语音变异转换函式及其系数、以及所述的至少一标准语音模型，产生至少一语音变异模型。
12.如权利要求11所述的方法，其特征在于，所述的语言分类为多种语音特征，且所述的至少一标准语音模型及所述的多个非标准语音语料分别对应所述的多种语音特征其中之一。
13.如权利要求12所述的方法，其特征在于，所述的方法步骤中，验证对应同一语音特征的所述的非标准语音语料与所述的标准语音模型间的多个语音变异；依据所述的语音特征的语音变异及对应所述的语音发音特征的语音变异转换函式，产生所述的语音变异转换函式所需的系数；以及，依据对应所述的语音特征的语音变异转换函式及其系数、以及所述的语音特征的至少一标准语音模型，产生至少一语音变异模型。
14.如权利要求11所述的方法，其特征在于，所述的方法还包括依据所述的语音变异以及一语音变异转换函式，产生多组所述的语音变异转换函式的系数。
15.如权利要求11所述的方法，其特征在于，所述的方法还包括将所产生的所述的语音变异模型中鉴别度低的语音变异模型予以剔除。
16.如权利要求11所述的方法，其特征在于，所述的方法还包括提供所述的语言的多个周边语音模型，且验证出所述的非标准语音语料分别与所述的标准语音模型、所述的周边语音模型间的多个语音变异。
17.如权利要求11所述的方法，其特征在于，所述的方法还包括提供多个语言其个别的至少一标准语音模型及其对应的多个非标准语音语料；分别验证出各语言的多个语音变异；分别为各语言产生对应的语音变异转换函式所需的系数；以及，分别为所述的多个语言分别产生对应的多个语音变异模型。
18.一种语音辨识方法，其特征在于，所述的语音辨识方法包括经由一语音输入器输入一语音；经由如权利要求11所述的方法产生至少一语音变异模型；以及依据所述的至少一标准语音模型及所产生的至少一语音变异模型，对所述的语音进行辨识。
19.如权利要求18所述的语音辨识方法，其特征在于，所述的方法还包括计算各语音变异模型下对所述的语音进行辨识而产生的各辨识结果的可能性机率值。
20.如权利要求18所述的语音辨识方法，其特征在于，所述的方法还包括提供多个语言，分别为所述的多个语言分别产生对应的多个语音变异模型；以及，依据所述的多种语言的至少一标准语音模型及其所建立的至少一语音变异模型，对所述的语音进行多语言的语音辨识。
全文摘要
本发明公开了一种语音变异模型建立装置、方法及语音辨识系统和方法，该语音模型建立装置包括一语音语料数据库，用以记录一语言的至少一标准语音模型以及该语言的多个非标准语音语料；一语音变异验证器，用以验证出该等非标准语音语料与该至少一标准语音模型间的多个语音变异；一语音变异转换计算器，用以依据该等语音变异以及一语音变异转换函式，产生该语音变异转换函式所需的系数；以及一语音变异模型产生器，用以依据该语音变异转换函式及其系数、以及该至少一标准语音模型，产生至少一语音变异模型。本发明可解决未收集非标准语音语料即无法训练出语音变异模型的问题，并且能够判断并剔除无用的语音变异模型，提升整体语音辨识率。
文档编号G10L15/10GK102074234SQ20091022392
公开日2011年5月25日申请日期2009年11月19日优先权日2009年11月19日
发明者吴宗宪, 沈涵平, 王俊凯, 谢嘉欣, 黎焕中申请人:财团法人资讯工业策进会

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黎焕中;吴宗宪;沈涵平;王俊凯;谢嘉欣
技术所有人：财团法人资讯工业策进会
我是此专利的发明人

上一篇：实现移动终端音频编解码算法可重构的装置及方法
上一篇：结合影音的行为辨识系统及其辨识方法