多语系语音辨识装置及其方法

文档序号：10571087阅读：406来源：国知局

多语系语音辨识装置及其方法
【专利摘要】本发明实施例提供一种多语系语音辨识装置及其方法。该装置包括接收模块及多个不同语系的语音模型，其中：所述接收模块，用于接收声音音框；所述语音模型，所述语音模型是基于不同语系的语料所训练得出的语音模型，并包含多个语音状态，所述语音模型用于根据所述接收模块接收的所述声音音框产生对应于所述多个语音状态的多个语音状态分数，各个所述语音模型的语音状态分数中选择多个修正元素，再根据所述多个修正元素产生修正值。该多语系语音辨识装置可以消除多语系偏移现象。
【专利说明】
多语系语音辨识装置及其方法
技术领域
[0001]本发明涉及语音辨识技术领域，尤其涉及一种多语系语音辨识装置及方法。
【背景技术】
[0002]传统上，语音模型一般是以隐性马可夫模型(Hidden Markov Model，HMM)为主，其中，模型中不同语音会具有不同数量的语音状态(State)，模型根据声音框(Frame)的变化，产生每个语音状态的概似(Likelihood)值作为语音状态分数。请参阅图1，是现有技术的多语系语音辨识装置的示意图。如图所示，现有技术的多语系语音辨识装置I通过接收模型10接收声音音框VF，其包含有三种语言的语音模型，其中第一语音模型IIA有440个第一语音状态分数111A、第二语音模型IIB有650个第二语音状态分数11IB，而第三语音模型IIC有119个第三语音状态分数111C。而语音辨识的过程常采用决策树搜寻(Decis1n TreeSearch)找出语音状态分数最高的路径当作输出的结果，实务上为避免决策树过大造成运算负担，在搜寻过程中会提除掉语音状态分数过低的搜寻路径。
[0003]但由于不同语言的语音模型是根据不同语言的语料训练而成，语音模型之间是彼此独立存在，因此语音状态变化的个数及其语音状态分数并未经过标准化(Normalizat1n)的程序。因此，不同语音模型的语音状态变化的语音状态分数独立且未经标准化会产生的偏移(Bias)现象，即不同语音模型的语音状态概似的数值差异颇大。这种偏差现象会造成在多语言的语音模型同时搜寻的过程中，某些语言的语音模型会在辨识过程中，因为语音状态分数相对其他模型较低而会遭到剔除。
[0004]现有技术的用以解决语音状态分数偏差消除的技术，都是静态、整体估计偏差的方法，即事先根据不同语言的语音模型特性进行标准化(Normalizat1n)，计算出不同语音模型的修正值，在执行期间(Run time)进行修正。然而，现有技术的静态的偏差修正方式实际上的效果不佳。
[0005]因此，如何能够有效改善现有技术的偏差修正方式效果不佳的情况已成为一个刻不容缓的问题。

【发明内容】

[0006]有鉴于上述现有技术的问题，本发明的目的是提供一种多语系语音辨识装置及其方法，以解决现有技术的偏差修正方式效果不佳的问题。
[0007]本发明的目的是通过以下技术方案实现的:
[0008]—种多语系语音辨识装置，包括接收模块及多个不同语系的语音模型，其中:
[0009]所述接收模块用于接收声音音框；
[0010]所述语音模型是基于不同语系的语料所训练得出的语音模型，包含多个语音状态，所述语音模型用于根据所述接收模块接收的所述声音音框产生对应于所述多个语音状态的多个语音状态分数，各个所述语音模型的语音状态分数中选择多个修正元素，再根据所述多个修正元素产生修正值。
[0011]较佳地，所述语音模型还用于根据多个语音状态分数的高低做排序。
[0012]较佳地，从所述多个语音状态分数中选择多个修正元素时，所述语音模型具体用于从所述多个语音状态分数分数最高的开始选择特定数量作为多个修正元素。
[0013]较佳地，根据所述多个修正元素产生修正值时，所述语音模型具体用于计算所述多个修正元素的平均值以产生修正值。
[0014]较佳地，所述语音模型还用于将各个语音状态的语音状态分数减去所述修正值，并进行搜寻计算。
[0015]一种多语系语音辨识方法，包括:
[0016]接收声音音框；
[0017]根据所述声音音框产生对应于多个语音状态的多个语音状态分数；
[0018]从所述语音状态分数中选择多个修正元素；
[0019]根据所述多个修正元素产生修正值。
[0020]较佳地，该方法还包括:
[0021 ]根据多个语音状态分数的高低做排序。
[0022]较佳地从所述多个语音状态分数中选择多个修正元素，包括:
[0023]从所述多个语音状态分数中分数最高的开始选择特定数量作为多个修正元素。
[0024]较佳地，根据所述多个修正元素产生修正值，包括:
[0025]计算所述多个修正元素的平均值以产生修正值。
[0026]较佳地，该方法还包括:
[0027]将各个语音状态的语音状态分数减去所述修正值，并进行搜寻计算。
[0028]本发明实施例的有益效果如下:
[0029]本发明实施例提供的多语系语音辨识装置及其方法中:一是可利用动态的及个别的偏移修正方式，因此可以有效地改善现有技术静态偏移修正方式的缺点，有效地消除多语系偏差现象;二是可以运用简单的运算方式，同样可以避免现有技术决策树过大的问题，因此不但可以有效地消除多语系偏差现象，同时也可避免运算量运大造成运算负担;三是可以运用简单的运算方式，因此装置的成本可以进一步降低，有效地提升产品的市场竞争力。
【附图说明】
[0030]图1为现有技术的多语系语音辨识装置的示意图；
[0031 ]图2为本发明实施例提供的多语系语音辨识装置的方块图；
[0032]图3为本发明实施例提供的多语系语音辨识装置的第一示意图；
[0033]图4为本发明实施例提供的多语系语音辨识装置的第二示意图；
[0034]图5为本发明实施例提供的多语系语音辨识装置的第三示意图。
[0035]附图标记:
[0036]I现有技术的多语系语音辨识装置
[0037]10接收模块
[0038]IlA第一语音模型
[0039]IlB第二语音模型
[0040]IlC第三语音模型
[0041 ]IllA第一语音状态分数
[0042]IllB第二语音状态分数
[0043]IllC第三语音状态分数
[0044]2多语系语音辨识装置
[0045]3多语系语音辨识装置
[0046]20接收模块
[0047]30接收模块
[0048]21语音模型
[0049]31A中文语音模型
[0050]3IB台语语音模型[0051 ]31C英语语音模型
[0052]211语音状态分数
[0053]31IA中文语音状态分数
[0054]31IB台语语音状态分数
[0055]31IC英语语音状态分数
[0056]212修正元素
[0057]312A中文修正元素
[0058]312B台语修正元素
[0059]312C英语修正元素
[0060]213修正值[0061 ]313A中文修正值
[0062]313B台语修正值
[0063]313C英语修正值
[0064]VF声音音框
【具体实施方式】
[0065]下面结合附图和实施例对本发明提供的一种多语系语音辨识装置及其方法进行更加详细地说明。
[0066]请参阅图2，是本发明实施例提供的多语系语音辨识装置的方块图。如图所示，本发明实施例提出的多语系语音辨识装置2包括接收模块20及多个语音模型21。其中:
[0067]接收模块20，用于接收声音音框VF。
[0068]语音模型21，该语音模型21是基于不同语系的语料所训练得出的语音模型，并包含多个语音状态，语音模型21用于根据接收模块20接收的声音音框VF产生对应于多个语音状态的多个语音状态分数211，各个语音模型的语音状态分数211中选择多个修正元素212，再根据多个修正元产生修正值213。
[0069]其中，各个语音模型代表不同的语言。
[0070]由上述可知，各个语音模型21可分别产生对应于本身语言的修正值213，即可利用动态(dynamic)及个别(Frame by Frame)的方式，有效地消除多语系偏移现象，因此可以达到较佳的功效。
[0071]本发明实施例中，一是可利用动态的及个别的偏移修正方式，因此可以有效地改善现有技术静态偏移修正方式的缺点，有效地消除多语系偏差现象;二是可以运用简单的运算方式，同样可以避免现有技术决策树过大的问题，因此不但可以有效地消除多语系偏差现象，同时也可避免运算量运大造成运算负担;三是可以运用简单的运算方式，因此装置的成本可以进一步降低，有效地提升产品的市场竞争力。
[0072]较佳地，语音模型还用于根据多个语音状态分数的高低做排序。
[0073]较佳地，从多个语音状态分数中选择多个修正元素时，语音模型具体用于从多个语音状态分数分数最高的开始选择特定数量作为多个修正元素。
[0074]较佳地，根据多个修正元素产生修正值时，语音模型具体用于计算多个修正元素的平均值以产生修正值。
[0075]较佳地，语音模型还用于将各个语音状态的语音状态分数减去修正值，并进行搜寻计算。
[0076]基于同样的发明构思，本发明实施例还提供一种多语系语音辨识方法，包括:
[0077]在步骤一中，接收声音音框。
[0078]在步骤二中，根据声音音框产生对应于多个语音状态的多个语音状态分数。
[0079]在步骤三中，从多个语音状态分数中选择多个修正元素。
[0080]在步骤四中，根据多个修正元素产生修正值。
[0081]值得一提的是，现有技术采用静态偏移修正方式，因此无法有效地消除多语系偏差现象。相反的，本发明可利用动态的及个别的偏移修正方式，因此可以有效地改善现有技术静态偏移修正方式的缺点，有效地消除多语系偏差现象。
[0082]又，现有技术为避免决策树过大造成运算负担，在搜寻过程中会剔除掉语音状态分数过低的搜寻路径，然而，这种方式则会造成不准确，相反的，本发明可以运用简单的运算方式，同样可以避免现有技术决策树过大的问题，因此不但可以有效地消除多语系偏差现象，同时也可避免运算量运大造成运算负担。
[0083]此外，本发明实施例可以运用简单的运算方式，因此装置的成本可以进一步降低，有效地提升产品的市场竞争力。由上述可知，本发明实具进步性之专利要件。
[0084]较佳地，该方法还包括:
[0085]根据多个语音状态分数的高低做排序。
[0086]较佳地从多个语音状态分数中选择多个修正元素，包括:
[0087]从多个语音状态分数中分数最高的开始选择特定数量作为多个修正元素。
[0088]较佳地，根据多个修正元素产生修正值，包括:
[0089]计算多个修正元素的平均值以产生修正值。
[0090]较佳地，该方法还包括:
[0091 ]将各个语音状态的语音状态分数减去所述修正值，并进行搜寻计算。
[0092]请参阅图3?5，分别为本发明实施例提供的多语系语音辨识装置的第一实施例的第一示意图、第二示意图及第三示意图。如图3所示，本发明实施例提供的多语系语音辨识装置3包括接收模块30、中文语音模型31A、台语语音模型31B及英语语音模型31C。
[0093]接收模块30可接收声音音框VF，并可传送声音音框VF至语音模型31A、31B、31C，而中文语音模型31A可根据声音音框VF产生对应于多个中文语音状态的多个中文语音状态分数311A，根据多个中文语音状态分数311A的高低做排序，本实施例中，中文语音模型31A可有440个数值排序;台语语音模型31B可根据声音音框VF产生对应于多个台语语音状态的多个台语语音状态分数311B，根据多个台语语音状态分数311B的高低做排序，本实施例中，台语语音模型3IB可有650个数值排序;英语语音模型3IC可根据声音音框VF产生对应于多个英语语音状态的多个英语语音状态分数311C，根据该些英语语音状态分数311C的高低做排序，本实施例中，英语语音模型31C可有119个数值排序。
[0094]如图4所示，中文语音模型31A可从多个中文语音状态分数中分数最高的开始选择特定数量的中文语音状态分数作为中文修正元素312A，并根据计算该些中文修正元素312A的平均值作为中文修正值313A;同样的，台语语音模型31B可从多个台语语音状态分数中分数最高的开始选择特定数量的台语语音状态分数作为台语修正元素312B，并根据计算该些台语修正元素312B的平均值作为台语修正值313B;英语语音模型31C可从英语语音状态分数中分数最高的开始选择特定数量的英语语音状态分数作为英语修正元素312C，并根据计算该些英语修正元素312A的平均值作为英语修正值313C。其中，各个语音模型选择可选择不同数量的语音状态分数作为修正元素；另外，上述修正值的算法也不限于计算平均值，而可以是其它不同的算法，本发明并不以此为限。
[0095]如图5所示，中文语音模型31A将各个中文语音状态分数311A减去中文修正值313A，图中所示的均为修正后的中文语音状态分数311A;同样的，台语语音模型3IB将各个台语语音状态分数311B减去台语修正值313B，图中所示的均为修正后的台语语音状态分数311B;英语语音模型31C将各个英语语音状态分数311C减去英语修正值313C，图中所示的均为修正后的英语语音状态分数311C。最后，多语系语音辨识装置3则可以整合中文语音模型31A、台语语音模型31B及英语语音模型31C，并进行搜寻计算，藉此获得准确的辨识结果。
[0096]由于语音模型独立性的原因，不能直接拿语音模型输出的语音状态分数高低判定属于何种语言输出结果为真；以本实施例为例，若直接拿分数做比较，辨识器会偏好台语的输出结果。然而，本实施例应用特殊的辨识方式，可以有效地提升辨识效果，使多语系语音辨识装置3的效能提升。
[0097]综上所述，本发明实施例中，可利用动态的及个别的偏移修正方式，因此可以有效地改善现有技术静态偏移修正方式的缺点，有效地消除多语系偏差现象，有效提升了多语系语音辨识装置的效能。
[0098]又，本发明实施例中，可以运用简单的运算方式，同样可以避免现有技术决策树过大的问题，因此不但可以有效地消除多语系偏差现象，同时也可避免运算量运大造成运算负担。
[0099]另外，本发明实施例中，可以运用简单的运算方式，因此装置的成本可以进一步降低，有效地提升产品的市场竞争力。
[0100]本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0101]本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0102]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0103]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0104]尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0105]显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。
【主权项】
1.一种多语系语音辨识装置，其特征在于，包括接收模块及多个不同语系的语音模型，其中: 所述接收模块，用于接收声音音框；所述语音模型，所述语音模型是基于不同语系的语料所训练得出的语音模型，并包含多个语音状态，所述语音模型用于根据所述接收模块接收的所述声音音框产生对应于所述多个语音状态的多个语音状态分数，各个所述语音模型的语音状态分数中选择多个修正元素，再根据所述多个修正元素产生修正值。2.根据权利要求1所述的多语系语音辨识装置，其特征在于，所述语音模型还用于根据多个语音状态分数的高低做排序。3.根据权利要求2所述的多语系语音辨识装置，其特征在于，从所述多个语音状态分数中选择多个修正元素时，所述语音模型具体用于从所述多个语音状态分数中分数最高的开始选择特定数量作为多个修正元素。4.根据权利要求1所述的多语系语音辨识装置，其特征在于，根据所述多个修正元素产生修正值时，所述语音模型具体用于计算所述多个修正元素的平均值以产生修正值。5.根据权利要求1所述的多语系语音辨识装置，其特征在于，所述语音模型还用于将各个语音状态的语音状态分数减去所述修正值，并进行搜寻计算。6.一种多语系语音辨识方法，其特征在于，包括: 接收声音音框；根据所述声音音框产生对应于多个语音状态的多个语音状态分数；从所述多个语音状态分数中选择多个修正元素；根据所述多个修正元素产生修正值。7.根据权利要求6所述的多语系语音辨识方法，其特征在于，该方法还包括: 根据多个语音状态分数的高低做排序。8.根据权利要求7所述的多语系语音辨识方法，其特征在于，从所述多个语音状态分数中选择多个修正元素，包括: 从所述多个语音状态分数中分数最高的开始选择特定数量作为多个修正元素。9.根据权利要求6所述的多语系语音辨识方法，其特征在于，根据所述多个修正元素产生修正值，包括: 计算所述多个修正元素的平均值以产生修正值。10.根据权利要求6所述的多语系语音辨识方法，其特征在于，该方法还包括: 将各个语音状态的语音状态分数减去所述修正值，并进行搜寻计算。
【文档编号】G10L15/14GK105931636SQ201610227058
【公开日】2016年9月7日
【申请日】2016年4月13日
【发明人】林心鹏, 陈建宏, 陈奕丞, 林薰苑
【申请人】中华电信股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林心鹏;陈建宏;陈奕丞;林薰苑;
技术所有人：中华电信股份有限公司;
我是此专利的发明人

上一篇：一种可自定义指令识别的语音拍照系统的制作方法
上一篇：一种音频分割方法及装置的制造方法