语音辨识装置及其方法

文档序号：2830684阅读：330来源：国知局

专利名称：语音辨识装置及其方法
技术领域：
本发明是关于—种语音
别是关于一种采用词描述语
置及其方法
背景技术：
随着电子科技的进步、
及化，轻薄短小的可携式装
取的平台但是，不定每
或者鼠标等人类惯用的输出
与智能型设备之间的人机接
的沟通媒介语音来进行
中，可以取得的多媒体影音
多媒体影音信息的同时将语
使用者更快速地了解中所
论是语音控制或者将语音转
语首是相当重要的
及其方法
辨识装置及其方法，且特
的方式，来辨识汉词的装
无线通讯及网际网络的普
置逐渐成为新—代信息存
种设备都具有屏幕、键盈:
入装置因此，未来人类
□也将通过最白然且方便
控制另外，在曰常生活
信息越来越多倘若播放
音信息转为文字，便能让
传达的主题及概念而无
为文字，如何正确地辨识传统的汉字语音识别器主要包括前端处理器
(front- end processor)、词汇数据库、声学模型 (acoustic model) 及语言模型 (language model)。当接收到语音信号时，由前端处理器撷取语音信号的音框(voice frame),并找出音框中对语音辨识具有帮助的特征，例如梅尔倒频谱系数(Mel-frequency cepstral coefficient, MFCC)。声音模型一般为隐藏式马可夫模型(hidden Markov model, HMM)，以一个音素、音节或者词为单位，将上述特征与已建立的声音模型进行比对，以确定语音信号的音框是什么声音。接着，通过像查字典的方式，从词汇数据库中搜寻此声音可能对应到的一些文字。而语言模型通过机率与统计来判断所搜寻的文字何者于文句中的组合较为适当。如此一来，便能辨识出语音所对应的文字了。
美国第6 1 6 3 7 6 7号专利案提出一种用于识别孤立或者非相关汉字的语音识别方法和系统。图1 绘示为已知语音识别系统的示意图。请参照图1 ，此语音识别系统包括基于汉字描述语言的语音识别器1 1 0 、汉字描述语言的语法分析器1 2 0以及汉字产生器1 3 0 。而此语音识别器1 1 0与上述传统的语音识别器的区别在于语音识别器1 1 0的语言模型更加上了一个基于汉字描述语言的语言模型。此篇专利案先将汉字描述语言的语法规则建立于语言模型之中。当语音识别器110接收一汉字描述
语，例如抬头的抬"tai 2 tou 2de 5tai 2 "，
并逐字辨识出汉字描述语所包含的汉字时，基于汉字
描述语言的语言模型对照所辨识的汉字描述语为属于
何种语法规则，例如抬头的抬"tai 2t o u 2de 5
tai 2 ，，为属于"词+的+汉字"的语法规则，从而辨识
出所输入的汉字为抬。
在汉语的语法里，词为一个以上的汉字所构成，
句子为一个以上的词所构成，而段落为个以上的句
子所构成。若采用上述专利案的方式，逐字辨识使用
者所输入的汉词或者文句时，则辨识过程便会花费过
于冗长的时间。例如输入阳明山一汉词时，则可能要
以太阳的阳、明天的明、以及高山的山作为汉字描述
语来辨识出正确的汉字。
另外，在语音辨识技术的领域中，单词的辨识是
相当重要的。现行的方法为将所有的词汇集起来建立
词汇数据库，但是所建立的词汇数据库愈庞大，混淆
度也会愈高。由于单词的辨识未有上下文的参考，所
以如"大道"、"大盗"、"打倒"等相近音的单词，
或者词长较短的单词较易造成辨识错误。

发明内容
本发明的目的在于，提供一种语音辨识装置及
方法，为采用词描述语的方式来辨识汉词，以增加
汉词辨识的正确性及减少辨识过程所花费的时间。
本发明提出一种适于辨识汉词的语音辨识装置，
其包括词汇模型、语音辨识模组、语言模型以及语法
分析模组，中上述汉词为由多个汉字所组成。词汇
模型储存多组词汇，且各词汇为至少一字符所组成
语音辨识模组将符合词描述语语法结构的语音信号进
语音辨识处理，以产生数字形式的文字序列。此语
辨识处理为依据词描述语的一特征，从词汇模型中
搜寻相关于词描述语的词汇，并且参考语言模型所提
供的语法组合机率，产生适切的文字序列。在此过程
之中，语曰模型储存所搜寻的词汇之间的连接关系及
词描述语的语法限制，提供上述的语法组合机率给语
音辨识模组而语法分析模组便分析文字序列的语法
结构，并撷取出汉词。
本发明提出一种适于辨识汉词的语音辨识方法，
而此汉词为多个汉字所组成。首先，接收符合词描述
语语法结构的语音信号，并将语音信号进行语音辨识
处理。在此，语音辨识处理为依据词描述语的一特征，
多组词汇中搜寻相关于词描述语的词汇，并且参考所搜寻的词汇之间的连接关系及词描述语的语法限制，而产生数字数据形式的文字序列。其中，各词汇
为至少一字符所组成。接着，分析文字序列的语法，并撷取出汉词。
本发明采用词描述语的特征及语言模型所提供的语法组合机率，作为语音辨识处理时搜寻词汇的限制，以减少辨识过程所花费的时间，及提高辨识汉词的正确性。

为让本发明的上述和其它目的、特征和优点能更明显易懂，下文特举本发明的较佳实施例，并配合附图，作详细说明如下，其中
图1绘示为已知语音识别系统的示意图。图2绘示为本发明的一实施例的语音辨识装置的方块图。
图3绘示为本发明的一实施例的语音辨识方法的流程图。
g巾
110 :语音辨识器
12 0 :语法分析器1 3 0 :汉字产生器
2 0 Q :语音辨识装置 2 1 0 :词汇模型
2 2 0:语音辨识模组
2 3 0 :语言模型
2 4 0:语法分析模组
S3 0 1 — S 3 0 5 :本发明的一实施例的语音辨
识方法的步骤
具体实施例方式
图2绘示为本发明的一实施例的语音辨识装置的方块图。请参照图2 ，语音辨识装置2 0 0包括词汇模型(lexicon model ) 2 1 0 、语音辨识模组(s p e e c h recognition module) 2 2 0 、语言模型 (language model) 2 3 0以及语法分析模组(parsing module) 2 4 Q 。语音辨识装置2 0 0用以辨识由多个汉词所组成的句子。首先，语音辨识装置2 0 0接收一语音信号，此语音信号符合词描述语的语法结构。在本实施例中，词描述语具有一特征，例如为对汉词所包含的汉字其中之一的形、音或者意三者的任一种的描述语，又或者为汉词所包含的汉字的拼音前缀、声调、词长或者词性。
词汇模型210储存多组词汇，其汇集了所有能辨识汉词的声学模型，而各词汇包含至少一字符。当
语音辨识模组2 2 0对语音信号进行语音辨识处理时，其依据词描述语的特征，从词汇模型2 1 0中搜寻相关于词描述语的词汇。语言模型2 3 0储存着搜寻的词汇之间的连接关系及词描述语的语法限制 (constraints )，它提供语法组合的机率给语音辨识模组2 2 0 。本实施例的语言模型2 3 0是由词描述
语训练而得，其可提供词汇之间相连接的强弱关系给
语音辨识模组2 2 0 。由此，语音辨识模组2 2 0能
参考语言模型2 3 0所提供的语法组合机率，于搜寻时找出适切的文字序列。此文字序列为模拟语音信号转换为数字文字信号的结果，其亦符合词描述语的语法结构。语法分析模组2 4 0分析此文字序列的语法结构，并撷取出汉词。
举例来说，当欲通过语音输入汉词为"国立"时，语音辨识模组2 2 0的输出通常会有多种可能的辨识结果，例如国立、国历、果粒、国力等。假设对汉
词所包含的汉字其中之一的形加以描述，则词描述语的语法结构可以是(汉词1 +的+汉字+汉词2 )。当通
过语音输入符合词描述语语法结构的语音信号时，例如"站立的立国立"，则语音辨识模组220可能
会从词汇模型2 1 0中搜寻到相关于词描述语的多组
词汇，例如站立、的、立、利、国、国历、国力
等
在此同时，语言模型2 3 0提供语音辨识模组2
20词描述语的语法机率，使得符合词描述语的候选
词得到较高的权重分数，因而能搜寻出更相关于词描
述语的词汇，并且产生适切的文字序列，亦即"站
的—、,:国立"。语法分析模组2 40分析语音辨识模组
220所产生的文字序列的语法结构，从中撷取"国
■、,:"的汉词。
为使本领域具有通常知识者能轻易施行本发明，
另举一实施例加以说明。当对汉词所包含的汉字其中
之的音加以描述时，词描述语的语法结构也可以是
汉字拼音+汉字+汉词)。以汉词"阳明山为例，通
过语音输入" 一允阳阳明山"或者n一明阳
明山"等符合词描述语语法结构的语音信号时，语音
辨识模组2 2 0便依据词描述语的特征，从词汇模型210中搜寻相关于词描述语的词汇，并参考k口口模
23 0所提供的语法组合机率来产生文字序列。如
此来，采用词描述语的特征及语曰模型所提供的语法组合，作为语音辨识时搜寻词汇的限制，便能减少辨识过程所花费的时间，及提高辨识汉词的正确性。
如上所述，词描述语的特征可以是对汉词所包含
的汉字中之一的形、音或者思二者的任一种的描述
语，又或者为汉词所包含的汉字的拼音前缀、声调、
词长或者词性。因此，在此以分类的方式逐一说明，
并以辨识汉词"阳明山"为例
第类型:词描述语的特征为对汉词所包含的汉
字中之的形的描述语，则词描述语的语法结构可
以山是 "c特定词+汉字+汉词)。例如:"曰月明阳明
山第一类型:词描述语的特征为对汉词所包含的汉
字中之的音的描述语，则词描述语的语法结构可
以是(汉词1 +的+汉字+汉词2 )或者(汉字拼音+汉字+汉词)。例如"高山的山阳明山"、"尸丐山阳明山"。
第三类型词描述语的特征为对汉词所包含的汉字其中之一的意的描述语，则词描述语的语法结构可以是(特定词+汉字+汉词)。例如"朝曦阳阳明山"，其中朝曦为阳的含义。
第四类型词描述语的特征为汉词所包含的汉字的拼音前缀，则词描述语的语法结构可以是(拼音前缀+拼音前缀+…+汉词)。例如"Y M S阳明山"。第五类型词描述语的特征为汉词所包含的汉字的声调，则词描述语的语法结构可以是(声调+声调
+ +汉词)。例如"2 2 1阳明山"。
第六类型词描述语的特征为汉词所包含的汉字
的词长，贝u词描述语的语法结构可以是(量词+汉词)。
例如《'三字词阳明山"。
第七类型词描述语的特征为汉词所包含的汉字
的词性，贝u词描述语的语法结构可以是(词性+汉词)。
例如'名词类阳明山"。
由上述实施例的说明，可以归纳为下列的方法流
程图3绘示为本发明的一实施例的语音辨识方法的
流程图。请参照图3，首先，接收符合词描述语语法
结构的语音信号步骤S 3 0 1 )，并将此语音信号进
行语音辨识处理c步骤S 3 0 2 )。其中，语音辨识处
理为依据词描述语的特征，从多组词汇中搜寻出相关
词描述语的词汇，并且依据词汇之间的连接关系及词
描述语的语法限制，产生数字数据形式的文字序列
在此，词描述语的特征可以是对汉词所包含的汉字之
一的形、音或者思的描述语，或者是汉词所包含的汉
字的拼音前缀、声调、词长或者词性。接着，进一步
分析此文字序列的语法结构，从中撷取出汉词(步骤s综上所述，本发明的实
程中采用词描述语的方式
降低辨识过程所花费的时间
本发明的实施例相较于以往
词的方式，于脱离上下文文
辨识上，具有较高的正确性
与采用逐字辨识汉词的方式
费的时间。
虽然本发明已以较佳实
用以限定本发明，任何所属
者，在不脱离本发明的精神
更动与润饰，因此本发明的
利要求范围所界定的为准。
施例在语音辨识处理的过来限制所搜寻的词汇，以以及提高辨识的正确性。
建词汇数据库来辨识汉
思的单词(或称汉词)的
另外，本发明的实施例
，更能减少辨识过程所花
施例揭露如上，然并非
技术领域中員有通常知识
和范围内，当可作些许的
保护范围当视本发明的权
权利要求
1.一种语音辨识装置，适于辨识一汉词，且该汉词为多个汉字所组成，其特征在于，包括一词汇模型，储存多组词汇，其中各该词汇为至少一字符所组成；一语音辨识模组，将一语音信号进行一语音辨识处理，而该语音信号符合一词描述语的语法结构，其中该语音辨识处理为依据该词描述语的一特征，从该词汇模型中搜寻相关于该词描述语的该各词汇，并参考一语法组合机率，产生数字数据形式的一文字序列；一语言模型，储存所搜寻的该各词汇之间的连接关系及该词描述语的语法限制，提供该语法组合机率；以及一语法分析模组，分析该文字序列的语法结构，并撷取出该汉词。
2.如权利要求1所述的语音辨识装置，其中该特征为对该汉词所包含的任一汉字的形、音或者意三者的任种的描述语。
3.如权利要求1所述的语音辨识装置，其中该特征为该汉词所包含的该各汉字的拼音前缀。
4.如权利要求1所述的语音辨识装置，g巾该特征为该汉词所包含的该各汉字的声调。
5.如权利要求1所述的语音辨识装置，其中该特征为该汉词的词长。
6.如权利要求1所述的语音辨识装置，其中该特征为该汉词的词性。
7. 一种语音辨识方法，适于辨识一汉词，且该汉词为多个汉字所组成，其特征在于，包括接收一语音信号，其中该语音信号符合一词描述语的语法结构；将该语音信号进行一语音辨识处理以产生数字数据形式的一文字序列，其中该语音辨识处理为依据该词描述语的一特征，从多组词汇中搜寻相关于该词描述语的该各词汇，而各该词汇为至少一字符所组成，并且参考所搜寻的该各词汇之间的连接关系及该词描述语的语法限制，产生该文字序列；以及分析该文字序列的语法结构，并撷取出该汉词<
8.如权利要求7所述的语音辨识方法，g巾该特征为对该汉词所包含的任一汉字的形、音或去音百思二者的任种的描述语。
9.如权利要求7所述的语音辨识方法，g巾该特征为该汉词所包含的该各汉字的拼音前缀。
10 .如权利要求7所述的语音辨识方法，其中该特征为该汉词所包含的该各汉字的声调。
11 .如权利要求7所述的语音辨识方法，其中该特征为该汉词的词长。
12 .如权利要求7所述的语音辨识方法，其中该特征为该汉词的词性。
全文摘要
一种语音辨识装置及其方法，其为适于辨识由多个汉字所组成的汉词。此语音辨识装置包括词汇模型、语言模型、语音辨识模组及语法分析模组。词汇模型储存多组词汇，其中各词汇为至少一字符所组成。语音辨识模组将符合词描述语语法结构的一语音信号进行语音辨识处理，而此语音辨识处理为依据词描述语的特征，从词汇模型中搜寻相关于词描述语的词汇，并参考语法组合的几率产生数字数据形式的一文字序列。语言模型储存词汇之间语法连接的可能性，提供上述的语法组合几率给语音辨识模组。语法分析模组分析文字序列的语法结构，以撷取出汉词。
文档编号G10L15/18GK101494050SQ200810005139
公开日2009年7月29日申请日期2008年1月22日优先权日2008年1月22日
发明者沈家麟, 黄昭仁, 黄良声申请人:台达电子工业股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄良声;黄昭仁;沈家麟
技术所有人：台达电子工业股份有限公司
我是此专利的发明人