语音识别装置和语音识别方法

文档序号:9291754阅读:393来源:国知局
语音识别装置和语音识别方法
【技术领域】
[0001]本发明涉及语音识别装置和语音识别方法,从外部的语音识别部和内部的语音识别部分别得到识别结果,从而确定最终的识别结果。
【背景技术】
[0002]在利用汽车导航装置和智能手机等设备进行语音识别的情况下,这些设备的硬件资源未必充分,因此存在如下这样的客户端/服务器型的语音识别系统:不在设备内执行所有发声的语音识别,而将语音数据发送到外部的服务器,并接收利用该服务器进行语音识别后的结果。另外,这里的客户端是指汽车导航装置和智能手机等位于使用者手中的设备。由此,即使在客户端也能够利用大量词汇的语音识别。但是,客户端所特有的识别词汇、以及仅存在于使用者的地址簿中的固有名词等未必能够由服务器进行识别。
[0003]作为其对策,在专利文献I中公开了如下技术:不仅仅是由服务器进行语音识别、由客户端接收结果,根据发声的不同,由客户端和服务器两者进行语音识别,一并记述两者的结果,或者选择任意一个的识别结果。具体而言,在专利文献I中记述了在选择客户端和服务器的识别结果中的任意一个的情况下,选择声学似然度较高的识别结果。
[0004]现有技术文献
[0005]专利文献
[0006]专利文献1:日本特开2010-85536号公报

【发明内容】

[0007]发明要解决的课题
[0008]在以往的客户端/服务器型的语音识别方法的情况下,在选择客户端和服务器的识别结果中的任意一个时,需要比较表示两者的识别结果的准确性的数值即识别分数、似然度等,但有时无法从服务器侧得到这些信息。此外,即使能得到,也不保证是按照与客户端侧的语音识别相同的基准计算出的。因此,在选择客户端和服务器的识别结果中的任意一个的情况下,存在有时无法进行准确的比较从而不能得到足够的语音识别精度的课题。
[0009]本发明正是为了解决上述的课题而完成的,目的在于得到一种语音识别装置和语音识别方法,在相同的条件下对客户端的识别结果和服务器的识别结果进行比较,从而提高最终的识别精度。
[0010]用于解决课题的手段
[0011]本发明的语音识别装置具有:声学模型,其是对语音的特征量进行模型化而得到的;语言模型,其储存有作为语音识别装置的识别对象的I个以上的词汇的标写和读音;读音词典,其储存有识别对象和识别对象外的词汇的标写与其读音的对;分析部,其分析输入语音数据来计算特征向量;内部识别部,其使用声学模型,进行分析部计算出的特征向量和语言模型所储存的各词汇之间的模式对照,计算声学似然度,将该声学似然度高的上位的I个以上的词汇的标写、读音和声学似然度作为内部识别结果输出;读音赋予部,其取得通过外部识别部对输入语音数据进行识别处理后的外部识别结果,使用读音词典,赋予针对该外部识别结果的读音,输出由该外部识别结果及其读音构成的读音赋予结果;重新对照部,其使用声学模型,进行分析部计算出的特征向量和读音赋予部输出的读音赋予结果之间的模式对照,计算针对外部识别结果的声学似然度;以及结果确定部,其对内部识别结果的声学似然度和外部识别结果的声学似然度进行比较,确定最终的识别结果。
[0012]本发明的语音识别方法包括以下步骤:发送步骤,将输入语音数据发送到外部识别部;分析步骤,分析输入语音数据来计算特征向量;内部识别步骤,使用对语音的特征量进行模型化而得到的声学模型,进行在分析步骤中计算出的特征向量、与储存有作为语音识别装置的识别对象的I个以上的词汇的标写以及读音的语言模型内的该各词汇之间的模式对照,计算声学似然度,并将该声学似然度高的上位的I个以上的词汇的标写、读音和声学似然度作为内部识别结果输出;读音赋予步骤,取得通过外部识别部对输入语音数据进行识别处理后的外部识别结果,使用储存有识别对象和识别对象外的词汇的标写与其读音的对的读音词典赋予针对该外部识别结果的读音,输出由该外部识别结果及其读音构成的读音赋予结果;重新对照步骤,使用声学模型,进行在分析步骤中计算出的特征向量和在读音赋予步骤中输出的读音赋予结果之间的模式对照,计算针对外部识别结果的声学似然度;以及结果确定步骤,对内部识别结果的声学似然度和外部识别结果的声学似然度进行比较,确定最终的识别结果。
[0013]发明的效果
[0014]根据本发明,能够得到如下的语音识别装置和语音识别方法:使用同一声学模型计算内部识别结果的声学似然度和外部识别结果的声学似然度并进行比较,由此提高最终的识别精度。
【附图说明】
[0015]图1是示出本发明实施方式I的语音识别装置的结构的框图。
[0016]图2是说明实施方式I的语音识别装置具有的语言模型的内容例的图。
[0017]图3是说明实施方式I的语音识别装置具有的读音词典的内容例的图。
[0018]图4是示出实施方式I的语音识别装置的动作的流程图。
[0019]图5是作为实施方式I的语音识别装置的变形例而说明英语的读音词典的内容例的图。
[0020]图6是示出本发明实施方式2的语音识别装置的结构的框图。
[0021]图7是示出实施方式2的语音识别装置的动作的流程图。
[0022]图8是说明本发明实施方式3的语音识别装置具有的读音词典的内容例的图。
[0023]图9是示出本发明实施方式4的语音识别装置的结构的框图。
[0024]图10是说明实施方式4的语音识别装置具有的结果确定用语言模型的内容例的图。
【具体实施方式】
[0025]以下,为了更详细地说明本发明,按照【附图说明】用于实施本发明的方式。
[0026]实施方式1.
[0027]如图1所示,本实施方式I的语音识别装置I具有发送部3、分析部5、内部识别部
7、语言模型8、声学模型9、读音赋予部12、读音词典13、重新对照部15和重新对照结果16。该语音识别装置I相当于构成客户端/服务器型的语音识别系统的客户端,例如可以组装或搭载到使用者携带的智能手机等便携设备、车辆等移动体所搭载或配备的导航装置等已有的设备,也可以独立使用。
[0028]外部识别部19是经由网络与语音识别装置I连接的语音识别服务器。也可以不经由网络,而通过有线或无线方式直接连接。
[0029]在语音识别装置I中,声学模型9储存了将语音的特征向量模型化而得到的声学模型。在本实施方式I中,声学模型是对音素进行模型化而得到的,声学模型9中储存了针对所有音素的声学模型。如果存在所有音素的声学模型,则能够通过连接音素的声学模型,对任意词汇的语音的特征向量进行模型化。
[0030]另夕卜,声学模型9进行模型化的特征向量(即图1的特征向量6)例如为MFCC (Mel Frequency Cepstral Coeff icient:梅尔频率倒谱系数)。此外,声学模型例如为HMM(Hidden Markov Model:隐马尔可夫模型)。
[0031]语言模型8储存有在内部识别部7中作为识别对象的词汇的标写和读音。另外,这里所说的读音是能够与声学模型9对应的符号的序列。例如,如果声学模型9是对音素进行模型化而得到的,则语言模型8的读音是音素序列等。在本实施方式I中,语音识别装置I的识别对象为神奈川县内的设施名称。图2示出该情况下的语言模型8的内容例。图2中使用了音素的序列作为读音。
[0032]读音词典13储存有包括在内部识别部7中不作为识别对象的词汇在内的大量词汇的标写与读音的对。另外,与语言模型8同样,读音是能够与声学模型9对应的符号的序列。在本实施方式I中,读音词典13的读音为音素序列。图3示出该读音词典13的内容例。
[0033]这些语言模型8、声学模型9和读音词典13可以存储在公共的存储元件或存储装置等中,也可以分别存储在独立的存储元件或存储装置等中。
[0034]此外,将语音识别装置I设为具有存储了程序的存储器和执行该程序的CPU的结构,由CPU执行程序,从而利用软件实现发送部3、分析部5、内部识别部7、读音赋予部12、重新对照部15和结果确定部17具有的功能(具体将后述),或者也可以利用硬件实现其一部分功能。
[0035]接着,参照图4的流程图说明语音识别时的动作。
[0036]在步骤STl中,当使用者发声时,将其发声的输入语音2输入到发送部3。发送部3对输入语音2进行A/D转换,将其转换为语音数据4,输出到分析部5。此外,发送部3将同一语音数据4发送到外部识别部19。
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1