语音识别装置和语音识别方法_2

文档序号：9291754阅读：来源：国知局

>[0037]在步骤ST2中，分析部5将语音数据4转换为特征向量6，输出到内部识别部7和重新对照部15。如上所述，特征向量6例如为MFCC。
[0038]在步骤ST3中，内部识别部7使用语言模型8和声学模型9，例如按照维特比算法，在特征向量6与语言模型8所记述的各词汇之间进行模式对照(模式匹配)，计算声学似然度，选择声学似然度最高的词汇，作为内部识别结果10输出到结果确定部17。
[0039]另外，这里说明内部识别结果10中仅包含声学似然度高的上位的I个词汇的情况，但是不限于此，例如也可以构成为在内部识别结果10中包含声学似然度高的上位的I个以上的各词汇。
[0040]该内部识别结果10由词汇的标写、读音和声学似然度构成。例如，在输入语音2为“舞浜国際競技場(圭S j:—爹'I: 一)的情况下，虽然在语言模型8中不存在相同词汇，但输出语言模型8的词汇中的声学似然度最高的词汇。在本例中，假设“横浜国際競技場(A 二 ?:圭二 < S U ? —爹' I: 一)”的声学似然度最高。因此，内部识别部7输出该词汇的标写“横浜国際競技場”、读音“yokohamakokusaikyoogizyoo”和声学似然度作为内部识别结果10。
[0041]在步骤ST4中，读音赋予部12等待从外部识别部19回送外部识别结果11。另外，在本实施方式I中，假设外部识别结果11至少包含作为语音数据4的识别结果的词汇的标写，但不包含该词汇的读音。
[0042]当读音赋予部12接收到外部识别结果11时(步骤ST4 “是”)，参照读音词典13，提取与外部识别结果11所包含的词汇标写一致的词汇标写的读音，作为读音赋予结果14输出到重新对照部15(步骤ST5)。例如，在外部识别结果11是“舞浜国際競技場”的情况下，读音赋予部12参照读音词典13，提取一致的标写“舞浜国際競技場”和读音“maihamakokusaikyoogizyoo”，作为读音赋予结果14输出。
[0043]在步骤ST6中，重新对照部15将特征向量6和读音赋予结果14作为输入，使用与内部识别部7在模式对照中使用的声学模型同一的声学模型，即使用声学模型9，在特征向量6的读音与读音赋予结果14的读音之间进行模式对照，计算相对于读音赋予结果14的声学似然度。假设重新对照部15的模式对照方法为与在内部识别部7中使用的模式对照方法相同。在本实施方式I中，使用维特比算法。
[0044]这样，重新对照部15能够通过使用与内部识别部7同一的声学模型以及模式对照方法，比较由内部识别部7计算出的内部识别结果10和由外部识别部19计算出的外部识别结果11的声学似然度。重新对照部15将由读音赋予结果14和计算出的声学似然度构成的重新对照结果16输出到结果确定部17。
[0045]在步骤ST7中，结果确定部17将内部识别结果10和重新对照结果16作为输入，按照声学似然度从高到低的顺序对识别结果进行排序，作为最终识别结果18输出。在上述说明例中，输入语音2是“舞浜国際競技場”、内部识别部7的内部识别结果10是“横浜国際競技場”、外部识别部19的外部识别结果11是“舞浜国際競技場”，因此，如果使用同一声学模型9进行模式对照来计算声学似然度，则能够期待外部识别部19的“舞浜国際競技場”的声学似然度较高，有助于改善语音识别精度。
[0046]如上所述，根据实施方式1，语音识别装置I构成为具有:声学模型9，其是对语音的特征量进行模型化而得到的；语言模型8，其储存有语音识别装置I的识别对象的I个以上的词汇的标写和读音；读音词典13，其储存有不仅包含识别对象还包含识别对象以外的词汇在内的大量词汇的标写与其读音的对；分析部5，其分析输入语音2的语音数据4来计算特征向量6 ;内部识别部7，其使用声学模型9，进行分析部5计算出的特征向量6和语言模型8所储存的各词汇之间的模式对照，计算声学似然度，将该声学似然度高的上位的I个以上的词汇的标写、读音和声学似然度作为内部识别结果10输出；读音赋予部12，其取得通过外部识别部19对语音数据4进行识别处理而得到的外部识别结果11，使用读音词典13赋予针对外部识别结果11的读音，输出由外部识别结果11及其读音构成的读音赋予结果14 ;重新对照部15，其使用声学模型9，进行分析部5计算出的特征向量6和读音赋予部12输出的读音赋予结果14之间的模式对照，计算针对外部识别结果11的声学似然度；以及结果确定部17，其将内部识别结果10的声学似然度与重新对照结果16的声学似然度进行比较，确定最终的识别结果。因此，能够使用与内部识别部7同一的声学模型以及模式对照方法对外部识别结果11求出声学似然度，能够进行外部识别结果11的声学似然度和内部识别结果10的声学似然度的准确比较，能够提高最终的识别精度。因此，例如即使在语音识别装置I的硬件资源不充分、语言模型8的词汇数少的情况下，也能够利用具有大规模的语言模型的外部识别部19的识别结果，具有改善语音识别装置I的识别性能的效果。
[0047]另外，本实施方式I的语音识别装置I还能够应用于日语以外的语言。例如，在将语音识别装置I应用于英语的情况下，将语言模型8、声学模型9和读音词典13分别变更为英语用即可。该情况下，在读音词典13中登记大量的英语词汇的标写和读音即可。另外，将读音词典13的读音设为能够与声学模型9对应的标写。例如，如果声学模型9是英语的音素，则将读音词典13的读音设为音素标写、或可转换为音素标写的标号。图5示出英语的读音词典13的例子。在图5的第I列目记载了标写，在第2列记载了音素标写作为其读
■~>V.曰O
[0048]此外，在读音词典13中，为了消除不存在与外部识别结果11的词汇一致的读音的情况，储存了大量词汇的读音，在即使这样读音词典13中也不存在一致的读音的情况下，预先确定采用内部识别部7和外部识别部19的哪一个的识别结果，结果确定部17将该预先确定的一方的识别结果作为最终结果即可。
[0049]实施方式2.
[0050]图6是示出本实施方式2的语音识别装置I的结构的框图。在图6中，对与图1相同或对应的部分标注相同标号并省略说明。在本实施方式2的语音识别装置I中，特征在于追加了第2声学模型20。
[0051]第2声学模型20与上述实施方式I的声学模型9同样，储存了对语音的特征向量进行模型化而得到的声学模型。但是，第2声学模型20是比声学模型9精密且识别精度高的声学模型。例如，在利用声学模型对音素进行模型化的情况下，设为不仅对作为模型化对象的音素进行模型化，还对考虑了该音素前后的音素的三音音素进行模型化。在三音的情况下，“朝/asa”的第2个音素/s/、和“石/isi/”的第2个音素/s/的前后的音素不同，因此，利用不同的声学模型进行模型化，由此识别精度提高，这是公知的。但是，声学模型的种类增加，因此模式对照时的运算量增加。
[0052]接着，参照图7的流程图说明语音识别时的动作。
[0053]当使用者发生时，发送部3对输入语音2进行A/D转换，将其转换为语音数据4，输出到分析部5和外部识别部19(步骤STl)。分析部5和内部识别部7进行与上述实施方式I相同的动作(步骤ST2、ST3)，输出内部识别结果10。但是，在上述实施方式I的步骤ST3中，将内部识别结果10从内部识别部7输出到结果确定部17，但在本实施方式2的步骤ST3中，从内部识别部7输出到重新对照部15。
[0054]在步骤STll中，重新对照部15将特征向量6和内部识别结果10作为输入，使用第2声学模型20在特征向量6的读音与内部识别结果10的读音之间进行模式对照，计算针对内部识别结果10的声学似然度。此时的模式对照方法不需要与内部识别部7使用的方法相同，但在本实施方式2中使用维特比算法。重新对照部15将由内部识别结果10和计算出的声学似然度构成的重新对照结果16a输出到结果确定部17。
[0055]另外，如上所述，第2声学模型20与声学模型9相比，模型的种类较多，因此，模式对照所需的处理量增加，但将重新对照部15中的对照对象限定为内部识别结果10所包含的词汇，因此，能够将处理量的增加抑制得较小。
[0056]读音赋予部12进行与上述实施方式I相同的动作(步骤ST4、ST5)，求出针对外部识别结果11的读首赋予结果14，输出到重新对照部15。
[0057]在步骤ST12中，重新对照部15在被输入读音赋予结果14时，通过与上述实施方式I相同的动作，求出由读音赋予结果14及其声学似然度构成的重新对照结果16，输出

完整全部详细技术资料下载

当前第2页1 2 3 4