语音识别装置的制作方法

文档序号：2831048阅读：391来源：国知局

专利名称：语音识别装置的制作方法
技术领域：
本发明涉及语音识别装置以及存储有用于实现该语音识别装置的计算机程序的存储产品，该语音识别装置用于按发音单元识别基于发声法的语音数据，参照存储有多个具有一个或多个发音单元的短语的短语数据库，比较按发音单元识别的结果与存储在短语数据库中的短语，并且识别所述语音数据中包括的由一个或多个发音单元组成的短语。
背景技术：
语音识别处理已经付诸于实际的应用，用于针对基于说话者产生的语音的语音数据而生成基于发声内容的文本数据。该语音识别处理生成的文本数据实际用于各种应用，举例来说，如在呼叫中心记录对话内容的语音打字处理。文本数据也可以按词单元生成，且例如用作在呼叫中心处总结对话内容的关键词，从而进一步用于检索相关内容。
在语音识别处理中，在通过分析基于发声法的语音数据而获得的特征量的基础上，按发音单元如音节识别语音，并且例如，在诸如词辨别
(Word Spotting)的方法中，通过参照列出短语的词典执行匹配操作，把语音识别为词典中列出的短语。例如，作为提高识别率的方法，在日本特开专利公报No.ll-7292中公开了增加词汇的技术。

发明内容
因此，本发明的一个目的是提供一种能够减少基于由少量音节组成的短语的误识别的语音识别装置。
根据本发明的一个方面，提供一种语音识别装置，其用于执行按发音单元识别基于发声法的语音数据的第一识别处理，参照存储有多个由一个或多个发音单元组成的短语的短语数据库，将该第一识别处理的结果与该短语数据库中存储的短语进行比较，并且执行识别所述语音数据中包括的由一个或多个发音单元组成的短语的第二识别处理。该语音识别装置包括优先级识别部，该优先级识别部用于将该第一识别处理的结果与通过在存储在该短语数据库中的相应短语之前和/或之后添加附加短语而获得的多个扩展短语进行比较，以优先于该第二识别处理，识别包括在该语音数据中的扩展短语。

图1A、 1B和1C是用于概念性地示出语音识别处理中的误识别的示例的说明图2是用于示出根据一个实施方式的语音识别装置的配置的框图3是用于概念性地示出根据该实施方式的语音识别装置中设置的词形变化(conjugation)词典数据库的存储内容的说明图4是用于概念性地示出根据该实施方式的语音识别装置中设置的同现词典数据库的存储内容的说明图5是用于示出根据该实施方式的语音识别装置的语音识别处理的操作流程；
图6是用于示出根据该实施方式的语音识别装置的短语扩展处理的操作流程；
图7是用于概念性地示出根据该实施方式的语音识别装置的短语扩展处理的直方图8A、 8B、 8C和8D是用于概念性地示出根据该实施方式的语音识别装置在英语识别中的应用示例的说明图；以及
图9A、 9B、 9C和9D是用于概念性地示出根据该实施方式的语音识别装置在汉语识别中的应用示例的说明图。
具体实施例方式
在语音识别处理中，在通过分析基于发声法的语音数据而获得的特征量的基础上，按发音单元如音节识别语音，并且例如，在诸如词辨别的方法中，通过参照列出短语的词典执行匹配操作，把语音识别为词典
中列出的短语。
然而，存在这样的问题，S卩，在按发音单元的识别之后，在参照词典执行匹配操作的阶段，基于词典中列出的由少量音节组成的单词的不
恰当匹配可能导致误识别。
图1A、 1B和1C是用于概念性地示出语音识别处理中的误识别的示例的说明图。图1A示出了 "選択"C t《L、地域i。5 —番目o 文字力；消无4 。、 o "C 先進^)《(/、(读音sentakudekinai tiikitoiu itibanmeno mojiga kienainode sakie susumenai)"的声音内容的不例。图1B 示出了按发音单元对图1A中的声音内容进行识别的结果，通过识别处理 3;《寻了 "廿& t 〈 "C告《^ ^ iz、 § i ^ , 1/、勾or九灼0 i i;力、'§ i《L、
0"C各色夂十十灼^t/、 (i卖音 sentakudekinaitiikitoiuitibanmenomojigakienainodesakiesusumenai)"。图1C
示出了用于语音识别的词典。该词典列出了诸如发音为"iti"的数字"一" 和发音为"kie"的"消^"这样的短语。当使用图1C中所示的词典执行对图1B中的声音内容的识别处理时，发生误识别，即，不仅包括在"。6 (读音:itiba誕)"中的"H (读音:iti)"而且包括在""
,二 < "C $ & u ^ u § (读音sentakudekinaitiiki)"中的"。、6 (读音 iti)"被识别为数字"一"。类似地，出现如下问题，即，不仅""力；尝元& L、(读音mojigakienai)"中的"S ;i (读音kie)"而且尝i t W"、(读音:sakiesus画nai)"中的"差无(读音:kie)"被误识别为短语"消无"。如图1A、 1B和1C中所例示的，常规语音识别处理具有这样的问题，即，少量音节组成的词往往导致误识别。尽管在日本特开专利公报No.ll-7292中公开了通过增加词汇来提高识别率的技术，但难以通过该技术消除误识别，因为少量音节组成的词仍然存在。
在对英语的语音识别处理的情况下，其中例如发音单元是由发音符号表示的单元，应当注意，也可能导致误识别，例如把词"wonderful" 的头部识别为词"one"。
而且，当说话者的发音不清晰时，可能导致误识别，例如在识别"。W/u (一番)(读音:itiban)"中的 ^ (一)(读音:iti)"时，把 "、(读音:i)"识别为"(读音:mi)"，且把""(一)(读音:
iti)"识别为^ (道)(读音miti)"。
对通过使用扩展短语数据库与多个扩展短语进行匹配的识别处理给予优先级，该扩展短语数据库存储通过在用于存储诸如词这样的短语的短语数据库中存储的相应短语之前和/或之后添加附加短语而获得的扩展短语。以这种方式，因为相对于与由少量音节组成的短语的匹配，对与具有较大数目音节的扩展短语的匹配给予优先级，所以可以减少基于由少量音节组成的短语的误识别，例如，把色"。、^ L、 S ("C S & 。
地域)(读音dekinaitiiki)"中的"L、 6 (读音iti)"识别为"^ ^ (一) (读音iti)"的误识别，或者把"、6ti'^ (—番)(读音itiban)"中
的"、6 (一)(读音:iti)"识别为""(道)"的误识别。
下面的描述将参照附图详细解释实施方式。图2是用于示出根据一个实施方式的语音识别装置的配置的框图。图2中以1标出根据该实施方式的语音识别装置，其中使用了计算机。语音识别装置1包括控制
部10，如CPU，其用于控制整个装置；辅助存储部ll，如CDROM驱动器，其用于从诸如CD-ROM的存储器产品读取各种信息，所述存储器产品存储诸如数据的各种信息和诸如根据该实施方式的计算机程序100 的程序；存储部12，如硬盘，其存储由辅助存储部ll读取的各种信息；以及存储器部13，如RAM，其用于存储生成的临时信息。当控制部10 使存储器部13存储被存储在存储部12中的计算机程序100且执行计算机程序100时，计算机操作为根据本实施方式的语音识别装置1。应当注意，尽管控制部IO可以由单个CPU组成，但当控制部IO包括用于执行与语音相关的各种处理的诸如DSP的子处理器时，可以加速处理。
该语音识别装置1还包括声音接收部14，如麦克风，其用于接收说话者发出的声音；声学处理部15，其用于对声音接收部14接收的语音执行各种处理；操作部16，如鼠标或键盘；输出部17，如监视器或扬声器；以及通信部18，其要与诸如因特网的通信网络连接。该声学处理部 15包括增益放大器，其用于放大声音接收部14接收的声音；A/D转换器电路，其用于将放大的声音信号转换成数字信号；以及控制电路，如
数字信号处理器(DSP)，其用于对语音信号(为数字信号)执行各种声
学处理。
根据本实施方式的语音识别装置1的存储部12的存储区域的一部分用作各种数据库，如声学模型数据库(声学模型DB) 120，其用于以发音单元如音节存储表示语音数据特征的特征量，作为声学模型；短语数据库(短语DB) 121，其用于存储多个由一个或多个发音单元组成的短语；以及扩展短语数据库(扩展短语DB) 122，其用于存储通过扩展短语数据库121中存储的相应短语而获得的多个扩展短语；匹配数据库 (匹配DB) 123，其用于存储要用于匹配的短语和扩展短语；以及识别结果数据库(识别结果DB) 124，其用于存储对语音数据的语音识别处理的结果。
短语数据库121是在语音识别处理中用作词典的数据库，并且以相互关联的方式存储日语中由一个或多个发音单元组成的"读音"和"写法"。在日语的情况下，发音单元等于音节。例如，短语数据库121以相互关联的方式存储由一个发音单元组成的读音"i"和写法"胃"。短语数据库121还以相互关联的方式存储由两个发音单元组成的读音"iti"和写法"一"。例如，短语数据库121还以相互关联的方式存储读音"kie"和写法"消无"。
扩展短语数据库122是存储通过在存储在短语数据库121中的相应短语之前和/或之后添加附加短语而获得的扩展短语的数据库，并且包括诸如词形变化词典数据库1220和同现词典数据库1221的数据库。应当注意，扩展短语数据库122可以不分成诸如词形变化词典数据库1220和同现词典数据库1221的多个数据库，而是构建为一个数据库或详细分类的多个数据库。
图3是用于概念性示出根据本实施方式的语音识别装置1中设置的词形变化词典数据库1220的存储内容的说明图。词形变化词典数据库 1220是用于存储通过向作为存储在短语数据库121中的相应短语的多个词干添加作为附加短语的后缀而获得的扩展短语的数据库。图3中所示的示例中存储的是扩展短语的读音和写法，所述扩展短语例如为通过向作为短语数据库121中存储的具有读音"kie"和写法"消允"的短语的词干"消九"添加作为附加短语的后缀如"& ^ ，，、"法卞"和"3"而
获得的"消无^ L、(读音:kienai)"、"消"寸(读音:kiemasu)"和 "消无3 (读音kieru)"。词形变化词典数据库1220还存储诸如口语表达"消A 6々，/二 (读音kietyatta)"的扩展短语。词形变化词典数据库1220还存储通过向短语"消无"添加作为附加短语的空字符(空格) 而获得的扩展短语"消无一"。这是为了即便对于排除后缀的短语"消无 (读音kie)"的发音，也能够实现使得使用词形变化词典数据库1220 的识别处理。应当注意，尽管图3示出了在词干后面添加后缀作为附加短语的示例，但也可以在词干前面添加前缀作为附加短语。
图4是用于概念性示出根据本实施方式的语音识别装置1中设置的同现词典数据库1221的存储内容的说明图。同现词典数据库1221是用于存储在分别通过在存储在短语数据库121中的相应短语之前和/或之后添加附加短语而获得的扩展短语中，针对排除了附加短语的相应短语具有高同现概率的多个短语的数据库。在图4所示的示例中，针对存储在短语数据库121的具有读音"iti"和写法"一"短语，存储了诸如"一番 (读音:itiban)"、"一番目(读音:itibanme)"、"一枚(读音:itimai)"、 "一時(读音:itiji)"、"朝一 (读音:asaiti)"和"昼一 (读音:hiruiti)" 的扩展短语的读音和写法。
匹配数据库123是其中把短语数据库121的存储内容的一部分的短语替换为扩展短语数据库122中存储的扩展短语的数据库。例如，存储在短语数据库121中的将读音"kie"与写法"消A "相关联的记录被替换为将诸如"kienai"、 "ki函su"和"kieru"的读音与诸如"消无4' t、"、 "消义主亍"和"消A 3"的写法相关联的记录。
接下来，将解释根据本实施方式的语音识别装置1的处理。根据本实施方式的语音识别装置1使用控制部IO执行计算机程序100以生成用于执行各种处理(如用于扩展短语的短语扩展处理和用于基于扩展短语识别语音的语音识别处理)的各种程序模块，并且使用各种程序模块的功能执行下面将要解释的各种处理。
图5是用于示出根据本实施方式的语音识别装置1的语音识别处理的操作流程。在用于执行计算机程序100的控制部10的控制下，语音识
别装置1在声音接收部14处接收说话者产生的语音(S101)。语音识别装置1使用声学处理部15放大基于接收到的声音的模拟信号，并且进一步将该模拟信号转换成数字信号以生成语音数据(S102)。
语音识别装置1在控制部10的控制下从通过声学处理部15的处理而生成的语音数据生成具有预定时间长度的多个帧。语音识别装置1将以帧为单位的生成语音数据(时间轴上的信号)转换成频谱(频率轴上的信号)。语音识别装置1从通过转换获得的频谱提取特征量，如功率、节距和倒谱，并且将提取的特征量与存储在声学模型数据库120中的声学模型进行比较，从而对语音数据按发音单元执行识别处理(S103)。操作S103中的按发音单元的识别处理是按诸如音节的发音单元识别语音数据的处理。例如，该处理用于识别表示话者产生的声音内容"選択f多 & L、地域t L、》一番目O文字力;消A & L、 O f先進灼& L、"的语音数
据的发音内容"甘九〈含《^ 6 iz、 § i, l、 ^s' &灼o 6 i;力；§
i & 。 o d s i t十灼& u "。所述识别处理能够看作对存储在诸如短
语数据库121、扩展短语数据库122和匹配数据库123这样的数据库中的读音的识别。应当注意，基于特征量的语音部分检测处理作为操作S103 中的识别处理的预处理而执行。该语音部分检测处理是用于从语音数据检测包括语音的帧的处理。通过仅对在语音部分检测处理中检测到包括语音的部分中的语音数据执行识别处理，可以防止在不包括语音的噪声部分中误识别出语音。
语音识别装置1然后在控制部10的控制下比较发音单元中的语音数据(操作S103中的识别处理的结果)与存储在匹配数据库123中的扩展短语和短语，以执行用于识别包括在语音数据中的扩展短语和短语的识别处理(S04)。操作S104中的识别处理是用于在发音单元中的语音数据中识别一个或多个与所述扩展短语和所述短语中的任一个相匹配的发音单元串的处理，作为匹配的扩展短语或匹配短语。例如，对发音单元"廿t < T t & L、 6 t/、 3 t 1/、 3 ^ 6 灼O 6 ^力、'§无& </、 O "C § § A
t 卞的 & L、 ( 读音
sentakudekinait':ikitoiuitibanmenomojigakienainodesakiesusumenai)"中的语
音数据执行识别处理，以把发音单元串"L、 6 九灼(itibanme)"识别为"一番目"且把发音单元串"t无^ ^ (kienai)"识别为"消无^ 。"。因为预先用扩展短语代替特定短语，所以根据本实施方式的语音识别装置1例如可以消除把发音单元串"T S "、"、香(dekinaitiiki)"识别为"t: S & — ^ S "的误识别和把发音单元串"$多A t十灼4 l、 (sakiesusumenai)"识别为"$消A t十& & L、"的误识别。应当注意，当使用扩展短语识别发音单元中的语音数据时，语音数据可以被识别为不包括扩展短语的短语的一部分的识别结果，或者被识别为扩展短语的识别结果。具体而言，当"、6^i灼(itibanme)"被识别为"一番目" 时，"u 6 Uf九(itibanme)"的部分"。6 (iti)"可能被识别为"一番目"中的"一"或者"。6凡灼(itibanme)"可以被识别为"一番目"。
在操作S104中，匹配数据库123是存储通过用扩展短语代替存储在短语数据库121中的相应短语的一部分而获得的短语的数据库。因而，操作S104中的匹配处理是优先于与短语数据库121中存储的短语进行匹配的识别处理，而通过与扩展短语数据库122中存储的扩展短语进行匹配来执行识别处理的识别处理。因此，操作S104中的识别处理可以被发展为各种方法，如不使用匹配数据库123，在执行与扩展短语数据库122 中存储的扩展短语中用于匹配的扩展短语进行匹配的识别处理之后，执行与存储在短语数据库121中的短语进行匹配的识别处理。如上所述，通过对基于扩展短语的识别处理给予优先级，根据本发明的语音识别装置1可以消除基于由少量发音单元组成的短语的误识别。
在操作S104的识别处理中，计算表示语音数据与任一扩展短语之间的相似度的分数，且当计算的分数大于或等于预定值时，判断发音单元中的语音数据和扩展短语匹配。通过预定方法，获得作为语音数据匹配对象的部分处的特征量和与扩展短语相关的声学模型的特征量之间的相似度，来计算表示相似度的分数。应当注意，并不是简单地通过比较语音数据的特征量和与扩展短语相关的声学模型的特征量，而是通过针对短语与组成扩展短语的附加短语，单独获得语音数据和对应于短语的部分(例如，对应于词干的部分)之间的相似度，以及语音数据和对应于附加短语的部分(例如，对应于后缀的部分)之间的相似度，且对分别获得的相似度求和，来计算整体相似度。在这种情况下，可以通过加权或关注与对应于词干的部分相关的相似度来计算整体相似度。通过使用加权来计算相似度，可以执行强调与排除附加短语的原始短语的匹配程度的识别处理。
语音识别装置1然后在控制单元10的控制下把操作S104中的识别处理的结果存储在识别结果数据库124中，并且经由输出部17输出识别处理的结果(S105)。以这种方式执行语音识别处理。
图6是用于示出根据本实施方式的语音识别装置1的短语扩展处理的操作流程。在短语扩展处理中，例如，基于在语音识别处理的操作S103 中识别的发音单元中的语音数据来扩展短语。语音识别装置1在用于执行计算机程序100的控制部10的控制下，比较在语音识别处理中识别的发音单元中的语音数据和存储在短语数据库121中的短语，并且执行用于识别语音数据中包括的短语的识别处理(S201)。
在控制部10的控制下，语音识别装置1针对每个发音单元数，计算与存储在短语数据库121中的任一短语匹配的短语的总数(S202)。语音识别单元1把所计算的短语数目超过预定值的发音单元数设置为扩展基准值，该扩展基准值成为提取扩展短语的基准(S203)。设置的扩展基准值被存储在存储部12中。
下面的描述将详细解释操作S202和S203中的处理。图7是用于概念性地示出根据本实施方式的语音识别装置1的短语扩展处理的直方图。图7中例示的直方图示出了发音单元数(在横轴上示出)与针对每个发音单元数的短语总数(即，发生频率)(在纵轴上示出)之间的关系。艮口，图7中的直方图示出了在操作S202中针对每个发音单元数计算的短语总数。因为在图7中所示的直方图中，发音单元数T1、 T2和T6的发生频率超过阈值，所以在操作S203中把Tl、 T2和T6设置为扩展基准值。应当理解，本发明可以以合适的方式投入应用，例如，代替把T1、 T2和 T6设置为扩展基准值，而把小于或等于T6(超过阈值的最大发音单元数) 的值即所有的值Tl至T6设置为扩展基准值，或者可以通过不仅设置上限例如T6，而且设置下限，来设置扩展基准值。
在操作S202和S203中解释的处理中，通过针对每个发音单元数计算短语总数来设置扩展基准值。除了所述结构之外，还可以针对每个短语计算短语总数，并把计算的总数超过预设阈值的短语的发音单元数或者小于或等于所述发音单元数的值设置为扩展基准值。例如，当"^6 (iti)"的发生总数的总和计数超过阈值时，把"L、 6 (iti)"的发音单元数"2"设置为扩展基准值。也可以同时结合针对每个发音单元数的总和计数和针对每个短语的总和计数来设置扩展基准值。
而且，作为操作S202和S203的替代处理，当针对每个发音单元数计算的短语数大于或等于基于其他发音单元数计算的短语数而预设的阈值时，可以把发音单元数或小于或等于该发音单元数的值设置为扩展基准值。S卩，对通过从比作为判断对象的发音单元数大1的发音单元数的出现频率减去该作为判断对象的发音单元数的出现频率而获得的值，艮口，变量，与阈值相比较，从而判断是否把该变量设置为扩展基准值。例如，在图7所示的直方图中，计算变量，如通过从T6的出现频率减去T5的出现频率而获得的值、通过从T5的出现频率减去T4的出现频率而获得的值、……、通过从T2的出现频率减去T1的出现频率而获得的值，并且当计算出的变量超过阈值时，把该计算出的变量设置为扩展基准值。代替一系列发音单元数之间的比较，本发明可以以合适的方式投入应用，例如与当与其他发音单元数的出现频率的平均值之差大于或等于阈值时，设置扩展基准值。本发明还可以以诸如参照先前的识别结果的合适方式投入应用。
再次考虑该操作流程，在设置扩展基准值之后，在控制部10的控制下，根据本实施方式的语音识别装置1从短语数据库121提取发音单元数对应于设置的扩展基准值的短语(S204)。语音识别装置1提取通过向从诸如词形变化词典数据库1220和同现词典数据库1221的扩展短语数据库122提取的短语添加附加短语而获得的扩展短语(S205)。语音识别装置1通过用操作S205中提取的扩展短语代替存储在短语数据121的短语中的发音单元数对应于扩展基准值的短语而生成匹配数据库123 (S206)。
根据本实施方式的语音识别装置1然后从输出部17输出短语已被扩展短语替换的事实和替换的内容(S207)。以这种方式执行短语扩展处理。
每当例如执行使用图5解释的语音识别处理时，在操作S103中按发音单元进行识别处理之后，执行短语扩展处理。应当注意，可以基于先前的识别结果而预先执行短语扩展处理，并且可以使用包括已经执行的短语扩展处理的结果的匹配数据库123执行识别处理。当预先执行短语扩展处理时，通过适当设置的事件，如语音识别装置1的激活、语音识别处理的空闲或各种数据库的更新，来触发短语扩展处理的执行启动。
尽管可以通过人工工作来更新在根据本实施方式的语音识别装置1 中设置的扩展短语数据库122的存储内容，但也可以把扩展短语数据库 122设计成，自动巡视经由通信部18连接的外部网络如因特网上的网页，并且检索可以通过文本提取而获得的数据，以进行自动更新。
尽管在上面的实施方式中已经示出了用于日语的语音识别的实施方式，但该实施方式不限于此，而可以应用于日语之外的其他语言，如英语或汉语。图8A、 8B、 8C和8D是用于概念性地示出根据本实施方式的语音识别装置1识别英语的应用示例的说明图。图8A示出了表示说话者产生的声音内容"I paid one dollar as a price of this wonderfUl paper"的语音数据。图8B示出了针对该声音内容按发音单元的识别结果，并且示出了按发音单元识别为"A^乂^t" h/ut、一 A ^
6 t/、卞 "^ "C 。 t ;b A "6 乂 (/、一 (ai peidu wan daraa azu a puraisu obu disu wandafUru peipaa)"的示例。图8C示出了短语数据库121 的存储内容的一部分，而图8D示出了扩展短语数据库122的存储内容的一部分。对于图8B中示出的按发音单元的识别结果，根据本实施方式的语音识别装置1用诸如"one dollar"(读音:wandaraa)和"wonderfUl" (读音wandafiim)的扩展短语代替短语"one"(读音wan)，并用诸如"pays"(读音peizu)和"paid"(读音peidu)的扩展短语代替短语"pay"(读音pei)，并且执行如上所述的语音识别处理。
图9A、 9B、 9C和9D是用于概念性地示出根据本实施方式的语音识别装置1识别汉语的应用示例的说明图。图9A示出了表示说话者产生的声音内容"八号有一件事，所以九号我和他见面一起喝酒了"的语音数据。图9B示出了针对该声音内容的按发音单元的识别结果，并且示出了按发音单元识别为"f 一 (± fc、 J: 5 l、一 i; i /u L — t f ^ i; j; ^〖ib、》fe^/二一 i;克/u办；i/b ^ — 6 A—i;丄, 6 (baahao you iijensi-suoi jouhao uoflitaa-jenmien iiti fuujou ra)"的不例。图 9C示出了短语数据库121的存储内容的一部分且，而9D示出了扩展短语数据库122的存储内容的一部分。对于图9B中示出的按发音单元的识别结果，根据本实施方式的语音识别装置用诸如"九号"(读音jouhao) 和"九点"(读音joudeien)的扩展短语代替短语"九"(读音jou)，并用诸如"一件"(读音iijien)和"三件"(读音sanjien)的扩展短语代替短语"件"(读音jien)，并且执行如上所述的语音识别处理。尽管为易于解释起见，在使用图8A、 8B、 8C、 8D、 9A、 9B、 9C和9D解释的示例中，示出了以日语音节单元为发音单元的识别示例，但应当注意，本发明可以以诸如按发音符号单元进行识别的合适方式进行设置。
上述实施方式仅例示了无穷多实施方式中的一部分，可以适当地设计各种硬件、软件等的配置。例如，尽管在上述实施方式中示出了对在语音识别装置的声音接收部处接收的声音应用识别处理的示例，但该实施方式不限于此，而可以应用于各种形式，如基于由接收声音的其他装置生成的声音数据的识别处理。而且，上述短语扩展处理和语音识别处理可以分别由不同的装置执行。
根据本实施方式，优先于基于存储在短语数据库中的短语的识别，执行通过与扩展短语进行匹配的识别处理。因此，因为相比于与由少量发音单元组成的短语的匹配，对与由较多数发音单元组成的扩展短语的匹配设置优先级，所以可以消除识别由少量发音单元组成的短语的误识别且改善识别准确度。根据本实施方式，因为在用扩展短语代替具有使大量短语被包括在按发音单元的识别结果中的发音单元数的短语之后执行识别处理，所以可以用扩展短语代替具有更容易导致误识别的发音单元数的相应短语。
根据本实施方式，可以用和短语的变化形式关联的扩展短语代替短语。
在根据本发明的语音识别装置和计算机程序中，其中按发音单元识别基于发声法的语音数据，参照存储由一个或多个发音单元组成的短语的短语数据库，将按发音单元识别的语音数据与存储在短语数据库中的短语进行比较，并且执行识别由语音数据中包括的一个或多个发音单元组成的短语的处理，对与通过在短语数据库中存储的相应短语之前和/或之后添加附加短语而获得的扩展短语进行匹配的识别处理设置优先级。
因为消除了由少量发音单元组成的短语且消除了基于由少量发音单元组成的短语的误识别，本发明的这种配置确保了诸如改善识别率的有益效果。
权利要求
1、一种语音识别装置，其用于执行按发音单元识别基于发声法的语音数据的第一识别处理，将该第一识别处理的结果与在存储有多个具有一个或多个发音单元的短语的短语数据库中存储的多个短语进行比较，并且执行识别所述语音数据中包括的由一个或多个发音单元组成的短语的第二识别处理，其特征在于包括优先级识别部，其用于优先于该第二识别处理，将该第一识别处理的结果与通过在存储在该短语数据库中的相应短语之前和/或之后添加附加短语而获得的多个扩展短语进行比较，以识别包括在该语音数据中的扩展短语。
2、根据权利要求l所述的语音识别装置，其特征在于，所述优先级识别部通过用所述扩展短语代替存储在所述短语数据库中的短语，对与所述扩展短语相关的识别处理提供优先级。
3、一种语音识别装置，其用于执行按发音单元识别基于发声法的语音数据的第一识别处理，将该第一识别处理的结果与在存储有多个具有一个或多个发音单元的短语的短语数据库中存储的多个短语进行比较，并且执行识别所述语音数据中包括的由一个或多个发音单元组成的短语的第二识别处理，其特征在于包括扩展短语数据库，其用于存储通过在存储在所述短语数据库中的相应短语之前和/或之后添加附加短语而获得的多个扩展短语；用于从所述短语数据库提取具有预定发音单元数的短语的短语提取部；用于从所述扩展短语数据库提取通过向提取的短语添加附加短语而获得的扩展短语的扩展短语提取部；以及优先级识别部，其用于优先于所述第二识别处理，将所述第一识别处理的结果与提取的扩展短语进行比较，以识别所述语音数据中包括的扩展短语。
4、根据权利要求3所述的语音识别装置，其特征在于还包括设置部，其用于在所述第一识别处理的结果中，基于发音单元数和与存储在所述短语数据库中的任一短语匹配的短语数设置所述预定数。
5、根据权利要求3所述的语音识别装置，其特征在于，所述扩展短语数据库存储通过向作为所述短语数据库中存储的相应短语的相应词干添加作为附加短语的后缀和/或前缀而获得的多个扩展短语。
6、根据权利要求3所述的语音识别装置，其特征在于，所述优先级识别部通过用所述扩展短语代替存储在所述短语数据库中的短语，对与所述扩展短语相关的识别处理提供优先级。
7、根据权利要求4所述的语音识别装置，其特征在于，所述设置部把计算的与所述短语数据库中存储的任一短语相匹配的短语的总数超过预设阈值时的发音单元数，或者小于或等于所述发音单元数的值，设置为所述第一识别处理中的所述预定数。
8、根据权利要求4所述的语音识别装置，其特征在于，所述设置部把计算的与所述短语数据库中存储的任一短语相匹配的短语的总数超过预设阈值时的短语的发音单元数，或者小于或等于所述发音单元数的值，设置为第一识别处理中的所述预定数。
9、根据权利要求4所述的语音识别装置，其特征在于，所述设置部针对每个发音单元数计算与所述短语数据库中存储的任一短语相匹配的短语的总数，并且把计算的短语数大于或等于基于针对具有其他发音单元数的短语计算的数而预设的阈值时的发音单元数，或者小于或等于所述发音单元数的值，设置为所述第一识别处理中的所述预定数。
全文摘要
本发明提供一种语音识别装置，当它按发音单元对基于说话者产生的语音的语音数据如音节执行识别处理，且进一步通过诸如用于与存储在短语数据库中的短语进行匹配的关键词辨别这样的方法执行识别时，能够减小与由少量音节组成的短语进行匹配而导致的误识别。该语音识别装置执行用于对按发音单元的识别处理的结果与通过在相应短语之前和/或之后添加附加短语而获得的扩展短语进行比较的识别处理。
文档编号G10L15/08GK101458928SQ20081016635
公开日2009年6月17日申请日期2008年9月26日优先权日2007年12月10日
发明者阿部贤司申请人:富士通株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：阿部贤司
技术所有人：富士通株式会社
我是此专利的发明人

上一篇：键盘装置的制作方法
上一篇：基于韵律参照的语音合成装置和方法

相关技术

基于韵律参照的语音合成装置和...
隔声量可智能化控制的隔声罩的...
电子乐器的键盘装置的制作方法
嵌入式网络卡拉ok娱乐装置及...
一种嵌入式语音识别系统功能更...
语音辨识功能启动系统及方法
信号处理设备、信号处理方法及...
语音翻译装置和方法
用于声阻尼的合成物的制作方法
弹簧偏置的调音器的制作方法

网友询问留言已有0条留言

还没有人留言评论。精彩留言会获得点赞！

1

精彩留言，会给你点赞！

语音识别输入软件相关技术
语音识别装置的制作方法
用于识别被输入的语音的重音的系统和方法
语音识别装置的制作方法
一种语音识别系统和方法
语音识别装置的制作方法
语音识别装置的制作方法
语音识别装置的制作方法
利用语音识别实现字元输入的手持式装置及方法
采用多个语音识别器的方法
一种语音识别及输入方法和装置制造方法
语音识别打字相关技术
语音控制蜂窝电话的制作方法
语音控制处理机的制作方法
基于语音识别的通话的制作方法
具有语音识别功能的移动终端的制作方法
语音控制插座的制作方法
语音控制插座的制作方法
语音控制板的制作方法
汉语语音识别词库的处理方法
具有语音识别功能的导航装置制造方法
语音控制出水装置的制作方法
微信语音识别相关技术
用于基于语音学家的人/机接口部件的系统和方法
一种基于云平台的语音识别管理系统的制作方法
基于obd接口的车载设备的语音控制方法及装置的制造方法
一种线束接口识别装置的制造方法
带有语音识别功能的英语教学装置的制造方法
带人脸识别和语音识别功能的淋浴房的制作方法
一种基于语音识别和面部识别的门禁控制方法
一种基于语音识别和面部识别的门禁系统的制作方法
语音识别装置的制造方法
用于语音和视频通信的增强接口的制作方法
语音识别相关技术
语音信号处理方法及装置与流程
语音识别方法及装置与流程
用于无人机的语音识别算法的制造方法与工艺
航空座舱环境自适应语音特征模型训练方法与流程
一种互联网上独立考试的方法与流程
一种红外识别智能家居报警装置的制造方法
一种电信诈骗识别方法及数据处理设备与流程
一种记忆增强及认知识别神经元的类脑器件及其制备方法与流程
应用于二值权重卷积网络的处理系统及方法与流程
一种自适应可重构的深度卷积神经网络计算方法和装置与流程
百度语音识别相关技术
一种语音识别测试系统和方法与流程
用于自动语音识别的使用外推的跳帧和按需输出的神经网络的制造方法与工艺
基于云计算自然语音识别的音视频点播技术及系统的制造方法与工艺
语音识别方法及装置与制造工艺
语音识别方法及装置与制造工艺
集成语音控制型电子烟的制作方法
基于语音识别技术的寄存柜的制作方法
一种用于汽车的语音识别装置的制造方法
语音识别方法及装置的制造方法
一种基于声效模式检测的语音识别方法