语音识别装置的制作方法

文档序号:2831048阅读:391来源:国知局
专利名称:语音识别装置的制作方法
技术领域
本发明涉及语音识别装置以及存储有用于实现该语音识别装置的计 算机程序的存储产品,该语音识别装置用于按发音单元识别基于发声法 的语音数据,参照存储有多个具有一个或多个发音单元的短语的短语数 据库,比较按发音单元识别的结果与存储在短语数据库中的短语,并且 识别所述语音数据中包括的由一个或多个发音单元组成的短语。
背景技术
语音识别处理已经付诸于实际的应用,用于针对基于说话者产生的 语音的语音数据而生成基于发声内容的文本数据。该语音识别处理生成 的文本数据实际用于各种应用,举例来说,如在呼叫中心记录对话内容 的语音打字处理。文本数据也可以按词单元生成,且例如用作在呼叫中 心处总结对话内容的关键词,从而进一步用于检索相关内容。
在语音识别处理中,在通过分析基于发声法的语音数据而获得的特 征量的基础上,按发音单元如音节识别语音,并且例如,在诸如词辨别
(Word Spotting)的方法中,通过参照列出短语的词典执行匹配操作,把 语音识别为词典中列出的短语。例如,作为提高识别率的方法,在日本 特开专利公报No.ll-7292中公开了增加词汇的技术。

发明内容
因此,本发明的一个目的是提供一种能够减少基于由少量音节组成 的短语的误识别的语音识别装置。
根据本发明的一个方面,提供一种语音识别装置,其用于执行按发 音单元识别基于发声法的语音数据的第一识别处理,参照存储有多个由 一个或多个发音单元组成的短语的短语数据库,将该第一识别处理的结果与该短语数据库中存储的短语进行比较,并且执行识别所述语音数据 中包括的由一个或多个发音单元组成的短语的第二识别处理。该语音识 别装置包括优先级识别部,该优先级识别部用于将该第一识别处理的结 果与通过在存储在该短语数据库中的相应短语之前和/或之后添加附加短 语而获得的多个扩展短语进行比较,以优先于该第二识别处理,识别包 括在该语音数据中的扩展短语。


图1A、 1B和1C是用于概念性地示出语音识别处理中的误识别的示 例的说明图2是用于示出根据一个实施方式的语音识别装置的配置的框图3是用于概念性地示出根据该实施方式的语音识别装置中设置的 词形变化(conjugation)词典数据库的存储内容的说明图4是用于概念性地示出根据该实施方式的语音识别装置中设置的 同现词典数据库的存储内容的说明图5是用于示出根据该实施方式的语音识别装置的语音识别处理的 操作流程;
图6是用于示出根据该实施方式的语音识别装置的短语扩展处理的 操作流程;
图7是用于概念性地示出根据该实施方式的语音识别装置的短语扩 展处理的直方图8A、 8B、 8C和8D是用于概念性地示出根据该实施方式的语音识 别装置在英语识别中的应用示例的说明图;以及
图9A、 9B、 9C和9D是用于概念性地示出根据该实施方式的语音识 别装置在汉语识别中的应用示例的说明图。
具体实施例方式
在语音识别处理中,在通过分析基于发声法的语音数据而获得的特 征量的基础上,按发音单元如音节识别语音,并且例如,在诸如词辨别的方法中,通过参照列出短语的词典执行匹配操作,把语音识别为词典
中列出的短语。
然而,存在这样的问题,S卩,在按发音单元的识别之后,在参照词 典执行匹配操作的阶段,基于词典中列出的由少量音节组成的单词的不
恰当匹配可能导致误识别。
图1A、 1B和1C是用于概念性地示出语音识别处理中的误识别的示 例的说明图。图1A示出了 "選択"C t《L、 地域i。5 —番目o 文 字力;消无4 。、 o "C 先 進^)《(/、(读音sentakudekinai tiikitoiu itibanmeno mojiga kienainode sakie susumenai)"的声音内容的不例。图1B 示出了按发音单元对图1A中的声音内容进行识别的结果,通过识别处理 3;《寻了 "廿& t 〈 "C告《^ ^ iz、 § i ^ , 1/、勾or九灼0 i i;力、'§ i《L、
0"C各色夂十十灼^t/、 (i卖音 sentakudekinaitiikitoiuitibanmenomojigakienainodesakiesusumenai)"。图1C
示出了用于语音识别的词典。该词典列出了诸如发音为"iti"的数字"一" 和发音为"kie"的"消^"这样的短语。当使用图1C中所示的词典执行对 图1B中的声音内容的识别处理时,发生误识别,即,不仅包括在"。6 (读音:itiba誕)"中的"H (读音:iti)"而且包括在""
,二 < "C $ & u ^ u § (读音sentakudekinaitiiki)"中的"。、6 (读音 iti)"被识别为数字"一"。类似地,出现如下问题,即,不仅""力;尝 元& L、(读音mojigakienai)"中的"S ;i (读音kie)"而且尝i t W"、(读音:sakiesus画nai)"中的"差无(读音:kie)"被误识 别为短语"消无"。如图1A、 1B和1C中所例示的,常规语音识别处理 具有这样的问题,即,少量音节组成的词往往导致误识别。尽管在日本 特开专利公报No.ll-7292中公开了通过增加词汇来提高识别率的技术, 但难以通过该技术消除误识别,因为少量音节组成的词仍然存在。
在对英语的语音识别处理的情况下,其中例如发音单元是由发音符 号表示的单元,应当注意,也可能导致误识别,例如把词"wonderful" 的头部识别为词"one"。
而且,当说话者的发音不清晰时,可能导致误识别,例如在识别"。W/u (一番)(读音:itiban)"中的 ^ (一)(读音:iti)"时,把 "、(读音:i)"识别为"(读音:mi)",且把""(一)(读音:
iti)"识别为^ (道)(读音miti)"。
对通过使用扩展短语数据库与多个扩展短语进行匹配的识别处理给 予优先级,该扩展短语数据库存储通过在用于存储诸如词这样的短语的 短语数据库中存储的相应短语之前和/或之后添加附加短语而获得的扩展 短语。以这种方式,因为相对于与由少量音节组成的短语的匹配,对与 具有较大数目音节的扩展短语的匹配给予优先级,所以可以减少基于由 少量音节组成的短语的误识别,例如,把色"。、^ L、 S ("C S & 。
地域)(读音dekinaitiiki)"中的"L、 6 (读音iti)"识别为"^ ^ (一) (读音iti)"的误识别,或者把"、6ti'^ (—番)(读音itiban)"中
的"、6 (一)(读音:iti)"识别为""(道)"的误识别。
下面的描述将参照附图详细解释实施方式。图2是用于示出根据一 个实施方式的语音识别装置的配置的框图。图2中以1标出根据该实施 方式的语音识别装置,其中使用了计算机。语音识别装置1包括控制
部10,如CPU,其用于控制整个装置;辅助存储部ll,如CDROM驱 动器,其用于从诸如CD-ROM的存储器产品读取各种信息,所述存储器 产品存储诸如数据的各种信息和诸如根据该实施方式的计算机程序100 的程序;存储部12,如硬盘,其存储由辅助存储部ll读取的各种信息; 以及存储器部13,如RAM,其用于存储生成的临时信息。当控制部10 使存储器部13存储被存储在存储部12中的计算机程序100且执行计算 机程序100时,计算机操作为根据本实施方式的语音识别装置1。应当注 意,尽管控制部IO可以由单个CPU组成,但当控制部IO包括用于执行 与语音相关的各种处理的诸如DSP的子处理器时,可以加速处理。
该语音识别装置1还包括声音接收部14,如麦克风,其用于接收 说话者发出的声音;声学处理部15,其用于对声音接收部14接收的语音 执行各种处理;操作部16,如鼠标或键盘;输出部17,如监视器或扬声 器;以及通信部18,其要与诸如因特网的通信网络连接。该声学处理部 15包括增益放大器,其用于放大声音接收部14接收的声音;A/D转换器电路,其用于将放大的声音信号转换成数字信号;以及控制电路,如
数字信号处理器(DSP),其用于对语音信号(为数字信号)执行各种声
学处理。
根据本实施方式的语音识别装置1的存储部12的存储区域的一部分 用作各种数据库,如声学模型数据库(声学模型DB) 120,其用于以 发音单元如音节存储表示语音数据特征的特征量,作为声学模型;短语 数据库(短语DB) 121,其用于存储多个由一个或多个发音单元组成的 短语;以及扩展短语数据库(扩展短语DB) 122,其用于存储通过扩展 短语数据库121中存储的相应短语而获得的多个扩展短语;匹配数据库 (匹配DB) 123,其用于存储要用于匹配的短语和扩展短语;以及识别 结果数据库(识别结果DB) 124,其用于存储对语音数据的语音识别处 理的结果。
短语数据库121是在语音识别处理中用作词典的数据库,并且以相 互关联的方式存储日语中由一个或多个发音单元组成的"读音"和"写 法"。在日语的情况下,发音单元等于音节。例如,短语数据库121以相 互关联的方式存储由一个发音单元组成的读音"i"和写法"胃"。短语数 据库121还以相互关联的方式存储由两个发音单元组成的读音"iti"和写 法"一"。例如,短语数据库121还以相互关联的方式存储读音"kie"和 写法"消无"。
扩展短语数据库122是存储通过在存储在短语数据库121中的相应 短语之前和/或之后添加附加短语而获得的扩展短语的数据库,并且包括 诸如词形变化词典数据库1220和同现词典数据库1221的数据库。应当 注意,扩展短语数据库122可以不分成诸如词形变化词典数据库1220和 同现词典数据库1221的多个数据库,而是构建为一个数据库或详细分类 的多个数据库。
图3是用于概念性示出根据本实施方式的语音识别装置1中设置的 词形变化词典数据库1220的存储内容的说明图。词形变化词典数据库 1220是用于存储通过向作为存储在短语数据库121中的相应短语的多个 词干添加作为附加短语的后缀而获得的扩展短语的数据库。图3中所示的示例中存储的是扩展短语的读音和写法,所述扩展短语例如为通过向 作为短语数据库121中存储的具有读音"kie"和写法"消允"的短语的 词干"消九"添加作为附加短语的后缀如"& ^ ,,、"法卞"和"3"而
获得的"消无^ L、(读音:kienai)"、"消"寸(读音:kiemasu)"和 "消无3 (读音kieru)"。词形变化词典数据库1220还存储诸如口语 表达"消A 6々,/二 (读音kietyatta)"的扩展短语。词形变化词典数 据库1220还存储通过向短语"消无"添加作为附加短语的空字符(空格) 而获得的扩展短语"消无一"。这是为了即便对于排除后缀的短语"消无 (读音kie)"的发音,也能够实现使得使用词形变化词典数据库1220 的识别处理。应当注意,尽管图3示出了在词干后面添加后缀作为附加 短语的示例,但也可以在词干前面添加前缀作为附加短语。
图4是用于概念性示出根据本实施方式的语音识别装置1中设置的 同现词典数据库1221的存储内容的说明图。同现词典数据库1221是用 于存储在分别通过在存储在短语数据库121中的相应短语之前和/或之后 添加附加短语而获得的扩展短语中,针对排除了附加短语的相应短语具 有高同现概率的多个短语的数据库。在图4所示的示例中,针对存储在 短语数据库121的具有读音"iti"和写法"一"短语,存储了诸如"一番 (读音:itiban)"、"一番目(读音:itibanme)"、"一枚(读音:itimai)"、 "一時(读音:itiji)"、"朝一 (读音:asaiti)"和"昼一 (读音:hiruiti)" 的扩展短语的读音和写法。
匹配数据库123是其中把短语数据库121的存储内容的一部分的短 语替换为扩展短语数据库122中存储的扩展短语的数据库。例如,存储 在短语数据库121中的将读音"kie"与写法"消A "相关联的记录被替 换为将诸如"kienai"、 "ki函su"和"kieru"的读音与诸如"消无4' t、"、 "消义主亍"和"消A 3"的写法相关联的记录。
接下来,将解释根据本实施方式的语音识别装置1的处理。根据本 实施方式的语音识别装置1使用控制部IO执行计算机程序100以生成用 于执行各种处理(如用于扩展短语的短语扩展处理和用于基于扩展短语 识别语音的语音识别处理)的各种程序模块,并且使用各种程序模块的功能执行下面将要解释的各种处理。
图5是用于示出根据本实施方式的语音识别装置1的语音识别处理 的操作流程。在用于执行计算机程序100的控制部10的控制下,语音识
别装置1在声音接收部14处接收说话者产生的语音(S101)。语音识别 装置1使用声学处理部15放大基于接收到的声音的模拟信号,并且进一 步将该模拟信号转换成数字信号以生成语音数据(S102)。
语音识别装置1在控制部10的控制下从通过声学处理部15的处理 而生成的语音数据生成具有预定时间长度的多个帧。语音识别装置1将 以帧为单位的生成语音数据(时间轴上的信号)转换成频谱(频率轴上 的信号)。语音识别装置1从通过转换获得的频谱提取特征量,如功率、 节距和倒谱,并且将提取的特征量与存储在声学模型数据库120中的声 学模型进行比较,从而对语音数据按发音单元执行识别处理(S103)。操 作S103中的按发音单元的识别处理是按诸如音节的发音单元识别语音数 据的处理。例如,该处理用于识别表示话者产生的声音内容"選択f多 & L、地域t L、》 一番目O文字力;消A & L、 O f先 進灼& L、"的语音数
据的发音内容"甘九〈含《^ 6 iz、 § i, l、 ^s' &灼o 6 i;力;§
i & 。 o d s i t十灼& u "。所述识别处理能够看作对存储在诸如短
语数据库121、扩展短语数据库122和匹配数据库123这样的数据库中的 读音的识别。应当注意,基于特征量的语音部分检测处理作为操作S103 中的识别处理的预处理而执行。该语音部分检测处理是用于从语音数据 检测包括语音的帧的处理。通过仅对在语音部分检测处理中检测到包括 语音的部分中的语音数据执行识别处理,可以防止在不包括语音的噪声 部分中误识别出语音。
语音识别装置1然后在控制部10的控制下比较发音单元中的语音数 据(操作S103中的识别处理的结果)与存储在匹配数据库123中的扩展 短语和短语,以执行用于识别包括在语音数据中的扩展短语和短语的识 别处理(S04)。操作S104中的识别处理是用于在发音单元中的语音数据 中识别一个或多个与所述扩展短语和所述短语中的任一个相匹配的发音 单元串的处理,作为匹配的扩展短语或匹配短语。例如,对发音单元"廿t < T t & L、 6 t/、 3 t 1/、 3 ^ 6 灼O 6 ^力、'§无& </、 O "C § § A
t 卞 的 & L、 ( 读 音
sentakudekinait':ikitoiuitibanmenomojigakienainodesakiesusumenai)"中的语
音数据执行识别处理,以把发音单元串"L、 6 九灼(itibanme)"识别 为"一番目"且把发音单元串"t无^ ^ (kienai)"识别为"消无^ 。"。 因为预先用扩展短语代替特定短语,所以根据本实施方式的语音识别装 置1例如可以消除把发音单元串"T S "、"、香(dekinaitiiki)"识别 为"t: S & — ^ S "的误识别和把发音单元串"$多A t十灼4 l、 (sakiesusumenai)"识别为"$消A t十& & L、"的误识别。应当注意, 当使用扩展短语识别发音单元中的语音数据时,语音数据可以被识别为 不包括扩展短语的短语的一部分的识别结果,或者被识别为扩展短语的 识别结果。具体而言,当"、6^i灼(itibanme)"被识别为"一番目" 时,"u 6 Uf九(itibanme)"的部分"。6 (iti)"可能被识别为"一番 目"中的"一"或者"。6凡灼(itibanme)"可以被识别为"一番目"。
在操作S104中,匹配数据库123是存储通过用扩展短语代替存储在 短语数据库121中的相应短语的一部分而获得的短语的数据库。因而, 操作S104中的匹配处理是优先于与短语数据库121中存储的短语进行匹 配的识别处理,而通过与扩展短语数据库122中存储的扩展短语进行匹 配来执行识别处理的识别处理。因此,操作S104中的识别处理可以被发 展为各种方法,如不使用匹配数据库123,在执行与扩展短语数据库122 中存储的扩展短语中用于匹配的扩展短语进行匹配的识别处理之后,执 行与存储在短语数据库121中的短语进行匹配的识别处理。如上所述, 通过对基于扩展短语的识别处理给予优先级,根据本发明的语音识别装 置1可以消除基于由少量发音单元组成的短语的误识别。
在操作S104的识别处理中,计算表示语音数据与任一扩展短语之间 的相似度的分数,且当计算的分数大于或等于预定值时,判断发音单元 中的语音数据和扩展短语匹配。通过预定方法,获得作为语音数据匹配 对象的部分处的特征量和与扩展短语相关的声学模型的特征量之间的相 似度,来计算表示相似度的分数。应当注意,并不是简单地通过比较语音数据的特征量和与扩展短语相关的声学模型的特征量,而是通过针对 短语与组成扩展短语的附加短语,单独获得语音数据和对应于短语的部 分(例如,对应于词干的部分)之间的相似度,以及语音数据和对应于 附加短语的部分(例如,对应于后缀的部分)之间的相似度,且对分别 获得的相似度求和,来计算整体相似度。在这种情况下,可以通过加权 或关注与对应于词干的部分相关的相似度来计算整体相似度。通过使用 加权来计算相似度,可以执行强调与排除附加短语的原始短语的匹配程 度的识别处理。
语音识别装置1然后在控制单元10的控制下把操作S104中的识别 处理的结果存储在识别结果数据库124中,并且经由输出部17输出识别 处理的结果(S105)。以这种方式执行语音识别处理。
图6是用于示出根据本实施方式的语音识别装置1的短语扩展处理 的操作流程。在短语扩展处理中,例如,基于在语音识别处理的操作S103 中识别的发音单元中的语音数据来扩展短语。语音识别装置1在用于执 行计算机程序100的控制部10的控制下,比较在语音识别处理中识别的 发音单元中的语音数据和存储在短语数据库121中的短语,并且执行用 于识别语音数据中包括的短语的识别处理(S201)。
在控制部10的控制下,语音识别装置1针对每个发音单元数,计算 与存储在短语数据库121中的任一短语匹配的短语的总数(S202)。语音 识别单元1把所计算的短语数目超过预定值的发音单元数设置为扩展基 准值,该扩展基准值成为提取扩展短语的基准(S203)。设置的扩展基准 值被存储在存储部12中。
下面的描述将详细解释操作S202和S203中的处理。图7是用于概 念性地示出根据本实施方式的语音识别装置1的短语扩展处理的直方图。 图7中例示的直方图示出了发音单元数(在横轴上示出)与针对每个发 音单元数的短语总数(即,发生频率)(在纵轴上示出)之间的关系。艮口, 图7中的直方图示出了在操作S202中针对每个发音单元数计算的短语总 数。因为在图7中所示的直方图中,发音单元数T1、 T2和T6的发生频 率超过阈值,所以在操作S203中把Tl、 T2和T6设置为扩展基准值。应当理解,本发明可以以合适的方式投入应用,例如,代替把T1、 T2和 T6设置为扩展基准值,而把小于或等于T6(超过阈值的最大发音单元数) 的值即所有的值Tl至T6设置为扩展基准值,或者可以通过不仅设置上 限例如T6,而且设置下限,来设置扩展基准值。
在操作S202和S203中解释的处理中,通过针对每个发音单元数计 算短语总数来设置扩展基准值。除了所述结构之外,还可以针对每个短 语计算短语总数,并把计算的总数超过预设阈值的短语的发音单元数或 者小于或等于所述发音单元数的值设置为扩展基准值。例如,当"^6 (iti)"的发生总数的总和计数超过阈值时,把"L、 6 (iti)"的发音单元 数"2"设置为扩展基准值。也可以同时结合针对每个发音单元数的总和 计数和针对每个短语的总和计数来设置扩展基准值。
而且,作为操作S202和S203的替代处理,当针对每个发音单元数 计算的短语数大于或等于基于其他发音单元数计算的短语数而预设的阈 值时,可以把发音单元数或小于或等于该发音单元数的值设置为扩展基 准值。S卩,对通过从比作为判断对象的发音单元数大1的发音单元数的 出现频率减去该作为判断对象的发音单元数的出现频率而获得的值,艮口, 变量,与阈值相比较,从而判断是否把该变量设置为扩展基准值。例如, 在图7所示的直方图中,计算变量,如通过从T6的出现频率减去T5的 出现频率而获得的值、通过从T5的出现频率减去T4的出现频率而获得 的值、……、通过从T2的出现频率减去T1的出现频率而获得的值,并 且当计算出的变量超过阈值时,把该计算出的变量设置为扩展基准值。 代替一系列发音单元数之间的比较,本发明可以以合适的方式投入应用, 例如与当与其他发音单元数的出现频率的平均值之差大于或等于阈值 时,设置扩展基准值。本发明还可以以诸如参照先前的识别结果的合适 方式投入应用。
再次考虑该操作流程,在设置扩展基准值之后,在控制部10的控制 下,根据本实施方式的语音识别装置1从短语数据库121提取发音单元 数对应于设置的扩展基准值的短语(S204)。语音识别装置1提取通过向 从诸如词形变化词典数据库1220和同现词典数据库1221的扩展短语数据库122提取的短语添加附加短语而获得的扩展短语(S205)。语音识别 装置1通过用操作S205中提取的扩展短语代替存储在短语数据121的短 语中的发音单元数对应于扩展基准值的短语而生成匹配数据库123 (S206)。
根据本实施方式的语音识别装置1然后从输出部17输出短语已被扩 展短语替换的事实和替换的内容(S207)。以这种方式执行短语扩展处理。
每当例如执行使用图5解释的语音识别处理时,在操作S103中按发 音单元进行识别处理之后,执行短语扩展处理。应当注意,可以基于先 前的识别结果而预先执行短语扩展处理,并且可以使用包括已经执行的 短语扩展处理的结果的匹配数据库123执行识别处理。当预先执行短语 扩展处理时,通过适当设置的事件,如语音识别装置1的激活、语音识 别处理的空闲或各种数据库的更新,来触发短语扩展处理的执行启动。
尽管可以通过人工工作来更新在根据本实施方式的语音识别装置1 中设置的扩展短语数据库122的存储内容,但也可以把扩展短语数据库 122设计成,自动巡视经由通信部18连接的外部网络如因特网上的网页, 并且检索可以通过文本提取而获得的数据,以进行自动更新。
尽管在上面的实施方式中已经示出了用于日语的语音识别的实施方 式,但该实施方式不限于此,而可以应用于日语之外的其他语言,如英 语或汉语。图8A、 8B、 8C和8D是用于概念性地示出根据本实施方式的 语音识别装置1识别英语的应用示例的说明图。图8A示出了表示说话者 产生的声音内容"I paid one dollar as a price of this wonderfUl paper"的语 音数据。图8B示出了针对该声音内容按发音单元的识别结果,并且示出 了按发音单元识别为"A^乂^t" h/ut、一 A ^
6 t/、卞 "^ "C 。 t ;b A "6 乂 (/、 一 (ai peidu wan daraa azu a puraisu obu disu wandafUru peipaa)"的示例。图8C示出了短语数据库121 的存储内容的一部分,而图8D示出了扩展短语数据库122的存储内容的 一部分。对于图8B中示出的按发音单元的识别结果,根据本实施方式的 语音识别装置1用诸如"one dollar"(读音:wandaraa)和"wonderfUl" (读音wandafiim)的扩展短语代替短语"one"(读音wan),并用诸如"pays"(读音peizu)和"paid"(读音peidu)的扩展短语代替短 语"pay"(读音pei),并且执行如上所述的语音识别处理。
图9A、 9B、 9C和9D是用于概念性地示出根据本实施方式的语音识 别装置1识别汉语的应用示例的说明图。图9A示出了表示说话者产生的 声音内容"八号有一件事,所以九号我和他见面一起喝酒了"的语音数 据。图9B示出了针对该声音内容的按发音单元的识别结果,并且示出了 按发音单元识别为"f 一 (± fc、 J: 5 l、 一 i; i /u L — t f ^ i; j; ^〖ib、 》fe^/二一 i;克/u办;i/b ^ — 6 A—i;丄, 6 (baahao you iijensi-suoi jouhao uoflitaa-jenmien iiti fuujou ra)"的不例。图 9C示出了短语数据库121的存储内容的一部分且,而9D示出了扩展短 语数据库122的存储内容的一部分。对于图9B中示出的按发音单元的识 别结果,根据本实施方式的语音识别装置用诸如"九号"(读音jouhao) 和"九点"(读音joudeien)的扩展短语代替短语"九"(读音jou), 并用诸如"一件"(读音iijien)和"三件"(读音sanjien)的扩展短 语代替短语"件"(读音jien),并且执行如上所述的语音识别处理。尽 管为易于解释起见,在使用图8A、 8B、 8C、 8D、 9A、 9B、 9C和9D解 释的示例中,示出了以日语音节单元为发音单元的识别示例,但应当注 意,本发明可以以诸如按发音符号单元进行识别的合适方式进行设置。
上述实施方式仅例示了无穷多实施方式中的一部分,可以适当地设 计各种硬件、软件等的配置。例如,尽管在上述实施方式中示出了对在 语音识别装置的声音接收部处接收的声音应用识别处理的示例,但该实 施方式不限于此,而可以应用于各种形式,如基于由接收声音的其他装 置生成的声音数据的识别处理。而且,上述短语扩展处理和语音识别处 理可以分别由不同的装置执行。
根据本实施方式,优先于基于存储在短语数据库中的短语的识别, 执行通过与扩展短语进行匹配的识别处理。因此,因为相比于与由少量 发音单元组成的短语的匹配,对与由较多数发音单元组成的扩展短语的 匹配设置优先级,所以可以消除识别由少量发音单元组成的短语的误识 别且改善识别准确度。根据本实施方式,因为在用扩展短语代替具有使大量短语被包括在 按发音单元的识别结果中的发音单元数的短语之后执行识别处理,所以 可以用扩展短语代替具有更容易导致误识别的发音单元数的相应短语。
根据本实施方式,可以用和短语的变化形式关联的扩展短语代替短语。
在根据本发明的语音识别装置和计算机程序中,其中按发音单元识 别基于发声法的语音数据,参照存储由一个或多个发音单元组成的短语 的短语数据库,将按发音单元识别的语音数据与存储在短语数据库中的 短语进行比较,并且执行识别由语音数据中包括的一个或多个发音单元 组成的短语的处理,对与通过在短语数据库中存储的相应短语之前和/或 之后添加附加短语而获得的扩展短语进行匹配的识别处理设置优先级。
因为消除了由少量发音单元组成的短语且消除了基于由少量发音单 元组成的短语的误识别,本发明的这种配置确保了诸如改善识别率的有 益效果。
权利要求
1、一种语音识别装置,其用于执行按发音单元识别基于发声法的语音数据的第一识别处理,将该第一识别处理的结果与在存储有多个具有一个或多个发音单元的短语的短语数据库中存储的多个短语进行比较,并且执行识别所述语音数据中包括的由一个或多个发音单元组成的短语的第二识别处理,其特征在于包括优先级识别部,其用于优先于该第二识别处理,将该第一识别处理的结果与通过在存储在该短语数据库中的相应短语之前和/或之后添加附加短语而获得的多个扩展短语进行比较,以识别包括在该语音数据中的扩展短语。
2、 根据权利要求l所述的语音识别装置,其特征在于,所述优先级 识别部通过用所述扩展短语代替存储在所述短语数据库中的短语,对与 所述扩展短语相关的识别处理提供优先级。
3、 一种语音识别装置,其用于执行按发音单元识别基于发声法的语 音数据的第一识别处理,将该第一识别处理的结果与在存储有多个具有 一个或多个发音单元的短语的短语数据库中存储的多个短语进行比较, 并且执行识别所述语音数据中包括的由一个或多个发音单元组成的短语的第二识别处理,其特征在于包括扩展短语数据库,其用于存储通过在存储在所述短语数据库中的相 应短语之前和/或之后添加附加短语而获得的多个扩展短语;用于从所述短语数据库提取具有预定发音单元数的短语的短语提取部;用于从所述扩展短语数据库提取通过向提取的短语添加附加短语而 获得的扩展短语的扩展短语提取部;以及优先级识别部,其用于优先于所述第二识别处理,将所述第一识别 处理的结果与提取的扩展短语进行比较,以识别所述语音数据中包括的扩展短语。
4、 根据权利要求3所述的语音识别装置,其特征在于还包括设置部,其用于在所述第一识别处理的结果中,基于发音单元数和 与存储在所述短语数据库中的任一短语匹配的短语数设置所述预定数。
5、 根据权利要求3所述的语音识别装置,其特征在于,所述扩展短语数据库存储通过向作为所述短语数据库中存储的相应短语的相应词干 添加作为附加短语的后缀和/或前缀而获得的多个扩展短语。
6、 根据权利要求3所述的语音识别装置,其特征在于,所述优先级 识别部通过用所述扩展短语代替存储在所述短语数据库中的短语,对与 所述扩展短语相关的识别处理提供优先级。
7、 根据权利要求4所述的语音识别装置,其特征在于,所述设置部 把计算的与所述短语数据库中存储的任一短语相匹配的短语的总数超过 预设阈值时的发音单元数,或者小于或等于所述发音单元数的值,设置 为所述第一识别处理中的所述预定数。
8、 根据权利要求4所述的语音识别装置,其特征在于,所述设置部 把计算的与所述短语数据库中存储的任一短语相匹配的短语的总数超过 预设阈值时的短语的发音单元数,或者小于或等于所述发音单元数的值, 设置为第一识别处理中的所述预定数。
9、 根据权利要求4所述的语音识别装置,其特征在于,所述设置部 针对每个发音单元数计算与所述短语数据库中存储的任一短语相匹配的 短语的总数,并且把计算的短语数大于或等于基于针对具有其他发音单 元数的短语计算的数而预设的阈值时的发音单元数,或者小于或等于所 述发音单元数的值,设置为所述第一识别处理中的所述预定数。
全文摘要
本发明提供一种语音识别装置,当它按发音单元对基于说话者产生的语音的语音数据如音节执行识别处理,且进一步通过诸如用于与存储在短语数据库中的短语进行匹配的关键词辨别这样的方法执行识别时,能够减小与由少量音节组成的短语进行匹配而导致的误识别。该语音识别装置执行用于对按发音单元的识别处理的结果与通过在相应短语之前和/或之后添加附加短语而获得的扩展短语进行比较的识别处理。
文档编号G10L15/08GK101458928SQ20081016635
公开日2009年6月17日 申请日期2008年9月26日 优先权日2007年12月10日
发明者阿部贤司 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1