语音识别装置、方法和记录有语音识别软件程序的记录介质的制作方法

文档序号:2837506阅读:413来源:国知局
专利名称:语音识别装置、方法和记录有语音识别软件程序的记录介质的制作方法
技术领域
本发明涉及语音识别装置、语音识别方法、以及其上记录有语音识 别软件程序的记录介质,更具体地讲,涉及一种语音识别装置、语音识 别方法、以及其上记录有语音识别软件程序的记录介质,其由于除了设 置有用于存储识别词汇单词的识别单词字典之外还设置有用于存储可抛 弃词汇单词的可抛弃单词字典,从而能够抛弃背景噪声、背景语音或识 别词汇单词以外的单词的发声,并且仅当对识别词汇单词发声时才输出 识别结果。
背景技术
在过去已知这样的语音识别装置,该语音识别装置将语音识别引擎 用作从用户接收输入以识别用户发声(语音)并且接受它们作为对系统 的输入的装置。例如,这种语音识别装置已经被实际用于包括语音门户、 汽车导航系统等的信息提供系统。
此外,这种语音识别装置受制于如下问题例如,根据设置有这种 语音识别装置的信息提供系统的使用环境,背景噪声、背景语音等可能 被误识别为识别词汇单词。此外,存在如下问题当用户对识别词汇单 词以外的单词发声时,这些单词可能被误识别为识别词汇单词。
为了消除这些问题,提出了一种语音识别装置,该语音识别装置除 了用于存储识别词汇单词的识别单词字典以外,还设置有用于存储可抛 弃词汇单词的可抛弃单词字典。具体地讲,该语音识别装置除了计算输 入语音与识别词汇单词之间的相似度以外,还计算输入语音与可抛弃词 汇单词之间的相似度。作为计算相似度的结果,当识别词汇单词的相似 度高于可抛弃词汇单词的相似度时,将识别词汇单词输出作为识别结果。 另一方面,当识别词汇单词的相似度小于可抛弃词汇单词的相似度时,
抛弃输入语音。因此,在可抛弃单词字典中存储背景噪声、背景语音或 识别单词字典以外的单词作为可抛弃词汇单词,使得可以防止将背景噪 声、背景语音或识别词汇单词以外的单词误识别为识别词汇单词(例如,
参见日本专利申请公报第2002-372988号或第H10-49190号)。
然而,如果这种语音识别装置中的识别词汇单词和可抛弃词汇单词 例如相同或相似,则尽管用户对识别词汇单词发声,但在可抛弃词汇单 词的相似度高于识别词汇单词的相似度时,用户发声会被错误地抛弃。
因此,在日本专利申请公报第2002-372988号中公开的语音识别装 置中,可抛弃单词去除单元从存储有可抛弃单词全集的可抛弃单词数据 库中去除与存储在识别单词字典中的识别词汇单词相同或相似的可抛弃 词汇单词。可抛弃单词去除单元通过将剩余在可抛弃单词数据库中的残 余可抛弃词汇单词存储在可抛弃单词字典中,来产生可抛弃单词字典。 这使得在用户对识别词汇单词发声时可以防止将用户发声错误地抛弃。
然而,在上述日本专利申请公报第2002-372988号中公开的结构中 存在下面的问题。
也就是说,在日本专利申请公报第2002-372988号的语音识别装置 中,每当存储在识别单词字典中的识别词汇单词发生改变时,必须通过 从可抛弃单词数据库中去除与识别词汇单词相同或相似的可抛弃词汇单 词并将剩余在可抛弃单词数据库中的残余可抛弃词汇单词存储在可抛弃 单词字典中,来对可抛弃单词字典进行更新。因此,当存储在识别单词 字典中的识别词汇单词发生改变时,需要耗时的人工操作来更新可抛弃 单词字典。

发明内容
考虑到上述问题作出本发明,并且本发明的目的是提供一种语音识 别装置、语音识别方法、以及其上记录有语音识别软件程序的记录介质, 其能够当用户对识别词汇单词发声时防止用户发声被错误地抛弃,并且 同时,即使当存储在识别单词字典中的识别词汇单词发生改变时也能够 减小更新可抛弃单词字典所需的耗时的人工操作。
为了实现上述目的,本发明的语音识别装置包括语音输入单元, 其将输入语音转换成发声语音数据;语音分析单元,其将所述发声语音
数据转换成特征量;识别单词字典,其存储多个识别词汇单词;可抛弃 单词字典,其存储多个可抛弃词汇单词;语音验证单元,其利用通过所 述语音分析单元进行的转换而获得的特征量,计算所述输入语音与存储 在所述识别单词字典中的所述多个识别词汇单词之间的相似度,利用通 过所述语音分析单元进行的转换而获得的特征量,计算所述输入语音与 存储在所述可抛弃单词字典中的所述多个可抛弃词汇单词之间的相似 度,并且,作为计算这些相似度的结果,从所述识别词汇单词中提取具 有最高相似度的识别词汇单词作为识别候选项,并且从所述可抛弃词汇 单词中提取具有最高相似度的可抛弃词汇单词作为抛弃候选项;第一阈 值存储单元,其存储用作抛弃所述输入语音的量度的第一阈值;以及第 二阈值存储单元,其存储第二阈值,所述第二阈值大于所述第一阈值并 且用作输出作为识别结果的所述识别候选项的量度。如果所述识别候选 项的相似度大于所述第二阈值,则所述语音验证单元输出所述识别候选 项作为识别结果,并且如果所述识别候选项的相似度小于所述第二阈值, 则当所述识别候选项的相似度大于所述第一阈值并且同时所述识别候选 项的相似度高于所述抛弃候选项的相似度时,所述语音验证单元输出所 述识别候选项作为识别结果。
此外,传统的语音识别装置受制于如下问题当存储在可抛弃单词 字典中的可抛弃词汇单词与存储在识别单词字典中的识别词汇单词相同 或相似时,在用户发声与抛弃候选项的相似度高于用户发声与识别候选 项的相似度的情况下,尽管用户是对识别候选项进行发声,但是用户发 声也会被错误地抛弃。因此,在传统语音识别装置中,每当存储在识别 单词字典中的识别词汇单词发生改变时,必须通过从可抛弃单词数据库 中去除与识别词汇单词相同或相似的可抛弃词汇单词并将剩余在可抛弃 单词数据库中的残余可抛弃词汇单词存储在可抛弃单词字典中,来对可 抛弃单词字典进行更新。因此,传统的语音识别装置受制于如下问题
当存储在识别单词字典中的识别词汇单词发生改变时,需要耗时的人工
操作来更新可抛弃单词字典。
另一方面,在本发明的语音识别装置中,当识别候选项的相似度大 于第二阈值时,语音验证单元输出识别候选项作为识别结果,而不管抛 弃候选项的相似度。应该注意,第二阈值是用于输出作为识别结果的识 别候选项的量度。因此,只要识别候选项的相似度大于第二阈值,则即 使在由于识别候选项和抛弃候选项相同或相似而使抛弃候选项的相似度 变得高于识别候选项的相似度的情况下,也可输出识别候选项作为识别 结果。因此,在本发明的语音识别装置中,例如,当用户对识别候选项 发声时,即使在可抛弃单词字典中存储有与识别词汇单词相同或相似的 可抛弃词汇单词,用户发声也不会被错误地抛弃。因此,不需要按照用 于上述传统语音识别装置的方式(即,每当存储在识别单词字典中的识 别词汇单词发生改变时,从可抛弃单词数据库中去除与识别词汇单词相 同或相似的可抛弃词汇单词并将剩余在可抛弃单词数据库中的残余可抛 弃词汇单词存储在可抛弃单词字典中)来更新可抛弃单词字典。结果, 即使当存储在识别单词字典中的识别词汇单词发生改变时也能够减小更 新可抛弃单词字典所需的耗时的人工操作,同时与用户对识别词汇单词 发声这一事实无关,能够防止用户发声被错误地抛弃。
在上述的本发明的语音识别装置的优选实施方式中,如果识别候选 项的相似度大于第一阈值,则当识别候选项的相似度小于第二阈值并且 同时识别候选项的相似度小于抛弃候选项的相似度时,语音验证单元抛 弃输入语音,并且如果识别候选项的相似度小于第一阈值,则抛弃输入 语音。
根据上述配置,如果识别候选项的相似度大于第一阈值,则当识别 候选项的相似度小于第二阈值并且同时识别候选项的相似度小于抛弃候 选项的相似度时,语音验证单元抛弃输入语音。另一方面,如果识别候 选项的相似度小于第一阈值,则语音验证单元抛弃输入语音。因此,将 背景噪声、背景语音或识别词汇单词之外的单词作为可抛弃词汇单词存 储在可抛弃单词字典中,这使得可以可靠地防止背景噪声、背景语音或 识别词汇单词之外的单词被误识别为识别词汇单词。
在上述的本发明的语音识别装置的优选实施方式中,该装置还包括 补偿数据存储单元,所述补偿数据存储单元存储用于改变所述识别候选 项的相似度和所述抛弃候选项的相似度中的至少一个相似度的补偿数 据。所述语音验证单元基于所述补偿数据,改变所述识别候选项的相似 度和所述抛弃候选项的相似度中的至少一个相似度。
根据上述配置,语音验证单元基于补偿数据改变识别候选项的相似 度和抛弃候选项的相似度中的至少一个相似度。如果语音验证单元减小 识别候选项的相似度或者增大抛弃候选项的相似度,则该语音识别装置 的识别率降低。另一方面,如果语音验证单元增大识别候选项的相似度 或者减小抛弃候选项的相似度,则该语音识别装置的识别率上升。这使 得可以实现这样的语音识别装置,所述语音识别装置适于设置有该语音 识别装置的系统的实际情况(使用条件等)。
在上述的本发明的语音识别装置的优选实施方式中,所述第二阈值 存储单元存储分别对应于各个所述识别词汇单词的多个第二阈值。
根据上述配置,在第二阈值存储单元中存储有分别对应于各个所述 识别词汇单词的第二阈值。这使得语音验证单元可以响应于识别词汇单 词来改变输出作为识别结果的识别候选项的量度。
在上述的语音识别装置的优选实施方式中,所述语音识别装置还包 括多个可抛弃单词字典,其分别包含不同数目的可抛弃词汇单词;以 及选择单元,其基于存储在所述识别单词字典中的识别词汇单词的数目, 从所述多个可抛弃单词字典中选择要由所述语音验证单元进行相似度计 算的可抛弃单词字典。
根据上述配置,所述选择单元基于存储在识别单词字典中的识别词 汇单词的数目,从所述多个可抛弃单词字典中选择要由所述语音验证单 元进行相似度计算的可抛弃单词字典。例如,随着存储在识别单词字典 中的识别词汇单词的数目的增加,该选择单元选择具有较小数目的可抛 弃词汇单词的可抛弃单词字典。这可以使该语音识别装置的识别速度保 持恒定,并且避免了使该语音识别装置的识别速度降低。
为了实现上述目的,在本发明的语音识别方法中,设置有存储有多
个识别词汇单词的识别单词字典和存储有多个可抛弃词汇单词的可抛弃 单词字典的计算机执行如下步骤语音输入步骤,将输入语音转换成发 声语音数据;语音分析步骤,将所述发声语音数据转换成特征量;以及 语音验证步骤,利用通过在所述语音分析步骤中的转换而获得的特征量, 计算所述输入语音与存储在所述识别单词字典中的所述多个识别词汇单 词之间的相似度,利用通过在所述语音分析步骤中的转换而获得的特征 量,计算所述输入语音与存储在所述可抛弃单词字典中的所述多个可抛 弃词汇单词之间的相似度,并且,作为计算这些相似度的结果,从所述 识别词汇单词中提取具有最高相似度的识别词汇单词作为识别候选项, 并且从所述可抛弃词汇单词中提取具有最高相似度的可抛弃词汇单词作 为抛弃候选项。所述计算机能够访问第一阈值存储单元和第二阈值存储 单元,所述第一阈值存储单元存储用作抛弃所述输入语音的量度的第一 阈值,所述第二阈值存储单元存储第二阈值,所述第二阈值大于所述第 一阈值并且用作输出作为识别结果的所述识别候选项的量度,并且所述 语音验证步骤还包括如下步骤如果所述识别候选项的相似度大于所述 第二阈值,则输出所述识别候选项作为识别结果,以及如果所述识别候 选项的相似度小于所述第二阈值,则当所述识别候选项的相似度大于所 述第一阈值并且同时所述识别候选项的相似度高于所述抛弃候选项的相 似度时,输出所述识别候选项作为识别结果。
为了实现上述目的,本发明的其上记录有语音识别软件程序的记录 介质是一种其上记录有如下语音识别程序的记录介质,所述语音识别程 序使得设置有存储有多个识别词汇单词的识别单词字典和存储有多个可 抛弃词汇单词的可抛弃单词字典的计算机执行语音识别处理。使所述计 算机执行如下处理语音输入处理,将输入语音转换成发声语音数据; 语音分析处理,将所述发声语音数据转换成特征量;以及语音验证处理,
利用通过在所述语音分析处理中的转换而获得的特征量,计算所述输入 语音与存储在所述识别单词字典中的所述多个识别词汇单词之间的相似 度,利用通过在所述语音分析处理中的转换而获得的特征量,计算所述 输入语音与存储在所述可抛弃单词字典中的所述多个可抛弃词汇单词之
间的相似度,并且,作为计算这些相似度的结果,从所述识别词汇单词 中提取具有最高相似度的识别词汇单词作为识别候选项,并且从所述可 抛弃词汇单词中提取具有最高相似度的可抛弃词汇单词作为抛弃候选 项。所述计算机能够访问第一阈值存储单元和第二阈值存储单元,所述 第一阈值存储单元存储用作抛弃所述输入语音的量度的第一阈值,所述 第二阈值存储单元存储第二阈值,所述第二阈值大于所述第一阈值并且 用作输出作为识别结果的所述识别候选项的量度。所述语音验证处理还 包括使所述计算机执行如下处理当所述识别候选项的相似度大于所述 第二阈值时,输出所述识别候选项作为识别结果,以及当所述识别候选 项的相似度小于所述第二阈值时,如果所述识别候选项的相似度大于所 述第一阈值并且同时所述识别候选项的相似度高于所述抛弃候选项的相 似度时,则输出所述识别候选项作为识别结果。
应该注意,本发明的语音识别方法和其上记录有语音识别软件程序 的记录介质具有与上述语音识别装置相同的效果。


图1是示意性地示出了根据本发明第一实施方式的语音识别装置的 结构的框图2是示出了语音识别装置中使用的识别单词字典的示例性数据结 构的图3是示出了语音识别装置中使用的可抛弃单词字典的示例性数据 结构的图4是示出了语音识别装置中使用的第一阈值存储单元的示例性数 据结构的图5是示出了语音识别装置中使用的第二阈值存储单元的示例性数 据结构的图6是示出了用户发声与对识别候选项以及抛弃候选项的发声的相 似度之间的关系的概念图7是示出了语音识别装置的操作示例的流程图8是示出了语音识别装置中使用的语音验证单元的操作示例的流
程图9是示意性地示出了根据本发明第二实施方式的语音识别装置的
结构的框图10是示出了语音识别装置中使用的补偿数据存储单元的示例性 数据结构的图ll是示出了语音识别装置中使用的语音验证单元的操作示例的流
程图,-
图12是示意性地示出了根据本发明第三实施方式的语音识别装置 的结构的框图13是示出了语音识别装置中使用的第二阈值存储单元的示例性 数据结构的图14是示意性地示出了在将存储在第二阈值存储单元中的第二阈 值存储在语音识别装置的识别单词字典中的情况下的语音识别装置的结 构的框图15是示出了识别单词字典的示例性数据结构的图;以及 图16是示意性地示出了根据本发明第四实施方式的语音识别装置 的结构的框图。
具体实施例方式
下面,将参照附图更加详细地描述本发明的更具体的实施方式。 (实施方式1)
图1是示意性地示出了根据本实施方式的语音识别装置1的结构的 框图。即,根据本实施方式的语音识别装置1设置有语音输入单元2、 语音分析单元3、识别单词字典4、可抛弃单词字典5、声学模型存储单 元6、语音验证单元7、第一阈值存储单元8、以及第二阈值存储单元9。 根据本实施方式的语音识别装置1是具有如下能力的装置接收从例如 语音对话应用等的较高级软件程序传递的用户语音,并且将识别结果返 回到该较高级软件程序等。语音输入单元2将输入语音(发声)转换成发声语音数据。具体地 讲,在语音输入期间,语音输入单元2使用预定的语音区间确定标准来 确定输入语音中的语音区间。语音输入单元2将确定的语音区间中的语
音转换成发声语音数据。语音输入单元2将通过转换而获得的发声语音 数据输出到语音分析单元3。
语音分析单元3通过分析该发声语音数据来计算特征量。通常,除 了 MFCC、 LPC倒频谱或幂以及一次和二次回归系数以外,特征量还是 多维矢量,该多维矢量包括但不限于通过利用主成分分析或判别分析对 值进行维压縮(dimensional compression)而获得的矢量。语音分析单元 3将计算出的特征量输出到语音验证单元7。应该注意,语音分析单元3 可以设置有用于存储计算出的特征量的存储器。
识别单词字典4存储多个识别词汇单词和关于该多个识别词汇单词 的信息。如例如在图2中所示出的,识别单词字典4以识别单词字典表 4a的形式,存储多个识别词汇单词和关于该多个识别词汇单词的信息。 在图2所示的示例中,识别单词字典表4a存储有单词ID、单词拼写、单 词读音、以及音素序列。单词ID表示与识别词汇单词惟一地关联的信息。 单词拼写表示描述书写识别词汇单词的方式的信息。单词读音表示与反 映在单词拼写中的识别词汇单词的读音相关的信息。音素序列是要通过 语音验证单元7进行相似度计算的识别词汇单词。应该注意,尽管有关 识别词汇单词的信息包括上述的单词ID、单词拼写和单词读音,但是它 还可以另外包括诸如与识别词汇单词之间的连接有关的规则(语法信息) 的其他任意信息。
在图2所示的示例中,识别单词字典表4a的第一行Rl存储有单词 ID "001"、单词拼写"Kyoto"、单词读音"kyouto"、以及因素序列
"/k/y/o/t/o/"。第二行R2存储有单词ID "002"、单词拼写"Shiga"、单 词读音"shiga"、以及音素序列"/s/h/i/g/a/"。第三行R3存储有单词ID
"003"、单词拼写"Osaka"、单词读音"oosaka"、以及音素序列"/o/s/a/k/a/"。 第四行R4存储有单词ID "004"、单词拼写"Nara"、单词读音"nam"、 以及音素序列"/n/a/r/a/"。第五行R5存储有单词ID "005"、单词拼写
"Wakayama"、单词读音"wakayama"、以及音素序列"/w/a/k/a/y/a/m/a/"。 第六行R6存储有单词ID"006"、单词拼写"Hyogo"、单词读音"hyougo"、 以及音素序列"/h/y/o/g/o/"。第七行R7存储有单词ID "007"、单词拼写 "Mie"、单词读音"mie"、以及音素序列"/m/i/e/"。换言之,识别单词 字典表4a包含来自Kinki地区的地名,这仅是个示例。
可抛弃单词字典5存储有多个可抛弃词汇单词和关于该多个可抛弃 词汇单词的信息。如例如在图3中所示出的,可抛弃单词字典5以可抛 弃单词字典表5a的形式,存储有多个可抛弃词汇单词和关于该多个可抛 弃词汇单词的信息。在图3所示的示例中,可抛弃单词字典表5a存储有 单词ID、单词拼写、单词读音、以及音素序列。单词ID表示与可抛弃词 汇单词惟一地关联的信息。单词拼写表示描述书写可抛弃词汇单词的方 式的信息。单词读音表示与反映在单词拼写中的可抛弃词汇单词的读音 有关的信息。音素序列是要通过语音验证单元7进行相似度计算的可抛 弃词汇单词。应该注意,尽管有关可抛弃词汇单词的信息包括上述的单 词ID、单词拼写和单词读音,但是它还可以另外包括诸如与可抛弃词汇 单词之间的连接有关的规则(语法信息)的其他任意信息。
在图3所示的示例中,可抛弃单词字典表5a的第一行Rl存储有单 词ID "101"、单词拼写"Tokyo"、单词读音"toukyou"、以及音素序列 "/t/o/k/y/o/"。第二行R2存储有单词ID"102"、单词拼写"Saga"、单词 读音"saga"、以及音素序列"/s/a/g/a/"。第三行R3存储有单词ID " 103"、 单词拼写"Oita"、单词读音"ooita"、以及音素序列"/o/i/t/a/"。第四行 R4存储有单词ID "104"、单词拼写"Okayama"、单词读音"okayama"、 以及音素序列"/o/k/a/y/a/m/a/"。第五行R5存储有单词ID " 105"、单词 拼写"Toyama"、单词读音"toyama"、以及音素序列"/t/o/y/a/m/a/"。
声学模型存储单元6存储通过对描述何种音素趋于产生何种特征量 的信息进行统计建模而获得的数据。建议用HMM (隐马尔科夫模型)、 DP (动态规划)等作为声学模型的示例。
语音验证单元7利用通过语音分析单元3进行的转换而获得的特征 量,来计算输入语音与存储在识别单词字典4中的识别词汇单词之间的
相似度。此外,语音验证单元7利用通过语音分析单元3进行的转换而 获得的特征量,来计算输入语音与存储在可抛弃单词字典5中的可抛弃 词汇单词之间的相似度。具体地讲,语音验证单元7通过比较通过语音
分析单元3进行的转换而获得的特征量与存储在声学模型存储单元6中
的数据,来提取包含在语音区间内的每帧(固定时段)的音素串。语音
验证单元7通过比较所提取的音素串与存储在识别单词字典4中的音素 序列,来计算识别词汇单词的相似度。此外,语音验证单元7通过比较 所提取的音素串与存储在可抛弃单词字典5中的音素序列,来计算可抛 弃词汇单词的相似度。此外,计算相似度的处理利用在相似度计算中采 用的先前已知的算法。
基于以上计算出的识别词汇单词的相似度,语音验证单元7从识别 词汇单词中提取具有最高相似度的识别词汇单词作为识别候选项。此外,
基于以上计算出的可抛弃词汇单词的相似度,语音验证单元7从可抛弃 词汇单词中提取具有最高相似度的可抛弃词汇单词作为抛弃候选项。
第一阈值存储单元8存储有第一阈值,该第一阈值被用作抛弃输入 语音的量度。如例如在图4中所示出的,第一阈值存储单元8以第一阈 值存储表8a的形式存储第一阈值。在图4所示的示例中,"0.5"被存储 为第一阈值。应该注意,例如由设置有语音识别装置1的信息提供系统 的系统管理员来预先设定存储在第一阈值存储单元8中的第一阈值。
第二阈值存储单元9存储有第二阈值,该第二阈值大于第一阈值并 被用作输出作为识别结果的识别候选项项的量度。如例如在图5中所示 出的,第二阈值存储单元9以第二阈值存储表9a的形式存储第二阈值。 在图5所示的示例中,"0.8"被存储为第二阈值。应该注意,例如也由设 置有语音识别装置1的信息提供系统的系统管理员来预先设定存储在第 二阈值存储单元9中的第二阈值。
另外,尽管使用识别单词字典4、可抛弃单词字典5、第一阈值存储 单元8以及第二阈值存储单元9以表的形式存储数据的示例给出了以上 解释,但是存储格式不限于此。换言之,存储格式是任意的。
如果识别候选项的相似度大于第二阈值,则语音验证单元7输出该
识别候选项相作为识别结果。此外,如果识别候选项的相似度小于第二 阈值,则当该识别候选项的相似度大于第一阈值并且同时该识别候选项 的相似度大于抛弃候选项的相似度时,语音验证单元7输出该识别候选 项。应该注意,识别结果可以被传递到较高级软件程序以及输出到诸如 显示器、扬声器和打印机等的输出装置。此外,识别结果可以作为命令 输出到未示出的CPU。
另一方面,如果识别候选项的相似度大于第一阈值,则当该识别候 选项的相似度小于第二阈值并且同时该识别候选项的相似度小于抛弃候
选项的相似度时,语音验证单元7抛弃输入语音。此外,当识别候选项 的相似度小于第一阈值时,语音验证单元7抛弃输入语音。
这里具体例示了由语音验证单元7执行的上述验证处理。图6是示
出了用户发声与对识别候选项以及抛弃候选项的发声的相似度之间的关 系的概念图。S"是示出识别候选项"wakayama"与用户发声的相似度 的曲线。SL2是示出识别候选项"okayama"与用户发声的相似度的曲线。 SL3是示出识别候选项"toyama"与用户发声的相似度的曲线。T,表示第 一阈值。丁2表示第二阈值。应该注意,用户发声之中示出的发声 "Akayama"(图6中的P2)表示"okayama"(图6中的P4)与"wakayama" (图6中的P》之间的发声状态,所述发声状态更接近"okayama"。此 外,用户发声之中示出的"O口yama"(图6中的P3)表示"wakayama" (图6中的P。与"toyama"(图6中的P"之间的发声状态,所述发声 状态更接近"toyama"。
在这种情况下,当用户对单词"wakayama"发声(图6中的P,)时, SL,超过第二阈值T2,结果,语音验证单元7输出识别候选项"wakayama" 作为识别结果。此外,当用户对单词"Akayama"发声(图6中的P2) 时,SL2超过SLp但是由于SL!超过第二阈值T2,所以语音验证单元7 输出识别候选项"wakayama"作为识别结果。换言之,在过去,当SL2 超过SL!时,语音验证单元7抛弃用户发音"A kayama",但是在本实施 方式中,即使在SL2超过SL,的情况下,语音验证单元7也输出识别候选 项"wakayama"作为识别结果,只要SL!超过第二阈值T2即可。此外,
当用户对单词"O口yama"发声(图6中的P3)时,SL,变得小于第二 阈值了2,但是由于SI^超过第一阈值T,并且此外SL!超过SL3,所以语 音验证单元7输出识别候选项"wakayama"作为识别结果。
另一方面,当用户对单词"okayama"发声(图6中的P4)时,SL, 变得小于第一阈值Tp结果,语音验证单元7抛弃用户发声"okayama"。 此外,当用户对单词"toyama"发声(图6中的P》时,SL,变得小于第 一阈值T,,结果,语音验证单元7抛弃用户发声"toyama"。
此外,通过在诸如个人计算机等的任何计算机上安装软件程序来实 现上述语音识别装置1。换言之,通过根据软件程序(其包括上述语音输 入单元2、语音分析单元3、以及语音验证单元7的功能)运行的计算机 CPU来实现上述语音输入单元2、语音分析单元3以及语音验证单元7。 因此,包括语音输入单元2、语音分析单元3以及语音验证单元7的功能 的软件程序或者其上记录有该程序的记录介质代表本发明的实施方式。 此外,使用包括在计算机中的内置存储装置或计算机可访问的存储装置, 来实现识别单词字典4、可抛弃单词字典5、声学模型存储单元6、第一 阈值存储单元8以及第二阈值存储单元9。
接下来,将参照图7解释由具有上述结构的语音识别装置1执行的 处理。
图7是概括示出了由语音识别装置1执行的处理的流程图。即,如 图7所示,当用户进行发声时,语音输入单元2利用预定的语音区间确 定标准来确定输入语音中的语音区间,并将所确定的语音区间内的语音 转换成发声语音数据(Opl)。语音分析单元3通过分析该发声语音数据 来计算特征量(Op2)。语音验证单元7然后执行上述验证处理(Op3)。 即,语音验证单元7利用所述特征量执行处理(验证处理),以输出识别 候选项作为识别结果或者抛弃输入语音。
接下来,将参照图8描述图7的验证操作(Op3)。 图8是概括示出了由语音验证单元7执行的验证处理的流程图。艮P, 如图8所示,语音验证单元7通过比较通过语音分析单元3进行的转换 而获得的特征量与存储在声学模型存储单元6中的数据,来提取包含在
语音区间中的每帧(固定时段)的音素串。语音验证单元7通过比较所 提取的音素串与存储在识别单词字典4中的音素序列,来计算识别词汇
单词的相似度(Op31)。此外,语音验证单元7通过比较所提取的音素串 与存储在可抛弃单词字典5中的音素序列,来计算可抛弃词汇单词的相 似度(Op32)。基于在Op31中计算出的识别词汇单词的相似度,语音验 证单元7从识别词汇单词中提取具有最高相似度的识别词汇单词作为识 别候选项(Op33)。此外,基于在Op32中计算出的可抛弃词汇单词的相 似度,语音验证单元7从可抛弃词汇单词中提取具有最高相似度的可抛 弃词汇单词作为抛弃候选项(Op34)。
这里,当该识别候选项的相似度大于第二阈值时(Op35中为"是"), 语音验证单元7输出该识别候选项作为识别结果(Op36)。另一方面,当 该识别候选项的相似度小于第二阈值时(Op35中为"否"),控制前进至 Op37。
在Op37中,当该识别候选项的相似度大于第一阈值时(Op37中为 "是"),控制前进至Op38。另一方面,当该识别候选项的相似度小于第 —阈值时(Op37中为"否"),抛弃输入语音(Op39)。
在Op38中,当该识别候选项的相似度大于所述抛弃候选项的相似度 时(Op38中为"是"),语音验证单元7输出该识别候选项作为识别结果 (Op36)。另一方面,当该识别候选项的相似度小于所述抛弃候选项的相 似度时(Op38中为"否"),则语音验证单元7抛弃输入语音(Op39)。
如上所述,在本实施方式的语音识别装置1中,如果识别候选项的 相似度大于第二阈值,则语音验证单元7与抛弃候选项的相似度无关地 输出该识别候选项作为识别结果。应该注意,第二阈值是输出作为识别 结果的识别候选项的量度。因此,只要识别候选项的相似度大于第二阈 值,则即使在由于识别候选项和抛弃候选项相同或相似从而抛弃候选项 的相似度变得高于识别候选项的相似度的情况下,也可以输出该识别候 选项作为识别结果。因此,在本实施方式的语音识别装置1中,即使在 可抛弃单词字典5中存储有与识别词汇单词相同或相似的可抛弃词汇单 词,当例如用户对识别候选项发声时,用户发声也不会被错误地抛弃。
因此,不需要按照在上述的传统语音识别装置中采用的方式(即,每当 存储在识别单词字典中的识别词汇单词发生改变时,通过从可抛弃单词 数据库中去除与识别词汇单词相同或相似的可抛弃词汇单词,并将剩余 在可抛弃单词数据库中的残余可抛弃词汇单词存储在可抛弃单词字典 中),来更新可抛弃单词字典。结果,即使当存储在识别单词字典4中的 识别词汇单词发生改变时,也能够减小更新可抛弃单词字典5所需的耗 时的人工操作,同时与用户对识别词汇单词发声这一事实无关,防止了 用户发声被错误地抛弃。 (实施方式2)
实施方式1描述了一个示例,在该示例中,语音验证单元输出可抛 弃词汇单词中具有最高相似度的可抛弃词汇单词作为抛弃候选项。与之 相对照,实施方式2描述了如下示例,在该示例中,语音验证单元从可 抛弃词汇单词中提取具有最高相似度的可抛弃词汇单词作为抛弃候选 项,并且基于补偿数据减小所提取的抛弃候选项的相似度。
图9是示意性地示出了根据本实施方式的语音识别装置20的结构的 框图。S卩,根据本实施方式的语音识别装置20是另外设置了补偿数据存 储单元21的、图1的语音识别装置1。此外,根据本实施方式的语音识 别装置20设置有语音验证单元22,而不是图1所示的语音验证单元7。 在图9中,具有与图1中的功能相同功能的组成部件被分配相同的附图 标记,并且省略对它们的详细解释。
补偿数据存储单元21存储用于减小抛弃候选项的相似度的补偿数 据。如例如在图IO中所示出的,补偿数据存储单元21以补偿数据表21a 的形式存储补偿数据。在图IO所示的示例中,"0.1"被存储为补偿数据。 应该注意,用于补偿数据存储单元21的补偿数据的存储格式是任意的。
除了图1的语音验证单元7的特征以外,语音验证单元22还设置有 这样的特征,通过该特征可以减小抛弃候选项的相似度。具体地讲,例 如,基于来自操作设置有语音识别装置20的系统的用户的指令,将读信 号输出到语音识别装置20。通过检测到该读信号,语音验证单元22读取 存储在补偿数据存储单元21中的补偿数据。基于所读取的补偿数据,语
音验证单元22减小抛弃候选项的相似度。
例如,让我们假定语音验证单元22已提取了诸如"okayama"的抛 弃候选项。这里,如果抛弃候选项"okayama"的相似度是"0.85",则语 音验证单元22利用存储在补偿数据存储单元21中的补偿数据"0.1"来 减小抛弃候选项"okayama"的相似度,即"0.85"。结果,抛弃候选项的 相似度被减小到"0.75"。语音验证单元22执行处理,其中,基于抛弃候 选项"okay謹"的相似度(即"0.75"),语音验证单元22输出识别候选 项作为识别结果或者抛弃输入语音。即,当抛弃候选项的相似度降低时, 语音识别装置20的识别率上升。这使得用户可以向语音验证单元22发 出关于是否根据采用语音识别装置20的系统的实际情况(使用条件等) 来减小抛弃候选项的相似度的指令。 —
此外,通过将软件程序安装在诸如个人计算机等的任何计算机上, 来实现上述语音识别装置20。换言之,通过根据包括这些功能的软件程 序而运行的计算机CPU,来实现上述语音验证单元22。因此,包括了语 音验证单元22的功能的软件程序或者其上记录有该程序的记录介质代表 本发明的实施方式。此外,使用包括在计算机中的内置存储装置或计算 机可访问的存储装置来实现补偿数据存储单元21。
接下来,将参照图11解释由在具有上述结构的语音识别装置20中 采用的语音验证单元22执行的验证处理。在图11中,示出与图8中的 处理相同的处理的部分被分配相同的附图标记,并且省略对它们的详细 解释。
图11是概括示出了由语音验证单元22执行的验证处理的流程图。 在图11所示的处理中,Op51设置在Op34与Op35之间。即,在Op51 中,语音验证单元22基于存储在补偿数据存储单元21中的补偿数据, 减小抛弃候选项的相似度。当抛弃候选项的相似度减小时,在Op38中将 识别候选项输出作为识别结果变得更容易。即,当抛弃候选项的相似度 降低时,语音识别装置20的识别率上升。
应该注意,尽管使用了语音验证单元22基于补偿数据减小抛弃候选 项的相似度的示例给出以上解释,但是本发明不限于此。语音验证单元
22例如可以基于补偿数据来增大抛弃候选项的相似度。当抛弃候选项的 相似度增大时,在Op38中抛弃输入语音变得更容易。即,当抛弃候选项
的相似度增大时,语音识别装置20的识别率下降。
此外,尽管使用了语音验证单元22基于补偿数据增大或减小抛弃候 选项的相似度的示例给出以上解释,但是本发明不限于此。语音验证单 元22例如可以基于补偿数据增大或减小识别候选项的相似度。当识别候 选项的相似度增大时,在Op35、 Op37和Op38中将识别候选项输出作为 识别结果变得更容易。即,当识别候选项的相似度增大时,语音识别装 置20的识别率上升。另一方面,当识别候选项的相似度降低时,在Op35、 Op37和Op38中抛弃输入语音变得更容易。即,当识别候选项的相似度 减小时,语音识别装置20的识别率下降。
此外,尽管使用了补偿数据存储单元21存储针对所有识别词汇单词 或所有可抛弃词汇单词同时有效的补偿数据的示例给出以上解释,但是 本发明不限于此。补偿数据存储单元21例如可以存储分别对应于各个识 别词汇单词或各个可抛弃词汇单词的补偿数据。在这种情况下,语音验 证单元22基于分别对应于各个识别词汇单词或各个可抛弃词汇单词的补 偿数据,增大或减小识别候选项的相似度或抛弃候选项的相似度。
如上所述,在根据本实施方式的语音识别装置20中,语音验证单元 22基于补偿数据,增大或减小识别候选项的相似度和抛弃候选项的相似 度中的至少一个相似度。如果语音验证单元22减小识别候选项的相似度 或者增大抛弃候选项的相似度,则语音识别装置20的识别率下降。另一 方面,如果语音验证单元22增大识别候选项的相似度或者减小抛弃候选 项的相似度,则语音识别装置20的识别率上升。这使得可以实现如下的 语音识别装置20,该语音识别装置20适于设置有该语音识别装置20的 系统的实际情况(使用条件等)。 (实施方式3)
基于第二阈值存储单元9存储针对所有识别词汇单词同时有效的第 二阈值的示例解释了实施方式1和实施方式2。与之相对照,将使用如下 示例解释实施方式3,在该示例中第二阈值存储单元9存储分别对应于各
个识别词汇单词的第二阈值。
图12是示意性地示出了根据本实施方式的语音识别装置30的结构 的框图。根据本实施方式的语音识别装置30设置有第二阈值存储单元31,
而不是图9所示的第二阈值存储单元9。在图12中,具有与图9中的功 能相同的功能的组成部件被分配相同的附图标记,并且省略对它们的详 细解释。
对于每个识别词汇单词,第二阈值存储单元31存储有一第二阈值, 该第二阈值大于第一阈值并且用作输出作为识别结果的识别候选项的量 度。如例如在图13中所示出的,第二阈值存储单元31以第二阈值存储 表31 a的形式存储第二阈值。在图13所示的示例中,第二阈值存储表31 a 存储有单词ID和第二阈值。单词ID对应于存储在识别单词字典4中的 单词ID。应该注意,使用包括在计算机中的内置存储装置或计算机可访 问的存储装置来实现第二阈值存储单元31。此外,用于第二阈值存储单 元31的第二阈值的存储格式是任意的。
在图13所示的示例中,第二阈值存储表31a的第一行R1存储有单 词ID "001"和第二阈值"0.7"。第二行R2存储有单词ID "002"和第 二阈值"0.8"。第三行R3存储有单词ID "003"和第二阈值"0.7"。第 四行R4存储有单词ID "004"和第二阈值"0.8"。第五行R5存储有单 词ID "005"和第二阈值"0.7"。第六行R6存储有单词ID "006"和第 二阈值"0.7"。第七行R7存储有单词ID "007"和第二阈值"0.9"。换 言之,在图13所示的示例中,以如下方式设置第二阈值对于较短的识 别词汇单词,使第二阈值较大,同时,对于较长的识别词汇单词,使第 二阈值较小。
此外,尽管使用如下示例给出以上解释,在该示例中,多个识别词 汇单词和关于多个识别词汇单词的信息被存储在识别单词字典4中,并 且分别对应于各个识别词汇单词的第二阈值被存储在第二阈值存储单元 31中;但是本发明不限于此。例如可将存储在第二阈值存储单元31中的 第二阈值设置在识别单词字典4中。
图14是示意性地示出了在将第二阈值存储在识别单词字典中的情
况下的语音识别装置30a的结构的框图。S卩,图14所示的语音识别装置 30a没有设置图12所示的识别单词字典4,而是设置了识别单词字典32。 在图14中,具有与图12的功能相同的功能的组成部件被分配相同的附 图标记。识别单词字典32存储多个识别词汇单词、关于该多个识别词 汇单词的信息、以及第二阈值。如例如在图15中所示出的,识别单词字 典32以识别单词字典表32a的形式存储这些信息项。在图15所示的示 例中,识别单词字典表32a存储有单词ID、单词拼写、单词读音、音素 序列、以及第二阈值。应该注意,用于识别单词字典32中的这些信息项 的存储格式是任意的。此外,在图14所示的语音识别装置30a中,识别 单词字典32对应于在权利要求书中提到的识别单词字典和第二阈值存储 单元。
如上所述,在根据本实施方式的语音识别装置30和30a中,在第二 阈值存储单元31或识别单词字典32中存储分别对应于各个识别词汇单 词的第二阈值。这使语音验证单元22可以响应于识别词汇单词来改变用 于输出作为识别结果的识别候选项的量度。 (实施方式4)
使用设置有一个可抛弃单词字典的示例解释了实施方式1至3。与 之相对照,将使用设置有具有不同数目的可抛弃词汇单词的多个可抛弃 单词字典的示例来解释实施方式4。
图16是示意性地示出了根据本实施方式的语音识别装置40的结构 的框图。根据本实施方式的语音识别装置40没有设置图12所示的可抛 弃单词字典5,而是设置了多个可抛弃单词字典41a至41c。此外,根据 本实施方式的语音识别装置40是另外设置了选择单元42的、图12所示 的语音识别装置30。应该注意,尽管为了简化说明图16示出了三个可抛 弃单词字典41a至41c,但是构成语音识别装置40的一部分的可抛弃单 词字典的数目是任意的。
按照与图12的可抛弃单词字典5相同的方式,可抛弃单词字典41a 至41c存储多个可抛弃词汇单词和关于该多个可抛弃词汇单词的信息。 可抛弃单词字典41a至41c是具有不同数目的可抛弃词汇单词的多个可
抛弃单词字典。在本实施方式中,作为示例,可抛弃单词字典41a存储 有100个可抛弃词汇单词。可抛弃单词字典41b存储有500个可抛弃词 汇单词,包括存储在可抛弃单词字典41a中的所述100个可抛弃词汇单 词。可抛弃单词字典41c存储有900个可抛弃词汇单词,包括存储在可 抛弃单词字典41b中的所述500个可抛弃词汇单词。
选择单元42基于存储在识别单词字典4中的识别词汇单词的数目, 从多个可抛弃单词字典41a至41c之中选择要由语音验证单元22进行相 似度计算的可抛弃单词字典。在本实施方式中,选择单元42按如下方式 选择可抛弃单词字典使识别单词字典4中的识别词汇单词的数目与可 抛弃单词字典中的可抛弃词汇单词的数目之和为约1000个单词。例如, 如果存储在识别单词字典4中的识别词汇单词的数目是900个单词,则 选择单元42选择存储有100个可抛弃词汇单词的可抛弃单词字典41a。 此外,例如,如果存储在识别单词字典4中的识别词汇单词的数目是500 个单词,则选择单元42选择存储有500个可抛弃词汇单词的可抛弃单词 字典41b。此外,例如,如果存储在识别单词字典4中的识别词汇单词的 数目是100个单词,则选择单元42选择存储有900个可抛弃词汇单词的 可抛弃单词字典41c。换言之,随着存储在识别单词字典4中的识别词汇 单词的数目增加,选择单元42选择具有较少数目的可抛弃词汇单词的可 抛弃单词字典。结果,可以使要由语音验证单元22进行相似度计算的可 抛弃词汇单词和识别词汇单词的数目保持恒定。
此外,通过将软件程序安装在诸如个人计算机等的任何计算机上, 来实现上述语音识别装置40。换言之,通过根据包括这些功能的软件程 序而运行的计算机CPU来实现上述选择单元41。因此,包括选择单元 41的功能的软件程序或其上记录有该程序的记录介质代表本发明的实施 方式。此外,使用包括在计算机中的内置存储装置或计算机可访问的存 储装置,来实现可抛弃单词字典41a至41c。
如上所述,在根据本实施方式的语音识别装置40中,选择单元42 基于存储在识别单词字典4中的识别词汇单词的数目,从多个可抛弃单 词字典41a至41c中选择要由语音验证单元22进行相似度计算的可抛弃
单词字典。例如,随着存储在识别单词字典4中的识别词汇单词的数目 增加,选择单元42选择具有较少数目的可抛弃词汇单词的可抛弃单词字
典。这可以使语音识别装置40的识别速度保持恒定,并且避免导致语音 识别装置40的识别速度降低。
因此,本发明作为一种语音识别装置、语音识别方法和其上记录有 语音识别软件程序的记录介质是有用的,其在用户对识别词汇单词发声 时能够防止用户发声被错误地抛弃,并且同时即使当存储在识别单词字 典中的识别词汇单词发生改变时也能够减少更新可抛弃单词字典所需的 耗时的人工操作。
应该注意,所有上述解释的实施方式仅是本发明的说明性示例,并 且不应基于这些实施方式来限制性地解释本发明。本发明的范围在权利 要求书而不是上述实施方式中指明,并且本发明的范围旨在包括权利要 求书的等同物的意义和范围内的所有变型。
权利要求
1、一种语音识别装置,该语音识别装置包括语音输入单元,其将输入语音转换成发声语音数据;语音分析单元,其将所述发声语音数据转换成特征量;识别单词字典,其存储多个识别词汇单词;可抛弃单词字典,其存储多个可抛弃词汇单词;语音验证单元,其利用通过所述语音分析单元进行的转换而获得的特征量,计算所述输入语音与存储在所述识别单词字典中的所述多个识别词汇单词之间的相似度,利用通过所述语音分析单元进行的转换而获得的特征量,计算所述输入语音与存储在所述可抛弃单词字典中的所述多个可抛弃词汇单词之间的相似度,并且,作为计算这些相似度的结果,从所述识别词汇单词中提取具有最高相似度的识别词汇单词作为识别候选项,并且从所述可抛弃词汇单词中提取具有最高相似度的可抛弃词汇单词作为抛弃候选项;第一阈值存储单元,其存储用作抛弃所述输入语音的量度的第一阈值;以及第二阈值存储单元,其存储第二阈值,所述第二阈值大于所述第一阈值并且用作输出作为识别结果的所述识别候选项的量度,其中,如果所述识别候选项的相似度大于所述第二阈值,则所述语音验证单元输出所述识别候选项作为识别结果,并且如果所述识别候选项的相似度小于所述第二阈值,则当所述识别候选项的相似度大于所述第一阈值并且同时所述识别候选项的相似度高于所述抛弃候选项的相似度时,所述语音验证单元输出所述识别候选项作为识别结果。
2、 如权利要求1所述的语音识别装置,其中,如果所述识别候选项的相似度大于所述第一阈值,则当所述 识别候选项的相似度小于所述第二阈值并且同时所述识别候选项的相似 度小于所述抛弃候选项的相似度时,所述语音验证单元抛弃所述输入语 音,并且如果所述识别候选项的相似度小于所述第一阈值,则所述语音验证 单元抛弃所述输入语音。
3、 如权利要求1所述的语音识别装置,该语音识别装置还包括补偿 数据存储单元,所述补偿数据存储单元存储用于改变所述识别候选项的 相似度和所述抛弃候选项的相似度中的至少一个相似度的补偿数据,其中,所述语音验证单元基于所述补偿数据,改变所述识别候选项 的相似度和所述抛弃候选项的相似度中的至少一个相似度。
4、 如权利要求1所述的语音识别装置,其中,所述第二阈值存储单元存储分别对应于各个所述识别词汇单词的多个第二阈值。
5、 如权利要求1所述的语音识别装置,该语音识别装置还包括多个可抛弃单词字典,其分别包含不同数目的可抛弃词汇单词;以及选择单元,其基于存储在所述识别单词字典中的识别词汇单词的数 目,从所述多个可抛弃单词字典中选择要由所述语音验证单元进行相似 度计算的可抛弃单词字典。
6、 一种语音识别方法,其中,设置有存储有多个识别词汇单词的识别单词字典和存储有多个可抛弃词汇单词的可抛弃单词字典的计算机执行如下步骤 语音输入步骤,将输入语音转换成发声语音数据; 语音分析步骤,将所述发声语音数据转换成特征量;以及 语音验证步骤,利用通过在所述语音分析步骤中的转换而获得的特 征量,计算所述输入语音与存储在所述识别单词字典中的所述多个识别 词汇单词之间的相似度,利用通过在所述语音分析步骤中的转换而获得 的特征量,计算所述输入语音与存储在所述可抛弃单词字典中的所述多 个可抛弃词汇单词之间的相似度,并且,作为计算这些相似度的结果, 从所述识别词汇单词中提取具有最高相似度的识别词汇单词作为识别候 选项,并且从所述可抛弃词汇单词中提取具有最高相似度的可抛弃词汇 单词作为抛弃候选项; 所述计算机能够访问第一阈值存储单元和第二阈值存储单元,所述 第一阈值存储单元存储用作抛弃所述输入语音的量度的第一阈值,所述 第二阈值存储单元存储第二阈值,所述第二阈值大于所述第一阈值并且 用作输出作为识别结果的所述识别候选项的量度,并且所述语音验证步骤还包括如下步骤如果所述识别候选项的相似度大于所述第二阈值,则输出所述识别 候选项作为识别结果,以及如果所述识别候选项的相似度小于所述第二阈值,则当所述识别候 选项的相似度大于所述第一阈值并且同时所述识别候选项的相似度高于 所述抛弃候选项的相似度时,输出所述识别候选项作为识别结果。
7、 一种记录介质,其上记录有语音识别软件程序,该语音识别软件 程序使得设置有存储有多个识别词汇单词的识别单词字典和存储有多个 可抛弃词汇单词的可抛弃单词字典的计算机执行语音识别处理,其中,使所述计算机执行如下处理语音输入处理,将输入语音转换成发声语音数据;语音分析处理,将所述发声语音数据转换成特征量;以及语音验证处理,利用通过在所述语音分析处理中的转换而获得的特 征量,计算所述输入语音与存储在所述识别单词字典中的所述多个识别 词汇单词之间的相似度,利用通过在所述语音分析处理中的转换而获得 的特征量,计算所述输入语音与存储在所述可抛弃单词字典中的所述多 个可抛弃词汇单词之间的相似度,并且,作为计算这些相似度的结果, 从所述识别词汇单词中提取具有最高相似度的识别词汇单词作为识别候 选项,并且从所述可抛弃词汇单词中提取具有最高相似度的可抛弃词汇单词作为抛弃候选项;并且所述计算机能够访问第一阈值存储单元和第二阈值存储单元,所述 第一阈值存储单元存储用作抛弃所述输入语音的量度的第一阈值,所述 第二阈值存储单元存储第二阈值,所述第二阈值大于所述第一阈值并且 用作输出作为识别结果的所述识别候选项的量度,并且所述语音验证处理还包括使所述计算机执行如下处理- 如果所述识别候选项的相似度大于所述第二阈值,则输出所述识别 候选项作为识别结果,以及如果所述识别候选项的相似度小于所述第二阈值,则当所述识别候 选项的相似度大于所述第一阈值并且同时所述识别候选项的相似度高于 所述抛弃候选项的相似度时,输出所述识别候选项作为识别结果。
全文摘要
本发明提供了语音识别装置、方法和记录有语音识别软件程序的记录介质。当识别候选项的相似度大于第二阈值时,语音验证单元输出识别候选项作为识别结果,并且当识别候选项的相似度小于第二阈值时,如果该识别候选项的相似度大于第一阈值并且同时该识别候选项的相似度大于抛弃候选项的相似度,则语音验证单元输出识别候选项作为识别结果。应该注意,第一阈值是用于抛弃输入语音的量度。第二阈值大于第一阈值并且用作用于输出作为识别结果的识别候选项的量度。
文档编号G10L15/00GK101188109SQ20071018879
公开日2008年5月28日 申请日期2007年11月20日 优先权日2006年11月20日
发明者原田将治 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1