语音识别装置及存储语音识别程序的记录介质的制作方法

文档序号:2829685阅读:304来源:国知局
专利名称:语音识别装置及存储语音识别程序的记录介质的制作方法
技术领域
本发明涉及一种语音识别装置及存储语音识别程序的记录介质。特别地,本发明涉及这样一种语音识别装置及存储语音识别程序的记录介质,其能够从存储在词汇词典存储单元中的多个词中提取作为识别目标的识别目标词并使用所提取的识别目标词执行匹配处理。
背景技术
通常,作为接受用户输入的装置,已知一种语音识别装置,其可使用语音识别引擎来识别用户的语音(声音),并接受这种语音作为对系统的输入。这种语音识别装置已经在例如包括语音门户的信息发布系统以及汽车导航系统中被商业化。
随着这种信息发布系统的功能的多样化(功能数量的增加),在所述信息发布系统中作为识别目标的词汇量日趋扩大。例如,在汽车导航系统中安装语音识别装置的情况下,作为识别目标的词汇包括各种操作功能,以及全国的地名和设施名。因此,作为识别目标的词汇量非常大。在词汇词典存储单元中存储大量词汇并根据词汇词典存储单元中的词汇正确和有效地识别用户语音将是非常困难的。
现在,在功能数量增加的信息发布系统中,在许多情况下,用户实际上仅使用全部功能的一部分。值得注意的是,JP 5-61800U公开了一种自动删除在词汇词典存储单元中存储的但使用频率低的词的技术。更具体地,语音设备的消除控制单元监测在词汇词典存储单元中存储的词在定时器的计数时段之内是否用于识别。然后,消除控制单元删除在所有预定时段之内都没有用于识别的词。从而使得能够根据词汇词典存储单元中的词汇正确和有效地识别用户语音。
另外,JP 9-26799A公开了一种删除在词汇词典存储单元中存储的但使用频率低的词的技术。JP 9-26799A公开了一种在汽车导航系统中安装语音识别装置的结构。
然而,在上述JP 5-61800U和JP 9-26799A中公开的结构具有以下问题。当使用已删除的词时,例如,即使当用户发出已删除词的语音时,由于此词已经从词汇词典存储单元中删除,所以语音识别装置不能识别出该词。
为了解决这种问题,JP2000-259180A公开了一种删除存储在词汇词典存储单元中且使用频率低的词,以及将已删除的词再次存储到词汇词典存储单元中的技术。更具体地,在显示屏上显示已删除词的列表,用户从已删除词中选择要存储在词汇词典存储单元中的词。然后,将所选择的词再次存储到词汇词典存储单元中。以这种方式,即使当曾经删除了一个词而随后再次出现将这个词作为识别目标的需求时,也能够将已删除的词容易地存储到词汇词典存储单元中。
然而,即使使用上述JP2000-259180A中公开的方案,也会出现以下问题。
在JP2000-259180A的方案中,在显示屏上显示已删除词的列表,并且用户选择要存储在词汇词典存储单元中的词。因此,用户需要获得要存储在词汇词典存储单元中的词,并且从显示列表中选择要存储在词汇词典存储单元中的词。这导致了用户必须完成麻烦操作的问题。
另外,当从显示列表中选择要存储在词汇词典存储单元中的词时,在语音识别装置中将不再具有能够实现所谓的无需眼睛操作(不使用眼睛)和无需手操作(不使用手)的优点。

发明内容
鉴于以上问题,本发明的目的在于提供一种语音识别装置和存储语音识别程序的记录介质,其中无需用户进行麻烦的操作而能提高识别性能。
为了实现上述目的,根据本发明的语音识别装置包括语音输入单元,其用于将接受的语音转换成数字语音数据;语音分析单元,其用于将所述数字语音数据转换成特征值;词汇词典存储单元,其用于预先存储多个词;词汇词典管理单元,其用于从所述词汇词典存储单元中存储的多个词中提取作为识别目标的识别目标词;匹配单元,其用于使用由所述语音分析单元转换的特征值,计算与由所述词汇词典管理单元提取的识别目标词的匹配度;和结果输出单元,其用于根据所述匹配单元计算的匹配度结果,输出具有最佳匹配分数的词作为识别结果。所述语音识别装置还包括尺度信息存储单元,其用于预先存储尺度信息,所述尺度信息对于在所述词汇词典存储单元中存储的多个词中的每个词用作提取所述识别目标词的尺度;提取标准信息存储单元,其用于预先存储提取标准信息,所述提取标准信息指示在提取所述识别目标词时的尺度信息的标准;监测控制单元,其用于监测预定状态;和提取标准信息管理单元,其用于根据所述监测控制单元的监测结果改变所述提取标准信息存储单元中存储的提取标准信息。随着所述提取标准信息的改变,所述词汇词典管理单元增加或减少从所述词汇词典存储单元中存储的多个词中待提取的识别目标词的数量。
根据本发明的语音识别装置,随着提取标准信息的改变,词汇词典管理单元增加或减少从词汇词典存储单元中存储的多个词中待提取的识别目标词的数量,其中所述提取标准信息指示在提取识别目标词时的尺度信息的标准。因此,当根据监测控制单元的监测结果改变提取标准信息时,词汇词典管理单元增加或减少从词汇词典存储单元中存储的多个词中待提取的识别目标词的数量。在词汇词典管理单元增加识别目标词的数量的情况下,匹配单元根据数量增加了的识别目标词执行匹配处理。因此,在语音识别装置中识别目标词的数量增加,从而提高讲话的自由度。在词汇词典管理单元减少识别目标词的数量的情况下,匹配单元根据数量减少的识别目标词执行匹配处理。因此,语音识别装置中识别目标词的数量被限制,从而提高识别率和识别速度。结果,能够实现在用户不需要进行麻烦操作的情况下提高识别性能的语音识别装置。
在根据本发明的上述语音识别装置中,优选地,所述监测控制单元监测从用户接受的操作的处理状态、从用户接受的语音的处理状态以及从用于测量时间的测量单元传递的预定时间中的至少一个监测目标,所述词汇词典管理单元根据所改变的提取标准信息增加或减少从词汇词典存储单元中存储的多个词中待提取的识别目标词的数量,并且所述匹配单元使用由所述语音分析单元转换的特征值计算与数量增加或减少了的识别目标词的匹配度。
使用这种结构,监测控制单元监测从用户接受的操作的处理状态、从用户接受的语音的处理状态以及从用于测量时间的测量单元传递的预定时间中的至少一个监测目标。词汇词典管理单元根据所改变的提取标准信息增加或减少从词汇词典存储单元中存储的多个词中待提取的识别目标词的数量。在词汇词典管理单元增加识别目标词的数量的情况下,匹配单元根据数量增加了的识别目标词执行匹配处理。因此,在语音识别装置中识别目标词的数量增加,从而提高讲话的自由度。在词汇词典管理单元减少识别目标词的数量的情况下,匹配单元根据数量减少了的识别目标词执行匹配处理。因此,在语音识别装置中识别目标词的数量被限制,从而提高识别率和识别速度。结果,能够实现在用户不需要进行麻烦操作的情况下提高识别性能的语音识别装置。
在根据本发明的上述语音识别装置中,优选地,所述监测控制单元监测以下(a)到(h)中的至少一个监测目标,当所述监测控制单元检测出以下(a)到(d)中的状态时,所述监测控制单元将第一更新信号发送到所述提取标准信息管理单元,并且所述提取标准信息管理单元基于所述第一更新信号改变所述提取标准信息存储单元中存储的提取标准信息,从而增加从所述词汇词典存储单元中存储的多个词中待提取的识别目标词的数量,和在将所述第一更新信号发送到所述提取标准信息管理单元之后,当所述监测控制单元检测出属于以下(e)到(h)中的状态时,所述监测控制单元将第二更新信号发送到所述提取标准信息管理单元,并且所述提取标准信息管理单元基于所述第二更新信号改变所述提取标准信息存储单元中存储的提取标准信息,从而减少从所述词汇词典存储单元中存储的多个词中待提取的识别目标词的数量。
(a)在不能获取所述识别结果的情况下(b)在用户进行操作或进行讲话以修正或纠正紧接在该操作或讲话之前的操作或讲话的情况下(c)在用户无视需要对处理进行确认操作的事实,即使经过预定时段之后也不进行确认操作的情况下(d)在预定时段内不进行操作或不讲话的情况下(e)在所述匹配单元计算所述匹配度预定次数的情况下(f)在经过了预定时间的情况下(g)在需要对处理进行确认操作时,在预定时段之内用户进行确认操作的情况下(h)在用户不进行操作或不进行讲话以修正或纠正前一操作或讲话的情况下。
使用这种结构,当监测控制单元检测出上述(a)到(d)中的状态时,其将第一更新信号发送到提取标准信息管理单元。提取标准信息管理单元基于所述第一更新信号改变提取标准信息,从而增加从词汇词典存储单元中存储的多个词中待提取的识别目标词的数量。由此,词汇词典管理单元根据所改变的提取标准信息增加识别目标词的数量。因此,语音识别装置中识别目标词的数量增加,从而提高讲话的自由度。另外,在将第一更新信号发送到提取标准信息管理单元之后,当监测控制单元检测出属于以上(e)到(h)状态时,其将第二更新信号发送到提取标准信息管理单元。提取标准信息管理单元基于所述第二更新信号改变提取标准信息,从而减少从词汇词典存储单元中存储的多个词中待提取的识别目标词的数量。由此,词汇词典管理单元根据改变的提取标准信息减少识别目标词的数量。因此,在语音识别装置中识别目标词的数量被限制,从而提高识别率和识别速度。结果,能够实现在用户不需要进行麻烦操作的情况下提高识别性能的语音识别装置。
在根据本发明的上述语音识别装置中,优选地,所述词汇词典管理单元根据所述提取标准信息存储单元中存储的提取标准信息,选择性执行以下操作(1)和(2)中的一个(1)所述词汇词典管理单元基于所述尺度信息提取所述识别目标词(2)所述词汇词典管理单元在不考虑所述尺度信息的情况下提取在所述词汇词典存储单元中存储的所有词作为所述识别目标词。
使用这种结构,根据提取标准信息,词汇词典管理单元选择性执行以下操作中的任一个(1)基于尺度信息提取识别目标词;(2)不考虑尺度信息的情况下提取所有词作为识别目标词。因此,例如,根据从用户接受的处理状态来改变提取标准信息。词汇词典管理单元根据提取标准信息选择性执行以上(1)和(2)的操作中的任一个。在词汇词典管理单元执行操作(1)的情况下,匹配单元基于尺度信息根据提取的识别目标词执行匹配处理。因此,在语音识别装置中识别目标词的数量被限制,从而提高识别率和识别速度。在词汇词典管理单元执行操作(2)的情况下,匹配单元根据以词汇词典存储单元中存储的所有词作为识别目标的识别目标词执行匹配处理。因此,在语音识别装置中识别目标词的数量增加,从而提高讲话的自由度。结果,能够实现在用户不需要进行麻烦操作的情况下提高识别性能的语音识别装置。
在根据本发明的上述语音识别装置中,优选地,还包括使用频率管理单元,其用于监测在所述词汇词典存储单元中存储的多个词中每个词的使用次数,并计算所述多个词中每个词的使用频率;使用频率存储单元,其用于存储由所述使用频率管理单元计算的使用频率作为使用频率数据,其中所述使用频率数据与所述词汇词典存储单元中存储的多个词中的每个词相对应;和尺度信息管理单元,其用于至少使用所述使用频率存储单元中存储的使用频率数据,更新所述尺度信息存储单元中存储的尺度信息。
使用这种结构,尺度信息管理单元至少使用使用频率数据更新尺度信息。因此,例如在基于尺度信息提取识别目标词的情况下,词汇词典管理单元可提取具有高使用频率的词作为识别目标词,并从识别目标中排除具有低使用频率的词。因此,语音识别装置的识别率提高。结果,能够实现在用户不需要进行麻烦操作的情况下提高识别性能的语音识别装置。
在根据本发明的上述语音识别装置中,优选地,还包括词汇组使用频率管理单元,其用于将所述词汇词典存储单元中存储的多个词划分为多个词汇组,并基于属于所述词汇词典存储单元中存储的词汇组的多个词中每个词的使用频率来计算每一词汇组的使用频率;词汇组使用频率存储单元,其用于存储由所述词汇组使用频率管理单元计算的词汇组的使用频率作为词汇组使用频率数据,其中所述词汇组使用频率数据与所述词汇组中的每一词汇组相对应;和阈值存储单元,其用于存储在提取所述识别目标词时指示所述词汇组使用频率数据的标准的阈值,其中,优选地,所述词汇词典管理单元根据所述提取标准信息存储单元中存储的提取标准信息,参照所述阈值存储单元中存储的阈值以及所述词汇组使用频率存储单元中存储的词汇组使用频率数据,选择性执行以下操作(3)和(4)中的一个(3)对于其词汇组使用频率数据等于或大于所述阈值的词汇组,所述词汇词典管理单元在不考虑所述尺度信息的情况下提取属于该词汇组的所有词作为所述识别目标词
(4)对于其词汇组使用频率数据小于所述阈值的词汇组,所述词汇词典管理单元基于所述尺度信息从属于该词汇组的词中提取所述识别目标词。
使用这种结构,参照阈值和词汇组使用频率数据,词汇词典管理单元选择性执行以下操作中的一个(3)对于其词汇组使用频率数据等于或大于阈值的词汇组,在不考虑尺度信息的情况下提取属于该词汇组的所有词作为识别目标词;和(4)对于其词汇组使用频率数据小于阈值的词汇组,基于尺度信息从属于该词汇组的词中提取识别目标词。由此,在词汇词典管理单元对于词汇组使用频率数据等于或大于阈值的词汇组执行上述操作(3)的情况下,匹配单元根据以属于该词汇组的所有词作为识别目标的识别目标词执行匹配处理。因此,例如由于将属于具有高使用频率的词汇组的所有词作为识别目标,所以语音识别装置中对于这些词汇组的识别目标词的数量增加,从而提高讲话的自由度。在词汇词典管理单元对于词汇组使用频率数据小于阈值的词汇组执行上述操作(4)的情况下,匹配单元基于尺度信息根据从属于此词汇组的词中提取的识别目标词执行匹配处理。因此,例如由于将属于具有低使用频率的词汇组的词作为基于尺度信息提取的识别目标词,所以语音识别装置中对于这些词汇组的识别目标词的数量被限制,从而提高识别率和识别速度。结果,能够实现在用户不需要进行麻烦操作的情况下提高识别性能的语音识别装置。
在根据本发明的上述语音识别装置中,优选地,所述监测控制单元监测从用户接受的操作的处理状态、从用户接受的语音的处理状态以及从用于测量时间的测量单元传递的预定时间中的至少一个监测目标,所述语音识别装置还包括阈值管理单元,其用于根据所述监测控制单元的监测结果更新所述阈值存储单元中存储的阈值;和词汇词典管理单元,其根据更新后的阈值选择性执行以上操作(3)和(4)中的一个。使用这种结构,阈值管理单元根据监测控制单元的监测结果更新阈值。例如,当没有获取识别结果或者用户操作无法进行下去(dead end)时,阈值管理单元更新阈值,以使其变得更小。因此,例如,词汇词典管理单元可以将对词汇组执行的操作(4)改变为操作(3)。因此,在语音识别装置中的识别目标词的数量增加,从而提高讲话的自由度。结果,能够实现在用户不需要进行麻烦操作的情况下提高识别性能的语音识别装置。
在根据本发明的上述语音识别装置中,优选地,还包括语音存储单元,其用于存储由所述语音输入单元转换的数字语音数据或者由所述语音分析单元转换的特征值。并且,所述匹配单元使用所述语音存储单元中存储的数字语音数据或特征值,计算与所述词汇词典管理单元提取的识别目标词的匹配度。使用这种结构,匹配单元使用语音存储单元中存储的数字语音数据或特征值执行匹配处理。因此,例如在词汇词典管理单元根据从用户接受的处理状态增加识别目标词的数量的情况下,匹配单元使用语音存储单元中存储的数字语音数据或特征值执行与数量增加的识别目标词的匹配处理。从而,用户不必为相同词再次发音,从而减轻用户的负担。
在根据本发明的上述语音识别装置中,优选地,当所述匹配单元使用所述语音存储单元中存储的数字语音数据或特征值计算与所述词汇词典管理单元提取的识别目标词的匹配度时,所述词汇词典管理单元排除前一次作为识别目标词提取的词,从所述词汇词典存储单元中存储的多个词中提取识别目标词。使用这种结构,例如,当不能获得识别结果并随后再次执行相同词的匹配处理时,匹配单元使用排除了前一次作为识别目标词提取的词的识别目标词执行匹配处理。因此,语音识别装置的识别速度可提高。结果,能够实现在用户不需要进行麻烦操作的情况下提高识别性能的语音识别装置。
上述语音识别装置可由硬件来实现。然而,计算机可以执行在记录介质中存储的程序,从而实现这种语音识别装置。更具体地,根据本发明的记录介质中存储的语音识别程序是使得计算机执行以下操作的语音识别程序,所述操作包括将接受的语音转换成数字语音数据的语音输入操作;将所述数字语音数据转换成特征值的语音分析操作;从预先存储多个词的词汇词典存储单元中提取作为识别目标的识别目标词的词汇词典管理操作;使用在所述语音分析操作中转换的特征值计算与所述词汇词典管理操作中提取的识别目标词的匹配度的匹配操作;和根据所述匹配操作中计算的匹配度结果输出具有最佳匹配分数的词作为识别结果的结果输出操作。所述词汇词典管理操作使得计算机执行以下操作参照尺度信息以及参照提取标准信息的操作,其中所述尺度信息用作提取预先存储在尺度信息存储单元中的识别目标词的尺度,以及所述提取标准信息指示在提取预先存储在提取标准信息存储单元中的识别目标词时的尺度信息的标准,和使得计算机执行以下操作监测预定状态的监测控制操作,和根据所述监测控制操作的监测结果改变在提取标准信息存储单元中存储的提取标准信息的提取标准信息管理操作;和随着提取标准信息的改变,所述词汇词典管理操作使得计算机执行增加或减少从所述词汇词典存储单元中存储的多个词中待提取的识别目标词的数量的操作。


图1是示出根据本发明实施例1的语音识别装置的结构的框图。
图2是示出上述语音识别装置中的包括词汇词典存储单元和词汇词典管理单元的主要部分的框图。
图3是示出上述语音识别装置中的包括词汇词典存储单元和词汇词典管理单元的主要部分的框图。
图4是示出上述语音识别装置中的包括词汇词典存储单元和词汇词典管理单元的主要部分的框图。
图5是示出图2的第一变化例的框图。
图6是示出图2的第二变化例的框图。
图7是示出图2的第三变化例的框图。
图8是示出上述语音识别装置的操作的流程图。
图9是示出上述语音识别装置中的匹配处理的操作的流程图。
图10是示出上述语音识别装置中的尺度信息管理单元更新尺度信息的操作的流程图。
图11是示出上述语音识别装置中的提取标准信息管理单元更新提取标准信息的操作的流程图。
图12是示出根据实施例2的语音识别装置的结构框图。
图13是示出上述语音识别装置中的包括词汇词典存储单元和词汇词典管理单元的主要部分的框图。
图14是示出上述语音识别装置中的匹配处理的操作的流程图。
图15是示出上述语音识别装置中的阈值管理单元更新阈值的操作的流程图。
具体实施例方式
以下,将参照附图详细描述本发明的具体实施例。
实施例1以下描述根据图1到图11的本发明实施例。
根据本实施例的信息发布系统1执行识别用户语音的语音识别处理,并包括语音识别装置2,其具有例如从上层程序(例如语音交互应用)接收用户语音,以及例如将识别结果返回到上层程序的功能;操作处理单元3,其接受用户的操作;时间测量单元4,其测量预定时间;通信处理单元5,其连接到互联网N;以及统计数据存储单元6,其存储统计数据。
在下文中,在讨论语音识别装置2的详细结构之前将简单描述信息发布系统1的整体结构。
操作处理单元3接受用户通过指示(pointing)装置、键盘、触摸板等输入的操作,并且将接受的操作转换成操作数据。然后,操作处理单元3执行转换后的操作数据的说明。所述操作数据例如是指示系统电源开启/切断的数据、指示操作开始的数据、指示操作中断的数据、指示操作终止的数据、指示操作取消(重置)的数据或者指示操作确认的数据。
时间测量单元(测量单元)4例如分析从GPS接收器(图中未示出)发送的位置确定信号,并基于该位置确定信号中包含的日期和时间数据检测当前日期和时间。时间测量单元4可简单地由计数器或定时器来构成,而没有特别限制。
通信处理单元5用作互联网N上的网络(Web)客户端。例如,应语音识别装置2的请求,通信处理单元5根据超文本传输协议,(HTTP)从统计数据存储单元6(随后将描述)接收超文本标记语言(HTML)格式的统计数据。将所接收到的统计数据输出到语音识别装置2。应该注意,通信处理单元5可包括用于浏览所接收到的统计数据的浏览器。
统计数据存储单元6存储关于多个词的统计数据。统计数据存储单元6用作互联网N上的网络(Web)服务器。所述统计数据例如是根据性别、年龄、区域等统计性地指示所述多个词的使用频率的数据。例如,在从通信处理单元5发出请求时,统计数据存储单元6基于例如URI(统一资源标识符)等确定由通信处理单元5请求的统计数据,并将这些统计数据以HTML的格式发送到通信处理单元5。
(语音识别装置的结构)这里,根据本实施例的语音识别装置2包括语音输入单元7、语音分析单元8、特征值存储单元9、声音模型存储单元10、词汇词典存储单元11、词汇词典管理单元12、匹配单元13、结果输出单元14、监测控制单元15、统计数据获取单元16、使用频率管理单元17和使用频率存储单元18。
语音输入单元7接受用户通过麦克风等输入的声音(语音),并且将所接受的语音转换成数字语音数据。换句话说,当接受到用户语音时,语音输入单元7利用预定语音段标准,检测输入的语音中的语音段。然后,所述语音输入单元7将检测的语音段的语音转换成数字语音数据。将所述数字语音数据输出到语音分析单元8(以下将说明)。
语音分析单元8分析所述数字语音数据,并计算特征值。作为特征值,尽管在本实施例中没有特定限制,但是在许多情况下可使用MFCC、LPC倒谱、功率、其一次或二次回归系数以及多维矢量(例如,通过主成分分析和判别式分析所获得的这些值的维数压缩的结果)。将该特征值输出到特征值存储单元9和匹配单元13(以下将说明)。
特征值存储单元(语音存储单元)9存储该特征值作为历史信息。换句话说,特征值存储单元9存储从语音分析单元8输出的特征值以及固有信息。所述固有信息指示特征值的开始点、结束点、标识号等。此外,代替特征值,特征值存储单元9可存储从语音输入单元7输出的数字语音数据。
声音模型存储单元10存储通过对关于哪个音素趋向于变成哪种类型的特征值的信息进行统计模型化而获得的数据。声音模型的实例可包括隐马尔柯夫模型(Hidden Markov Mode,HMM)等。
词汇词典存储单元(尺度(scale)信息存储单元、提取标准信息存储单元)11预先存储多个词以及关于所述多个词的信息。所述关于词的信息实例包括对每一词(词汇表中的每一词)的固有ID、词符号(word notation)等,还可包括诸如词之间的连接规则(语法信息)的任意其它信息。另外,对于多个词中的每个词,词汇词典存储单元11预先存储尺度信息,该尺度信息用作词汇词典管理单元12(将随后描述)提取作为识别目标的识别目标词时的尺度。另外,词汇词典存储单元11预先存储提取标准信息,该提取标准信息指示当词汇词典管理单元12提取识别目标词时的尺度信息的标准。
词汇词典管理单元12从词汇词典存储单元11中存储的多个词中提取作为识别目标的识别目标词。更具体地,词汇词典管理单元12的识别目标词提取单元12a(见图2)提取识别目标词。另外,词汇词典管理单元12基于从监测控制单元15(将随后描述)输入的更新信号(第一更新信号、第二更新信号)改变在词汇词典存储单元11中存储的提取标准信息。另外,尽管上述说明指出这样的实例,即其中词汇词典管理单元12包括识别目标词提取单元12a,但是对此没有特别限制。例如,匹配单元13(将随后描述)可包括识别目标词提取单元。换句话说,匹配单元13可以提取识别目标词。
另外,词汇词典管理单元12使用从统计数据获取单元16(将随后说明)输入的统计数据以及在使用频率存储单元18(将随后说明)中存储的使用频率数据,更新在词汇词典存储单元11中存储的尺度信息。请注意,词汇词典存储单元11和词汇词典管理单元12的具体实例将随后说明。
当匹配单元13从语音分析单元8接收到特征值时,其基于此特征值执行匹配处理。换句话说,所述匹配单元13比较此特征值和声音模型存储单元10,从而提取语音段中包含的每一帧(固定时段)的音素串。基于所提取的音素串,匹配单元13根据从词汇词典管理单元12提取的识别目标词计算匹配度(相似度)。这种匹配度的计算处理设置为能够利用用于匹配处理的现有已知程序来执行。将计算后的匹配度输出到结果输出单元14(将随后说明)。优选地,例如,因为没有获得识别结果,所以当匹配单元13从监测控制单元15(将随后说明)接收到读出信号时,匹配单元13读出在特征值存储单元9中存储的特征值。根据这种设置,例如,在因为没有获得识别结果而在词汇词典管理单元12增加识别目标词的数目的情况下,匹配单元13使用在特征值存储单元9中存储的特征值与数目增加了的识别目标词进行匹配处理。因此,用户不必再次发出相同词的声音,从而减轻用户的负担。
结果输出单元14提取在匹配单元13中计算的匹配度中匹配度超过基准值的词,并输出在所提取的词中具有最佳匹配分数的词作为识别结果。将识别结果传递到上层程序,也可以输出到诸如显示器、扬声器或打印机的输出装置。或者,可以将识别结果输出到CPU(图中未示出)作为命令。
监测控制单元15监测以下监测目标的至少其中之一,即从用户接受的操作的处理状态、从用户接受的语音的处理状态以及从时间测量单元4传递的预定时间。因此,监测控制单元15监测上述操作处理单元3、时间测量单元4、语音输入单元7、匹配单元13和结果输出单元14。所述监测控制单元15根据监测结果将第一更新信号或第二更新信号输出到词汇词典管理单元12。另外,监测控制单元15根据监测结果将读出信号输出到匹配单元13。另外,随后将描述监测控制单元15的具体实例。
统计数据获取单元16以任意定时向通信处理单元5发出请求以获取统计数据。如上所述,例如,统计数据是按照性别、年龄、区域等统计性指示多个词的使用频率的数据。统计数据获取单元16将从通信处理单元5输入的统计数据输出到词汇词典管理单元12。另外,尽管统计数据获取单元16经由互联网N获取统计数据,但是对此没有特定限制。例如,还可通过读取诸如CD-ROM的记录介质中存储的统计数据来获取统计数据。
使用频率管理单元17计算在词汇词典存储单元11中存储的多个词中每个词的使用频率。在本实施例中,使用频率管理单元17基于监测结果以及在使用频率存储单元18(将随后描述)中存储的以往使用频率数据,计算多个词中每个词的使用频率,其中所述监测结果是通过监测在词汇词典存储单元11中存储的多个词中每个词的使用次数而获得。然而,对此没有特定限制。例如,还可以通过使用从匹配单元13输出的匹配度来计算使用频率。
使用频率存储单元18存储由使用频率管理单元17计算的使用频率作为使用频率数据。所述使用频率数据对应于在词汇词典存储单元11中存储的多个词中的每个词。
现在,通过在诸如个人计算机的任意计算机中安装程序来实现上述语音识别装置2。换句话说,通过根据实现以上各单元功能的程序操作计算机的CPU,实施这些单元,所述单元包括语音输入单元7、语音分析单元8、词汇词典管理单元12、匹配单元13、结果输出单元14、监测控制单元15、统计数据获取单元16以及使用频率管理单元17。因此,用于实现语音输入单元7、语音分析单元8、词汇词典管理单元12、匹配单元13、结果输出单元14、监测控制单元15、统计数据获取单元16以及使用频率管理单元17的功能的程序或者记录该程序的记录介质也是本发明的实施例。另外,由计算机中的内置存储装置或者可由该计算机访问的存储装置实施特征值存储单元9、声音模型存储单元10、词汇词典存储单元11和使用频率存储单元18。应该注意,由于本实施例具有可连接到互联网N的结构,所以上述程序也可以从互联网N下载。
(词汇词典存储单元的具体实例)以下参照图2说明语音识别装置2中包括的词汇词典存储单元11和词汇词典管理单元12的具体实例。应该注意,在图2中所示的词汇词典存储单元11中存储的词汇实例指示将语音识别装置2用作汽车导航系统的情况。
如图2所示,词汇词典存储单元11存储尺度信息20、词ID 21、词符号22和词发音23。尺度信息20是当词汇词典管理单元12提取识别目标词时用作尺度的信息。词ID 21是词汇表中每一词固有的信息。词符号22是关于词如何写的信息。词发音信息23是关于由词符号22表示的词如何发音的信息。对应于此词发音23的音素序列(未示出)用作由匹配单元13进行匹配处理所使用的词。换句话说,在词汇词典管理单元12中的识别目标词提取单元12a从对应于此词发音23的音素序列中提取作为识别目标的识别目标词。另外,尽管使用图2中的一种语音符号(phonetic sign)存储词发音23,但是对此没有特定限制。换句话说,词发音23可使用其它类型的语音符号来存储,或者可作为上面提及的音素序列本身来存储。另外,词汇词典存储单元11还存储当识别目标词提取单元12a提取识别目标词时用作尺度信息20的标准的提取标准信息24。另外,尽管词汇词典存储单元11在表结构中存储尺度信息20、词ID 21、词符号22以及词发音23,但是对此没有特定限制。所述表结构可以被树结构、网络结构、文件结构等取代。
这里,在图2所示的实例中,作为尺度信息20,在第一行R1中存储“1”,在第二行R2中存储“0”,在第三行R3中存储“0”,…在第N行RN中存储“1”。作为词ID 21,在第一行R1中存储“001”,在第二行R2中存储“002”,在第三行R3中存储“003”,…在第N行RN中存储“NNN”。作为词符号22,在第一行R1中存储“Return home”,在第二行R2中存储“Go home”,在第三行R3中存储“AM radio”,…在第N行RN中存储“Preferlocal street”。作为词发音23,在第一行R1中存储“ ”,在第二行R2中存储“[góu hóum]”,在第三行R3中存储“[éiém réidiòu]”,…在第N行RN中存储“ ”。另外,作为提取标准信息24,存储“1”。
在本实施例中,当提取标准信息24是“1”时,识别目标词提取单元12a基于尺度信息20提取识别目标词。更具体地,识别目标词提取单元12a提取其尺度信息20对应于“1”的词作为识别目标词。另一方面,当提取标准信息24是“0”时,识别目标词提取单元12a在不考虑尺度信息20的情况下提取在词汇词典存储单元11中存储的所有词作为识别目标词。
因此,在图2所示的实例中,由于存储“1”作为提取标准信息24,所以识别目标词提取单元12a基于尺度信息20提取识别目标词。换句话说,识别目标词提取单元12a提取其尺度信息20是“1”的第一行R1和第N行RN中的词作为识别目标词。
尽管以上描述指示了这样的实例,其中由二进制数据“1”和“0”表示尺度信息20和提取标准信息24,但是也可以由从“0”到“1”的连续数据表示尺度信息20和提取标准信息24,例如,如图3所示。
换句话说,在图3所示的实例中,作为尺度信息20,在第一行R1中存储“0.95”,在第二行R2中存储“0.31”,在第三行R3中存储“0.04”,…在第N行RN中存储“0.88”。另外,作为提取标准信息24,存储“0.80”。另外,尽管在图3中尺度信息20和提取标准信息24表示到第二小数位,但是对此没有限制。尺度信息20和提取标准信息24可以以任意位数来表示。
在本实施例中,当提取标准信息24不是“0”时,识别目标词提取单元12a基于尺度信息20提取识别目标词。更具体地,识别目标词提取单元12a使用提取标准信息24作为阈值,并提取其尺度信息20超过提取标准信息24的词作为识别目标词。另一方面,当提取标准信息24是“0”时,识别目标词提取单元12a在不考虑尺度信息20的情况下提取在词汇词典存储单元11中存储的所有词作为识别目标词。
因此,在图3示出的实例中,由于存储“0.80”作为提取标准信息24,所以识别目标词提取单元12a基于尺度信息20提取识别目标词。换句话说,识别目标词提取单元12a提取其尺度信息20大于提取标准信息24“0.80”的词作为识别目标词。这里,由于在第一行R1中的尺度信息20“0.95”和第N行RN中的尺度信息20“0.88”适合,所以提取第一行R1和第N行RN中的词作为识别目标词。
另外,如图4所示,可通过级别来表示尺度信息20和提取标准信息24。图4示出将尺度信息20分成三级(即,A级、B级和C级)的实例。例如,以词使用频率减少的顺序设置A级、B级和C级,但是对此没有限制。作为提取标准信息24,不仅可以存储A级、B级和C级,还可存储在不考虑尺度信息20的情况下将所有词作为目标的D级。另外,作为提取标准信息24,可包含适合于A级和B级的E级、适合于A级和C级的F级以及适合于B级和C级的G级。
这里,在图4所示的实例中,在第一行R1中存储A级、在第二行R2中存储B级、在第三行R3中存储C级,…在第N行RN中存储A级作为尺度信息20。另外,存储A级作为提取标准信息24。
在本实施例中,当提取标准信息24不是D级时,识别目标词提取单元12a基于尺度信息20提取识别目标词。更具体地,识别目标词提取单元12a提取其尺度信息20与提取标准信息24相同级别的词作为识别目标词。另一方面,当提取标准信息24是D级时,识别目标词提取单元12a在不考虑尺度信息20的情况下提取在词汇词典存储单元11中存储的所有词作为识别目标词。
因此,在图4所示的实例中,由于存储A级作为提取标准信息24,所以识别目标词提取单元12a基于尺度信息20提取识别目标词。换句话说,识别目标词提取单元12a提取其尺度信息20与提取标准信息24(A级)相同级别的词作为识别目标词。这里,由于第一行R1中的尺度信息20的A级和第N行RN中的尺度信息20的A级适合,所以提取第一行R1以及第N行RN中的词作为识别目标词。
(词汇词典管理单元的具体实例)词汇词典管理单元12包括识别目标词提取单元12a、尺度信息管理单元12b和提取标准信息管理单元12c。
如上所述,随着在提取识别目标词时指示尺度信息20的标准的提取标准信息24的改变,识别目标词提取单元12a增加或减少从词汇词典存储单元11中存储的多个词中待提取的识别目标词的数量。另外,当匹配单元13使用在特征值存储单元9中存储的特征值来执行与识别目标词的匹配处理时,优选地,识别目标词提取单元12a排除前一次作为识别目标词提取的词来提取识别目标词。这样,当不能获得识别结果并随后再次执行相同词的匹配处理时,例如,匹配单元13可使用排除了前一次作为识别目标词提取的词的识别目标词执行匹配处理。因此,语音识别装置2的识别速度得到改善。
尺度信息管理单元12b使用在使用频率存储单元18中存储的使用频率数据以及从统计数据获取单元16输入的统计数据更新尺度信息20。在尺度信息20由二进制数据“1”和“0”表示的情况下,尺度信息管理单元12b将与具有高使用频率的词相对应的尺度信息20更新为“1”,而将与具有低使用频率的词相对应的尺度信息20更新为“0”。例如,如果根据使用频率数据和统计数据计算的值等于或大于基准值,可确定此词具有高使用频率,因此将尺度信息20更新为“1”。如果根据使用频率数据和统计数据计算的值小于基准值,可确定此词具有低使用频率,因此将尺度信息20更新为“0”。或者,在尺度信息20由从“0”到“1”的连续数据表示的情况下,尺度信息管理单元12b更新与具有高使用频率的词相对应的尺度信息20,以使其变得更大(变为更接近“1”),以及更新与具有低使用频率的词相对应的尺度信息20,以使其变得更小(变为更接近“0”)。另外,在尺度信息20由级别来表示的情况下,尺度信息管理单元12b更新与具有高使用频率的词相对应的尺度信息20,以使其具有更高级别,并更新与具有低使用频率的词相对应的尺度信息20,以使其具有更低级别。另外,尽管在更新使用频率数据时或者在输入统计数据时尺度信息管理单元12b更新尺度信息20,但是对此没有限制。可以在任何时间更新尺度信息20。
提取标准信息管理单元12c基于从监测控制单元15输入的更新信号(第一更新信号、第二更新信号)改变在词汇词典存储单元11中存储的提取标准信息24。在所述提取标准信息24由二进制数据“1”和“0”表示的情况下,当输入第一更新信号时,提取标准信息管理单元12c将提取标准信息24改变为“1”。当输入第二更新信号时,提取标准信息管理单元12c将提取标准信息24改变为“0”。或者,在提取标准信息24由从“0”到“1”的连续数据表示的情况下,当输入第一更新信号时,提取标准信息管理单元12c改变提取标准信息24,以使其变得更小(变成更接近“0”)。当输入第二更新信号时,提取标准信息管理单元12c改变提取标准信息24,以使其变得更大(变成更接近“1”)。另外,在提取标准信息24由级别表示的情况下,当输入第一更新信号时,提取标准信息管理单元12c使得提取标准信息24具有更低级别。当输入第二更新信号时,提取标准信息管理单元12c使得提取标准信息24具有更高级别。请注意,随后将详细介绍来自监测控制单元15的第一更新信号和第二更新信号。
(存储格式的变化例)尽管以上描述指示了其中在词汇词典存储单元11中存储尺度信息20和提取标准信息24的实例,但是对此没有特定限制。换句话说,尽管以上描述指示了其中词汇词典存储单元11相当于存储尺度信息20的尺度信息存储单元和存储提取标准信息24的提取标准信息存储单元的实例,但是例如图5到7中所示的结构也是可行的。
首先,如图5所示,尺度信息存储单元200和提取标准信息存储单元240可与词汇词典存储单元11分离。换句话说,在图5所示的实例中,尺度信息20存储在尺度信息存储单元200中,提取标准信息24存储在提取标准信息存储单元240中。应该注意,可由不同的硬件或者由同一硬件中的不同区域来分别构成尺度信息存储单元200和提取标准信息存储单元240。
在本实施例中,识别目标词提取单元12a从提取标准信息存储单元240中读出(参照)提取标准信息24。当提取标准信息24为“1”时,识别目标词提取单元12a从尺度信息存储单元200读出(参照)尺度信息20。识别目标词提取单元12a基于尺度信息20从词汇词典存储单元11提取识别目标词。当提取标准信息24为“0”时,识别目标词提取单元12a在不考虑尺度信息20的情况下提取在词汇词典存储单元11中存储的所有词作为识别目标词。
另外,如图6所示,词汇词典存储单元11根据尺度信息20可划分为第一词汇词典存储单元11a和第二词汇词典存储单元11b。应该注意,可由不同的硬件或者由同一硬件中的不同区域来分别构成第一词汇词典存储单元11a和第二词汇词典存储单元11b。
在本实施例中,识别目标词提取单元12a读出(参照)尺度信息20。当尺度信息20为“1”时,识别目标词提取单元12a在第一词汇词典存储单元11a中存储其尺度信息20对应于“1”的词。当尺度信息20为“0”时,识别目标词提取单元12a在第二词汇词典存储单元11b中存储其尺度信息20对应于“0”的词。然后,识别目标词提取单元12a读出(参照)提取标准信息24。当提取标准信息24为“1”时,识别目标词提取单元12a提取在第一词汇词典存储单元11a中存储的词作为识别目标词。当提取标准信息24为“0”时,识别目标词提取单元12a提取在第一词汇词典存储单元11a和第二词汇词典存储单元11b中存储的词作为识别目标词。
另外,如图7所示,词汇词典存储单元11可划分为存储作为识别目标的词的第三词汇词典存储单元11c和存储所有词的第四词汇词典存储单元11d。可由不同的硬件或者由同一硬件中的不同区域来分别构成第三词汇词典存储单元11c和第四词汇词典存储单元11d。
在本实施例中,识别目标词提取单元12a读出(参照)尺度信息20和提取标准信息24。当提取标准信息24为“1”时,识别目标词提取单元12a从第四词汇词典存储单元11d提取其尺度信息20对应于“1”的词,并将所提取的词存储在第三词汇词典存储单元11c。当提取标准信息24为“0”时,识别目标词提取单元12a提取在第四词汇词典存储单元11d中存储的所有词,并将所有所提取的词存储在第三词汇词典存储单元11c中。然后,识别目标词提取单元12a提取在第三词汇词典存储单元11c中存储的词作为识别目标词。
(监测控制单元的具体实例)对于监测控制单元15,以下(a)到(h)为监测目标。首先,当监测控制单元15检测出属于以下(a)到(d)中的至少一种状态时,监测控制单元15将第一更新信号输出到词汇词典管理单元12,并将读出信号输出到匹配单元13。
(a)在不能获取识别结果的情况下(例如,因为在匹配单元13中计算的匹配度为“0”,所以不能获取识别结果的情况;或者因为在匹配单元13中计算的匹配度不满足结果输出单元14的基准值,所以不能获取识别结果的情况)(b)在用户进行操作或进行讲话以修正或纠正紧接在此操作或讲话之前的操作或讲话的情况下(例如,在用户中断操作、终止操作、取消操作或进行讲话的自我修正的发音的情况)(c)在用户无视需要对处理进行确认操作的事实,即使经过预定时段之后也不进行确认操作的情况下
(d)在预定时段内不进行操作或不讲话的情况下在将第一更新信号输出到词汇词典管理单元12之后,除了上述监测目标(a)到(d)之外,监测控制单元15还监测以下监测目标(e)到(h)。当监测控制单元15检测出属于以下(e)到(h)中的至少一种状态时,监测控制单元15将第二更新信号输出到词汇词典管理单元12。另外,当监测控制单元15再次检测出属于以上(a)到(d)中的至少一种状态时,监测控制单元15再次将第一更新信号输出到词汇词典管理单元12。
(e)在匹配单元13计算匹配度预定次数的情况下(f)在经过了预定时间的情况下(g)在需要对处理进行确认操作时,在预定时段之内用户进行确认操作的情况下(h)在用户不进行操作或不进行讲话以修正或纠正前一操作或讲话的情况下。
应该注意,监测目标不限于上述(a)到(h),而可根据使用目的自由设定。
(语音识别装置的示例性操作)例如,以下将参照图8来描述按照上述结构的语音识别装置2的示意性操作。如图8所示,当用户开始输入他/她的语音时(Op1),将所输入的语音输出到语音输入单元7。语音输入单元7使用预定的语音段标准检测在输入的语音中的语音段,并且将检测后的语音段中的语音转换成数字语音数据(Op2)。将得到的数字语音数据输出到语音分析单元8。语音分析单元8分析输入的数字语音数据并计算特征值(Op3)。将计算后的特征值输出到特征值存储单元9和匹配单元13。匹配单元13基于输入的特征值执行匹配处理(Op4)。然后,将匹配处理的结果从匹配单元13输出到结果输出单元14,并且结果输出单元14输出识别结果(Op5)。另外,语音识别装置2的上述示意性操作仅是实例,对此没有限制。
下面参照图9详细描述图8中的匹配处理操作(Op4)。如图9所示,识别目标词提取单元12a读出(参照)在词汇词典存储单元(提取标准信息存储单元)11中存储的提取标准信息24(Op41)。如果读出的提取标准信息24为“1”(在Op42中为是),则识别目标词提取单元12a读出(参照)在词汇词典存储单元(尺度信息存储单元)11中存储的尺度信息20,并基于读出的尺度信息20提取识别目标词(Op43)。另一方面,如果读出的提取标准信息24为“0”(在Op42中为否),则识别目标词提取单元12a在不考虑尺度信息20的情况下提取在词汇词典存储单元11中存储的所有词作为识别目标词(Op44)。然后,匹配单元13使用在图8中的Op3中计算的特征值计算与Op43或Op44中提取的识别目标词的匹配度(Op45)。
下面参照图10描述尺度信息管理单元12b更新尺度信息20的操作。由于尺度信息管理单元12b在更新使用频率数据时或者在输入统计数据时适当地更新尺度信息20,因此尺度信息管理单元12b更新尺度信息20的操作可存在于图8中的Op1到Op5之间的任意位置。
如图10所示,尺度信息管理单元12b读出在使用频率存储单元18中存储的使用频率数据(Op11)。例如,尺度信息管理单元12b在更新存储在使用频率存储单元18中的使用频率数据时从使用频率存储单元18中读出使用频率数据。将统计数据从统计数据获取单元16输入到尺度信息管理单元12b(Op12)。然后,尺度信息管理单元12b使用所述使用频率数据和统计数据更新尺度信息20(Op13)。
下面参照图11描述提取标准信息管理单元12c改变提取标准信息24的操作。由于提取标准信息管理单元12c在从监测控制单元15输入第一更新信号或第二更新信号时适当地改变提取标准信息24,因此提取标准信息管理单元12c改变提取标准信息24的操作可存在于图8中的Op1到Op5之间的任意位置。
如图11所示,监测控制单元15监测作为监测目标的上述(a)到(d)(Op21)。如果监测控制单元15检测出属于上述从(a)到(d)至少一种状态(在Op22中为是),则其将第一更新信号输出到提取标准信息管理单元12c(Op23)。另外,监测控制单元15将读出信号输出到匹配单元13。另一方面,如果在Op22中监测控制单元15没有检测出属于上述从(a)到(d)的至少一种状态(在Op22中为否),则操作返回Op21,即监测控制单元15监测上述监测目标(a)到(d)。当输入第一更新信号时,提取标准信息管理单元12c改变提取标准信息(Op24)。
在将第一更新信号输出到提取标准信息管理单元12c之后,除了上述监测目标(a)到(d)之外,监测控制单元15还监测上述监测目标(e)到(h)。换句话说,监测控制单元15监测作为监测目标的上述(a)到(h)(Op25)。如果监测控制单元15检测出属于上述从(e)到(h)的至少一种状态(在Op26中为是),则其将第二更新信号输出到提取标准信息管理单元12c(Op27)。另一方面,如果在Op26中监测控制单元15没有检测出属于上述从(e)到(h)的至少一种状态(在Op26中为否),则操作返回Op25,即监测控制单元15监测上述监测目标(a)到(h)。当输入第二更新信号时,提取标准信息管理单元12c改变提取标准信息(Op28)。尽管图中未示出,如果在Op26中监测控制单元15检测出属于上述从(a)到(d)的至少一种状态,则操作返回Op23,即监测控制单元15再次将第一更新信号输出到提取标准信息管理单元12c。
如上所述,在本实施例的语音识别装置2中,随着在提取识别目标词时指示尺度信息20的标准的提取标准信息24的改变,识别目标词提取单元12a增加或减少从词汇词典存储单元11中存储的多个词中待提取的识别目标词的数量。因此,提取标准信息24根据例如从用户接受的处理状态而改变。识别目标词提取单元12a增加或减少从词汇词典存储单元11中存储的多个词中待提取的识别目标词的数量。在识别目标词提取单元12a增加识别目标词的数量时,匹配单元13根据数量增加的识别目标词执行匹配处理。因此,语音识别装置2中的识别目标词的数量增加,从而提高了讲话的自由度。在识别目标词提取单元12a减少识别目标词的数量时,匹配单元13根据数量减少的识别目标词执行匹配处理。因此,在语音识别装置2中的识别目标词的数量被限制,从而提高了识别率和识别速度。结果,能够实现在用户不需要进行麻烦操作的情况下提高识别性能的语音识别装置2。
尽管本实施例已描述了在统计数据获取单元请求时通信处理单元经由互联网从统计数据存储单元获取统计数据的实例,但是对此没有限制。换句话说,例如,统计数据存储单元可由诸如DVD、MD、CD、软盘或磁带的存储装置构成,统计数据获取单元可从这种存储装置直接或间接读出统计数据。简言之,统计数据获取单元可以为任意形式,只要其能够获取统计数据。
尽管本实施例已通过图2到7所示的实例的方式描述了尺度信息和提取标准信息的存储格式,但是对此没有特定限制。换句话说,可使用任意存储格式,只要词汇词典管理单元能够读出尺度信息和提取标准信息,并基于读出的尺度信息和提取标准信息提取识别目标词。
另外,尽管本实施例已经描述尺度信息管理单元更新尺度信息以及提取标准信息管理单元更新提取标准信息的实例,但是对此没有特定限制。换句话说,在对语音识别装置进行初始设置时,系统管理员可设置尺度信息和提取标准信息。另外,即使当语音识别装置正在运行时,系统管理员或用户也可以更新尺度信息以及改变提取标准信息。
实施例2实施例1已经描述从存储在词汇词典存储单元11中的多个词中提取识别目标词的实例。而以下实施例2将参照图12到15描述将存储在词汇词典存储单元11中的多个词划分为多个词汇组、以及从多个词汇组中的每个词汇组提取识别目标词的实例。另外,为与实施例1中所述的结构功能相似的结构分配与实施例1中相同的标号,并且将省略其详细描述。
如图12所示,在根据本实施例的信息发布系统30中的语音识别装置50还包括词汇组使用频率管理单元51、词汇组使用频率存储单元52和阈值存储单元53。
词汇组使用频率管理单元51将存储在词汇词典存储单元11中的多个词划分为多个词汇组。例如,将共享同一功能(角色)的词进行组合以形成词汇组。然后,词汇组使用频率管理单元51从使用频率管理单元17获取属于该词汇组的多个词的相应使用频率,并根据所获取的使用频率计算该词汇组的使用频率。尽管图中未示出,词汇组使用频率管理单元51还可直接参照在使用频率存储单元18中存储的使用频率数据,获取属于该词汇组的多个词的相应使用频率,并根据获取的使用频率计算该词汇组的使用频率。
词汇组使用频率存储单元52存储由词汇组使用频率管理单元51计算的词汇组的使用频率作为词汇组使用频率数据。以与所述多个词汇组中的每个词汇组相对应的方式存储该词汇组使用频率数据。
阈值存储单元53存储指示在提取识别目标词时词汇组使用频率数据的标准的阈值。词汇词典管理单元12参照所述阈值。随后将描述阈值存储单元53的具体实例。
现在,通过在诸如个人计算机的任意计算机中安装程序来实现词汇组使用频率管理单元51。应该注意,由计算机来实现词汇组使用频率管理单元51的功能的程序或记录此程序的记录介质也是本发明的实施例。另外,由计算机中的内置存储装置或可由该计算机访问的存储装置实施词汇组使用频率存储单元52和阈值存储单元53。应该注意,由于本实施例具有可连接到互联网N的结构,所以上述程序也可以从互联网N下载。
(词汇组使用频率存储单元和阈值存储单元的具体实例)以下参照图13说明语音识别装置50中包括的词汇组使用频率存储单元52和阈值存储单元53的具体实例。应该注意,在图13中所示的词汇词典存储单元11中存储的词汇的实例指示将语音识别装置50用于汽车导航系统的情况。
如图13所示,词汇组使用频率存储单元52存储词ID 21、词汇组25和词汇组使用频率数据26。通过将词汇词典存储单元11中存储的多个词划分成多个词汇组来获取词汇组25。更具体地,通过组合共享同一功能(角色)的词来形成词汇组25。词汇组使用频率数据26指示词汇组25的使用频率。
阈值存储单元53存储指示在提取识别目标词时词汇组使用频率数据26的标准的阈值27。更具体地,对于词汇组使用频率数据26等于或大于阈值27的词汇组25,识别目标词提取单元12a在不考虑尺度信息20的情况下提取属于此词汇组25的所有词作为识别目标词。另外,对于词汇组使用频率数据26小于阈值27的词汇组25,识别目标词提取单元12a基于尺度信息20从属于此词汇组25的词中提取识别目标词。更具体地,识别目标词提取单元12a从属于词汇组25的词中提取尺度信息20对应于“1”的词作为识别目标词。
除了识别目标词提取单元12a、尺度信息管理单元12b和提取标准信息管理单元12c之外,词汇词典管理单元12还包括阈值管理单元12d。阈值管理单元12d更新在阈值存储单元53中存储的阈值27。更具体地,当从监测控制单元15中输入第一更新信号时,阈值管理单元12d更新阈值27,以使其变得更小。例如,在不能获取识别结果的状态重复连续出现的情况下,监测控制单元15多次将第一更新信号输出到阈值管理单元12d。每次输入第一更新信号时,阈值管理单元12d逐渐减少阈值27。另外,当从监测控制单元15输入第二更新信号时,阈值管理单元12d更新阈值27以使其变得更大。
这里,在图13所示的实例中,由于对应于词ID“001”的词符号22“Returnhome”以及对应于词ID“002”的词符号22“Go home”具有相同的目的地操作功能,所以它们可组合成为词汇组25“Destination set”。相似地,将共享操作音频装置的同一功能的词组合成为“Audio set”,将共享操作搜索条件的同一功能的词组合成为“Search condition set”。另外,存储对应于词汇组25“Destination set”的词汇组使用频率数据26“0.85”。存储对应于词汇组25“Audio set”的词汇组使用频率数据26“0.50”。存储对应于词汇组25“Search condition set”的词汇组使用频率数据26“0.24”。然后,存储“0.80”作为阈值27。
因此,识别目标词提取单元12a提取大于阈值27“0.80”的词汇组使用频率数据26。这里,对应于词汇组25“Destination set”的词汇组使用频率数据“0.85”适合。因此,识别目标词提取单元12a在不考虑尺度信息20的情况下提取属于词汇组25“Destination set”的所有词作为识别目标词。另外,识别目标词提取单元12a提取小于阈值27“0.80”的词汇组使用频率数据26。这里,对应于词汇组25“Audio set”的词汇组使用频率数据“0.50”以及对应于词汇组25“Search condition set”的词汇组使用频率数据“0.24”适合。因此,识别目标词提取单元12a基于尺度信息20从属于词汇组25“Audio set”和“Search condition set”的词中提取识别目标词。更具体地,识别目标词提取单元12a从属于词汇组25的词提取其尺度信息20对应于“1”的词作为识别目标词。
(语音识别装置的示例性操作)将参照图14来详细描述按照上述结构的根据本发实施例的语音识别装置50的匹配处理的操作。换句话说,如图14所示,识别目标词提取单元12a读出(参照)在阈值存储单元53中存储的阈值27(Op411)。识别目标词提取单元12a根据提取标准信息24读出阈值27。在本实施例中,当提取标准信息24为“0”时,识别目标词提取单元12a读出阈值27。接下来,识别目标词提取单元12a读出在词汇组使用频率存储单元52中存储的词汇组使用频率数据26(Op412)。然后,如果词汇组使用频率数据26等于或大于阈值27(在Op413中为是),则识别目标词提取单元12a在不考虑尺度信息20的情况下提取属于词汇组25的所有词作为识别目标词(Op414)。另一方面,如果在Op413中词汇组使用频率数据26小于阈值27(在Op413中为否),则识别目标词提取单元12a基于尺度信息20从属于词汇组25的词中提取识别目标词(Op415)。然后,当对于所有词汇组25完成识别目标词的提取时(在Op416中为是),则匹配单元13使用计算出的特征值计算与Op414或415中提取的识别目标词的匹配度(Op417)。另一方面,当在Op416中没有完成所有词汇组25的识别目标词的提取时(在Op416中为否),操作返回Op412,即识别目标词提取单元12a读出接下来将从中提取识别目标词的词汇组的使用频率数据26。
现在参照图15描述阈值管理单元12d更新阈值27的操作。阈值管理单元12d在从监测控制单元15输入第一更新信号或第二更新信号时适当地更新阈值27。
如图15所示,监测控制单元15监测作为监测目标的上述(a)到(d)(Op31)。如果监测控制单元15检测出属于从上述(a)到(d)的至少一种状态(在Op32中为是),则将第一更新信号输出到阈值管理单元12d(Op33)。另一方面,如果监测控制单元15没有检测出属于从上述(a)到(d)的至少一种状态(在Op32中为否),则操作返回Op31,即监测控制单元15监测上述监测目标(a)到(d)。当输入第一更新信号时,阈值管理单元12d更新阈值27(Op34)。例如,阈值管理单元12d更新阈值27,以使其变得更小。
然后,在将第一更新信号输出到阈值管理单元12d之后,除了监测上述监测目标(a)到(d)之外,监测控制单元15还监测作为监测目标的上述(e)到(h)。换句话说,监测控制单元15监测作为监测目标的上述目标(a)到(h)(Op35)。如果监测控制单元15检测出属于从上述(e)到(h)的至少一种状态(在Op36中为是),则其将第二更新信号输出到阈值管理单元12d(Op37)。另一方面,如果监测控制单元15在Op36中没有检测出属于从上述(e)到(h)的至少一种状态(在Op36中为否),则操作返回Op35,即监测控制单元15监测上述监测目标(a)到(h)。当输入第二更新信号时,阈值管理单元12d更新阈值27(Op38)。例如,阈值管理单元12d更新阈值27,以使其变得更大。尽管附图没有示出,如果在Op36中监测控制单元15检测出属于从上述(a)到(d)的至少一种状态,则操作返回Op33,即监测控制单元15再次将第一更新信号输出到阈值管理单元12d。然后,阈值管理单元12d更新阈值27,以使其变得更小。
如上所述,在根据本实施例的语音识别装置50中,参照阈值27和词汇组使用频率数据26,识别目标词提取单元12a选择性地执行以下操作的其中之一对于其词汇组使用频率数据26大于阈值27的词汇组25,在不考虑尺度信息20的情况下提取属于该词汇组25的所有词作为识别目标词的操作;以及对于其词汇组使用频率数据26小于阈值27的词汇组25,基于尺度信息20从属于该词汇组25的词中提取识别目标词的操作。因此,对于其词汇组使用频率数据26大于阈值27的词汇组25,匹配单元13根据以属于该词汇组25的所有词作为识别目标的识别目标词执行匹配处理。因此,例如由于将属于具有高使用频率的词汇组25的所有词用作识别目标词,所以在语音识别装置50中关于这些词汇组25的识别目标词的数量增加,从而提高讲话自由度。另外,对于其词汇组使用频率数据26小于阈值27的词汇组25,匹配单元13基于尺度信息20根据从属于该词汇组25的词中提取的识别目标词执行匹配处理。因此,例如由于将属于具有低使用频率的词汇组25的词用作基于尺度信息20提取的识别目标词,所以在语音识别装置50中关于这些词汇组25的识别目标词的数量被限制,从而提高识别率和识别速度。结果,能够实现在用户不需要进行麻烦操作的情况下提高识别性能的语音识别装置50。
尽管本实施例已经示出阈值管理单元更新阈值的实例,但是对此没有特定限制。换句话说,在语音识别装置的初始化设置时,系统管理员可设置阈值。另外,即使当语音识别设备正在运行时,系统管理员或用户也可以更新阈值。
如上所述,本发明可用作在其中用户不需要进行麻烦操作就能够提高识别性能的语音识别装置和记录语音识别程序的记录介质。
在不脱离本发明的精神或实质性特点的情况下可以以各种形式来实现本发明。应该认为在本申请中公开的实施例在所有方面均是示例性的,而不是限制性的。本发明的范围应该由所附权利要求来指示,而不是由以上说明来指示,并且应该认为包括落在权利要求等同方案的含义和范围内的所有改变。
权利要求
1.一种语音识别装置,包括语音输入单元,其用于将接受的语音转换成数字语音数据;语音分析单元,其用于将所述数字语音数据转换成特征值;词汇词典存储单元,其用于预先存储多个词;词汇词典管理单元,其用于从所述词汇词典存储单元中存储的多个词中提取作为识别目标的识别目标词;匹配单元,其用于使用由所述语音分析单元转换的特征值,计算与由所述词汇词典管理单元提取的识别目标词的匹配度;和结果输出单元,其用于根据所述匹配单元计算的匹配度结果,输出具有最佳匹配分数的词作为识别结果;其中,所述语音识别装置还包括尺度信息存储单元,其用于预先存储尺度信息,所述尺度信息对于在所述词汇词典存储单元中存储的多个词中的每个词用作提取所述识别目标词的尺度,提取标准信息存储单元,其用于预先存储提取标准信息,所述提取标准信息指示在提取所述识别目标词时的尺度信息的标准,监测控制单元,其用于监测预定状态,和提取标准信息管理单元,其用于根据所述监测控制单元的监测结果改变所述提取标准信息存储单元中存储的提取标准信息,以及随着所述提取标准信息的改变,所述词汇词典管理单元增加或减少从所述词汇词典存储单元中存储的多个词中待提取的识别目标词的数量。
2.根据权利要求1所述的语音识别装置,其中,所述监测控制单元监测从用户接受的操作的处理状态、从用户接受的语音的处理状态以及从用于测量时间的测量单元传递的预定时间中的至少一个监测目标,所述词汇词典管理单元根据所改变的提取标准信息,增加或减少从所述词汇词典存储单元中存储的多个词中待提取的识别目标词的数量,和所述匹配单元使用由所述语音分析单元转换的特征值,计算与数量增加或减少了的所述识别目标词的匹配度。
3.根据权利要求2所述的语音识别装置,其中,所述监测控制单元监测以下(a)到(h)中的至少一个监测目标,当所述监测控制单元检测出以下(a)到(d)中的状态时,所述监测控制单元将第一更新信号发送到所述提取标准信息管理单元,并且所述提取标准信息管理单元基于所述第一更新信号改变所述提取标准信息存储单元中存储的提取标准信息,从而增加从所述词汇词典存储单元中存储的多个词中待提取的识别目标词的数量,和在将所述第一更新信号发送到所述提取标准信息管理单元之后,当所述监测控制单元检测出以下(e)到(h)中的状态时,所述监测控制单元将第二更新信号发送到所述提取标准信息管理单元,并且所述提取标准信息管理单元基于所述第二更新信号改变所述提取标准信息存储单元中存储的提取标准信息,从而减少从所述词汇词典存储单元中存储的多个词中待提取的识别目标词的数量,(a)在不能获取所述识别结果的情况下(b)在用户进行操作或进行讲话以修正或纠正紧接在该操作或讲话之前的操作或讲话的情况下(c)在用户无视需要对处理进行确认操作的事实,即使经过预定时段之后也不进行确认操作的情况下(d)在预定时段内不进行操作或不讲话的情况下(e)在所述匹配单元计算所述匹配度预定次数的情况下(f)在经过了预定时间的情况下(g)在需要对处理进行确认操作时,在预定时段之内用户进行确认操作的情况下(h)在用户不进行操作或不进行讲话以修正或纠正前一操作或讲话的情况下。
4.根据权利要求2所述的语音识别装置,其中所述词汇词典管理单元根据所述提取标准信息存储单元中存储的提取标准信息,选择性执行以下操作(1)和(2)中的一个(1)所述词汇词典管理单元基于所述尺度信息提取所述识别目标词(2)所述词汇词典管理单元在不考虑所述尺度信息的情况下提取在所述词汇词典存储单元中存储的所有词作为所述识别目标词。
5.根据权利要求1所述的语音识别装置,还包括使用频率管理单元,其用于监测在所述词汇词典存储单元中存储的多个词中每个词的使用次数,并计算所述多个词中每个词的使用频率,使用频率存储单元,其用于存储由所述使用频率管理单元计算的使用频率作为使用频率数据,其中所述使用频率数据与所述词汇词典存储单元中存储的多个词中的每个词相对应,和尺度信息管理单元,其用于至少使用所述使用频率存储单元中存储的使用频率数据,更新所述尺度信息存储单元中存储的尺度信息。
6.根据权利要求5所述的语音识别装置,还包括统计数据获取单元,其用于从存储统计数据的统计数据存储装置获取关于所述多个词的统计数据,其中,所述尺度信息管理单元使用在所述使用频率存储单元中存储的使用频率数据以及由所述统计数据获取单元获取的统计数据,更新在所述尺度信息存储单元中存储的尺度信息。
7.根据权利要求5所述的语音识别装置,还包括词汇组使用频率管理单元,其用于将所述词汇词典存储单元中存储的多个词划分为多个词汇组,并基于属于所述词汇词典存储单元中存储的词汇组的多个词中每个词的使用频率,计算每一词汇组的使用频率,词汇组使用频率存储单元,其用于存储由所述词汇组使用频率管理单元计算的词汇组的使用频率作为词汇组使用频率数据,其中所述词汇组使用频率数据与所述词汇组中的每一词汇组相对应,和阈值存储单元,其用于存储在提取所述识别目标词时指示所述词汇组使用频率数据的标准的阈值,其中,所述词汇词典管理单元根据在所述提取标准信息存储单元中存储的提取标准信息,参照所述阈值存储单元中存储的阈值以及所述词汇组使用频率存储单元中存储的词汇组使用频率数据,选择性执行以下操作(3)和(4)中的一个(3)对于其词汇组使用频率数据等于或大于所述阈值的词汇组,所述词汇词典管理单元在不考虑所述尺度信息的情况下提取属于该词汇组的所有词作为所述识别目标词(4)对于其词汇组使用频率数据小于所述阈值的词汇组,所述词汇词典管理单元基于所述尺度信息从属于该词汇组的词中提取所述识别目标词。
8.根据权利要求7所述的语音识别装置,其中,所述监测控制单元监测从用户接受的操作的处理状态、从用户接受的语音的处理状态以及从用于测量时间的测量单元传递的预定时间中的至少一个监测目标,所述语音识别装置还包括阈值管理单元,其用于根据所述监测控制单元的监测结果更新所述阈值存储单元中存储的阈值,和词汇词典管理单元,其根据更新后的阈值选择性执行所述操作(3)和(4)中的一个。
9.根据权利要求8所述的语音识别装置,其中,所述监测控制单元监测以下(a)到(h)中的至少一个监测目标,当所述监测控制单元检测出属于以下(a)到(d)中的状态时,所述监测控制单元将第一更新信号发送到所述阈值管理单元,并且所述阈值管理单元基于所述第一更新信号更新在所述阈值存储单元中存储的阈值,以使其变得更小,和在将所述第一更新信号发送到所述阈值管理单元之后,当所述监测控制单元检测出属于以下(e)到(h)中的状态时,所述监测控制单元将第二更新信号发送到所述阈值管理单元,并且所述阈值管理单元基于所述第二更新信号更新在所述阈值存储单元中存储的阈值,以使其变得更大,(a)在不能获取所述识别结果的情况下(b)在用户进行操作或进行讲话以修正或纠正紧接在该操作或讲话之前的操作或讲话的情况下(c)在用户无视需要对处理进行确认操作的事实,即使经过预定时段之后也不进行确认操作的情况下(d)在预定时段内不进行操作或不讲话的情况下(e)在所述匹配单元计算所述匹配度预定次数的情况下(f)在经过了预定时间的情况下(g)在需要对处理进行确认操作时,在预定时段之内用户进行确认操作的情况下(h)在用户不进行操作或不进行讲话以修正或纠正前一操作或讲话的情况下。
10.根据权利要求1所述的语音识别装置,还包括语音存储单元,其用于存储由所述语音输入单元转换的数字语音数据或者由所述语音分析单元转换的特征值,其中,所述匹配单元使用所述语音存储单元中存储的数字语音数据或特征值,计算与所述词汇词典管理单元提取的识别目标词的匹配度。
11.根据权利要求10所述的语音识别装置,其中,当所述匹配单元使用所述语音存储单元中存储的数字语音数据或特征值计算与所述词汇词典管理单元提取的识别目标词的匹配度时,所述词汇词典管理单元排除前一次作为识别目标词提取的词,从所述词汇词典存储单元中存储的多个词中提取识别目标词。
12.一种存储语音识别程序的记录介质,所述语音识别程序使得计算机执行以下操作将接受的语音转换成数字语音数据的语音输入操作;将所述数字语音数据转换成特征值的语音分析操作;从预先存储多个词的词汇词典存储单元中提取作为识别目标的识别目标词的词汇词典管理操作;使用在所述语音分析操作中转换的特征值计算与所述词汇词典管理操作中提取的识别目标词的匹配度的匹配操作;和根据所述匹配操作中计算的匹配度结果输出具有最佳匹配分数的词作为识别结果的结果输出操作;其中,所述词汇词典管理操作使得计算机执行以下操作参照尺度信息以及参照提取标准信息进行的操作,其中所述尺度信息用作提取预先存储在尺度信息存储单元中的识别目标词的尺度,以及所述提取标准信息指示在提取预先存储在提取标准信息存储单元中的识别目标词时的尺度信息的标准,和使得计算机执行以下操作监测预定状态的监测控制操作,和根据所述监测控制操作的监测结果改变在提取标准信息存储单元中存储的提取标准信息的提取标准信息管理操作,和随着所述提取标准信息的改变,所述词汇词典管理操作使得计算机执行增加或减少从所述词汇词典存储单元中存储的多个词中待提取的识别目标词的数量的操作。
全文摘要
本发明涉及一种语音识别装置及存储语音识别程序的记录介质。这种语音识别装置包括词汇词典存储单元,预先存储多个词;词汇词典管理单元,提取识别目标词;匹配单元,基于接受的语音计算与识别目标词的匹配度;结果输出单元,根据匹配度结果输出具有最佳匹配分数的词作为识别结果;和提取标准信息存储单元,根据监测控制单元的监测结果改变提取标准信息。词汇词典存储单元还包括尺度信息存储单元,存储尺度信息;和提取标准信息存储单元,存储指示在提取时识别目标词的标准的提取标准信息。随着提取标准信息的改变,词汇词典管理单元增加或减少识别目标词的数量。这使得在用户不需要进行麻烦操作的情况下能够提高识别性能。
文档编号G10L15/06GK101075434SQ20061013968
公开日2007年11月21日 申请日期2006年9月28日 优先权日2006年5月18日
发明者阿部贤司 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1