识别语音输入中的字符串的语音识别设备和方法

文档序号:2829645阅读:159来源:国知局
专利名称:识别语音输入中的字符串的语音识别设备和方法
技术领域
本发明涉及一种语音识别设备和一种语音识别方法,根据其可以识别语音输入中的字符串。
背景技术
传统上,开发了语音识别技术,以便通过在语音发声(speechutterance)和预先存储的用于语音分析的信息之间进行模式对照,来实现语音信息到文本信息的转换。现有的语音识别技术不能完全避免识别错误。为了克服这种不便,提出了多种技术,并且被广泛使用以便提高语音识别的精确度。
例如,一种传统技术使得能够高效地获取语音识别中的适当结果,这是通过执行下列步骤来实现的在多个识别候选中选择最可能的识别候选并将其呈现给用户,如果所选择的识别候选不正确则允许用户重新输入整个发声,以及从进一步的呈现中排除已拒绝的识别候选。但是,这种技术增加了用户的操作负担,因为它需要重新输入整个发声。
另一方面,日本专利申请公开(JP-A)No.2002-287792公开了一种技术,根据该技术,当所选择的识别候选错误时,用户仅仅重新输入未正确识别的部分。然后根据重新输入的发声修正识别候选,并且再次将修正的候选显示给用户。根据该技术,因为用户不需要重新对整个句子进行发声,因此可以减轻用户的负担并且增强了设备的可操作性。
在JP-A No.2002-287792中,假定所提供的信息具有层次结构,比如在地址或电话号码中一样。在修正识别候选时,确定重新输入的发声在层次中的等级,并根据所确定的等级进行修正。这里,仅仅可以选择错误识别的候选的等级的模式作为修正的目标。因此,可以实现更有效率的和高精度的识别处理。
此外,JP-A No.2003-316386提出了一种技术,使得用户能够重新输入仅仅对应于错误识别的部分的发声,并且对于重新输入,能够从识别候选中删除在先前的发声中选择的识别候选,从而避免选择以及向用户呈现同样的错误候选。
通常,在接收并识别短语和句子的语音识别系统中,错误的识别以两种方式出现,第一,仅错误地识别了一些单词;第二,出现成组错误(burst error),即,由于噪音等的影响而导致错误地识别了整个发声。如果错误识别的部分的数量较少并且错误是微小的,则有效的方式是仅修正相关的部分。另一方面,当需要修正的部分的数量较多时,即当发生成组错误时,有效的方式是修正整个发声。
但是,基本上传统技术仅实现了语音识别中的两类错误修正中的一种,即为了修正整个发声的句子而重新输入,或者为了修正部分发声而重新输入。因此,不能根据识别时的错误类型灵活地选择修正的方式。
同时,在JP-A No.2003-316386中公开的技术既可以应用于整体修正也可以应用于部分修正。但是,这种技术对于整体修正和部分修正中的每一个只允许一种修正方式,因此不能根据用户重新输入的方式(即,用户重新输入整体发声还是一部分发声)灵活地进行修正。

发明内容
根据本发明的一个方面,语音识别设备包括生成单元,用于接收语音发声并生成至少一个相应于该语音发声的识别候选和该识别候选的可能性;存储单元,用于存储至少一个识别候选及其相似度;选择单元,用于根据可能性选择至少一个识别候选中的一个作为第一个语音发声的识别结果;发声关系确定单元,用于在第一语音发声和第二语音发声连续输入时,至少确定输入第一语音发声之后所输入的第二语音发声是第一语音发声的整体的语音重新发声还是第一语音发声的一部分的语音重新发声;整体修正单元,用于在发声关系确定单元确定第二语音发声是第一语音发声的整体的语音重新发声时,根据第二语音发声修正第一语音发声的整体的识别候选并显示被修正的识别结果;部分修正单元,用于在发声关系确定单元确定第二语音发声是第一语音发声的一部分的语音重新发声时,根据第二语音发声修正第一语音发声的相应于第二语音发声的部分的识别候选,并显示被修正的识别结果。
根据本发明的另一个方面,语音识别方法包括接收语音发声;生成至少一个相应于该语音发声的识别候选和识别候选的相似度;根据相似度选择至少一个识别候选中的一个作为第一语音发声的识别结果;当第一语音发声和第二语音发声连续输入时,至少确定输入第一语音发声之后所输入的第二语音发声是第一语音发声的整体的语音重新发声还是第一语音发声的一部分的语音重新发声;在发声关系确定单元确定第二语音发声是第一语音发声的整体的语音重新发声时,根据第二语音发声修正第一语音发声的整体的识别候选以显示被修正的识别结果;在确定第二语音发声是第一语音发声的一部分的语音重新发声时,根据第二语音发声修正第一语音发声的相应于第二语音发声的部分的识别候选以显示被修正的识别结果。


图1是根据第一实施例的语音识别设备的结构的框图;图2A和2B显示了存储在存储单元中的识别候选的数据结构的例子;图3显示了由根据第一实施例的语音识别设备所处理的数据的例子;图4显示了存储在变化差别信息存储单元中的修正内容的数据结构的例子;图5显示了存储在优先级信息存储单元中的优先级信息的数据结构的例子;图6显示了存储在抑制信息存储单元中的抑制信息的数据结构的例子;图7是根据第一实施例的语音识别过程的整个流程的流程图;
图8是根据第一实施例的发声关系确定过程的整个流程的流程图;图9是根据第一实施例的整体修正过程的整个流程的流程图;图10是根据第一实施例的整体修正候选生成过程的整个流程的流程图;图11是根据第一实施例的部分修正过程的整个流程的流程图;图12A和12B显示了由语音识别过程所处理的数据的例子;图13A至13C显示了由语音识别过程所处理的数据的另一个例子;图14显示了在语音识别过程中显示的操作屏幕的例子;图15是根据第二实施例的语音识别设备的结构的框图;图16显示了存储在同义词辞典存储单元中的同义词辞典的数据结构的例子;图17是根据第二实施例的语音识别过程的整个流程的流程图;图18是根据第二实施例的发声关系确定过程的整个流程的流程图;以及图19A和19B显示了由语音识别过程所处理的数据的例子。
具体实施例方式
下面将参照附图详细描述根据本发明的语音识别设备和语音识别方法的优选实施例。
根据第一实施例的语音识别设备确定由用户重新输入的语音是用于整体修正的语音还是用于部分修正的语音,并根据所确定的结果改变修正方式。第一实施例的语音识别设备进一步从包含原始语音的识别候选和用于修正的重新输入的语音的识别候选的识别候选中选择一个最有可能的识别候选并将其输出。
图1是根据第一实施例的语音识别设备100的结构的框图。如图1所示,语音识别设备100包括麦克风111、显示器112、扬声器113、存储单元121、变化差别信息存储单元122、优先级信息存储单元123、以及抑制信息存储单元124,作为主要的硬件配置。
语音识别设备100包括输入接收单元101、生成单元102、发声关系确定单元103、修正单元104、选择单元105、以及输出控制单元106,作为主要的软件配置。
麦克风111是输入装置,用户通过其输入语音(即,发声)。显示器112是显示向用户呈现识别结果等的屏幕的显示单元。扬声器113输出作为对应于被确定为正确的识别候选的识别候选的语音的合成而获得的合成声音。当将第一实施例的语音识别设备应用于语音翻译系统时,扬声器113输出作为目标语言的语音的合成而获得的合成声音。
存储单元121用于存储由下文描述的生成单元102所生成,并作为语音识别的结果而提供的识别候选。图2A和2B显示了存储单元121中存储的识别候选的数据结构的例子。
如图2A和2B所示,存储单元121以网格形式存储语音识别的结果。图2A概要显示了相互对应的包含在输入语音中的音素和表示音素的输入位置的数值。只要该信息可以指明输入位置,那么输入位置可以由任何其他信息表示。
在网格形式中,表示识别结果的节点在时间序列中从左到右排列,并由弧线相互连接。将识别结果与存储在语音识别词典(未显示)中的语音分析模型进行比较,并用一个分数表示他们之间的相似度。将分数附加在网格中的弧线上。特别地,将节点的分数附加在进入节点的弧线上(下文中称为输入弧)。例如,在图2所示的例子中,将分数写在表示弧线202的箭头下面。简单地说,该分数表示识别候选的相似度。
节点是为每个预定的输入语音片段生成的,比如类似于单词的字符串、类似于重读短语(accent phrase)的音素串、音素、以及音节。例如,图2B中的节点201表示包含在从输入位置0到输入位置2的片段中所说的三个音素,即“WA”、“TA”、以及“SHI”的日语单词。符号“/”之后的部分表示该单词的词类。例如,节点201中的“/n”表示相关单词的词类是名词。
当有多个识别候选时,相应地生成多个节点。选择并输出多个节点中的对应于分数最高的节点的识别候选,作为最可能的候选。
存储单元121不仅存储最近发声的识别结果,还存储过去发声的识别结果,以便下文所述的发声关系确定单元103能够参照存储单元121来确定最近的发声和过去的发声之间的关系。
此外,存储单元121与识别结果相关联地存储标识信息,以指示识别结果对应的发声的时间。这种标识信息至少指明相应的声音是属于第一发声、当前发声、前一个发声、还是最近的整个发声。
这里,第一发声是当语音识别设备100准备好接收新的发声时的发声输入。当前发声是语音识别设备100接收的最近发声。前一个发声是刚好在当前发声之前输入的发声。最近的整体发声是除了当前发声之外的所有整体发声中的最近发声,其被输入以修正第一发声。
此外,存储单元121存储信息,以指示一个发声是新的发声、整体修正的发声、还是部分修正的发声。在这种情况下,新的发声是新输入的发声,整体修正的发声是前一个发声的整体的重新发声,部分修正的发声是前一个发声的一部分的重新发声。发声的类型,即发声是新的发声、整体修正的发声、还是部分修正的发声,由下文描述的发声关系确定单元103确定并存储在存储单元121中。
图3显示了由根据第一实施例的语音识别设备所处理的数据的例子。例如,图3中的日语句子301表示所选择的、在图2B所示的网格中具有最高分数的识别候选。此外,图3中的日语单词302到305表示发音都为“KO-U-E-N”的四个日语单词。
变化差别信息存储单元122用于存储当修正单元104修正识别候选时所获取的修正内容。图4显示了存储在变化差别信息存储单元122中的修正内容的数据结构的例子。
如图4所示,变化差别信息存储单元122将修正前位置、修正前内容、修正后位置、修正后内容相互关联地存储。
修正前位置是表示一个发声的被修正部分在修正之前的输入位置的信息。修正前内容是表示被修正部分在修正之前的内容的信息。修正后位置是表示一个发声的被修正的部分在修正之后的输入位置的信息。修正后内容是表示被修正部分在修正之后的内容的信息。
在图4所示的例子中,修正内容指示将一个过去的发声中的输入位置为0的日语单词401修正为在用于修正的重新输入的发声中的输入位置0的日语单词402。
当修正单元104参照过去的修正内容更新识别候选的分数时,将访问变化差别信息存储单元122。
优先级信息存储单元123用于存储优先级信息,该优先级信息是关于由修正单元104参照过去的修正内容确定为优先的识别候选的信息。图5显示了存储在优先级信息存储单元123中的优先级信息的数据结构的例子。
如图5所示,优先级信息存储单元123相互关联地存储表示在过去的发声中的优先化部分的输入位置的位置以及优先化部分的内容。
例如,当顺序地修正某个部分和另一个部分时,将首先被修正的部分的修正内容存储在优先级信息存储单元123中。因为不重新修正首先被修正的部分,所以可以确定首先修正的部分的内容被正确地识别。那么,应当在识别候选的选择中将首先修正之后的内容列入优先。
抑制信息存储单元124用于存储抑制信息,该抑制信息是关于由修正单元104参照过去的修正内容确定不将其优先化的识别候选的信息。图6显示了存储在抑制信息存储单元124中的抑制信息的数据结构的例子。
如图6所示,抑制信息存储单元124相互关联地存储表示在过去的发声中的将被抑制的部分的输入位置的位置以及将被抑制的部分的内容。
例如,当某个部分被修正并且随后再次修正同一个部分时,将首次修正之后的修正内容存储在抑制信息存储单元124中。因为该部分在首次修正之后再次被修正,所以可以确定首次修正的内容是错误的。那么,应当在识别候选的选择中禁止首次修正后的内容。
可以由任何常用的存储装置(例如硬盘驱动器(HDD)、光盘、存储卡、以及随机访问存储器(RAM))构成存储单元121、变化差别信息存储单元122、优先级信息存储单元123、以及抑制信息存储单元124。
输入接收单元101用于接收用户通过麦克风111输入的语音,并将所接收的语音转换为可以由生成单元102处理的电子信号以便输出该电子信号。更具体地,输入接收单元101接收语音、将语音转换为电子信号、执行模拟-数字(A/D)转换、以及以脉冲编码调制(PCM)等格式输出通过该转换所获得的数字数据。可以用与传统上使用的音频信号的数字化处理同样的方式来实现这些处理。
将输出数字数据存储在存储单元(未显示)中,并且在稍后描述的生成单元102执行语音识别处理时参考其。
当语音识别设备100具有除麦克风11以外的、诸如操作按钮或者键盘这样的输入单元(未显示)时,输入接收单元101通过(例如)按下按钮来接收从这些输入单元提供的信息。
生成单元102接收从输入接收单元101提供的数字数据、执行语音识别处理、以及生成通过语音识别处理而得到的识别候选。
更具体地,生成单元102利用FFT(快速傅立叶变换)执行频率分析等等,以便按时间顺序连续地输出对语音输入的每个预定片段进行语音识别所需的特征信息(例如,频谱)。预定片段是诸如单词的字符串、诸如口语短语的音素串、音素、或音节的单元。可以通过传统的语音分析处理技术来实现该处理。
此外,生成单元102比较特征信息和存储在语音识别词典(未显示)中的语音分析模型,以计算表示它们之间的相似程度的分数,并以上述网格形式输出识别候选。对于该比较处理,可以应用任何常用的方法,例如隐性马尔可夫模型(HMM)、动态规划(DP)、或者神经网络(NN)。
发声关系确定单元103用于确定用户输入的当前发声是前一个发声的整体的重新发声还是前一个发声的一部分的重新发声。
更具体地,发声关系确定单元103将两个发声的多段语音信息进行比较以便检测相似部分,其中,多段语音信息之间的相似程度高于预定阈值。当相似部分与前一个发声的整体匹配时,发声关系确定单元103确定当前发声是整体修正的发声。
即使当用户试图给出与前一个发声具有相同内容的当前发声时,用户也可能会给出带有不同终止的发声。那么,两个发声之间的相似部分可能不会完全相同。因此,不仅在相似部分与整个语音完全匹配的情况下,而且在相似部分与整个语音的部分匹配的百分比大于或等于预定比率(例如85%)的情况下,将当前发声确定为整体修正的发声。
当相似部分与前一个发声的一部分匹配时,以及当相似部分与当前发声的整体匹配时,发声关系确定单元103确定当前发声是部分修正的发声。当前发声不是整体修正的发声或者部分修正的发声时,发声关系确定单元103确定当前发声是新的发声。
例如,假设前一个发声是意思为“我应该去哪看电影?”,并且发音为“E-I-GA-WO-MI-TA-I-NO-DE-SU-GA-DO-KO-E-I-KE-BA-YO-I-DE-SU-KA”的日语句子,以及当前发声是意思为“电影”并且发音为“E-I-GA”的日语单词。在这个例子中,一个对应于“E-I-GA”的节点出现在作为前一个发声的识别信息的网格中,并且一个对应于“E-I-GA”的节点出现在当前发声的网格中。然后,相关节点被识别为相似部分,并且将当前发声确定为前一个发声的部分修正的发声。此外,假设当前发声是“EI-GA-WO-MI-TA-I-NO-DE-SU-GA-DO-KO-E-I-KE-BA-YO-I-DE-SU”。在这种情况下,当前发声与前一个发声的不同在于句子结尾的音素“KA”的部分。但是,因为匹配部分的比率较高,因此将当前发声确定为整体修的正发声。
发声关系确定单元103还能够确定语音识别设备100的运行状态。例如,当语音识别设备100启动时或者当输入接收单元101接收来自用户的指令时,发声关系确定单元103确定语音识别设备100处于接收新的发声的输入的初始状态。
当语音识别设备100处于初始状态时,未在存储单元121中存储第一个发声、当前发声、前一个发声、以及最近的整体发声。语音识别设备100在初始状态期间第一次接收的发声是第一个发声。当语音识别设备100接收到第一个发声时,发声关系确定单元103确定语音识别设备100转变为修正等待状态。
当语音识别设备100在修正等待状态中通过声音接收到一个发声时,那么如上所述,发声关系确定单元103执行一个处理以便根据当前发声和前一个发声之间的关系确定当前发声是新的发声、整体修正的发声、还是部分修正的发声。如果发声关系确定单元103确定当前发声是新的发声,那么以与当在初始状态中输入发声时同样的方式执行处理。在这种情况下,发声关系确定单元103将此前所有的存储在存储单元121中的第一个发声、当前发声、前一个发声、以及最近的整体发声删除,并重新存储新的发声。
当发声关系确定单元103确定当前发声是整体修正的发声或者是部分修正的发声时,修正单元104执行修正处理,以修正识别候选并输出修正后的识别候选。修正单元104包括整体修正单元104a和部分修正单元104b。
当发声关系确定单元103确定当前发声是整体修正的发声时,整体修正单元104a参照当前发声的识别候选修正最近的整体发声的识别候选,并将修正后的识别候选输出到存储单元121。
当发声关系确定单元103确定当前发声是部分修正的发声时,部分修正单元104b参照当前发声的识别候选修正对应于最近的整体发声中的应被修正的部分的识别候选,并将修正后的识别候选输出到存储单元121。
选择单元105用于从存储在存储单元121中的识别候选中选择在网格中具有最大分数的识别候选。可以应用任何常用的方法作为选择方法,例如Viterbi算法。
输出控制单元106用于将由选择单元105所选择的识别候选输出到显示器112。当用户指示输出到显示器112的识别候选是正确的识别结果时,输出控制单元106输出合成的声音到扬声器113,该声音是表示对应于识别候选的句子的语音的合成。
对于语音合成处理,可以应用任何常用的方法,例如使用基于音素片段的连接合成、共振峰合成等的文本到语音系统。
如果本实施例的语音识别设备被构造为语音翻译系统,那么输出控制单元106可以将对应于识别候选的源语言句子翻译为目标语言句子,并且可以将对应于被翻译的目标语言句子的合成声音输出到扬声器113。
下面将描述由如上所述构造的根据第一实施例的语音识别设备100所执行的语音识别处理。图7是根据第一实施例的语音识别处理的整体流程的流程图。
输入接收单元101接收由用户通过麦克风111输入的语音(步骤S601)。生成单元102对所接收的语音输入执行语音识别并生成识别候选,以输出到存储单元121(步骤S602)。
更具体地,生成单元102通过诸如FFT的方法对语音输入执行频率分析以输出特征信息。生成单元102比较特征信息和语音分析模型以计算表示相似度的分数并以网格形式输出识别候选。
发声关系确定单元103通过将前一个发声和当前发声进行比较以执行发声关系确定处理,从而确定前一个发声和当前发声的关系(步骤S603)。发声关系确定处理的细节将在后面描述。
发声关系确定处理之后,发声关系确定单元103确定当前发声是否为新的发声(步骤S604)。当确定当前发声不是新的发声时(步骤S604否),发声关系确定单元103确定当前发声是否为整体修正的发声(步骤S605)。
当确定当前发声是整体修正的发声时(步骤S605是),整体修正单元104a执行整体修正处理(步骤S607)。当确定当前发声不是整体修正的发声时(步骤S605否),也就是说,当当前发声是部分修正的发声时,部分修正单元104b执行部分修正处理(步骤S606)。整体修正处理以及部分修正处理的细节将在后面描述。
当在步骤S604中确定当前发声是新的发声时(步骤S604是),在整体修正处理(步骤S607)执行之后或者在部分修正处理(步骤S606)执行之后,选择单元105从存储在存储单元121中的识别候选中为当前发声选择具有最高分数的候选(步骤S608)。
例如,如果识别候选由如图2所示的网格表示,从出现三个候选的输入位置2到7的片段的节点中选择具有最高分数(即5)的最上层的节点。类似地,从出现三个候选的输入位置9到10的片段的节点中选择具有最高分数(即6)的最上层的节点。因此,选择单元105选择图3所示的连接了所选择的节点的日语句子301,作为识别候选。
输出控制单元106将由选择单元105所选择的识别候选作为识别结果输出到显示器112(步骤609),从而结束语音识别处理。
下面将描述步骤S603所示的发声关系确定处理的细节。图8是第一实施例中的发声关系确定处理的整体流程的流程图。
在发声关系确定处理中,根据前一个发声和当前发声中的相似部分和不匹配部分之间的关系确定当前发声是新的发声、整体修正的发声、还是部分修正的发声。
发声关系确定单元103将前一个发声和当前发声互相比较以计算相似部分和不匹配部分(步骤S701)。
例如,在JP-A No.2003-316386中描述的方法可以用于相似部分的计算。更具体地,可以基于将输入语音转换为音频信号而获得的数字数据、从数字数据中提取的特征信息、以及对每个识别候选的特征信息执行动态规划(DP)处理所计算的相似度等等,来确定相似部分。
如果两个输入语音中的预定片段的识别候选包括共同的音素串或者字符串,并且这种共同部分的比率大于等于预定的阈值,那么可以将预定的片段确定为相似部分。如果公共音素串或者字符串的比率高于预定阈值的片段在预定时段内连续出现,则可以将对应于该连续时段的片段确定为相似部分。没有确定为相似部分的片段是不匹配部分。
发声关系确定单元103确定前一个发声的一部分是否与当前发声的整体相似(步骤S702)。如果前一个发声的一部分与当前发声的整体相似(步骤S702是),则发声关系确定单元103确定当前发声是部分修正的发声(步骤S703)。
如果前一个发声的一部分不与当前发声的整体相似(步骤S702否),则发声关系确定单元103确定不匹配部分的比率是否高于预定的阈值(步骤S704)。例如,指定阈值为15%。
如果不匹配部分的比率高于预定的阈值(步骤S704是),则发声关系确定单元103确定当前发声是新的发声(步骤S706)。如果不匹配部分的比率不高于预定的阈值(步骤S704否),则发声关系确定单元103确定当前发声是整体修正的发声(步骤S705)。
在这种方式下,当不存在不匹配的部分时,确定当前发声是整体修正的发声。另外,当所包含的不匹配部分的比率小于等于例如15%时,确定当前发声是整体修正的发声。因此,即使当句子的结尾改变时,也可以确定当前发声是整体修正的发声。所以,考虑了用户的使用模式,因此能够实现方便的语音识别设备。
步骤S607所示的整体修正处理的细节将在下面描述。图9是显示第一实施例的整体修正处理的全部流程的流程图。
首先,整体修正单元104a确定前一个发声是否为整体修正的发声(步骤S801)。整体修正单元104a参照存储在存储单元121中的信息确定前一个发声是否为整体修正的发声。
当确定前一个发声是整体修正的发声时(步骤S801是),从变化差别信息存储单元122中获取为前一个发声所执行的整体修正处理中的变化差别信息的修正后内容,并将其存储在抑制信息存储单元124中(步骤S802)。
尽管关于前一个发声执行了整体修正处理,但是关于当前发声再次执行整体修正处理。因此,可以将在对前一个发声执行的整体修正处理中的修正确定为错误的。所以,从前一个发声的变化差别信息中获取修正后内容并存储在抑制信息存储单元124中,以减少对应于修正后内容的识别候选的分数。
当前一个发声是新的发声时,可以将为前一个发声选择的所有识别候选存储在抑制信息存储单元124中。类似地,当前一个发声是整体修正的发声时,不仅变化差别信息而且所有识别候选都可以被存储在抑制信息存储单元124中。因为为前一个发声选择的大多数识别候选是错误的,所以该发声可以被整体修正。
如果在步骤S801确定前一个发声不是整体修正的发声(步骤S801否),则整体修正单元104a确定前一个发声是否为部分修正的发声(步骤S803)。整体修正单元104a参照存储在存储单元121中的信息确定前一个发声是否为部分修正的发声。
当确定前一个发声是部分修正的发声时(步骤S803是),从变化差别信息存储单元122中获取关于前一个发声所执行的部分修正处理中的变化差别信息的修正后内容,并将其存储在抑制信息存储单元124中(步骤S804)。
尽管在前一个发声中执行了部分修正处理,但是对当前发声再次执行部分修正处理。因此,可以将前一个发声中的部分修正处理中的修正确定为错误的。所以,从当前发声的变化差别信息中获取修正后内容并存储在抑制信息存储单元124中,以减少对应于修正后内容的识别候选的分数。
如果在步骤S803中确定前一个发声不是部分修正的发声(步骤S803否),则整体修正单元104a参照前一个发声的识别候选执行用于修正当前发声的识别候选的整体修正候选生成处理(步骤S805)。整体修正候选生成处理的细节将在后面描述。
执行整体修正候选生成处理之后,整体修正单元104a将修正部分的信息存储在变化差别信息存储单元122中(步骤S806),从而终止整体修正处理。
将在下面描述步骤S805所述的整体修正候选生成处理的细节。图10是第一实施例中的整体修正候选生成处理的全部流程的流程图。
首先,整体修正单元104a从存储单元121获取最近的完整发声,以获取最近的完整发声的网格中的未处理的结点(以下称为X)(步骤S901)。整体修正单元104a确定与结点X相同的结点(以下称为Y)是否存在于整体修正的发声的网格中(步骤S902)。
当与结点X相同的结点Y存在时(步骤S902是),整体修正单元104a将结点X的输入弧的分数添加到结点Y的输入弧(步骤S904)。
在这种方式下,不仅增加了为整体修正的发声(当前发声)计算的识别候选的分数,而且增加了为最近的完整发声计算的识别候选的分数,从而使得在考虑这两个分数的情况下进行确定,因而可以选择更恰当的识别候选。
当与结点X相同的结点Y不存在时(步骤S902否),整体修正单元104a将结点X及其输入弧添加到整体修正的发声的网格(步骤S903)。
在这种方式下,不仅增加了为作为当前发声的整体修正的发声计算的识别候选,而且增加了为最近的完整发声计算的识别候选,以使得在考虑这两者的情况下进行确定,因而可以选择更恰当的识别候选。
整体修正单元104a参照优先级信息存储单元123和抑制信息存储单元124,在网格的分数上反映优先级信息和抑制信息(步骤S905)。例如,当某个片段包括多个识别候选并且其中的一个识别候选是具有与存储为优先级信息的内容相同的内容的结点时,将相关结点的分数更新为通过在该片段中的最高分数上加1所获得的值。此外,例如,当某个片段包括多个识别候选并且其中的一个识别候选是具有与存储为抑制信息的内容相同的内容的结点时,将相关结点的分数更新为通过从该片段中的最低分数减1而获得的值。
在网格的分数上反映优先级信息和抑制信息的方式不局限于以上所述的。可以应用任何增加对应于优先级信息的识别候选的分数和减少对应于抑制信息的识别候选的分数的方法。
整体修正单元104a确定是否已处理过最近的完整发声的网格中的所有结点(步骤S906)。如果不是所有结点都处理过(步骤S906否),则获取下一个未处理的结点以重复该处理(步骤S901)。如果所有结点都处理过(步骤S906是),则结束整体修正候选生成处理。
步骤S606所示的部分修正处理的细节将在下面描述。图11是显示第一实施例的部分修正处理的整体流程的流程图。
部分修正单元104b参照存储单元121确定前一个发声是新的发声还是整体修正的发声(步骤S1001)。
如果前一个发声被确定为是新的发声和整体修正的发声中之一(步骤S1001是),部分修正单元104b在抑制信息存储单元124中存储前一个发声的所选择的识别候选的对应于部分修正的发声(当前发声)的部分(步骤S1007)。
这是因为,由于为前一个发声选择的识别候选是错误的,因此可以确定用户执行部分修正处理。所以,获取前一个发声的识别候选的相应部分,并存储在抑制信息存储单元124中以减小所获取的识别候选的分数。
当前一个发声不是新的发声或者整体修正的发声时(步骤S1001否),即,当前一个发声是部分修正的发声时,部分修正单元104b确定前一个发声的输入位置和当前发声的输入位置是否相同(步骤S1002)。
如果前一个发声的输入位置与当前发声的输入位置不同(步骤S1002否),则部分修正单元104b将前一个部分修正处理中的变化差别信息的修正后内容存储在优先级信息存储单元123中(步骤S1003)。然后部分修正单元104b将前一个部分修正处理中的变化差别信息的修正前内容存储在抑制信息存储单元124中(步骤S1004)。
这是因为,由于在当前发声中,相对于不同于根据前一个发声对其执行了部分修正处理的部分执行了部分修正处理,所以可以确定适当地执行了前一个发声的部分修正处理中的修正。所以,修正后内容是从前一个发声的变化差别信息中获取的,并被存储在优先级信息存储单元123中以增加对应于修正后内容的识别候选的分数。从前一个发声的变化差别信息中获取修正前内容,并存储在抑制信息存储单元124中,以减少对应于修正前内容的识别候选的分数。
此外,部分修正单元104b将从最近的完整发声的识别候选中选择的对应于部分修正的发声(当前发声)的部分中的识别候选存储在抑制信息存储单元124中(步骤S1005)。
这是因为,能够确定,尽管根据部分修正的发声(前一个发声)的部分修正处理被适当地执行,但是为最近的完整发声选择的另一个部分中的识别候选是错误的。因此可以确定,用户对另一个部分执行部分修正处理。所以,获取最近的完整发声的部分的识别候选,并存储在抑制信息存储单元124中,以减小所获取的识别候选的分数。
如果前一个发声的输入位置与当前发声的输入位置相同(步骤S1002是),则部分修正单元104b将前一个部分修正处理中的变化差别信息的修正后内容存储在抑制信息存储单元124中(步骤S1006)。
这是因为,由于通过当前发声对与由前一个发声执行了部分修正处理的部分相同的部分执行了部分修正处理,所以可以确定前一个发声的部分修正处理中的修正是错误的。因此,从前一个发声的变化差别信息中获取修正后内容,并存储在抑制信息存储单元124中以减小对应于修正后内容的识别候选的分数。
执行步骤S1005、步骤S1006、或者步骤S1007之后,部分修正单元104b将最近的完整发声的网格中的相应部分替换为部分修正的发声(当前发声)的识别候选(步骤S1008)。
最近的完整发声的网格的相应部份的结点与表示部分修正的发声的识别候选的结点可以相互结合。在这种情况下,公共的识别候选的结点的分数被添加。在这种方式下,除了当前发声的分数之外,还可以考虑为最近的完整发声所计算的分数,以使得能够在考虑到两者的情况下进行确定,从而可以选择更恰当的识别候选。
部分修正单元104b参照优先级信息存储单元123和抑制信息存储单元124,在网格的分数上反映优先级信息和抑制信息(步骤S1009)。
部分修正单元104b将修正部分的信息存储在变化差别信息存储单元122中(步骤S1010),并终止部分修正处理。
下面将要描述根据如上所述的过程执行的语音识别处理的具体例子。图12A和12B显示了由语音识别处理所处理的数据的例子。
首先,假定意思为“我想去公园”并且发音为“WA-TA-SHI-WA-KO-U-EN-NI-I-KI-TA-I”的日语句子被输入作为新的发声(步骤S601),并且生成单元102将如图12A所示的网格输出作为识别候选(步骤S602)。
图12A显示了一个例子,其中,在输入位置2到7的片段中的结点处存在三个识别候选,并且在输入位置9和10的片段中的结点处存在三个识别候选。结点的分数分别是5、3和1,以及6、2和2。
其后,选择单元105选择具有最高分数的结点,并选择图3中的连接了所选择的结点的日语句子301作为识别候选(步骤S608)。所选择的识别候选由输出控制单元106显示在显示器112上(步骤S609)。
因为所显示的识别候选是错误的,所以用户再次输入意思为“公园”并且发音为“KO-U-EN”的日语单词(步骤S601)。
假定,响应于该输入,生成单元102输出图3所示的四个日语单词302、303、304、以及305(步骤S602),作为发音为“KO-U-EN”的输入发声的识别候选。四个识别候选的分数分别是7、7、5以及1。
发声关系确定单元103确定重新输入的发声是部分修正的发声(步骤S603),并且由部分修正单元104b执行部分修正处理(步骤S606)。
在部分修正处理中,因为前一个发声是新的发声(步骤S1001是),所以将根据前一个发声选择的具有分数5并且对应于单词302的识别候选存储在抑制信息存储单元124中(步骤S1007)。
将最近的完整发声的网格的对应部分替换为部分修正的发声的识别候选(步骤S1008),并且反映存储在抑制信息存储单元124中的抑制信息的内容(步骤S1009)。在这种情况下,因为对应于单词302的识别候选被存储为抑制信息,所以将对应于该识别候选的结点的分数设置为0,该值是通过从四个识别候选中的最低分数1减去1而获得的值。
图12B中的网格显示这时的状态。因此,选择单元105选择具有最高分数的结点,并选择图3中的连接了所选择的结点的日语单词306作为识别候选(步骤S608)。
类似地,用户再次输入意思为“想去”并且发音为“I-KI-TA-I”的日语单词(步骤S601)。在这种情况下,因为前一个发声是部分修正的发声(步骤S1001否),所以确定输入位置是否彼此相等(步骤S1002)。
在该例子中,因为输入位置彼此不同(步骤S1002否),所以参照前一个部分修正处理中的变化差别信息,将内容为位置2和单词303的优先级信息存储在优先级信息存储单元123中(步骤S1003)。在这种方式下,在后续处理中,可以增加单词303的分数。
将内容为位置2和单词302的抑制信息存储在抑制信息存储单元124中(步骤S1004)。在这种方式下,在后续处理中,可以减小单词302的分数。
此外,为了禁止对应于最近的完整发声中的重新输入部分的识别候选,将内容为位置9和单词307的抑制信息存储在抑制信息存储单元124中(步骤S1005)。在这种方式下,在后续处理中,可以降低单词307的分数。
因此,选择单元105选择具有最高分数的结点,并选择连接了所选择的结点的日语句子308作为识别候选(步骤S608)。当用户确定所选择的识别候选是正确的识别候选时,例如,当用户点击OK按钮时,语音识别处理结束。
语音识别处理的另一个具体例子将在下面描述。图13A到13C显示了由语音识别处理所处理的数据的另一个例子。图12A和12B显示了由部分修正处理所处理的数据的例子。另一方面,图13A到13C显示了由整体修正处理所处理的例子。
首先,假定意思为“我应该去哪看电影?”并且发音为“EI-GA-WO-MI-TA-I-NO-DE-SU-GA-DO-KO-E-I-KE-BA-YO-I-DE-SU-KA”的日语句子被输入作为新的发声(步骤S601)。此外,假定生成单元102输出图13A所示的网格作为识别候选(步骤S602)。在图13A中,未显示输入位置8到15的片段中的结点。
然后,该选择单元105选择具有最高分数的结点并且选择连接了所选择的结点的日语单词309(步骤S608)。所选择的识别候选由输出控制单元106显示在显示器112上(步骤S609)。
假定显示的识别候选是错误的,并且用户再次输入了发音为“EI-GA-WO-MI-TA-I-NO-DE-SU-GA-DO-KO-E-I-KE-BA-YO-I-I-KA”的句子(步骤S601)。此外,假定生成单元102输出图13B所示的网格(步骤S602)。
发声关系确定单元103将前一个发声和作为当前发声的整体修正的发声进行比较,以计算相似部分(步骤S701)。图13A所示的网格与图13B所示的网格的不同仅仅在于句子结尾的表达上的不同。因此,输入位置0到18的片段是相似部分。
不匹配部分的比率大约为14%(=(22-19)×100/22)。当阈值设置为15%时,不匹配部分的比率低于该阈值。因此,发声关系确定单元103确定重新输入的发声是整体修正的发声(步骤S704否、步骤S705)。所以,由整体修正单元104a执行整体修正处理(步骤S607)。
在整体修正处理中,输出通过结合新的发声(前一个发声)的网格(图13A)和整体修正的发声的网格(图13B)而获取的网格(图13C)(步骤S805)。
例如,对于相应于图13A中的输入位置4到6的片段的结点1201,具有相同的内容的结点1202存在于图13B中(步骤S902是)。然后将结点1201的分数10以及结点1202的分数10相加以提供值20作为图13C的结点1203的分数(步骤S904)。
例如,对应于在图13A中的输入位置0到3的片段中的结点1204的结点不存在于图13B中(步骤S902否)。因此,将这样的结点添加到图13B中的网格,以便输出具有结点1205的图13C的网格(步骤S903)。
通过使用如上所述结合的图13C的网格作为目标,选择单元105选择具有最高分数的结点,并选择连接所选择的结点的日语句子310作为识别候选(步骤S608)。
下面将通过例子描述在语音识别处理中呈现给用户的屏幕。图14显示了语音识别处理中所显示的操作屏幕的例子。
图14的中间部分显示了操作屏幕上的显示及其转换的例子。图14的左边部分显示了由用户执行的操作的例子。图14的右边部分指示语音识别设备100的操作状态的例子。
屏幕1301是语音识别处理中的初始屏幕,包括屏幕上方的固定结果显示区域1302以及屏幕下方的识别结果显示区域1303。通过输出控制单元106将语音识别的结果显示在识别结果显示区域1303。这时操作状态1304是初始状态。
假定用户输入了意思为“我应该去哪看电影?”的日语句子。在初始状态,用户输入意思为“我想去看电影”并且发音为“E-I-GA-WO-MI-TA-I-NO-DE-SU-GA”的日语语音1305。
响应于该输入,在屏幕上的识别结果显示区域1303中显示日语句子1306作为识别结果。这时,操作状态转换为修正等待状态,用户可以输入修正的发声或者下一个新的发声。
除了单词311应该是单词312之外,识别结果是正确的识别结果。因此,用户输入相应于单词312的语音1307(“E-I-GA”)。在这种情况下,发声关系确定单元103确定该发声是部分修正的发声,并且部分修正单元104b执行部分修正处理。
当部分修正处理正确地执行时,日语句子1308作为正确的识别结果显示在识别结果显示区域1303。
随后,用户输入意思为“我应该去哪?”并且发音为“DO-KO-E-I-KE-BA-YO-I-DE-SHO-U-KA”的日语语音1309。
发声关系确定单元103将该发声与前一个发声进行比较从而确定该发声是新的发声,固定前一个发声的识别结果,并且在固定结果显示区域1302显示识别结果。发声关系确定单元103执行输入语音的语音识别以显示日语句子1310作为识别结果。
在这种情况下,因为日语句子1310中的错误是成组错误,因此用户再次输入与语音1309相同的日语语音1311。在这种情况下,发声关系确定单元103确定该发声是整体修正的发声。然后,整体修正单元104执行整体修正处理。
当正确地执行整体修正处理时,日语句子1312作为正确的识别结果显示在识别结果显示区域1303。
因为整体语音输入被正确地识别,用户按下OK按钮。然后,输出控制单元106重新显示屏幕1313,在该屏幕上,显示在识别结果显示器区域1303中的识别结果被移到固定结果显示器区域1302中。
在这种方式下,用户可以检查该语音识别的结果,并通过输入语音适当地选择部分修正处理或者整体修正处理。更具体地,可以根据容易理解的标准执行重新输入,即,当有少量错误时执行部分重新输入,以及当有较多错误时执行整体重新输入。另外,因为操作等不需要从部分修正处理切换到整体修正处理,反之亦然,因此可以平稳地执行修正处理的操作。
此外,除了在确认识别结果时按OK键以外,用户还可以仅仅通过语音来执行句子的输入以及修正。因此第一实施例的语音识别设备可以为用户提供高度的可操作性和便利。
如上所述,在根据第一实施例的语音识别设备中,可以确定由用户提供的重新输入的语音是用于整体修正处理还是用于部分修正处理,并且修正的方式可以根据确定的结果而改变。所以,用户不需要给出关于修正方式的指令,可以根据语音输入的方式来使用最优的修正方式。因此,作为输出而提供的语音识别结果对于用户是高度有用的并且是高度精确的。
此外,因为可以从通过结合原始语音的识别候选以及用于修正的语音输入的识别候选而获得的识别候选中选择最有可能的识别候选,因此语音识别设备不会将原始语音的正确的识别结果错误地替换为通过错误的识别而获得的错误的内容,并且不会输出错误的内容。因此,可以获得高准确度的识别结果。
当在原始语音的识别结果和用于修正的语音输入的识别结果中包含不匹配部分时,以及当存在包括具有预定关系的不匹配部分的识别结果的组合时,根据第二实施例的语音识别设备输出识别结果的组合作为识别候选。
图15是根据第二实施例的语音识别设备1400的结构的框图。如图15所示,语音识别设备1400包括麦克风111、显示器112、扬声器113、存储单元121、变化差别信息存储单元122、优先级信息存储单元123、抑制信息存储单元124、以及辞典存储单元1425,作为主要的硬件配置。
语音识别设备1400还包括输入接收单元101、生成单元102、发声关系确定单元1403、修正单元104、选择单元105、以及输出控制单元106,作为主要的软件配置。
第二实施例与第一实施例的区别在于,增加了同义词辞典存储单元1425和发声关系确定单元1403的功能。因为其它配置和功能与图1所示的根据第一实施例的语音识别设备100的相同,因此相同的元素由相同的参考符号表示并且不再重复其描述。
同义词辞典存储单元1425用于存储同义词辞典,其中单词和与其相应的同义词相互关联。图16显示了存储在同义词辞典存储单元1425中的同义词辞典的数据结构的例子。
如图16所示,同义词辞典存储单元1425彼此关联地存储单词和该单词的同义词。图16显示了一个例子,其中意思为“电影”的日语单词1601以及以Kata-kana表示英语单词“movie”的发音的日语单词1602彼此关联,“Kata-kana”是一个日语音素。
与根据第一实施例的发声关系确定单元103类似,发声关系确定单元1403用于确定由用户为前一个发声输入的当前发声是前一个发声的整体的重新发声还是前一个发声的部分的重新发声。
另外,发声关系确定单元1403与根据第一实施例的发声关系确定单元103的区别在于,发声关系确定单元1403确定由用户为前一个发声输入的当前发声是否为一部分被其同义词替换的前一个发声的重新发声。
更具体地,当前一个发声和当前发声包括识别结果具有同义词关系的不匹配部分时,发声关系确定单元1403确定当前发声是前一个发声的整体的重新发声而不是新的发声。作为前一个发声的整体的重新发声并且在不匹配部分包括前面的发声的一部分的同义词的这种发声将在以下被称为部分释义的整体发声。
前一个发声的识别结果与当前发声的识别结果之间的关系不局限于同义词关系。可以确定识别结果是否可以被翻译为另一个语言的相同单词(以下称为同译语的关系),或者在概念上它们是否具有上-下位的层次关系(以下称为层次概念的关系)。
例如,单词312和单词313可以翻译为相同的英语单词“movie”。因此,单词312和313具有同译语关系。此外,例如,单词314和单词315代表彼此具有上-下位关系的概念。这种关系在下文称作层次概念的关系。在这些情况下,可以将翻译词典或者同义词辞典存储为对应于同义词辞典存储单元1425的词典。
由根据如上所述配置的第二实施例的语音识别设备1400执行的语音识别处理将在下面描述。图17是根据第二实施例的语音识别处理的整个流程的流程图。
因为步骤S1601中的语音输入接收处理和步骤S1602中的语音识别处理与根据第一实施例的语音识别设备100中的步骤S601和步骤S602中的处理相同,因此不再重复其描述。
在步骤S1603中的发声关系确定处理中,发声关系确定单元1403通过比较前一个发声和当前发声来执行发声关系确定处理,并确定当前发声是新的发声、整体修正的发声、部分修正的发声、还是部分释义的整体发声。将在后面描述发声关系确定处理的细节。
在发声关系确定处理之后,发声关系确定单元1403确定当前发声是否为部分释义的整体发声(步骤S1604)。如果将当前语音确定为部分释义的整体发声(步骤S1604是),则整体修正单元104a通过将前一个发声的网格中的对应于释义部分的部分替换为释义部分中的单词序列的组合的识别候选来执行整体修正处理(步骤S1605)。
在发声关系确定处理中获取释义部分的单词序列的组合。更具体地,如果确定前一个发声的识别结果和当前发声的识别结果具有同义词关系,以及在发声关系确定处理中确定当前发声是部分释义的整体发声,则获取具有同义词关系的识别结果的组合作为释义部分的单词序列的组合。
例如,假定提供单词311和单词312作为前一个发声的识别候选并且提供单词313和单词315作为当前发声的识别候选。在这种情况下,因为前一个发声中的单词312和当前发声中的单词313具有同义词关系,因此确定当前发声是部分释义的整体发声。同时,获取单词312和单词313的组合作为释义部分的单词序列的组合。
除了最近的完整发声的网格被替换为相应于释义部分的单词序列的识别候选以外,步骤S1605中的整体修正处理与第一实施例中描述的整体修正处理相同。所以,不再重复其描述。
因为步骤S1606到S1611中的整体修正处理、部分修正处理、识别候选选择处理、以及识别结果输出处理与步骤604到S609中的处理相同,其描述不再重复。
步骤S1603所示的发声关系确定处理的细节将在下面描述。图18是第二实施例中的发声关系确定处理的整个流程的流程图。
因为步骤S1701到S1705中的相似部分计算处理、部分修正的发声确定处理、以及整体修正的发声确定处理与步骤S701到S705中的那些相同,其描述不再重复。
第二实施例与第一实施例的区别在于,当确定不匹配部分的比率高于预定阈值时,不是简单地将该发声确定为新的发声,而是考虑到不匹配部分的识别结果之间的关系,可能将该发声确定为部分释义的整个发声。
更具体地,如果在步骤S1704中确定不匹配部分的比率高于预定阈值(步骤S1704是),那么发声关系确定单元1403获取相应于不匹配部分的单词序列的组合(步骤S1706)。
例如,假定提供单词311和单词312作为前一个发声的识别候选、提供单词313和单词316作为当前发声的识别候,并假定确定这一部分是不匹配部分。在这种情况下,作为相应单词序列的组合,存在四个组合,即单词311和单词313的组合、单词311和单词316的组合、单词312和单词313的组合、以及单词312和单词316的组合。在步骤S1706中,发声关系确定单元1403获取四个组合中的一个。
这里,发声关系确定单元1403会优先获取不包括为前一个发声选择的识别候选的组合。因为在前一个发声中选择的识别候选可能是错误的,排除这些识别候选的确定处理会带来更高效的处理。
发声关系确定单元1403确定包含在所获取的组合中的单词序列是否具有预定的关系(步骤S1707)。如上所述,预定关系包括同义词关系、同译语关系、层次概念关系等等。
当单词序列具有预定关系时(步骤S1707是),发声关系确定单元1403确定当前发声是部分释义的整体发声(步骤S1708),并终止发声关系确定处理。在这种情况下,将具有预定关系的单词序列的组合存储在诸如RAM这样的存储单元中(未显示)。在步骤S1605的整体修正处理中将参照该组合。
在上述例子中,将最初确定为具有预定关系的单词序列的组合存储为正确的组合。但是,可以确定所有组合中的每一个是否具有预定关系,以及可以根据预定关系的可能性、单词序列的声学相似度等等计算最优组合。
如果组合不具有预定关系(步骤S1707否),那么发声关系确定单元1403确定单词序列的所有组合是否都被处理了(步骤S1709)。如果发声关系确定单元1403确定单词序列的所有组合没有都被处理(步骤S1709否),则获取未处理单词序列的组合,并且重复该处理(步骤S1706)。
另一方面,在确定所有结点都已被处理时(步骤S1709是),发声关系确定单元1403确定当前发声是新的发声(步骤S1710),并且终止发声关系确定处理。
根据上述处理执行的语音识别处理的具体例子将在下面描述。图19A和19B显示了语音识别处理中的数据处理的例子。
首先,假定输入意思为“我想去看电影”而且发音为“EI-GA-WO-MI-TA-I-NO-DE-SU-GA”的日语句子作为新的发声(步骤S1601)并且生成单元102输出图19a所示的网格作为识别候选(步骤S1602)。
然后,选择单元105选择具有最高分数的结点并选择与所选择的结点相连的日语句子317作为识别候选(步骤S1610)。所选择的识别候选由输出控制单元106显示在显示器112上(步骤S1611)。
假定所显示的识别候选是错误的,用户重新输入了发音为“MU-U-BI-I-WO-MI-TA-I-NO-DE-SU-GA”并且是通过将最初的输入句子中的单词312替换为单词313(其为单词312的同义词)而获得的日语句子(步骤S1601)。
生成单元102输出图19B所示的网格作为识别候选(步骤S1602)。
在这种情况下,发声关系确定单元1403计算从输入位置4开始的片段作为相似部分,以及输入位置0到3的片段作为不匹配部分(步骤S1701)。不匹配部分的比率大约是33%(=(12-8)×100/12))。如果阈值设置为15%,那么不匹配部分的比率高于阈值(步骤S1706是),发声关系确定单元1403获取相应于不匹配部分的单词序列的组合(步骤S1706)。
例如,假定发声关系确定单元1403获取单词312和单词316的组合(步骤S1706)。在这种情况下,因为这两个单词之间的同义词关系没有存储在同义词辞典存储单元1425中,所以发声关系确定单元1403确定这两个单词不具有预定关系(步骤S1707否)。
假定发声关系确定单元1403获取单词312和单词313的组合(步骤S1706)。在这种情况下,因为这两个单词之间的同义词关系存储在同义词辞典存储单元1425中,所以发声关系确定单元1403确定这两个单词具有预定关系(步骤S1707是)。所以,发声关系确定单元1403确定当前发声是部分释义的整体发声(步骤S1708)。
整体修正单元104a使用单词312和单词313作为不匹配部分的识别结果并将图19B中的网格(前一个发声的网格)的输入位置0到3的片段的识别结果替换为用作新的识别结果的单词312和313,从而执行整体修正处理(步骤S1605)。
在这种方式下,在根据第二实施例的语音识别设备中,当原始语音的识别结果和用于修正的语音输入的识别结果具有不匹配部分时,以及当对于不匹配部分来说,存在具有预定关系的识别结果时,可以输出这些具有预定关系的识别结果作为识别候选。因此,可以与不匹配部分的辨识同时地确定识别候选,借此可以实现高效的语音识别处理。
第一和第二实施例可以应用于语音翻译系统中的话音输入装置。在语音翻译系统中,不同于用在汽车导航系统或者家用电器的操作中的命令输入型的语音系统,会提供各种内容作为语音输入。此外,输入不是利用诸如名词性短语的片段而执行的,而是通过具有一定长度的句子或者短语来执行的。
上述语音识别处理可以应用于语音听写器,以实现编辑识别结果的功能。该实施例的语音识别处理适于这种系统,因为语音听写器与语音翻译系统类似地通过语音接收长文件并修正错误的语音识别。通常,语音听写器用于诸如一位个人电脑(PC)的硬件中,并且可以通过除话音输入装置以外的诸如键盘或者鼠标这样的输入设备来编辑语音识别的结果。所以,可以将通过重新输入语音来修正语音识别的结果的功能用作一种编辑功能。
另一方面,语音翻译系统应是便携式的,并且诸如键盘或者鼠标的外围设备不是必需的。此外,语音翻译系统具有较小的屏幕并且最好用语音操作因为语音翻译系统用于与人通讯。
本发明不局限于上述实施例。例如,本发明还可以应用于个人电脑的话音输入界面、汽车导航系统、以及用于控制家用电器的输入接口。
可以将根据第一或第二实施例的语音识别设备所执行的语音识别程序预先存入只读存储器(ROM)来进行提供。
可以将由根据第一或第二实施例的语音识别设备所执行的语音识别程序以可安装格式或可执行格式的文件记录在计算机可读的记录介质上,例如光盘只读存储器(CD-ROM)、软盘(FD)、可记录光盘(CD-R)、或数字多用途光盘(DVD)。
此外,可以将由根据第一或第二实施例的语音识别设备所执行的语音识别程序存储在连接到诸如因特网的网络的计算机上,并通过网络下载。由根据第一或第二实施例的语音识别设备所执行的语音识别程序可以通过诸如因特网的网络提供或分发。
根据第一或第二实施例的语音识别设备所执行的语音识别程序具有包括上述单元(输入接收单元、生成单元、发声关系确定单元、修正单元、识别候选选择单元、以及输出控制单元)的模块化结构。作为实际的硬件,中央处理单元(CPU)从ROM读取语音识别程序并执行语音识别程序以在主存储器上加载各个单元,以便在主存储器上生成各个单元。
对于本领域的技术人员来说,将容易地想到其他的优点和变形。所以,该发明的范围不局限于此处所显示和描述的具体细节和典型实施例。因此,在不脱离由附加权利要求及其等价内容所定义的一般发明概念的精神或范围的情况下,可以进行各种修改。
权利要求
1.一种语音识别设备,包括生成单元,用于接收语音发声并生成至少一个与所述语音发声相关的识别候选以及所述识别候选的可能性;存储单元,用于存储所述至少一个识别候选和所述可能性;选择单元,用于根据所述可能性选择所述至少一个识别候选中的一个作为第一语音发声的识别结果;发声关系确定单元,用于当顺序地输入第一语音发声和第二语音发声时,至少确定在输入所述第一发声之后输入的所述第二发声是所述第一语音发声的整体的语音重新发声,还是所述第一语音发声的一部分的语音重新发声;整体修正单元,用于当所述发声关系确定单元确定所述第二语音发声是所述第一语音发声的整体的语音重新发声时,根据所述第二语音发声修正所述第一语音发声的整体的识别候选,并显示所述修正的识别结果;以及部分修正单元,用于当所述发声关系确定单元确定所述第二语音发声是所述第一语音发声的一部分的语音重新发声时,根据所述第二语音发声修正所述第一语音发声的、对应于所述第二语音发声的部分的识别候选,并且显示所述修正的识别结果。
2.如权利要求1所述的语音识别设备,其中当所述发声关系确定单元在所述第一语音发声中检测到相似部分并且所述相似部分与所述第一语音发声的整体匹配时,所述发声关系确定单元确定所述第二语音发声是所述第一语音发声的整体的语音重新发声,所述相似部分是其中所述第一语音发声的语音信息和所述第二语音发声的语音信息之间的相似度比预定阈值高的部分,以及当所述相似部分与所述第一语音发声的一部分匹配并且所述相似部分与所述第二语音发声的整体匹配时,所述发声关系确定单元确定所述第二语音发声是所述第一语音发声的所述一部分的语音重新发声。
3.如权利要求1所述的语音识别设备,其中所述整体修正单元将所述第一语音发声的识别候选与所述第二语音发声的识别候选相互结合,当所述第一语音发声的识别候选和所述第二语音发声的识别候选是共同的时,根据所述共同的识别候选对于所述第一语音发声的可能性以及所述共同的识别候选对于所述第二语音发声的可能性来计算新的可能性,以及将所述新的可能性输出到所述存储单元。
4.如权利要求1所述的语音识别设备,其中所述部分修正单元当所述第一语音发声的一部分的识别候选和所述第二语音发声的识别候选是共同的时,根据所述共同的识别候选对于所述第一语音发声的可能性以及所述共同的识别候选对于所述第二语音发声的可能性来计算新的可能性,所述第一语音发声的所述一部分对应于按照所述第二语音发声的所述语音重新发声,以及将所述可能性输出到所述存储单元。
5.如权利要求1所述的语音识别设备,其中所述部分修正单元将所述识别候选输出到所述存储单元,所述识别候选是通过将所述第一语音发声中的一部分替换为所述第二语音发声的所述识别候选而获得的,所述部分对应于按照第二语音发声的所述语音重新发声。
6.如权利要求3所述的语音识别设备,其中所述整体修正单元减小对应于所述第一语音发声中的一部分的识别结果的可能性,所述一部分是所述第一语音发声的前一个语音发声的、被所述第一语音发声修正的部分。
7.如权利要求1所述的语音识别设备,其中当所述第一语音发声中的一部分未在所述第二语音发声中重新发声时,所述部分修正单元增大对应于所述第一语音发声中的所述一部分的识别结果的可能性,所述一部分是所述第一语音发声的前一个语音发声的、被所述第一语音发声修正的部分。
8.如权利要求1所述的语音识别设备,其中当所述第一语音发声中的一部分在所述第二语音发声中重新发声时,所述部分修正单元减小对应于所述第一个语音发声中的所述一部分的识别结果的可能性,所述一部分是所述第一语音发声的前一个语音发声的、被所述第一语音发声修正的部分。
9.如权利要求1所述的语音识别设备,其中所述发声关系确定单元确定所述第一语音发声的识别候选和所述第二语音发声的识别候选是否在所述第一语音发声与所述第二语音发声的不匹配部分中具有预定关系,以及当所述第一和所述第二语音发声的识别候选具有所述预定关系时,确定所述第二语音发声是所述第一语音发声的整体的语音重新发声,以及在所述语音重新发声中,所述第一语音发声的一部分被替换为不同的语音发声,以及当所述发声关系确定单元确定所述第二语音发声是所述第一语音发声的整体的语音重新发声,并且在所述语音重新发声中,所述第一语音发声的一部分被替换为不同的语音发声时,所述整体修正单元输出具有所述预定关系的识别候选。
10.如权利要求9所述的语音识别设备,其中当所述发声关系确定单元在所述第一语音发声中检测到相似部分并且所述相似部分与所述第一语音发声的整体匹配时,所述发声关系确定单元确定所述第二语音发声是所述第一语音发声的整体的语音重新发声,所述相似部分是其中所述第一语音发声的语音信息和所述第二语音发声的语音信息之间的相似度比预定阈值高的部分,以及当所述相似部分与所述第一语音发声的所述部分匹配并且所述相似部分与所述第二语音发声的整体匹配时,所述发声关系确定单元确定所述第二语音发声是所述第一语音发声的所述部分的语音重新发声,以及当所述第一语音发声的识别候选和所述第二语音发声的识别候选在不匹配部分中具有预定关系时,所述发声关系确定单元确定所述第二语音发声是所述第一语音发声的整体的语音重新发声,在所述语音重新发声中,所述第一语音发声的一部分被替换为不同的语音发声,所述不匹配部分是除所述第一语音发声中的所述相似部分以外的部分。
11.如权利要求9所述的语音识别设备,其中所述发声关系确定单元确定是否存在同义词的关系作为所述预定关系。
12.如权利要求9所述的语音识别设备,其中所述发声关系确定单元确定是否存在同译语的关系作为所述预定关系。
13.如权利要求9所述的语音识别设备,其中所述发声关系确定单元确定是否存在层次概念的关系作为所述预定关系。
14.一种语音识别方法,包括,接收语音发声;生成至少一个与所述语音发声相关的识别候选以及所述识别候选的可能性;根据所述可能性选择所述至少一个识别候选中的一个作为第一个语音发声的识别结果;当顺序地输入第一语音发声和第二语音发声时,至少确定在输入所述第一语音发声之后输入的所述第二语音发声是所述第一语音发声的整体的语音重新发声还是所述第一语音发声的一部分的语音重新发声;当所述发声关系确定单元确定所述第二语音发声是所述第一语音发声的整体的语音重新发声时,根据所述第二语音发声修正所述第一语音发声的整体的识别候选以显示所述修正的识别结果;以及当确定所述第二语音发声是所述第一语音发声的一部分的语音重新发声时,根据所述第二语音发声修正所述第一语音发声的、对应于所述第二语音发声的部分的识别候选,以显示所述修正的识别结果。
全文摘要
语音识别设备包括生成单元,用于接收语音发声并生成至少一个与其相关的识别候选和该候选的可能性;存储单元,用于存储识别候选和可能性;选择单元,用于根据可能性选择一第一语音发声的识别结果;发声关系确定单元,用于当顺序地输入第一和第二语音发声时,至少确定在之后输入的第二语音发声是第一语音发声整体的还是部分的重新发声;整体修正单元,用于当确定是第一语音发声的整体的重新发声时,根据第二语音发声修正第一语音发声的整体的识别候选并显示修正的识别结果;部分修正单元,用于当确定是第一语音发声的一部分的重新发声时,根据第二语音发声修正第一语音发声的、对应于第二语音发声的部分的识别候选并显示修正的识别结果。
文档编号G10L15/28GK1941077SQ200610115528
公开日2007年4月4日 申请日期2006年8月18日 优先权日2005年9月27日
发明者平川秀树, 知野哲朗 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1