语音识别系统和语音识别方法

文档序号:2830824阅读:392来源:国知局
专利名称:语音识别系统和语音识别方法
技术领域
本发明涉及能够识别话语(utterance)的语音识别系统和语音识别方法。
背景技术
近年来,例如如下情况开始变得普遍,即当通过电话来接受用户关 于购买产品的调査、投诉、咨询请求等时,建立了呼叫中心,其中给所 述呼叫中心分配了应答甩户的龟话呼叫的接线员。给呼叫中心分配适当 数目的接线员,以便迅速应答用户的电话呼叫。一般来说,在这种呼叫中心中,使用语音识别系统来识别接线员与 用户之间的对话,以作为识别的结果而记录所述对话。在接线员的个人 计算机的显示屏上显示所记录的对话。例如,当记录了接线员与用户之 间的对话时,可以分析用户想要了解的信息。例如,可利用分析的结果 作为未来商业运作的线索。此外,通过将分析的结果合并到接线员持有 的手册中,可将该分析结果用于接线员的顺利操作。在语音识别系统中,如果错误识别接线员与用户之间的对话,则会 基于错误识别的结果来记录对话的内容。如果对话的内容是基于错误识 别的结果而记录的,则不能执行准确的分析。因此,需要纠正语音识别 系统的错误识别。例如,已知下面描述的日本特开平11-149294号公报和 日本特开2005-123869号公报为用于纠正语音识别系统的错误识别的方 法。在日本特开平11-149294号公报中,公开了一种方法,所述方法用于 在语音识别系统错误地识别了用户的话语时,通过用户重述(复述)来 纠正语音识别系统的错误识别。具体的是,当复述确定单元确定用户的 重述是复述的话语时,识别处理单元使用存储在识别候选记录单元中的以前的识别候选和在当前处理中获得的识别候选来输出经调整的识别候 选。因此,当用户能够识别出错误识别时,可以通过复述的话语来纠正 所述错误识别。此外,在日本特开2005-123869号公报中,公开了一种呼叫内容转录 系统,所述呼叫内容转录系统便于通过将经由电话听筒发送和接收的呼 叫内容分离为呼叫方部分和被叫方部分来进行识别结果的确认和纠正。 具体的是,通过第一语音识别装置识别来自呼叫方侧的声道的语音,并 且通过第二语音识别装置识别来自被叫方侧的声道的语音。通过第一语 音识别装置和第二语音识别装置识别的语音由字符串转换装置转换成字 符串以便在显示装置上显示。使用输入装置(例如键盘)来编辑通过显 示装置显示的字符串。因此,由于按时间顺序显示呼叫方和被叫方的呼 叫的内容,所以编辑者可以容易地转录呼叫的内容。在呼叫中心中,可以将对接线员与用户之间的对话的识别结果显示在接线员的个人计算机的显示屏上。因此,接线员可以检査识别结果是 否正确。相反,用户不能检査识别结果。就是说,在很多情况下,用户 并未意识到接线员与他之间的对话被语音识别系统识别,并且其对话作 为识别结果被记录。因此,即使当识别系统错误识别了接线员与用户之 间的对话时,该用户仍继续说话而不会复述话语。因此,日本特开平 11-149294号公报中公开的用于纠正错误识别的方法不能应用于上述情 况。另一方面,当语音识别系统已经错误识别了接线员与用户之间的对 话时,接线员需要纠正错误识别的结果。具体的是,接线员通过操作键 盘来纠正个人计算机的显示屏上显示的错误识别的结果。然而,很难在 不中断接线员与用户之间的对话的情况下,通过操作键盘来纠正错误识 别的结果。因此,要在接线员与用户之间的对话完成之后通过操作键盘 来纠正错误识别的结果。然而,在这种情况下,接线员需要记住发生错 误识别结果的位置、正确识别的结果等。此外,当对接线员与用户之间 的对话进行了记录时,接线员不需要记住发生错误识别的结果的位置、 正确识别的结果等。然而,这要花费很多时间和努力来重听记录的对话。因此,日本特开2005-123869号公报中公开的用于纠正错误识别的方法不 能应用于上述情况。发明内容考虑到前述问题,本发明的目的是提供一种语音识别系统和语音识 别程序,其中,在至少两个讲话者之间的对话中,当一个讲话者的话语 被错误识别时,能够在所述一个讲话者未意识到纠正行为,无需通过另 一个讲话者对输入装置(例如键盘)进行操作,并且在不中断所述对话 的情况下纠正所述错误识别的结果。为了实现前述目的,本发明的语音识别系统包括输入标识单元, 其标识发出话语的讲话者;识别结果存储单元,假设具有在通过将话语 与多个识别单词或词语相比较而计算出的识别分数中的最高识别分数的 识别单词或词语是最佳解,所述标识结果存储单元将从所述最佳解开始 的具有较高识别分数的头N (N大于或等于1)个识别单词或词语存储作 为N个最佳解;识别结果提取单元,假设从识别结果存储单元中提取的 N个最佳解是前N个最佳解,所述识别结果提取单元从识别结果存储单 元中提取通过按时间顺序接在与前N个最佳解相对应的话语后面并且由 与对应于所述前N个最佳解的话语的讲话者不同的讲话者发出的话语来 获得的N个最佳解,作为后N个最佳解;关联度计算单元,其计算表示 后N个最佳解为通过应答与前N个最佳解相对应的话语的应答话语而获 得的N个最佳解的可能性的关联度;应答话语确定单元,当关联度大于 或等于阈值时,所述应答话语确定单元确定后N个最佳解为通过应答与 前N个最佳解相对应的话语的应答话语而获得的N个最佳解;重复话语 确定单元,当应答话语确定单元确定后N个最佳解为通过应答与前N个 最佳解相对应的话语的应答话语而获得的N个最佳解时,所述重复话语 确定单元确定后N个最佳解是否为通过应答与前N个最佳解的话语相对 应的重复话语而获得的N个最佳解;以及一致确定单元,当重复话语确 定单元确定后N个最佳解为通过应答与前N个最佳解相对应的话语的重 复话语而获得的N个最佳解时,假设前N个最佳解中的最佳解为前最佳解而后N个最佳解中的最佳解为后最佳解,所述一致确定单元确定前最 佳解和后最佳解是否彼此一致,并且当前最佳解和后最佳解不一致时, 所述一致确定单元确定可以用后N个最佳解的一部分或全部来替换前N 个最佳解的一部分或全部。在本发明的所述语音识别系统中,所述关联度计算单元计算如下关联度,所述关联度表示所述后N个最佳解是通过应答与所述前N个最佳 解相对应的话语的应答话语而获得的N个最佳解的可能性。在这种情况 下,所述后N个最佳解为通过按时间顺序接在对应于前N个最佳解的话 语后面并且由与对应于所述前N个最佳解的话语的讲话者不同的讲话者 发出的话语来获得的N个最佳解。例如,与所述前N个最佳解相对应的 话语可以为用户发出的话语,而与所述后N个最佳解相对应的话语可以 为呼叫中心中的接线员发出的话语。在这种情况下,当所述关联度大于 或等于所述阈值时,所述应答话语确定单元确定所述后N个最佳解为通 过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳 解。所述重复话语确定单元确定所述后N个最佳解是否为通过应答与所 述前N个最佳解相对应的话语的重复话语而获得的N个最佳解。当重复 话语确定单元确定所述后N个最佳解为通过应答与所述前N个最佳解相 对应的话语的重复话语而获得的最佳解时,所述一致确定单元确定所述 前最佳解和所述后最佳解是否彼此一致。当所述前最佳解和所述后最佳 解彼此不一致时,所述一致确定单元确定所述前最佳解不正确。在前述情况下, 一般来说,接线员经常接受培训,从而他们与用户 相比讲话清晰。此外,接线员可以有意识地讲话,使得能够获得识别的 正确结果。此外,在呼叫中心中提供所述语音识别系统的情况下,通过 电话线识别用户发出的话语,而不通过电话线识别接线员发出的话语, 所以与接线员发出的话语的信息相比较,用户发出的话语的信息可能由 于电话线中噪音的侵扰或者各种滤波器的干预而被严重劣化。因为这个 原因,根据本发明的所述一致确定单元确定可以用所述后N个最佳解中 的一部分或全部来替换所述前N个最佳解中的一部分或全部。因此,在 用户与接线员之间的对话中,当所述用户的话语被错误识别时,可以在所述用户未意识到该动作,无需所述接线员通过输入装置(例如键盘) 进行操作,并且无需中断所述对话的情况下纠正错误识别的结果。在这种情况下,所述前N个最佳解中的N可以与所述后N个最佳解中的N相同或不同。本发明中的所述语音识别系统优选地还包括识别结果纠正单元, 当所述一致确定单元确定所述前最佳解和所述后最佳解彼此不一致时, 所述识别结果纠正单元将其中存储所述前N个最佳解的所述识别结果存 1诺平兀TH'、化;T处刖取1主畔殳新刀尸丌:idi厄取1主胛;w汉结果输出单兀,其输出由所述识别结果纠正单元更新的所述后最佳解。在前述设置中,所述识别结果纠正单元将其中存储所述前N个最佳解的所述识别结果存储单元中的所述前最佳解更新为所述后最佳解。因 此,所述结果输出单元可以输出经更新的后最佳解。本发明中的所述语音识别系统优选地还包括纠正历史记录生成单 元,所述纠正历史记录生成单元生成表示所述识别结果纠正单元实施更 新的历史记录的历史记录数据;以及输出呈现单元,所述输出呈现单元 呈现由所述纠正历史记录生成单元生成的所述历史记录数据。在前述设置中,所述纠正历史记录生成单元生成表示更新历史记录 的历史记录数据。所述输出呈现单元呈现所述历史记录数据。因此,例 如接线员可以检査表示已经纠正的错误识别的结果的历史记录。在本发明中的所述语音识别系统中,在所述应答话语确定单元确定 所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答 话语而获得的N个最佳解的情况下,当所述后N个最佳解中的所述后最 佳解的识别分数大于或等于预定识别分数时并且当同时满足下面描述的 (1)和(2)时,所述重复话语确定单元优选地确定所述后N个最佳解 为通过应答与所述前N个最佳解相对应的话语的重复话语而获得的N个 最佳解。(1) 所述前N个最佳解中的一解与所述后N个最佳解中的所述后 最佳解一致。(2) 所述前N个最佳解中与所述后最佳解一致的前述解的识别分数大于或等于预定的识别分数,或者所述前N个最佳解中的前述解被置于 相对于所述前最佳解的预置排序或更高排序处,前述解与所述后最佳解 一致。在前述设置中,当满足前述条件时,所述重复话语确定单元可以确定所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的重 复话语而获得的N个最佳解。本发明中的所述语音识别系统优选地还包括存储共现信息的共现信息存储单元和/或存储语义属性的语义属性存储单元,所述共现信息表示识别词语之间的共现关系,所述语义属性表示识别词语的意思;以及 比较处理改变单元,当所述一致确定单元确定所述前最佳解和所述后最 佳解相互一致时,所述比较处理改变单元基于所述共现信息和/或所述语 义属性来改变用于将话语与多个识别词语相比较的方法。在这种情况下,当所述前最佳解与所述后最佳解彼此一致时,所述 解的可靠性较高。因此,在这种情况下,所述比较处理改变单元基于所 述共现信息和/或所述语义属性来改变用于将话语与多个识别词语相比较 的方法。在一示例中,比较处理改变单元改变所述比较方法,从而使得具有 所述前最佳解与所述后最佳解的共现关系的识别词语的识别分数或者具 有与所述前最佳解和所述后最佳解相关的意思的识别词语的识别分数比 除了这些识别词语之外的其它识别词语的识别分数高。具体来说,例如 当所述前最佳解和所述后最佳解为"PC"时,预定的识别分数被分配给与 计算机术语相关的识别词语,使得关于计算机术语的具有与"PC"相关意 思的识别词语的识别分数比计算机术语之外的其它识别词语的识别分数 高。就是说,当通过用户发出的话语获得的所述前最佳解和通过接线员 发出的话语获得的所述后最佳解为"PC"时,可以确定识别结果的可靠性非常高。因此,可以确定对话内容也与计算机相关。而且,随后话语的 内容与计算机相关的可能性较高。因此,当比较处理改变单元改变比较方法,以将预定的识别分数分配给与计算机术语相关的识别词语时,能 够提高所述语音识别系统的识别准确率。在另一示例中,比较处理改变单元改变比较方法,以便将具有所述 前最佳解与所述后最佳解的共现相关性的识别词语或者具有与所述前最 佳解和所述后最佳解相关的意思的识别词语设置为进行比较的识别词 语,而将其他识别词语设置为不进行比较的识别词语。具体来说,当所 述前最佳解和所述后最佳解为"PC"时,改变所述比较方法,以便将关于计算机术语的具有与"PC"相关的意思的识别词语设置为进行比较的识别词语,而将其他识别词语设置为不进行比较的识别词语。就是说,当通 过用户发出的话语获得的所述前最佳解和通过接线员发出的话语获得的 所述后最佳解为"PC"时,能够确定识别结果的可靠性非常高。因此,可 以确定对话内容也与计算机相关。而且,随后话语的内容与计算机相关 的可能性较高。因此,当比较处理改变单元改变比较方法,以将关于计 算机术语的识别词语设置为进行比较的识别词语并将其他识别词语设置 为不进行比较的识别词语时,能够提高所述语音识别系统的识别准确率。根据权利要求1到4中的任一项所述的语音识别系统,其中,所述关联度计算单元基于以下(1)到(4)中的至少一个来计算关联度(1) 所述前N个最佳解中的各个解与所述后N个最佳解中的各个 解一致的解的数目;(2) 对于所述前N个最佳解中的各个解与所述后N个最佳解中的 各个解一致的解,在所述前N个最佳解中基于识别分数的排序和在所述 后N个最佳解中基于识别分数的排序之间的差;(3) 输出所述前N个最佳解的时间和输出所述后N个最佳解的时 间之间的时间差;(4) 在通过比较第一话语和多个识别词语来获得多组所述前N个最 佳解并且通过比较由与所述第一话语的讲话者不同的讲话者发出的第二 话语和所述多个识别词语得多组所述后N个最佳解的情况下,所述 多组前N个最佳解在时间序列上的出现位置和所述多组后N个最佳解的 在时间序列上的出现位置之间的差。在前述设置中,关联度计算单元可以基于上面描述的(1)到(4) 中的至少一个来计算关联度。在本发明中的所述语音识别系统内,优选的是,所述前N个最佳解 中的各个解与所述后N个最佳解中的各个解一致的解的数目越大,并且对于所述前N个最佳解中的各个解与所述后N个最佳解中的各个解一致 的解,在所述前N个最佳解中基于识别分数的排序和在所述后N个最佳 解中基于识别分数的排序之间的差越小,则所述关联度计算装置计算出 的所述关联度越高。在这种情况下,解的数目越大并且排序之间的差越小,则所述后N 个最佳解为通过应答与所述前N个最佳解相对应的应答话语获得的N个 最佳解的可能性越高。因此,在这种情况下,所述关联度计算单元计算 出较高的关联度。另一方面,相反,解的数目越小并且排序之间的差越 大,则所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语 的应答话语获得的N个最佳解的可能性越低。因此,在这种情况下,所 述关联度计算单元计算出较小的关联度。因此,当关联度大于或等于阔 值时,所述应答话语确定单元可以确定所述后N个最佳解为通过应答与 所述前N个最佳解相对应的话语的应答话语获得的N个最佳解。本发明中的所述语音识别系统优选地还包括时间信息控制单元,所 述时间信息控制装置将表示当前时间的时间信息分配给所述N个最佳 解,并且将已经分配了时间信息的所述N个最佳解写到所述识别结果存 储单元中。优选的是,分配给所述前N个最佳解的时间信息表示的当前 时间与分配给所述后N个最佳解的时间信息表示的当前时间之间的时间 差越小,则所述关联度计算单元计算出的所述关联度越高。在这种情况下,所述时间差越小,则所述后N个最佳解为通过应答 与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解的可 能性越高。因此,在这种情况下,所述关联度计算单元计算出较高的关 联度。另一方面,相反,所述时间差越大,则所述后N个最佳解为通过 应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解 的可能性越低。因此,在这种情况下,所述关联度计算单元计算出较小 的关联度。因此,当关联度大于或等于阈值时,所述应答话语确定单元 可以确定所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解。在本发明中所述的语音识别系统内,优选的是,在通过比较第一话 语和多个识别词语来获得多组所述前N个最佳解并且通过比较由与所述 第一话语的讲话者不同的讲话者发出的第二话语和多组所述多个识别词语来获得多组所述后N个最佳解的情况下,所述多组前N个最佳解在时间序列上的出现位置和所述多组后N个最佳解在时间序列上的出现位置之间的差越小,则所述关联度计算装置计算出的所述关联度越高。在这种情况下,所述位置之间的差越小,则所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解的可能性越高。因此,在这种情况下,所述关联度计算单元计算出较高的关联度。另一方面,相反,所述位置之间的差越大,则所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解的可能性越低。因此,在这种情况下,所述关联度计算单元计算出较小的关联度。因此,当关联度大于或等于阈值时,所述应答话语确定单元可以确定所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解。在本发明中的所述语音识别系统还优选地包括功能字典,所述功能 字典与话语的出现位置相关联地存储表示所述位置的功能单词。当所述多组后N个最佳解中的任一组后N个最佳解中的后最佳解与功能单词一 致时,所述关联度计算单元优选地将所述功能单词表示的位置设置为在 时间顺序上紧接在包括与所述功能单词一致的所述后最佳解的所述任一 组后N个最佳解后的一组后N个最佳解的出现位置。在前述设置中,当所述多组后N个最佳解中的任一组后N个最佳解 中的后最佳解与功能单词一致时,所述关联度计算单元将所述功能单词 表示的位置设置为在时间顺序上紧接在与包括与所述功能单词一致的所 述后最佳解的所述任一组后N个最佳解后的一组后N个最佳解的出现位 置。在这种情况下,功能单词表示话语的出现位置。例如,功能单词"Mazu" (日语单词,意思是"第一")表示位置l。此外,功能单词"Tsugi"(日语 单词,意思是"下一个")表示位置2。因此,相对于基于所述时间序列上的位置之间的差来简单地计算关联度的模式,可以更准确地计算关联度。 本发明中的所述语音识别系统优选地还包括功能单词提取单元,所 述功能单词提取单元从所述功能字典中提取与所述多组前N个最佳解在 时间序列上的出现位置相对应的功能单词。所述输出呈现单元优选地与 所述多组前N个最佳解的各个前最佳解相关联地呈现由所述功能单词提 取单元提取的功能单词。在前述设置中,所述功能单词提取单元从所述功能字典中提取与多 组所述前N个最佳解在时间序列上的出现位置相对应的功能单词。所述输出呈现单元与所述多组前N个最佳解的各个前最佳解相关联地提取的所述功能单词。在这种情况下,例如,当在所述输出呈现单元上呈现的 所述前最佳解不正确时,接线员可以在讲出对与所述前最佳解相关联地 呈现的功能单词之后立即重复话语,从而纠正己被错误识别的所述前最 佳解。因此,例如,即使在所述接线员重复讲出所述正确的前最佳解之 前,所述接线员已经发出另一话语的情况下,当接线员在讲出所述功能 单词后立即重复讲所述正确的前最佳解时,包括所述不正确的前最佳解的所述前N个最佳解在时间序列上的出现位置和通过所述接线员发出的 重复话语而获得的后N个最佳解的出现位置相同。因此,所述关联度计 算单元可以计算最大关联度。因此,所述应答话语确定单元能够可靠地 确定所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的 应答话语而获得的N个最佳解。为了获得前述目的,本发明的语音识别程序使计算机执行若干步骤, 所述计算机包括识别结果存储单元,所述识别结果存储单元用于在假设 具有在通过比较话语和多个识别词语而计算出的识别分数中的最高识别 分数的识别词语是最佳解的情况下,存储从所述最佳解开始的具有较高 识别分数的前N个识别词语作为N个最佳解(N是大于或者等于1的整 数),所述语音识别程序使计算机执行如下步骤输入标识步骤,其标识 发出话语的讲话者;识别结果提取步骤,其在假设从所述识别结果存储 单元中提取的N个最佳解是前N个最佳解的情况下,从所述识别结果存 储单元中提取通过在时间顺序上紧跟在与所述前N个最佳解相对应的话语之后并且已经由与对应于所述前N个最佳解的话语的讲话者不同的讲话者发出的话语而获得的N个最佳解作为后N个最佳解;关联度计算步 骤,其计算表示后N个最佳解为通过应答与前N个最佳解相对应的话语 的应答话语而获得的N个最佳解的可能性的关联度;应答话语确定步骤、 其在关联度大于或等于阈值时,确定后N个最佳解为通过应答与前N个 最佳解相对应的话语的应答话语而获得的N个最佳解;重复话语确定步 骤,其在应答话语确定步骤确定后N个最佳解为通过应答与前N个最佳 解相对应的话语的应答话语而获得的N个最佳解时,确定后N个最佳解 是否为通过应答与所述前N个最佳解相对应的话语的重复话语而获得的 N个最佳解;以及一致确定步骤,其在重复话语确定步骤确定后N个最 佳解为通过应答与前N个最佳解相对应的话语的重复话语而获得的N个 最佳解,且假设前N个最佳解的最佳解为前最佳解并且后N个最佳解的 最佳解为后最佳解时,确定所述前最佳解和所述后最佳解是否彼此一致, 并且当所述前最佳解和所述后最佳解彼此不一致时,确定可以用所述后N 个最佳解的一部分或全部来替换所述前N个最佳解的一部分或全部。在本发明的语音识别程序中,可以获得与前述语音识别系统中类似 的优点。


图1是示出根据本发明的实施方式的语音识别系统的总体结构的示 意性框图;图2示出语音识别系统中的识别结果存储单元中的数据结构的示例;图3示出在通过语音识别系统中的识别结果纠正单元更新了所述识 别结果存储单元中的数据之后的所述数据的结构的示例;图4是示出在语音识别系统中的输出呈现单元上呈现的显示画面的 示例的示意图;图5是示出语音识别系统的操作的示例的流程图;图6是示出根据本发明的第三修改例的语音识别系统的总体结构的 框图;图7示出语音识别系统中的功能字典内的数据结构的示例; 图8示出语音识别系统中的识别结果存储单元内的数据结构的示例; 图9示出在讲话者b发出话语B之前而在讲话者a发出话语A之后的识别结果存储单元中的数据结构的示例;以及图10是示出在讲话者b发出话语B之前而在讲话者a发出话语A之后的在语音识别系统中的输出呈现单元上呈现的显示画面的示例的示意 图。
具体实施方式
现在将参照附图详细描述根据本发明的具体实施方式
。图1是示出根据本实施方式的语音识别系统1的总体结构的框图。 在本实施方式中,描述了如下情况作为示例,即在呼叫中心中提供了语 音识别系统1,并且作为用户的讲话者a和作为接线员的讲话者b通过电 话进行会话(呼叫)的情况。具体来说,将描述如下情况,即在讲话者a 发出话语A"PC Nitsuite Oshiete. Ato Internet Mo."(日语短语,意思是"为 我讲解PC以及因特网")之后,讲话者b发出话语B"Mazu PC Nitusuite Desuga"(日语短语,意思是"首先,让我从PC开始")。在下面的描述中,在描述N个最佳解和最佳解的情况下,仅当需要 做出具体区分时,才以添加下标来标识它们中的每一个(例如N个最佳 解A》的方式来进行说明;而当不需要做出具体区分时或者当总称它们 时,在不添加下标的情况下进行描述,例如N个最佳解A。[语音识别系统的结构]根据本实施方式的语音识别系统1包括语音输入单元11、输入标识 单元12、声音处理单元13、声音模型存储单元14、语言模型存储单元 15、比较单元16、时间信息控制单元17、识别结果存储单元18、识别结 果提取单元19、同义词信息存储单元20、关联度计算单元21、应答话语 确定单元22、重复话语确定单元23、 一致确定单元24、识别结果纠正单 元25、输出生成单元26、输出呈现单元27、比较处理改变单元28、共 现信息存储单元29以及语义属性存储单元30。语音输入单元11接受两个讲话者之间的对话,即讲话者a发出的话 语A和讲话者b发出的话语B。语音输入单元11进一步将讲话者a发出 的话语A转换成话语数据A,并将讲话者b发出的话语B转换成话语数 据B。语音输入单元11将通过转换获得的话语数据A和话语数据B输出 到输入标识单元12。例如,语音输入单元11除了接受前述的两个讲话者 之间的对话,还可以接受单个用户和多个接线员之间的对话。另选的是, 语音输入单元11可以接受多个用户与单个接线员之间的对话。又另选的 是,语音输入单元ll可以接受多个用户与多个接线员之间的对话。语音 输入单元11可以接受预先记录的对话日志而不是实时的对话。输入标识单元12标识发出话语的讲话者。具体来说,输入标识单元 12标识从语音输入单元11输出的话语数据A和话语数据B,并且将话语 A特有的话语号分配给话语数据A,并将话语B特有的话语号分配给话 语数据B。在这种情况下,输入标识单元12可以例如使用用于分别记录 电话接收信号和发射信号的已知技术、确定性别的处理或者标识讲话者 的处理来标识从语音输入单元11输出的话语数据A和话语数据B。在本 实施方式中,输入标识单元12将话语号A01分配给从语音输入单元11 输出的表示"PC Nitsuite Oshiete. Ato Internet Mo"的话语数据A。输入标识 单元12还将话语号B01分配给表示"Mazu PC Nitsuite Desuga"的话语数 据B。在这种情况下,当讲话者a和讲话者b之间的对话继续时,按顺序 将话语号A02、 A03、 A04,…以及话语号B02、 B03、 B04,.,.分别分配给 讲话者a的话语数据和讲话者b的话语数据。输入标识单元12将已经分 配了话语号的话语数据A和己经分配了话语号的话语数据B输出到声音 处理单元13。声音处理单元13将从输入标识单元12输出的话语数据A转换成特 征A,并将从输入标识单元12输出的话语数据B转换成特征B。可使用 包括MFCC (Mel频率倒谱系数)、LPC倒谱、幂(频谱的积分)或者线 性或二次回归系数的多维向量作为特征。此外,利用例如主分量分析或 判别分析来减少MFCC、 LPC倒谱、幂或者线性或二次回归系数的维而 获得的多维向量也可被用作特征。在这种情况下,特征并不限于特定类型。声音处理单元13将通过转换获得的特征A和特征B输出到比较单元16。声音处理单元13可以包括用于存储通过转换获得的特征A和特 征B的存储器。声音模型存储单元14存储通过对关于什么音素趋于具有什么特征的 信息进行统计建模而获得的数据。声音模型存储单元14的示例包括隐马 尔可夫模型(HMM)和动态编程(DP)。语言模型存储单元15存储多个识别词语和关于所述多个识别词语的 信息。例如,关于识别词语的信息包括唯一分配给识别词语的ID、表达 以及发音(例如在音素序列中定义的)。关于识别词语的信息还可以包括 预定信息,例如计算识别分数和规则(语法信息)时针对识别词语之间 的联系添加的每个词语的权重的信息。比较单元16基于话语A和存储在语言模型存储单元15中的多个识 别词语,使用通过声音处理单元13转换而获得的特征A来计算识别分数。 识别分数可以称为一致度、可能性或者置信度。作为识别分数的计算结 果,假设具有最高识别分数的识别词语为最佳解A,则比较单元16将从 最佳解A开始的具有较高识别分数的头N (N是大于或等于1的整数) 个识别词语输出为N个最佳解A。此外,比较单元16基于话语B和存储 在语言模型存储单元15中的多个识别词语,使用通过声音处理单元13 的转换而获得的特征B来计算识别分数。作为识别分数的计算结果,假 设具有最高识别分数的识别词语为最佳解B,则比较单元16将从最佳解 B开始的具有较高识别分数的头N (N是大于或等于1的整数)个识别词 语输出为N个最佳解B。具体来说,比较单元16从通过声音处理单元13的转换而获得的特 征A中提取P (P大于或等于1)个话语段。比较单元16通过将提取的 话语段与存储在声音模型存储单元14中的数据进行比较来为P个话语段 中的每一个提取音素序列(符号序列)。比较单元16通过将提取的音素 序列与存储在语言模型存储单元15中的多个识别词语进行比较来输出对 应于P个话语段中的每一个的N个最佳解A。此外,比较单元16从通过 声音处理单元13的转换而获得的特征B提取Q (Q大于或等于1 )个话语段。比较单元16通过将提取的话语段与存储在声音模型存储单元14 中的数据进行比较来为Q个话语段中的每一个提取音素序列(符号序列)。比较单元16通过将提取的音素序列与存储在语言模型存储单元15 中的多个识别词语进行比较来输出对应于Q个话语段中的每一个的N个 最佳解B。实际上,在这种情况下,比较单元16从表示"PCNitsuiteOshiete. Ato Internet Mo"的特征A中提取话语A中的所有话语部分,例如"PC"、 "Nitsuite"、 "Oshiete"、 "Ato"、 "Internet"以及"Mo"。然而,在本实施方式 中,为了简化描述,假设比较单元16从特征A中提取"PC"和"Intemet" 两个话语段来进行描述。具体来说,比较单元16通过将提取的"PC"和 "Intemet"话语段与存储在声音模型存储单元14中的数据进行比较来提取 针对"PC"和"Internet"的音素序列。比较单元16通过将提取的针对"PC" 和"Intemet"的音素序列与存储在语言模型存储单元15中的多个识别词语 进行比较来输出对应于"PC"和"Intemet"两个话语段中的每一个的N个最 佳解A。此外,实际上,比较单元16从表示"Mazu PC Nitsuite Desuga."的特 征B中提取话i吾B中的所有话语部分,例如"Mazu"、 "PC"、 "Nitsuite" 以及"Desuga"。然而,在本实施方式中,为了简化描述,假设比较单元 16仅从特征B中提取单个话语段"PC"来进行描述。具体来说,比较单元 16通过将提取的"PC"话语段与存储在声音模型存储单元14中的数据进 行比较来提取针对"PC"的音素序列。比较单元16通过将提取的针对"PC" 的音素序列与存储在语言模型存储单元15中的多个识别词语进行比较来 输出对应于"PC"话语段的N个最佳解B。在图1示出的情况中,描述了这样的示例,其中上面描述的语音输 入单元11、输入标识单元12、声音处理单元13以及比较单元16中的每 一个都包括单个模块。然而,本发明并不限于这种情况。即,上面描述 的语音输入单元11、输入标识单元12、声音处理单元13以及比较单元 16中的每一个例如可以包括用于各个讲话者的多个模块。时间信息控制单元17将表示当前时间的时间信息分配给从比较单元16输出的N个最佳解A。此外,时间信息控制单元17将表示当前时间的时间信息分配给从比较单元16输出的N个最佳解B。时间信息控制单 元17将已经分配了时间信息的N个最佳解A写到识别结果存储单元18。 此外,时间信息控制单元17将已经分配了时间信息的N个最佳解B写 到识别结果存储单元18。识别结果存储单元18存储时间信息控制单元17写入的N个最佳解 A和N个最佳解B。图2示出了识别结果存储单元18中的数据结构的示 例。具体来说,识别结果存储单元18将N个最佳解A和N个最佳解B 存储为识别结果存储表18a。在图2中示出的示例中,话语号、时间以及 N个最佳解被存储在识别结果存储表18a中。具体来说,表示"PC Nitsuite Oshiete. Ato Internet Mo."的A01和表示"Mazu PC Nitsuite Desuga "的B01 作为话语号被存储在识别结果存储表18a中。与"PC"话语段相对应的N个最佳解A,和与"Intemet"话语段相对应的 N个最佳解A2被与话语号A01相关联。识别分数0.95、 0.93、 0.82、 0.81 以及0.78分别与N个最佳解A广CD"、 "PC"、 "GC"、 "OC"以及"GCC" 相关联。识别分数0.86、 0.84,...分别与N个最佳解A2"Intemet"、 "intranet",,..相关联。g卩,在N个最佳解A,和N个最佳解A2中的每一个 中,按识别分数的降序列出五个(N=5)识别词语。在图2中示出的例子 中,N个最佳解A,中的最佳解Ai(具有最高识别分数的识别词语)为"CD" (识别分数为0.95)。即,即使讲话者讲出"PC",最佳解A!也为"CD", 因而识别结果不正确。此外,N个最佳解A2中的最佳解A2 (具有最高识 别分数的识别词语)为"Intemet"(识别分数为0.86)。此外,时间信息控 制单元17分配的时间"10:00:00"(十时,零分,零秒)与N个最佳解A, 相关联。时间信息控制单元17分配的时间"10:00:01"(十时,零分,一 秒)与N个最佳解A2相关联。与"PC"话语段相对应的N个最佳解B,与话语号B01相关联。识别 分数0.96、 0.91、 0.82、 0.78以及0,71分别与N个最佳解B,PC"、 "CD"、 "GCC"、 "KC,,以及"KD,,相关联。艮卩,在N个最佳解B,中,按识别分数 的降序列出五个(N=5)识别词语。在图2中示出的例子中,N个最佳解B,中的最佳解B,(具有最高识别分数的识别词语)为"PC"(识别分数为0.96)。此外,时间信息控制单元17分配的时间"10:00:05"(十时,零分, 五秒)与N个最佳解B相关联。识别结果提取单元19从识别结果存储单元18中提取N个最佳解A (前N个最佳解)和通过话语B获得的N个最佳解B (后N个最佳解)。 话语B按时间顺序接在与N个最佳解A相对应的话语A后,并且由与对 应于N个最佳解A的话语A的讲话者不同的讲话者发出。在本实施方式 中,假设识别结果提取单元19从识别结果存储单元18中提取与"PC"话 语段相对应的N个最佳解AP和与"PC"话语段相对应的N个最佳解B,。 识别结果提取单元19将提取的N个最佳解A,和N个最佳解输出到关 联度计算单元21。同义词信息存储单元20存储关于识别词语的同义词的信息。同义词 是具有与识别词语相同意思而与该识别词语发音不同的单词。例如,在同义词信息存储单元20中存储有针对识别词语"PC"的同义词"Pasokon" (日语词,意思是"个人计算机")禾卩"个人计算机"。此外,例如,在同义 信息存储单元20中存储有针对识别词语"Internet"的同义词"Net"。关联度计算单元21计算如下关联度,所述关联度表示N个最佳解 为通过应答与N个最佳解A、相对应的话语A的应答话语B而获得的 N个最佳解的可能性。具体来说,关联度计算单元21基于N个最佳解 A中的各个解与N个最佳解B〗中的各个解一致的解的数目,并且基于关 于其中N个最佳解A中的各个解与N个最佳解B〗中的各个解一致的解 依据N个最佳解A中的识别分数的排序与依据N个最佳解B1中的识别 分数的排序之间的差,来计算关联度。在这种情况下,当确定N个最佳 解A中的各个解是否与N个最佳解Bt中的各个解一致时,关联度计算 单元21优选地参考同义词信息存储单元20。在这种设置下,即使在对应 解彼此不同的情况下,当所述对应解之一与其它解的同义词一致时或者 当所述对应解的同义词彼此一致时,关联度计算单元21可以确定所述对 应解彼此一致。在本实施方式中,其中N个最佳解A,中的各个解与N个最佳解B,中的各个解一致的解为三个解"CD"、 "PC"以及"GCC"。此外,在N个最 佳解A!中,"CD"排第一,"PC"排第二, "GCC"排第五。此外,在N个 最佳解B,中,"PC,,排第一,"CD"排第二, "GCC"排第三。在这种情况下, 在本实施方式中,关联度计算单元21使用下面描述的等式1计算关联度。 在下面描述的等式1中,X、 Y以及Z表示预定的正的常量。在这种情况 下,在下面描述等式l中,可以釆用使诸如X〉Y〉Z的关系成立的设置。 此外,ll表示绝对值。如果N个最佳解A,中的"CD"的排序和N个最佳解 Bl中的"CD"的排序相同,则在下面描述的等式1中将用零除X,从而关 联度为无穷大。因此,在这种情况下,在本实施方式中,用1.5X替换 X/0。类似的是,当"PC"或"GCC"的排序之间不存在差时,相应的是,用 1.5Y替换Y/0,或者用1.5Z替换Z/0。 [等式1〗关联度=X/(|"CD"的排序之间的差|)+Y/(|"PC"的排序之间的差 i)+Z/("GCC"的排序之间的差)在本实施方式中,根据上面描述的等式l,关联度为X+Y+Z/2。艮口, 上面描述的等式1是其中上面描述的解的数目越大并且上面描述的排序 之间的差越小,则关联度越高的等式。另一方面,相反,上面描述的等 式1是其中上面描述的解的数目越小并且上面描述的排序之间的差越大, 则关联度越低的等式。在这种情况下,在上面描述的等式1中,当其中N 个最佳解Ai中的各个解与N个最佳解B,中的各个解一致的解的数目为 零时,关联度为零。关联度计算单元21将计算出的关联度输出到应答话 语确定单元22。在前述的描述中,描述了其中关联度计算单元21基于其中N个最佳 解A中的各个解与N个最佳解Bi中的各个解一致的解的数目并且基于 关于其中N个最佳解A,中的各个解与N个最佳解Bt中的各个解一致的 那些解依据N个最佳解A,中的识别分数的排序与依据N个最佳解B,中 的识别分数的排序之间的差来计算关联度的情况。然而,本发明并不限 于这种情况。即,关联度计算单元21可以基于其中N个最佳解A,中的 各个解与N个最佳解中的各个解一致的解的数目来计算关联度。另选的是,关联度计算单元21可以基于关于其中N个最佳解A,中的各个解与N个最佳解B,中的各个解一致的那些解依据N个最佳解A,中的识别 分数的排序与依据N个最佳解Bt中的识别分数的排序之间的差来计算关在前述描述中,描述了其中关联度计算单元21利用上面描述的等式 l计算关联度的情况。然而,本发明并不限于此情况。例如,关联度计算 单元21可以使用下面描述的等式l-a (其中使用了指数函数)来计算关 联度。在这种情况下,在下面描述的等式l-a中,A表示预定的正的常量。 即,只要关联度计算单元21可以使用其中上面描述的解的数目越大且上 面描述的排序之间的差越小则关联度越高以及上面描述的解的数目越小 且上面描述的排序之间的差越大则关联度越低的等式来计算关联度,则 关联度计算单元21可以使用任何等式。[等式l-a]^^,二p^A"cD"的排序之间的差)+(Y/A"PC"的排序之间的差)+(ZyATGcc"的排序之间的差)X、 Y以及Z:任意正的常量。当关联度计算单元21计算的关联度大于或等于阈值时,应答话语确 定单元22确定N个最佳解Bi为通过应答与N个最佳解A,相对应的话语 A的应答话语B而获得的N个最佳解。在这种情况下,所述阈值被预先 记录在应答话语确定单元22中设置的存储器内。该阈值由语音识别系统 l的管理员设置。在本实施方式中,假设关联度计算单元21计算的关联 度大于或等于阈值。因此,应答话语确定单元22确定N个最佳解B,为 通过应答与N个最佳解A!相对应的话语A的应答话语B而获得的N个当应答话语确定单元22确定N个最佳解B,为通过应答与N个最佳 解A,相对应的话语A的应答话语B而获得的N个最佳解时,重复话语 确定单元23确定N个最佳解B,是否为通过应答与N个最佳解Aj相对应 的话语A的重复话语B而获得的N个最佳解。具体来说,当N个最佳解 Bi中的最佳解Bj勺识别分数大于或等于预定的识别分数时并且当满足下 面描述的(1)和(2)时,重复话语确定单元23确定N个最佳解Bj为通过应答与N个最佳解At相对应的话语A的重复话语B而获得的N个 最佳解。在这种情况下,在重复话语确定单元23中设置的存储器内预先 记录预定的识别分数和预置的排序。预定的识别分数和预置的排序由语 音识别系统1的管理员设置。(1) N个最佳解A中的解与N个最佳解Bi中的最佳解—致。(2) N个最佳解A,中与最佳解B, —致的前述解的识别分数大于或 等于预定的识别分数,或者N个最佳解A,中的与最佳解—致的前述 解位于相对于最佳解A,的预置排序或更高排序处。在本实施方式中,最佳解B,"PC"的识别分数为0,96。在本实施方式 中,假设最佳解Bj"PC"的识别分数0.96大于或等于预定的识别分数。此 外,在本实施方式中,最佳解B广PC"与N个最佳解A,中的解"PC"(该 解排第二) 一致。即,满足前述的(1)。此外,在本实施方式中,N个 最佳解A!中的解"PC"的识别分数为0.93 ,并且N个最佳解A,中的解"PC" 排第二。在本实施方式中,假设针对N个最佳解A,中的解"PC"的识别分 数0.93大于或等于预定的识别分数,并且第二排序高于或等于预置的排 序。即,满足前述的(2)。因此,重复话语确定单元23确定N个最佳解 Bi为通过应答与N个最佳解^相对应的话语A的重复话语B而获得的 N个最佳解。在这种情况下,当确定N个最佳解是否为通过应答与N个最佳解 A,相对应的话语A的重复话语B而获得的N个最佳解时,重复话语确定 单元23优选地参考同义词信息存储单元20。在这种设置中,即使在对应 解彼此不同的情况下,当对应解之一与其它解的同义词一致时或者当对 应解的同义词彼此一致时,重复话语确定单元23可以确定对应解彼此一 致。当重复话语确定单元23确定N个最佳解为通过应答与N个最佳 解A〗相对应的话语A的重复话语B而获得的N个最佳解时, 一致确定 单元24确定最佳解A!和最佳解是否彼此一致。当最佳解A和最佳解 B^皮此不一致时, 一致确定单元24确定最佳解A不正确。具体来说, 一致确定单元24确定可以用N个最佳解中的一部分或全部来替换N个最佳解A,中的一部分或全部。在本实施方式中,由于最佳解A,"CD"与最佳解B广PC"不一致,所以一致确定单元24确定可以用N个最佳解 B,中的一部分或全部来替换N个最佳解A,中的一部分或全部。一致确定 单元24将确定的结果输出到识别结果纠正单元25和比较处理改变单元 28。当一致确定单元24确定最佳解A,和最佳解彼此不一致时,识别 结果纠正单元25将识别结果存储单元18 (其中存储了 N个最佳解A。 中的最佳解A更新为最佳解Bj。在本实施方式中,识别结果纠正单元25将识别结果存储单元18 (其 中存储了N个最佳解A,)中的最佳解A,CD"更新为最佳解B,PC"。具 体来说,识别结果纠正单元25为N个最佳解A,中的解"PC"的识别分数 0.93分配权重,使得N个最佳解A,中的解"PC"的识别分数0.93大于最 佳解A,"CD"的识别分数0.95。例如,识别结果纠正单元25将权重0.05 加到N个最佳解A,中的解"PC"的识别分数0.93上。所以,N个最佳解 中的解"PC"的识别分数变为0.98。识别结果纠正单元25将最佳解 A广CD"和识别分数0.95更新为最佳解A,"PC"和识别分数0.98。识别结 果纠正单元25还将已经作为最佳解A,并且识别分数0.95的"CD"降为第 二排序。图3示出识别结果纠正单元25更新数据之后的识别结果存储单 元18中的数据结构的示例。如图3中所示出,识别结果纠正单元25将 最佳解At从"CD"更新为"PC"。在前述描述中,描述了其中识别结果纠正单元25为N个最佳解A! 中的解"PC"的识别分数0.93分配权重,使得N个最佳解A,中的解"PC" 的识别分数0.93大于最佳解A广CD"的识别分数0.95的情况。然而,本 发明并不限于这种情况。例如,识别结果纠正单元25可以简单地用最佳 解B1"PC"替换最佳解A,"CD"。在这种设置中,与执行加权的情况相比 较,可以减小语音识别系统l的计算成本。此外,即使当已经将最佳解AJ人"CD"更新为"PC"时,识别结果纠正 单元25也可以在存储器中如执行加权之前的原样来记录解"PC"和识别分 数0.93。这是因为语音识别系统1的管理员可能要使用如执行加权之前的原样的解"PC"和识别分数0.93。此外,识别结果纠正单元25可以不将识别结果存储单元18 (其中存 储了N个最佳解A,)中的最佳解A,CD"更新为最佳解BrPC",并且可 以将纠正的最佳解A,"PC"和最佳解B,"PC"输出到输出呈现单元27。输出生成单元26包括结果输出单元26a和纠正历史记录生成单元26b。结果输出单元26a提取识别结果存储单元18中存储的最佳解A"最 佳解A2以及最佳解B^在本实施方式中,结果输出单元26a提取已经被 识别结果纠正单元25更新的最佳解A,PC"、最佳解A2"Intemet"以及最 佳解B,PC"。结果输出单元26a将已经提取的最佳解A广PC"、最佳解 A2"Intemet"以及最佳解B,PC"输出到输出呈现单元27。纠正历史记录生成单元26b生成表示通过识别结果纠正单元25施加 的更新的历史记录的历史记录数据。在本实施方式中,识别结果纠正单 元25将最佳解A,从"CD"更新为"PC"。因此,纠正历史记录生成单元26b 生成表示了示出最佳解A,已经从"CD"更新为"PC"的历史记录的历史记 录数据。纠正历史记录生成单元26b将生成的历史记录数据输出到输出 呈现单元27。输出呈现单元27向讲话者b (接线员)展示最佳解A,PC"、最佳解 A2"Intemet"、最佳解B,PC"以及从输出生成单元26输出的历史记录数 据。图4是示出在输出呈现单元27上呈现(显示)的显示画面的示例的 示意图。如图4中所示,话语A特有的话语号AOl、最佳解A,PC"、最 佳解A2"Intemet"、话语B特有的话语号B01以及最佳解B,PC"被显示 在输出呈现单元27上。此外,在输出呈现单元27上显示出"CD—PC", 所述"CD — PC"表示示出了最佳解已经从"CD"被纠正为"PC"的历史记 录。因此,讲话者b可以査看错误识别结果的纠正的历史记录。在这种 情况下,输出呈现单元27可以通过闪烁或加亮表示所述历史记录的 "CD—PC"的显示来使讲话者易于看到所述历史记录。例如,输出呈现单 元27包括液晶显示器、有机EL显示器、等离子显示器、CRT显示器、 扬声器或者语音合成器。在这种情况下,可以提供讲话者b借助输入装置(未示出)的操作将已经被识别结果纠正单元25从"CD"更新为"PC"的最佳解A,恢复到它的初始状态的功能(撤消功能)。具体来说,在讲话者b发出指令来执行撤消功能后,通过讲话者b对输入装置(未示出)的操作来将最佳解A, 从更新之后的"PC"恢复为更新之前的"CD"。通过该操作在输出呈现单元 27上将"CD—PC"的显示改变成"CD"的显示。当一致确定单元24确定最佳解A,和最佳解B,彼此一致时,比较处 理改变单元28基于共现信息和/或语义属性来改变比较单元16使用的比 较方法。当最佳解A与最佳解B,.彼此一致时,解的可靠性较高。在这种 情况下,共现信息是表示识别词语之间的共现关系的信息。共现关系表 示可能在语句中同时出现的识别词语的组以及识别词语之间的关系。语 义属性是表示识别词语的意思的属性。共现信息被预先存储在共现信息 存储单元29中。语义属性被预先存储在语义属性存储单元30中。在本实施方式中,最佳解A,"CD"和最佳解B,"PC"彼此不一致(见 图2)。因此,在本实施方式中,比较处理改变单元28不执行前述处理。 在本实施方式中,如果最佳解A,为"PC",则最佳解A,"PC"与最佳解 Bi"PC"彼此一致。在这种情况下,比较处理改变单元28基于共现信息和 /或语义属性改变比较单元16使用的比较方法。在一例子中,比较处理改变单元28基于语义属性来改变比较单元16 使用的比较方法,从而使得具有与最佳解A,与最佳解B1"PC"相关的意 思的识别词语的识别分数比这些识别词语之外的其它识别词语的识别分 数高。在这种情况下,假设具有与"PC"相关的意思的识别词语为与计算 机术语相关的识别词语。具体来说,比较处理改变单元28向比较单元16 发送指令,以例如向与计算机术语相关的识别词语分配预定的识别分数, 使得与计算机术语相关的识别词语的识别分数比计算机术语之外的其它 识别词语的识别分数高。即,在讲话者a与讲话者b之间的对话中,当 最佳解A,和最佳解B,为"PC"时,可以确定识别结果的可靠性非常高。 因此,可以确定对话内容也与计算机相关。此外,随后话语的内容与计 算机相关的可能性较高。因此,当比较处理改变单元28向比较单元16发送指令以向与计算机术语相关的识别词语分配预定的识别分数时,可 提高比较单元16识别的准确率。此外,在另一例子中,比较处理改变单元28基于语义属性来改变比较单元16使用的比较方法,使得具有与最佳解A,和最佳解B,PC"相关 的意思的识别词语被设置为进行比较的识别词语,而其它识别词语被设 置为不进行比较的识别词语。具体来说,比较处理改变单元28向比较单 元16发送指令以将与计算机术语相关的识别词语设置为进行比较的识别 词语,而将其它识别词语设置为不进行比较的识别词语。即,在讲话者a 与讲话者b之间的对话中,当最佳解A,和最佳解B,为"PC"时,可以确 定识别结果的可靠性非常高。因此,可以确定对话内容也与计算机相关。 此外,随后话语的内容与计算机相关的可能性较高。因此,当比较处理 改变单元28向比较单元16发送指令以将与计算机术语相关的识别词语 设置为进行比较的识别词语,而将其它识别词语设置为不进行比较的识 别词语时,可以提高比较单元16识别的准确率。在这种情况下,在发出执行撤消功能的指令之后,讲话者b可以通 过操作输入装置(未示出)来撤消由比较处理改变单元28进行的对比较 单元16使用的比较方法的改变。还可以通过在任意计算机(例如个人计算机)中安装程序来实现前 述语音识别系统l。即,可通过计算机中的CPU根据执行这些组件的功 能的程序进行操作来实现上面描述的语音输入单元11、输入标识单元12、 声音处理单元13、比较单元16、时间信息控制单元17、识别结果提取单 元19、关联度计算单元21、应答话语确定单元22、重复话语确定单元 23、 一致确定单元24、识别结果纠正单元25、输出生成单元26、输出呈 现单元27以及比较处理改变单元28。因此,本发明的实施方式包括程序 或其中记录了程序的记录介质。所述程序执行语音输入单元11、输入标 识单元12、声音处理单元13、比较单元16、时间信息控制单元17、识 别结果提取单元19、关联度计算单元21、应答话语确定单元22、重复话 语确定单元23、 一致确定单元24、识别结果纠正单元25、输出生成单元 26、输出呈现单元27以及比较处理改变单元28的功能。此外,通过计算机中包括的存储单元或可以从计算机访问的存储单元实现声音模型存 储单元14、语言模型存储单元15、识别结果存储单元18、同义词信息存储单元20、共现信息存储单元29以及语义属性存储单元30。在前述语音识别系统1中,可以采用其中讲话者b可以通过操作输入装置(未示出)来发出指令以启用或禁用识别结果纠正单元25和比较处理改变单元28的功能的设置。 C语音识别系统的操作]现在将参照图5描述与前述结构相关的语音识别系统1中的处理。 图5是示出语音识别系统1中的处理的概况的流程图。如图5中所 示,当语音输入单元ll已经接受两个讲话者(即讲话者a和讲话者b) 之间的对话时,语音输入单元11将讲话者a发出的话语A转换成话语数 据A,并且将讲话者b发出的话语B转换成话语数据B (操作Opl)。输 入标识单元12将话语号A01分配给通过操作Opl中的转换获得的话语 数据A,并将话语号B01分配给通过操作Opl中的转换获得的话语数据 B (操作Op2)。声音处理单元13将从输入标识单元12输出的话语数据 A转换成特征A,并将从输入标识单元12输出的话语数据B转换成特征 B (操作Op3)。然后,比较单元16执行前述的比较处理(操作Op4)。具体来说, 比较单元16基于话语A和存储在语言模型存储单元15中的多个识别词 语,利用通过操作Op3中的转换获得的特征A,来计算识别分数。作为 识别分数的计算结果,假设具有最高识别分数的识别词语为最佳解A, 比较单元16将从最佳解A开始的具有较高识别分数的头N (N是大于或 等于1的整数)个识别词语输出为N个最佳解A。此外,比较单元16基 于话语B和存储在语言模型存储单元15中的多个识别词语,利用通过操 作Op3中的转换获得的特征B,来计算识别分数。作为识别分数的计算 结果,假设具有最高识别分数的识别词语为最佳解B,比较单元16将从 最佳解B开始的具有较高识别分数的头N (N是大于或等于1的整数) 个识别词语输出为N个最佳解B。时间信息控制单元17将表示当前时间的时间信息分配给在操作Op4中输出的N个最佳解A,并将表示当前时间的时间信息分配给在操作Op4中输出的N个最佳解B (操作Op5)。如图2中所示,已经在操作Op5 中分配了时间信息的N个最佳解A和N个最佳解B被存储在识别结果存 储单元18中。然后,识别结果提取单元19从识别结果存储单元18中提取N个最 佳解A和通过话语B获得的N个最佳解B。话语B按时间顺序跟随在对 应于所述前N个最佳解A的话语A之后并且由与对应于所述N个最佳 解A的话语A的讲话者不同的讲话者b发出。在这种情况下,假设识别 结果提取单元19从识别结果存储单元18 (见图2)中提取对应于"PC" 话语段的N个最佳解A,和对应于"PC"话语段的N个最佳解B,。关联度计算单元21计算表示在操作Op6中提取的N个最佳解B,为 通过应答与N个最佳解A,相对应的话语A的应答话语B而获得的N个 最佳解的可能性的关联度(操作Op7)。在这种情况下,关联度计算单元 21使用前述方法计算关联度。当在操作Op7中计算的关联度大于或等于 阈值时(操作Op8中为是),应答话语确定单元22确定在操作Op6中提 取的N个最佳解Bi为通过应答与N个最佳解A相对应的话语A的应答 话语B而获得的N个最佳解。然后,处理前进到操作Op9。另一方面, 当在操作Op7中计算的关联度小于阈值(操作Op8中为否)时,应答话 语确定单元22确定在操作Op6中提取的N个最佳解B,不是通过应答与 N个最佳解A,相对应的话语A的应答话语B而获得的N个最佳解。然 后,图5中的处理完成。当重复话语确定单元23确定N个最佳解B,为通过应答与N个最佳 解A,相对应的话语A的重复话语B而获得的N个最佳解时(操作Op9 中为是),处理前进到操作Op10。另一方面,当重复话语确定单元23确 定N个最佳解Bi不是通过应答与N个最佳解A,相对应的话语A的重复 话语B而获得的N个最佳解时(操作Op9中为否),图5中的处理完成。一致确定单元24确定N个最佳解Ai中的最佳解A和N个最佳解 中的最佳解Bi是否彼此一致。当一致确定单元24确定最佳解和最 佳解B^皮此不一致时(操作Opl0中为否), 一致确定单元24确定可以用N个最佳解B,中的一部分或全部来替换N个最佳解A,中的一部分或 全部。然后,处理前进到操作Opll。识别结果纠正单元25将识别结果存储单元18 (其中存储了 N个最 佳解A。中的最佳解A,更新为最佳解Bi (操作Opll)。结果输出单元 26a提取存储在识别结果存储单元18中的最佳解最佳解A2以及最 佳解Bi (操作Opl2)。纠正历史记录生成单元26b生成表示操作Opll 中实施的更新的历史记录的历史记录数据(操作Opl3)。输出呈现单元 27呈现操作Opl2中提取的最佳解A,、最佳解A2以及最佳解B,和在操 作Opl3中生成的历史记录数据(操作Opl4)。另一方面,当一致确定单元24确定最佳解A,和最佳解B,彼此一致 时(操作OplO中为是),比较处理改变单元28基于共现信息和/或语义 属性来改变比较单元16使用的比较方法(操作Opl5)。如上面所描述的,在根据本实施方式的语音识别系统1中,当重复 话语确定单元23确定N个最佳解B,为通过应答与N个最佳解A,相对应 的话语A的重复话语B而获得的N个最佳解时, 一致确定单元24确定 最佳解At和最佳解彼此一致。当最佳解和最佳解B彼此不一致时, 一致确定单元24确定最佳解A不正确。 一般来说,接线员经常接受培 训,从而与用户相比较他们讲话更清晰。此外,接线员可以注意自己的 讲话,使得可以获得识别的正确结果。此外,在呼叫中心中提供语音识 别系统1的情况下,通过电话线识别用户发出的话语,而不通过电话线 识别接线员的发出的话语,所以与接线员发出的话语信息相比较,用户 发出的话语信息可能由于电话线中噪音的侵扰或各种滤波器的干预而严 重劣化。因为这个原因,根据本发明的一致确定单元24确定可以用N个 最佳解B中的一部分或全部来替换N个最佳解A中的一部分或全部。因 此,在用户和接线员之间的对话中,当用户的话语被错误识别时,可以 在用户未意识到该动作、接线员无需通过输入装置(例如键盘)进行操 作并且不干扰对话的情况下,纠正错误识别的结果。前述特定例子仅是根据本发明的语音识别系统1的优选实施方式。 例如,可以对关联度计算单元的关联度计算和在输出呈现单元上呈现内容的处理进行各种修改。[关联度计算单元的关联度计算处理的第一修改例]现在以在图5中示出的操作Op7中关联度计算单元21进行的关联度 计算处理的第一修改例作为示例进行描述。具体来说,关联度计算单元21基于N个最佳解A和N个最佳解B之间的时间差来计算关联度。在 第一修改例中,关联度计算单元21基于由分配给N个最佳解A,的时间 信息所表示的当前时间"10:00:00"与由分配给N个最佳解B,的时间信息 所表示的当前时间"10:00:05"之间的时间差"5"来计算关联度。具体来说, 在第一修改例中,关联度计算单元21使用下面描述的等式2来计算关联 度。在下面描述的等式2中,X表示预定的正的常量。此外,ll表示绝对 值。[等式2]关联度=力|由分配给N个最佳解A,的时间信息所表示的当前时间与 由分配给N个最佳解B、的时间信息所表示的当前时间之间的时间差l在第一修改例中,根据上面描述的等式2,关联度为X/5。即,上面 描述的等式2是其中前述的时间差越小,关联度越高的等式。另一方面, 相反,上面的等式2是其中前述时间差越大,关联度越低的等式。[关联度计算单元的关联度计算处理的第二修改例]现在以在图5中示出的操作Op7中关联度计算单元21进行的关联度 计算处理的第二修改例作为另一个示例进行描述。具体来说,关联度计 算单元21按时间顺序将分别对应于P个话语段的多组N个最佳解A中 的第一组N个最佳解A设置为第一 N个最佳解A。关联度计算单元21 还按照时间顺序将分别对应于Q个话语段的多组N个最佳解B中的第一 组N个最佳解B设置为第一N个最佳解B。在这种情况下,第一N个最 佳解A为N个最佳解A,。此外,第一N个最佳解B为N个最佳解B,。 关联度计算单元21基于分别对应于所述Q个话语段的多组N个最佳解B 中的一组N个最佳解相对于所述第一N个最佳解B的出现位置,与对应 于所述一组N个最佳解B的一组N个最佳解A相对于所述第一 N个最 佳解A的出现位置之间的位置差来计算关联度。在这种情况下,关联度计算单元21使用上面描述的等式1或等式2来确定一组N个最佳解A是否对应于一组N个最佳解B。在第二修改例中,关联度计算单元21基 于所述第一 N个最佳解B,出现的位置与对应于所述第一 N个最佳解B, 的所述第一N个最佳解A,出现的位置之间的零差来计算关联度。具体来 说,在第二修改例中,关联度计算单元21使用下面描述的等式3来计算 关联度。在下面描述的等式3中,X和Y表示预定的正的常量。此外, ll表示绝对值。 [等式3]关联度X-Yx(iN个最佳解Bi出现的位置与N个最佳解A,出现的位 置之间的差D在第二修改例中,根据上面描述的等式3,关联度为X。即,上面描 述的等式3是其中前述位置之间的差越小,关联度越高的等式。另一方 面,相反,上面描述的等式3是其中前述位置之间的差越大,关联度越 低的等式。[关联度计算单元的关联度计算处理的第三修改例] 现在以在图5中示出的操作Op7中关联度计算单元21进行的关联度 计算处理的第三修改例作为另一个示例进行描述。图6是示出根据第三 修改例的语音识别系统la的总体结构的框图。即,除图l中示出的语音 识别系统1之外,根据第三修改例的语音识别系统la还包括功能字典51。 根据第三修改例的语音识别系统la还包括在图1中示出的输出生成单元 26中的功能单词提取单元52。在图6中,利用与图1中相同的参考标号 来指示与图1所示的组件功能相同的组件,并且在此省略其详细描述。功能字典51与话语出现的位置相关联地存储表示话语出现的位置的 功能单词。图7示出功能字典51中的数据结构的示例。具体来说,功能 字典51将表示话语出现的位置的功能单词和所述位置存储为功能单词表 51a。在图7中示出的示例中,功能单词表51a存储表示话语出现位置的 以下功能单词"Ichi-banme"(日语单词,意思是"第一")、"Ni-ba画" (日语单词,意思是"第二") ,...,"N-banme"(日语单词,意思是"第N")、 "Mazu"(日语单词,意思是"第一")、"Tsugi"(日语单词,意思是"下一个"),...,"Owarini"(日语单词,意思是"最后")、"Hajimeni"(日语单词, 意思是"第一"),...,以及"Saigoni"(日语单词,意思是"最后")。此外,在 功能单词表51a中,以与这些功能单词相关联的方式存储这些功能单词 表示的位置。在这种情况下,由语音识别系统la的管理员预先设置存储 在功能字典51中的功能单词与位置。此外,假设第三修改例中的比较单元16从表示"Mazu PC Nitsuite Desuga"的特征B中提取两个话语段"Mazu"和"PC"。具体来说,比较单 元16通过将提取的"Mazu"和"PC"话语段与存储在声音模型存储单元14 中的数据进行比较来提取"MaziT和"PC"的音素序列(符号序列)。比较单 元16通过将提取的"Mazu"和"PC"的音素序列与存储在语言模型存储单 元15中的多个识别词语进行比较来输出与"Mazu"和"PC"两个话语段中 的每一个对应的N个最佳解B。因此,如图8中所示,替代图2中示出的识别结果存储表18a,将识 别结果存储表18b存储在第三修改例中的识别结果存储单元18内。具体 来说,除了识别结果存储表18a,在识别结果存储表18b中,也将与"Mazu" 话语段相对应的N个最佳解B,与话语号B01相关联。识别分数0.90、 0.65,...分别与N个最佳解B,Mazu"、 "map",...相关联。此外,时间信息 控制单元17分配的时间"10:00:05"(十时,零分,五秒)与N个最佳解 B,相关联。当分别对应于Q个话语段的多组N个最佳解B中的任何一组N个最 佳解B中的最佳解B与功能字典51中存储的功能单词彼此一致时,关联 度计算单元21将该功能单词表示的位置设置为一组N个最佳解B出现 的位置,所述一组N个最佳解B按时间顺序接在包括与所述功能单词一 致的所述最佳解B的所述一组N个最佳解B后。在第三修改例中,关联 度计算单元21确定最佳解B卩'Mazu"和最佳解B2"PC"是否与功能单词一 致。在这种情况下,最佳解B!"Mazu"与功能单词"Mazu"—致。因此,关 联度计算单元21将功能单词"Mazu"表示的位置1设置为N个最佳解B2 出现的位置,所述N个最佳解B2按时间顺序接在包括所述最佳解 B,Mazu"的N个最佳解B,后。即,所述N个最佳解B2成为第一 N个最佳解B2,而不是第二N个最佳解B2。和在第二修改例中一样,关联度计算单元21基于分别与Q个话语段相对应的多组N个最佳解B中的一组最佳解B相对于第一 N个最佳解B 的出现位置与对应于所述一组N个最佳解B的一组N个最佳解A相对于 第一N个最佳解A的出现位置之间的位置差来计算关联度。在第三修改 例中,关联度计算单元21基于所述第一 N个最佳解B2出现的位置和对 应于所述第一 N个最佳解B2的所述第一 N个最佳解A,出现的位置之间 的零差来计算关联度。在这种情况下,用于计算关联度的等式与上面描 述的等式3类似。在这种设置中,例如,即使在讲话者b讲"PC"之前, 讲话者b已经发出另一话语的情况下,当讲话者b紧随讲功能单词"Mazu" 之后讲出"PC"时,对应于"PC"话语段的N个最佳解B2出现的位置和对应 于"PC"话语段的N个最佳解A,出现的位置也相同(第一)。因此,关联 度计算单元21可以使用上面描述的等式3来计算最大关联度。因此,与 其中基于时间序列上的位置之间的差来简单计算关联度的第二修改例相 比,可以更精确地计算关联度。功能单词提取单元52从功能字典51提取与分别对应于P个话语段 的多组N个最佳解A在时间序列上出现的位置相对应的功能单词。如图 9中所示,在讲话者a发出话语A"PC Nitsuite Oshiete. Ato Internet Mo." 之后,将N个最佳解A,和N个最佳解A2作为识别结果存储表18c存储 在识别结果存储单元18中。在这种情况下,功能单词提取单元52从功 能字典51中提取与分别对应于两个话语段的多组N个最佳解A在时间 序列上出现的位置1和2相对应的功能单词。具体来说,功能单词提取 单元52从功能字典51中提取对应于位置1的功能单词"Ichi-banme"、 "Mazu,,以及"Hajimeni"。功能单词提取单元52还从功能字典51中提取对 应于位置2的功能单词"Ni-banme"和"Tsugi"。功能单词提取单元52将提 取的功能单词输出到输出呈现单元27。输出呈现单元27与分别对应于P个话语段的多组N个最佳解A的 各个最佳解A相关联地呈现功能单词提取单元27所提取的功能单词。在 第三修改例中,输出呈现单元27与最佳解A广CD"和最佳解A2"Intemet"相关联地呈现功能单词提取单元52所提取的功能单词。图10是示出在输出呈现单元27上呈现(显示)的显示画面的示例的示意图。如图10 中所示,以与最佳解A,"CD"相关联的方式在输出呈现单元27上显示功 能单词"Ichi-banme/Mazu/Hajimeni"。此外,以与最佳解A2"Intemet"相关 联的方式在输出呈现单元27上显示功能单词"Ni-banme/Tsugi"。因此,讲 话者b发现,尽管讲话者a已讲出"PC",但是识别结果(最佳解A,)为 不正确的"CD"。然后,例如,讲话者b在讲了与最佳解A,"CD"相关联显 示的功能单词"Ichi-banme/Mazu/Hajimeni"中的任意一个后立即重复地讲 正确的识别结果(即"PC"),从而纠正错误识别的结果。具体来说,在第 三修改例中,讲话者b发出话语B"MazuPCNitsuiteDesuga."。因此,如 上面所描述的,关联度计算单元21可以使用上面描述的等式3计算最大 关联度。从而,应答话语确定单元22可以可靠地确定N个最佳解B为 通过应答与N个最佳解A相对应的话语A的应答话语B而获得的N个 最佳解。[关联度计算单元的关联度计算处理的第四修改例] 此外,将以在图5中示出的操作Op7内关联度计算单元21的关联度 计算处理的第四修改例作为另一个示例进行描述。首先假设通过本实施 方式中描述的关联度计算单元21计算的关联度为第一关联度,通过第一 修改例中描述的关联度计算单元21计算的关联度为第二关联度,通过第 二修改例中描述的关联度计算单元21计算的关联度为第三关联度,通过 第三修改例中描述的关联度计算单元21计算的关联度为第四关联度。在 这种情况下,关联度计算单元21基于全部第一到第四关联度或者第一到 第四关联度的部分组合来计算关联度。例如,关联度计算单元21通过计 算第一到第四关联度的和或积来计算关联度。由于基于多个关联度的组 合来计算关联度,所以可计算出比前述实施方式和第一到第三修改例中 的关联度更准确的关联度。在前述描述中,描述了其中关联度计算单元21基于全部第一到第四 关联度或第一到第四关联度的部分组合来计算关联度的情况。然而,本 发明并不限于这种情况。例如,关联度计算单元21可以在向第一到第四关联度分配不同权重或应用不同纠正值之后再计算关联度。此外,可以提供改变关联度计算方法的关联度计算方法改变单元。 例如,关联度计算方法改变单元在关联度计算单元21基于第一和第二关 联度来计算关联度的方法与关联度计算单元21基于第三和第四关联度来 计算关联度的另一种方法之间执行切换。因此,关联度计算方法改变单 元可以根据语音识别系统的方便性来改变用于计算关联度的方法。此外,关联度计算单元21可以使用例如DP匹配来计算语音输入单 元11接受的话语A的语音波形与语音输入单元11接受的话语B的语音 波形之间的相似度,并基于该相似度计算关联度。此外,关联度计算单 元21可以使用例如DP匹配来计算通过声音处理单元13的转换而获得的 特征A与通过声音处理单元13的转换而获得的特征B之间的相似度, 并基于该相似度计算关联度。即,只要可以计算表示N个最佳解B为通 过应答与N个最佳解A相对应的话语A的应答话语B而获得的N个最 佳解的可能性的关联度,关联度计算单元21可以使用任何方法。此外,在前述描述中,描述了其中重复话语确定单元23确定N个最 佳解B!是否为通过应答与N个最佳解A相对应的话语A的重复话语B 而获得的N个最佳解。然而,本发明并不限于这种情况。即,当N个最 佳解B为通过按时间顺序跟随在对应于N个最佳解A的话语A之后并且 由与对应于所述N个最佳解A的话语A的讲话者不同的讲话者发出话语 而获得的N个最佳解时,重复话语确定单元23可以执行确定处理。艮口,本发明并不限于前述实施方式和第一到第四修改例,并且可以 在权利要求描述的范围内做出各种改变。因此,本发明的技术范围还覆 盖了通过组合在权利要求描述的范围内适当改变的技术手段而获得的实 施方式。此外,关于前述实施方式公开了以下附属物。如上所述,在本发明的语音识别系统和语音识别程序中,可获得以 下优点在至少两个讲话者之间的对话中,当一个讲话者的话语被错误 识别时,可在该讲话者未意识到该动作而另一个讲话者无需通过诸如键 盘的输入装置进行操作且不干扰该对话的情况下纠正错误识别的结果。
权利要求
1、一种语音识别系统,所述语音识别系统包括标识器,所述标识器用于向与通过讲话者的话语生成的信号相对应的话语数据添加标识码,所述标识码可以用于标识所述讲话者;计算器,所述计算器用于通过针对每个所述标识码的值来对所述话语数据评定,所述值是基于所述话语数据的特性与从存储的多组单词信息中选择的单词信息的特性之间的比较来确定的;存储部,所述存储部用于存储与N组话语数据相对应的N条词语信息,所述话语数据具有相同的标识码,所述N组话语数据具有在头N个之内的所述值,N为大于或等于1的整数;选择器,所述选择器用于选择时间上在前N条单词信息之后的后N条单词信息,与所述后N条单词信息和所述前N条单词信息有关的话语数据的标识码彼此不同;关联计算器,所述关联计算器用于计算所述前N条单词信息和所述后N条单词信息之间的关联度,所述关联度能够对在关于所述前N条单词信息的话语之后执行关于所述后N条单词信息的话语的情况进行评定;第一确定器,所述第一确定器用于确定与在关于所述前N条单词信息的话语之后执行的话语相对应的所述后N条单词信息;以及第二确定器,所述第二确定器用于基于预定条件来确定与作为对关于所述前N条单词信息的话语的应答话语有关的后N条单词信息。
2、 根据权利要求1所述的语音识别系统,所述语音识别系统还包括: 第三确定器,所述第三确定器用于确定所述前N条单词信息中的第一前单词信息是否与所述后N条单词信息中的第一后单词信息一致,所 述第一前单词信息对应于在关于所述前N条单词信息的数据内具有最高 值的话语数据,所述第一后单词信息对应于在关于所述后N条单词信息 的数据内具有最高值的话语数据。
3、 根据权利要求2所述的语音识别系统,所述语音识别系统还包括:替换器,所述替换器用于在所述第一前词语信息与所述第一后词语 信息不一致的情况下,用所述后N条单词信息中的所述第一后单词替换 所述前N条单词信息中的所述第一前单词信息。
4、 一种语音识别系统,所述语音识别系统包括输入标识装置,所述输入标识装置用于标识接收到的话语信号的讲话者;识别结果存储部,所述识别结果存储部用于将从最佳解开始的具有 较高识别分数的头N个识别词语存储为N个最佳解,N为大于或等于1 的整数,通过将与所述话语相对应的数据与多个识别词语进行比较来计 算所述识别分数,具有最高识别分数的识别单词为所述最佳解;识别结果提取装置,所述识别结果提取装置用于从所述识别结果存 储部中提取N个最佳解作为后N个最佳解,所述后N个最佳解按时间顺 序跟在对应于所述前N个最佳解的话语之后,所述后N个最佳解由与对 应于所述前N个最佳解的话语的讲话者不同的讲话者发出;关联度计算装置,所述关联度计算装置用于计算关联度,所述关联 度表示所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语 的应答话语而获得的N个最佳解的可能性;应答话语确定装置,所述应答话语确定装置用于在所述关联度大于 或等于阈值的情况下,确定所述后N个最佳解为通过应答与所述前N个 最佳解相对应的话语的应答话语而获得的N个最佳解;重复话语确定装置,所述重复话语确定装置用于在所述后N个最佳 解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N 个最佳解的情况下,确定所述后N个最佳解是否为通过应答与所述前N 个最佳解相对应的话语的重复话语而获得的N个最佳解;以及一致确定装置,所述一致确定装置用于在所述后N个最佳解为通过 应答与所述前N个最佳解相对应的话语的重复话语而获得的最佳解的情 况下,确定前最佳解与后最佳解是否彼此一致,所述前最佳解为所述前N 个最佳解中的最佳解,所述后最佳解为所述后N个最佳解中的最佳解; 并且所述一致确定装置还用于在所述前最佳解与所述后最佳解彼此不一致的情况下,确定可以用所述后N个最佳解中的一部分或全部来替换所 述前N个最佳解中的一部分或全部。
5、 根据权利要求4所述的语音识别系统,所述语音识别系统还包括 识别结果纠正装置,所述识别结果纠正装置用于在所述一致确定装置确定所述前最佳解与所述后最佳解彼此不一致的情况下,将所述识别 结果存储部中的所述前最佳解更新为所述后最佳解,所述识别结果存储 部存储所述前N个最佳解;以及结果输出装置,所述结果输出装置用于输出由所述识别结果纠正装 置更新的所述后最佳解。
6、 根据权利要求4所述的语音识别系统,所述语音识别系统还包括-纠正历史记录生成装置,所述纠正历史记录生成装置用于生成表示所述识别结果纠正装置实施的更新的历史记录的历史记录数据;以及输出呈现装置,所述输出呈现装置用于呈现由所述纠正历史记录生 成装置生成的所述历史记录数据。
7、 根据权利要求4所述的语音识别系统,其中,在所述应答话语确 定装置确定所述后N个最佳解为通过应答与所述前N个最佳解相对应的 话语的应答话语而获得的N个最佳解的情况下,当所述后N个最佳解中 的所述后最佳解的识别分数大于或等于预定识别分数时,并且当同时满 足第一条件和第二条件时,所述重复话语确定装置确定所述后N个最佳 解为通过应答与所述前N个最佳解相对应的话语的重复话语而获得的N 个最佳解,所述第一条件为所述前N个最佳解中的解与所述后N个最佳 解中的所述后最佳解一致,所述第二条件为所述前N个最佳解中与所述 后最佳解一致的前述解的识别分数大于或等于预定识别分数,或者所述 前N个最佳解中与所述后最佳解一致的前述解被置于相对于所述前最佳 解的预置排序或更高排序处。
8、 根据权利要求4所述的语音识别系统,所述语音识别系统还包括 存储共现信息的共现信息存储部和/或存储语义属性的语义属性存储部,所述共现信息表示识别词语之间的共现关系,所述语义属性表示识 别词语的意思;以及比较处理改变装置,所述比较处理改变装置用于在所述前最佳解和 所述后最佳解彼此一致的情况下,基于所述共现信息和/或所述语义属性 来改变用于比较话语和多个识别词语的方法。
9、 根据权利要求4所述的语音识别系统,其中,所述关联度计算装 置基于以下项目中的至少一个来计算关联度所述前N个最佳解中的各个解与所述后N个最佳解中的各个解一致的解的数目;在所述前N个最 佳解中基于识别分数的排序和在所述后N个最佳解中基于识别分数的排 序之间的差,所述前N个最佳解中的各个解与所述后N个最佳解中的各 个解一致;输出所述前N个最佳解的时间和输出所述后N个最佳解的时 间之间的时间差;在通过比较第一话语和多个识别词语来获得多组所述 前N个最佳解,并且通过比较由与所述第一话语的讲话者不同的讲话者 发出的第二话语和所述多个识别词语来获得多组所述后N个最佳解的情 况下,所述多组所述前N个最佳解在时间序列上的出现位置与所述多组 所述后N个最佳解在时间序列上的出现位置之间的差。
10、 根据权利要求9所述的语音识别系统,其中,所述前N个最佳 解中的各个解与所述后N个最佳解中的各个解一致的解的数目越大,并 且对于所述前N个最佳解中的各个解与所述后N个最佳解中的各个解一 致的解,在所述前N个最佳解中基于识别分数的排序与在所述后N个最 佳解中基于识别分数的排序之间的差越小,则所述关联度计算装置计算 出的关联度越高。
11、 根据权利要求9所述的语音识别系统,所述语音识别系统还包括时间信息控制装置,所述时间信息控制装置用于将表示当前时间的 时间信息分配给所述N个最佳解,并且用于将包括所分配的时间信息的所述N个最佳解写到所述识别结果存储部中,其中,分配给所述前N个最佳解的时间信息表示的当前时间与分配 给所述后N个最佳解的时间信息表示的当前时间之间的时间差越小,则 所述关联度计算装置计算出的关联度越高。
12、 根据权利要求9所述的语音识别系统,其中,在通过比较第一话语和多个识别词语来获得多组所述前N个最佳解并且通过比较由与所 述第一话语的讲话者不同的讲话者发出的第二话语和所述多个识别词语来获得多组所述后N个最佳解的情况下,所述多组所述前N个最佳解在 时间序列上的出现位置与所述多组所述后N个最佳解在时间序列上的出 现位置之间的差越小,则所述关联度计算装置计算出的关联度越高。
13、 根据权利要求12所述的语音识别系统,所述语音识别系统还包括功能字典,所述功能字典用于与话语的出现位置相关联地存储表示 所述位置的功能单词,其中,当所述多组所述后N个最佳解中的任一组所述后N个最佳解 中的后最佳解与一功能单词一致时,所述关联度计算装置将所述功能单 词表示的位置设置为一组后N个最佳解的出现位置,所述一组后N个最 佳解按时间顺序紧接在包括与所述功能单词一致的所述后最佳解的所述 任一组所述后N个最佳解之后。
14、 根据权利要求13所述的语音识别系统,所述语音识别系统还包括功能单词提取装置,所述功能单词提取装置从所述功能字典中提取与所述多组所述前N个最佳解在时间序列上的出现位置相对应的功能单 词,其中,所述输出呈现装置与所述多组所述前N个最佳解的各个前最 佳解相关联地呈现由所述功能单词提取装置提取的功能单词。
15、 一种语音识别方法,所述语音识别方法包括以下步骤向与讲话者的话语生成的信号相对应的话语数据添加标识码,所述 标识码可以用于标识所述讲话者;通过针对每个所述标识码的值来对所述话语数据评定,基于将所述 话语数据的特性与从存储的多组单词信息中选择的单词信息的特性进行比较来确定所述值;存储与N组所述话语数据相对应的N条单词信息,所述话语数据具 有相同的标识码,所述N组话语数据具有在头N个范围内的所述值,N为大于或等于1的整数;选择时间上在前N条单词信息之后的后N条单词信息,关于所述后 N条单词信息和所述前N条单词信息的所述话语数据的所述标识码彼此 不同;计算所述前N条单词信息和后N条单词信息之间的关联度,所述关 联度能够对在关于所述前N条单词信息的所述话语之后执行关于所述后 N条单词信息的所述话语的情况进行评定;确定与在关于所述前N条单词信息的所述话语之后执行的话语相对 应的后N条单词信息;以及基于预定条件确定与作为关于所述前N条单词信息的所述话语的应 答话语有关的后N条单词信息。
16、 根据权利要求15所述的语音识别方法,所述语音识别方法还包 括以下步骤确定所述前N条单词信息中的第一前单词信息是否与所述后N条单 词信息中的第一后单词信息一致,所述第一前单词信息与在关于所述前N 条单词信息的数据内具有最高值的话语数据相对应,所述第一后单词信 息与在关于所述后N条单词信息的数据内具有最高值的话语数据相对 应。
17、 根据权利要求16所述的语音识别方法,所述语音识别方法还包 括以下步骤在所述第一前词语信息与所述第一后词语信息不一致的情况下,用 所述后N条单词信息中的所述第一后单词信息替换所述前N条单词信息 中的所述第一前单词信息。
全文摘要
本发明提供语音识别系统和语音识别方法。提供了识别结果提取单元和一致确定单元。所述识别结果提取单元从识别结果存储单元中提取N个最佳解A和通过话语B获得的N个最佳解B。所述话语B跟随在与N个最佳解A相对应的话语A之后,并且由与所述话语A的讲话者不同的讲话者b发出。在重复话语确定单元确定所述N个最佳解B为通过根据与所述N个最佳解A相对应的所述话语A的重复话语B而获得的N个最佳解的情况下,当所述最佳解A和B彼此不同时,所述一致确定单元确定可以用所述N个最佳解B中的一部分或全部来替换所述N个最佳解A中的一部分或全部。
文档编号G10L15/22GK101266792SQ20081008606
公开日2008年9月17日 申请日期2008年3月14日 优先权日2007年3月16日
发明者阿部贤司 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1