声音识别结果修正装置、方法以及系统的制作方法

文档序号:2832237阅读:385来源:国知局
专利名称:声音识别结果修正装置、方法以及系统的制作方法
技术领域
本发明涉及用于修正声音识别后的数据的声音识别结果修正装置、 声音识别结果修正方法以及声音识别结果修正系统。
背景技术
公知有在日本特开2003-295893号公报(专利文献1)中记载了如下 技术将在便携终端中输入的声音输出到服务器,在该服务器中识别声 音,在这里将识别结果发送到便携终端,由此,能够在便携终端中取得 声音结果。但是,在服务器中识别的识别结果存在错误的情况下,没有考虑进 行其修正。 一般在识别结果存在错误的情况下,考虑通过用户以手动输 入的方式进行操作从而进行修正,但是,花费大量劳力和时间。例如, 用户掌握作为识别结果的文章,识别错误,指定该错误的位置,然后进 行修正,花费劳力和时间。发明内容因此,本发明的目的在于提供如下的声音识别结果修正装置、声音 识别结果修正方法以及声音识别结果修正系统在识别结果存在错误的 情况下,不用花费用户的劳力和时间就能够修正识别错误。为了解决上述课题,本发明的声音识别结果修正装置具有输入单 元,其输入声音;计算单元,其根据由所述输入单元输入的声音,计算 特征量数据;存储单元,其存储由所述计算单元计算出的特征量数据; 取得单元,其取得针对由所述输入单元输入的声音的识别结果;指定单元,其指定在由所述取得单元识别的识别结果中产生了识别错误的错误 区间;以及修正单元,其从存储在所述存储单元中的特征量数据中提取与所述指定单元所指定的错误区间对应的特征量数据,使用该提取出的 特征量数据进行再次识别,由此,执行由所述取得单元得到的识别结果 的修正。并且,本发明的声音识别结果修正方法具有以下步骤输入步骤, 其输入声音;计算步骤,其根据由所述输入步骤输入的声音,计算特征 量数据;存储步骤,其存储由所述计算步骤计算出的特征量数据;取得 步骤,其取得针对由所述输入步骤输入的声音的识别结果;指定步骤, 其指定在由所述取得步骤识别的识别结果中产生了识别错误的错误区 间;以及修正步骤,其从在所述存储步骤中存储的特征量数据中提取与 所述指定步骤所指定的错误区间对应的特征量数据,使用该提取出的特 征量数据进行再次识别,由此,执行由所述取得步骤得到的识别结果的 修正。根据本发明,存储所输入的声音的特征量数据,并且,在针对该声 音进行识别的识别结果中,指定产生了识别错误的错误区间。然后,对 所指定的错误区间中的特征量数据进行再次识别,从而修正识别结果。 由此,能够简单地进行修正处理以修正识别结果中必要的部分,并且, 能够得到正确的识别结果。由此,不会给用户造成负担,能够简单地进 行修正处理,能够得到正确的声音识别结果。并且,在本发明的声音识别结果修正装置中,优选所述取得单元包 括发送单元,其向声音识别装置发送由所述输入单元输入的声音;以 及接收单元,其接收在所述声音识别装置中识别的识别结果,所述指定 单元指定在所述接收单元所接收的识别结果中产生了识别错误的错误区 间。根据本发明,向声音识别装置发送所输入的声音,并接收在该声音 识别装置中识别的识别结果。然后,在接收到的识别结果中指定产生了 识别错误的错误区间,修正所指定的错误区间中的识别结果。由此,能 够简单地修正声音识别的错误以修正识别结果中必要的部分,能够得到 正确的识别结果。并且,在本发明的声音识别结果修正装置中,优选所述指定单元通过受理用户操作来指定错误区间。根据本发明,能够通过受理用户操作来指定错误区间,能够更简单 地指定错误区间,并且,能够得到正确的声音识别结果。并且,在本发明的声音识别结果修正装置中,优选所述指定单元根 据所述识别结果所附加的识别结果的可靠度来判断错误区间,指定该判 断的错误区间。根据本发明,根据识别结果所附加的识别结果的可靠度来判断错误 区间,并指定该判断的错误区间,由此,能够自动指定错误区间,能够 更简单地指定错误区间。并且,在本发明的声音识别结果修正装置中,优选所述指定单元计 算所述识别结果的可靠度,根据该可靠度来判断错误区间,指定该判断 的错误区间。根据本发明,能够计算识别结果的可靠度,根据该可靠度判断错误 区间,指定该判断的错误区间,能够更简单地指定错误区间。进而,即 使在服务器装置等中进行声音识别的情况下,也可以不使该服务器装置 计算可靠度,能够提供使用更便利的装置。并且,本发明的声音识别结果修正装置优选还具有确定单元,该确 定单元用于确定形成所述指定单元所指定的错误区间前面至少一个单 词、或后面至少一个单词、或者所述前面的单词和后面的单词双方中的 任一种的识别结果,所述修正单元将由所述确定单元确定的识别结果作 为约束条件,根据该约束条件,从所述存储单元中提取与包含错误区间 前面的单词、后面的单词在内的区间对应的特征量数据,对提取出的特 征量数据进行识别处理。根据本发明,能够确定形成所指定的错误区间前面至少一个单词、 或后面至少一个单词、或者所述前面的单词和后面的单词双方中的任一 种的识别结果,将所确定的识别结果作为约束条件,根据该约束条件, 进行预先存储的特征量数据的识别处理。由此,能够进行更准确的识别 处理,由此,能够得到正确的声音识别结果。并且,本发明的声音识别结果修正装置优选还具有确定单元,该确定单元用于确定形成由所述指定单元指定的错误区间前面至少一个单 词、或后面至少一个单词、或者所述前面的单词和后面的单词双方中的 任一种的识别结果,所述修正单元将所述确定单元所确定的识别结果作 为约束条件,根据该约束条件,从所述存储单元中提取与错误区间对应 的特征量数据,对提取出的特征量数据进行识别处理。根据本发明,能够确定形成所指定的错误区间前面至少一个单词、 或后面至少一个单词、或者所述前面的单词和后面的单词双方中的任一 种的识别结果,将所确定的识别结果作为约束条件,根据该约束条件, 进行预先存储的特征量数据的识别处理。即,在本发明中,能够仅使用 错误区间的特征量数据来进行识别处理。由此,能够进行更准确的识别 处理,由此,能够得到正确的声音识别结果。并且,本发明的声音识别结果修正装置优选还具有单词信息确定单 元,该单词信息确定单元用于确定识别结果中的单词的单词信息,该识 别结果形成用于确定由所述指定单元指定的错误区间前面至少一个单词 的信息即单词信息、或后面至少一个单词的单词信息、或所述前面的单 词的单词信息和后面的单词的单词信息双方中的任一种,所述修正单元 将由所述单词信息确定单元确定的单词信息作为约束条件,根据该约束 条件,从所述存储单元中提取与包含错误区间前面的单词、后面的单词 在内的区间对应的特征量数据,对提取出的特征量数据进行识别处理。根据本发明,将用于确定单词的单词信息作为约束条件,进行修正 处理,由此,能够进行更准确的识别处理。例如,作为单词信息,优选包含表示单词词类的词类信息和表示单 词读法的读音信息的任意一个或多个。并且,本发明的声音识别结果修正装置优选还具有未知词判定单元, 该未知词判定单元根据所述单词信息,判定形成由所述指定单元指定的 错误区间前面至少一个单词、或后面至少一个单词、或者所述前面的单 词和后面的单词双方中的任一种的识别结果的单词是否是未知词,当所 述未知词判定单元判定为所述识别结果的单词为未知词时,所述修正单 元根据所述单词信息进行识别结果的修正处理。根据本发明,在是未知词的情况下,将单词信息作为约束条件来进 行识别处理,由此,能够得到更准确的声音识别结果。并且,本发明的声音识别结果修正装置优选还具有连接概率存储单 元,该连接概率存储单元存储单词彼此之间的连接概率,所述修正单元 通过进行修正处理,生成该错误区间的单词与其前后或一方的单词的连 接概率,使用该连接概率来更新存储在所述连接概率存储单元中的连接 概率。根据本发明,存储单词彼此之间的连接概率,每当对其进行修正处 理时,改变连接概率,所以,通过计算并更新该连接概率,能够得到更 准确的声音识别结果。并且,本发明的声音识别结果修正装置优选还具有约束条件存储单 元,该约束条件存储单元存储由所述单词信息确定单元确定的单词信息 或由所述确定单元确定的单词作为约束条件,所述修正单元根据存储在 所述约束条件存储单元中的约束条件,进行修正处理。由此,存储作为约束条件的单词或单词信息,能够根据需要进行基 于所存储的约束条件的修正处理,不需要每当进行修正处理时生成约束 条件,能够进行迅速的修正处理(声音识别处理)。并且,本发明的声音识别结果修正装置优选还具有受理单元,该受 理单元从用户受理文字信息,所述修正单元将所述受理单元所受理的文 字信息作为约束条件,进行错误区间中的识别结果的修正处理。根据本发明,用户能够直接指定作为约束条件的文字,能够进行更 准确的识别处理,由此,能够得到正确的声音识别结果。并且,本发明的声音识别结果修正装置优选还具有时间信息计算单 元,该时间信息计算单元根据由接收单元接收的识别结果和存储在所述 存储单元中的特征量数据,计算识别结果中的经过时间,所述指定单元根据由所述时间信息计算单元计算出的时间信息,指定错误区间。根据本发明,能够根据接收到的识别结果和所存储的特征量数据, 计算识别结果中的经过时间,根据该时间信息来指定错误区间。由此, 即使在识别结果中不包含时间信息的情况下,也能够提取与错误区间对应的适当的特征量数据。并且,本发明的声音识别结果修正装置优选还具有显示单元,该显 示单元显示由所述修正单元修正的识别结果,所述显示单元不显示由所 述取得单元取得的识别结果。由此,不显示可能存在识别错误的识别结 果,所以,不会对用户造成误解。并且,本发明的声音识别结果修正装置优选在所述修正单元进行再 次识别而得到的识别结果和所述取得单元所取得的识别结果相同的情况 下,或者这些识别结果分别包含的时间信息产生偏差的情况下,判断为 识别错误,所述显示单元不显示识别结果。由此,能够防止显示错误的 识别结果。并且,在本发明的声音识别结果修正装置中,优选所述指定单元通 过用户操作来指定错误区间的起点,根据对由所述取得单元取得的识别 结果附加的识别结果的可靠度,指定错误区间的终点。由此,能够实现 符合用户的输入习惯的修正方法,能够提供使用便利的装置。并且,在本发明的声音识别结果修正装置中,优选所述指定单元通 过用户操作来指定错误区间的起点,从该起点隔开规定识别单位数量来 指定错误区间的终点。由此,能够实现符合用户的输入习惯的修正方法, 能够提供使用便利的装置。并且,在本发明的声音识别结果修正装置中,优选所述指定单元通 过用户操作来指定错误区间的起点,根据由所述取得单元取得的识别结 果中的规定的发音记号,指定错误区间的终点。由此,能够实现符合用 户的输入习惯的修正方法,能够提供使用便利的装置。并且,在本发明的声音识别结果修正装置中,优选所述取得单元在 取得识别结果时,取得多个识别候选作为识别结果,所述指定单元通过 用户操作来指定错误区间的起点,根据由所述取得单元取得的识别候选 的数量来指定终点。由此,能够指定基于识别结果的可靠度的终点,能 够有效地实现修正处理。并且,在本发明的声音识别结果修正装置中,优选该声音识别结果 修正装置还具有计算单元,该计算单元计算包含由所述计算单元计算出的特征量数据的错误区间在内的区间的平均值,所述修正单元从提取出 的特征量数据中减去由所述计算单元计算出的平均值,将通过该减法运 算得到的数据作为特征量数据,进行再次识别处理。由此,能够对去除 了麦克风等输入声音的集音装置的特性后的声音进行修正处理,能够实 现更准确的修正(声音识别)。并且,在本发明的声音识别结果修正装置中,该声音识别结果修正 装置具有输入单元,其输入声音;取得单元,其取得针对由所述输入 单元输入的声音的识别结果;指定单元,其指定在由所述取得单元识别 的识别结果中产生了识别错误的错误区间;通知单元,其向外部服务器 通知所述指定单元所指定的错误区间,由此向所述外部服务器委托该错 误区间的再次识别处理;以及接收单元,其根据所述通知单元的委托, 接收在所述外部服务器中再次识别的错误区间的识别结果。并且,在本发明的声音识别结果修正方法中,该声音识别结果修正 方法具有以下步骤输入步骤,其输入声音;取得步骤,其取得针对由 所述输入步骤输入的声音的识别结果;指定步骤,其指定在由所述取得 步骤识别的识别结果中产生了识别错误的错误区间;通知步骤,其向外 部服务器通知由所述指定步骤指定的错误区间,由此向所述外部服务器 委托该错误区间的再次识别处理;以及接收步骤,其根据所述通知步骤 的委托,接收在所述外部服务器中再次识别的错误区间的识别结果。并且,本发明的声音识别结果修正装置优选具有子字区间指定单元, 该子字区间指定单元在由所述取得单元取得的识别结果中指定子字区 间,所述修正单元从所述存储单元中提取在由所述指定单元指定的错误 区间中进一步与所述子字区间指定单元所指定的子字区间对应的特征量 数据,使用该提取出的特征量数据迸行再次识别,由此,执行由所述取 得单元得到的识别结果的修正。由此,能够使用与子字区间对应的特征量数据来执行识别结果的修 正,能够进行更准确的修正处理。即,能够进行基于子字区间这样的未 知词的区间的再次识别。并且,本发明的声音识别结果修正装置优选还具有分割单元,该分割单元根据由所述子字区间指定单元指定的子字区间,将所述取得单元 所取得的识别结果分割为多个区间,所述修正单元按照所述分割单元所 分割的各个分割区间,执行识别结果的修正。由此,将识别结果分割为多个区间,从而能够縮短识别对象,能够 进行更准确的识别处理。并且,本发明的声音识别结果修正装置中的分割单元优选对识别结 果进行分割,使得将子字区间的终点作为一个分割区间的终点,并且, 将子字区间的起点作为所述一个分割区间的下一分割区间的起点。由此,子字区间包含在任意分割区间中。由此,进行识别处理时一 定包含子字区间,从而能够将子字文字串作为约束条件来进行识别处理。并且,本发明的声音识别结果修正装置中的修正单元优选按照所述 分割单元所分割的各个分割区间,执行识别结果的修正,并且,将所述 子字区间作为各分割区间的修正中的约束条件。由此,进行识别处理时一定包含子字区间,从而能够将子字文字串 作为约束条件来进行识别处理。并且,在本发明的声音识别结果修正装置中,优选修正单元保持包 含由所述子字区间指定单元指定的子字区间所记述的子字文字串在内的 假说,来作为识别的搜索过程,从该假说中选择最终的识别结果,从而 执行修正。由此,能够进行必须使用子字文字串的识别处理。并且,本发明的声音识别结果修正装置优选还具有辞典追加单元, 该辞典追加单元在识别处理用的辞典数据库中追加由所述子字区间指定 单元指定的子字区间中的子字文字串。由此,能够蓄积子字文字串,在今后的识别处理中有效使用,能够 进行更准确的识别处理。本发明的声音识别结果修正装置优选还具有由用户生成的辞典数据 库,所述修正单元使用根据所述辞典数据库对子字文字串进行转换后的 文字串,进行修正处理。由此,能够蓄积子字文字串,在今后的识别处理中有效使用,能够进行更准确的识别处理。并且,本发明的声音识别结果修正系统具有上述声音识别结果修正 装置;以及服务器装置,其根据从所述声音识别结果修正装置发送的声 音进行声音识别,向所述声音识别结果修正装置发送识别结果。该声音 识别结果修正系统仅是范畴不同,在作用效果方面与上述声音识别结果 修正装置相同。根据本发明,能够简单地进行修正处理以修正识别结果中必要的部 分,并且,能够得到正确的识别结果。


图1是包含作为本实施方式的声音识别结果修正装置的客户端装置 110 (包含110a 110k)的通信系统的系统结构图。 图2是示出客户端装置110的功能的框图。 图3是客户端装置110的硬件结构图。图4是示出声音识别结果所包含的各种信息的概念的概念图,(a) 是以日语发音为例,(b)是以汉语发音为例。图5 (a)示出指定了错误区间前后上下文时的概念图,(b)是示出 根据约束条件进行识别处理时的概念的概念图。图6是示出客户端装置110的动作的流程图。图7是示出包含错误区间的指定在内的修正处理的详细处理的流程图。图8是示出通过用户输入来受理错误区间的客户端装置110a的功能 的框图。图9是示出客户端装置110a的处理的流程图。 图10是示出客户端装置110a中的通过用户输入来指定错误区间时 的详细处理的流程图。图11是示出该客户端装置110b的功能的框图。 图12是示出客户端装置110b的处理的流程图。 图13是示出客户端装置110b中的指定错误区间时的详细处理的流程图。图14是示出客户端装置110c的功能的框图。 图15是示出客户端装置110c的处理的流程图。 图16是示出客户端装置110d的功能的框图。 图17是示出客户端装置110d的处理的流程图。 图18是示出客户端装置110f的功能的框图。 图19是示出客户端装置iiOf的处理的流程图。 图20是示出客户端装置liOg的功能的框图。 图21是示出客户端装置110g的处理的流程图。 图22是示出客户端装置UOh的功能的框图。 图23是示出客户端装置110i的功能的框图。图24是示出对指定单词信息作为约束条件的部分进行修正处理时 的概念的概念图。图25是示出客户端装置110的变形例的框图。图26是示出客户端装置110k的功能的框图。图27是示出客户端装置110k的动作的流程图。图28是说明讲话内容、识别结果、分割区间的对应的说明图,(a) 是以日语发音为例,(b)是以汉语发音为例。图29是声音识别中的搜索过程的概念图。
具体实施方式
一边参照附图一边说明本发明的实施方式。在可能的情况下,对同 一部分标注同一标号,并省略重复的说明。 <第1实施方式>图1是通信系统的系统结构图,该通信系统具有作为本实施方式的 声音识别结果修正装置的客户端装置110、和识别从客户端装置110发送 的声音并将其结果回复给客户端装置110的服务器装置120。在本实施方 式中,客户端装置110例如是便携电话等便携终端,能够输入用户发出 的声音,使用无线通信将所输入的声音发送到服务器装置120,接收来自服务器装置120的回复即识别结果。服务器装置120具有声音识别部,使用音响模型、语言模型等数据 库对所输入的声音进行声音识别,将该识别结果回复到客户端装置110。接着,说明该客户端装置110的结构。图2是示出客户端装置110 的功能的框图。该客户端装置110构成为包含特征量计算部210 (输入 单元、计算单元)、特征量压縮部220、发送部225 (取得单元、发送单 元)、特征量保存部230 (存储单元)、接收部235 (取得单元、接收单元)、 错误区间指定部240 (指定单元)、错误区间前后上下文指定部250 (确 定单元)、错误区间特征量提取部260、修正部270 (修正单元)、音响模 型保持部281、语言模型保持部282、辞典保持部283、统合部280、以 及显示部290。图3是客户端装置110的硬件结构图。如图3所示,图2所示的客 户端装置IIO在物理上构成为包含CPU 11、作为主存储装置的RAM 12 和ROM 13、作为输入设备的键盘和鼠标等输入装置14、显示器等输出 装置15、网卡等作为数据收发设备的通信模块16、硬盘等辅助存储装置 17等在内的计算机系统。通过在图3所示的CPU11、 RAM12等硬件上 读入规定的计算机软件,从而在CPU 11的控制下使输入装置14、输出 装置15、通信模块16动作,并且,进行RAM 12和辅助存储装置17中 的数据的读出和写入,由此,能够实现在图2中说明的各功能。下面, 根据图2所示的功能框来说明各功能框。特征量计算部210是如下的部分输入从麦克风(未图示)输入的 用户的声音,根据该输入的声音来计算声音识别频谱、即表示音响特征 的特征量数据。例如,特征量计算部210计算表示以MFCC(Mel Frequency Cepstrum Coefficient: MEL频标倒谱系数)这种频率表现的音响特征的 特征量数据。特征量压縮部220是对在特征量计算部210中计算出的特征量数据 进行压縮的部分。发送部225是将在特征量压縮部220中压縮的压縮特征量数据发送 到服务器装置120的部分。该发送部225使用HTTP (Hyper Text TransferProtocol:超文本传输协议)、MRCP (Media Resource Control Protocol: 媒体资源控制协议)、SIP (Session Initiation Protocol:会话初始化协议) 等进行发送处理。并且,在该服务器装置120中,使用这些协议进行接 收处理,并进行回复处理。进而,在该服务器装置120中,能够对压縮 特征量数据进行解冻,能够使用特征量数据进行声音识别处理。该特征 量压縮部220用于进行数据压缩以减轻通信量,所以,该发送部225也 能够发送未压縮的原始的特征量数据。特征量保存部230是临时存储在特征量计算部210中计算出的特征 量数据的部分。接收部235是接收从服务器装置120回复的声音识别结果的部分。 在该声音识别结果中包含有文本数据、时间信息和可靠度信息,时间信 息表示文本数据的每个识别单位的经过时间,可靠度信息是表示该识别 结果的合理概率的信息。例如,作为识别结果,接收图4所示的信息。在图4中,对应地记 载了讲话内容、识别内容、声音区间、可靠度,但是,实际上不包含讲 话内容。这里,声音区间所示的数字表示帧的索引,示出其识别单位的 最初的帧的索引。这里,l帧是10msec左右。并且,可靠度表示在服务 器装置120中识别的声音识别结果的每个识别单位的可靠度,是表示正 确程度的数值。针对识别结果使用概率等生成可靠度,在服务器装置120 中附加给所识别的单词单位。例如,作为可靠度的生成方法,记载于以 下的参考文献。参考文献李晃伸、河原達也、鹿野清宏、"2-A7探索7》〕,X 厶l二:fc汁^)高速&単語事後確率〖二基d〈信頼度算出法"、情報処理学会 研究報告,2003-SLP-49-48, 2003-12在图4 (a)中示出,例如作为识别结果的"売^IT"由33帧 57 帧构成,其可靠度为0.86。错误区间指定部240是根据由接收部235接收的声音识别结果来指 定错误区间的部分。该错误区间指定部240例如能够根据从服务器装置 120发送的声音识别结果所包含的可靠度信息,来指定错误区间。例如,在图4 (a)中示出,作为识别结果,文本数据为905 (含沙 5玄3二'),时间信息为9帧(9msec),其可靠度为0.59,并且示出在其 他位置,作为识别结果的的可靠度为0.04。而且,该错误区间 指定部240判断为可靠度在规定阈值以下的部分为错误,能够指定该区 间作为错误区间。例如,在设定为可靠度在0.2以下的部分为错误的情况 下,判断为"^二"、 "T"、"豆腐"的部分为错误,能够指定该部分作 为错误区间。该阈值是预先在客户端装置110侧设定的数值。另外,也 可以通过声音的个人差异、杂音(噪声)量、或可靠度的计算方法而设 定为可变。即,在杂音多的情况下,可靠度进一步降低,所以将阈值设 定为较低,并且,在声音识别结果所附加的可靠度整体较低或整体较高 的情况下,也可以根据该可靠度的高低来代替。例如,也可以根据可靠 度的中央值来设定阈值,或根据平均值来设定阈值。图4 (b)与图4 (a)同样,可以通过相同的原理,判断为"柔道"、 "突起"的部分为错误,能够指定该部分作为错误区间。另外,客户端装置110具有用于计算识别结果的可靠度信息的可靠 度计算部(未图示),错误区间指定部240也可以根据在客户端装置110 内计算出的可靠度信息来指定错误区间。错误区间前后上下文指定部250是根据在错误区间指定部240中指 定的错误区间来指定在该错误区间前后识别的单词(至少一个识别单位) 的部分。下面,以仅利用前后1个单词的情况为例进行说明。图5 (a) 示出指定了在错误区间前后识别的一个识别单位(错误区间前后上下文) 时的概念图。如图5 (a)所示,在识别结果的错误区间的前后指定错误 区间前的单词的声音区间、错误区间后的单词的声音区间。错误区间特征量提取部260是从特征量保存部230中提取由错误区 间前后上下文指定部250指定的错误区间(也可以包含前后的至少一个 识别单位)的特征量数据的部分。修正部270是对由错误区间特征量提取部260提取出的特征量数据 再次进行声音识别的部分。该修正部270使用音响模型保持部281、语言 模型保持部282和辞典保持部283进行声音识别。进而,该修正部270将由错误区间前后上下文指定部250指定的前后的声音区间所示的单词 (前后上下文)作为约束条件,进行声音识别。图5 (b)示出根据由错 误区间前后上下文指定部250指定的单词进行识别处理时的概念图。如 图5 (b)所示,在将错误区间前面的区间的单词Wl和后面的区间的单 词W2作为约束条件的情况下,识别候选被限制。由此,能够提高识别 精度。在图5 (b)的例子中,作为识别候选,能够圈入A Z,能够从该 圈入的后方中选择适当的候选,能够有效地进行识别处理。并且,修正部270也可以根据与前后单词的接续关系、活用形等来 进行修正处理。例如,修正部270也可以提取多个针对错误区间的单词 的识别候选A Z,根据其前后单词W1和W2的接续关系,按照每个修 正候选来计算分数,将分数高的修正候选作为识别结果。并且,即使在语言模型保持部282和辞典保持部283中不包含前面 的区间的单词Wl和后面的区间的单词W2的情况下,修正部270也能 够将用于确定该单词的单词信息和用于确定前后单词的单词信息作为约 束条件,来进行修正处理(再次声音识别处理)。例如,客户端装置110从服务器装置120接收表示单词Wl、单词 W2各自的词类的词类信息作为单词信息,修正部270将单词W1、单词 W2各自的词类信息作为约束条件,来进行修正处理。由此,能够进行更 准确的修正处理、即声音识别处理。具体而言,错误区间指定部240从 在接收部235中接收的声音识别结果所附加的单词信息中提取错误区间 的前后(或任一方)的单词信息,将其输出到修正部270。在修正部270 中,对将该单词信息作为约束条件而指定的部分进行修正处理。图24示 出其概念图。如图24所示,对应于单词W1将词类信息A (例如助词) 设定为约束条件,对应于单词W2将词类信息B (例如动词)设定为约束 条件。修正部270以分别满足词类信息A和词类信息B的方式进行修正 处理,由此能够进行更准确的声音识别处理。另外,作为单词信息,不限于词类信息,例如,也可以是读法等用 于确定单词以外的单词的信息。并且,在声音识别结果中不包含必要的单词信息的情况下,使用公知的词素解析系统(例如"茶筅"、"Mecab")、日语接续解析工具(例如 "南瓜")等对作为识别对象的文章进行解析,由此,能够生成单词信息。 即,在图25所示的客户端装置110的变形例中,新附加单词信息解析部 251,单词信息解析部251由如上所述的词素解析系统、日语接续解析工 具等构成,能够对声音识别结果进行解析。然后,将解析结果输出到错 误区间前后上下文指定部250,错误区间前后上下文指定部250能够根据 该单词信息提取错误区间前后的单词的单词信息,并将其输出到修正部 270。可以利用客户端装置110或服务器装置120进行生成上述单词信息 的处理,但是,如在服务器装置120中进行那样输出指示并接收处理结 果,能够降低客户端装置110中的处理量。在单词Wl和W2是未知词的情况下,上述处理特别有效。未知词 是不包含在语言模型保持部282和辞典保持部283中的单词。例如,修 正部270 (未知词判定单元)判定单词Wl和W2是否是未知词,在是未 知词的情况下,将从服务器装置120送出的识别结果所包含的单词信息 作为约束条件,进行修正处理。并且,也可以在客户端装置110中登记该约束条件。g卩,在图25所 示的客户端装置110的变形例中,也可以将所指定的错误区间的单词及 其前后(或至少一方)的单词、或设置了该单词信息的单词作为约束条 件,并存储在约束条件存储部285 (约束条件存储单元)中。由此,在与 在错误区间指定部240中指定的错误区间中的单词相同、且其前后的单 词相同的情况下,修正部270能够根据存储在约束条件存储部285中的 约束条件,进行修正处理。由此,能够迅速进行该处理。即,即使在下 次及以后检测出未知词,通过仅读出已经登记的约束条件,就能够应用 约束条件。不需要新生成约束条件,所以,能够以更少的处理来设定约 束条件。并且,也可以根据在修正部270中修正的结果,来更新该错误区间 中的单词及其前后单词的连接概率。即,连接概率存储在发挥连接概率 存储单元的功能的语言模型保持部282和辞典保持部283中,可以适当23地在语言模型保持部282和辞典保持部283中更新每次修正处理时在修 正部270中计算并生成的连接概率。并且,修正部270判断再次识别的识别结果和该错误区间中的在服 务器装置120中识别的识别结果是否相同,此时,优选不将识别结果输 出到统合部280,不在显示部290中显示识别结果。并且,在修正部270进行识别而得到的识别结果和该错误区间中的 服务器装置120识别的识别结果之间,在一个识别单位中产生了偏差的 情况下,同样判断为识别错误,优选不将识别结果输出到统合部280,不 在显示部290上显示识别结果。例如,在图4 (a)中的声音区间和识别结果的对应关系不同的情况 下,更具体而言,在声音区间中,作为服务器装置120中的识别结果, 帧索引为0-9、此时为"905 (含沙5去3:')"的情况下,在修正部270中的再次识别中,帧索引为o-i5、为"90555 (含^ 5法3r:r:::)"的 情况下,该声音区间和识别结果的对应关系在识别结果和再次识别结果之间产生偏差。因此,能够判断为识别错误。该情况下,修正部270进 行不输出等的处理,不在显示部290上显示识别结果。进而,修正部270在能够判断为上述识别错误的情况下,在从用户 受理文字信息的受理部(未图示)中输入文字后,修正部270也可以将 受理的文字(例如日文假名)作为约束条件,进行错误区间中的识别结 果的修正处理。即,在针对错误区间的识别结果输入某些文字的情况下, 可以以该文字为前提,进行剩余部分中的识别处理。该情况下,进行识 别错误的判断时,能够在受理部中受理文字输入。另外,修正部270进行与在服务器装置120中进行的识别处理不同 的声音识别处理,由此,能够防止再次进行错误的识别。例如,更换音 响模型、语言模型、辞典来进行识别处理。音响模型保持部281是对应地存储音素及其频谱的数据库。语言模 型保持部282是存储表示单词、文字等的连续概率的统计信息的部分。 辞典保持部283保持音素和文本的数据库,例如是存储HMM (Hidden Marcov Model:隐马尔可夫模型)的部分。统合部280是对在接收部235中接收的声音识别结果中的错误区间 外的文本数据和在修正部270中再次识别的文本数据进行统合的部分。 该统合部280根据表示对在修正部270中再次识别的文本数据进行统合 的位置的错误区间(时间信息),进行统合。显示部290是显示在统合部280中进行统合而得到的文本数据的部 分。另外,显示部290优选在内容中构成为显示在服务器装置120中识 别的结果。并且,在修正部270中再次识别的结果和错误区间中的在服 务器装置120中识别的识别结果相同的情况下,优选以不显示该识别结 果的方式进行显示,并且,该情况下,也可以显示无法识别。进而,在 修正部270进行再次识别而得到的识别结果和服务器装置120进行识别 而得到的识别结果之间,时间信息产生偏差的情况下,也有可能出现错 误,所以,优选不进行显示,并显示无法识别。并且,不需要始终执行再次识别处理,也可以根据错误区间的长度, 判断是否执行再次识别处理。例如,在错误区间为1个文字的情况下, 不执行再次识别处理,进行基于文字输入等其他方法的修正。说明这样构成的客户端装置110的动作。图6是示出客户端装置110 的动作的流程图。通过特征量计算部210提取经由麦克风输入的声音的 特征数据(SIOI)。然后,在特征量保存部230中保存特征量数据(S102)。 接着,通过特征量压缩部220对特征量数据进行压缩(S103)。通过发送 部225将压縮后的压縮特征量数据发送到服务器装置120 (S104)。接着,在服务器装置120中进行声音识别,从服务器装置120发送 该识别结果,通过接收部235进行接收(S105)。然后,通过错误区间指 定部240从声音识别结果中指定错误区间,根据该指定的错误区间来指 定前后上下文(S106)。根据包含该前后上下文的错误区间,通过错误区 间特征量提取部260从特征量保存部230中提取特征量数据(S107)。根 据这里提取出的特征量数据,通过修正部270再次进行声音识别,生成 错误区间中的文本数据(S108)。然后,对错误区间中的文本数据和在接 收部235中接收的文本数据进行统合,在显示部290中显示进行正确识 别而得到的文本数据(S109)。25接着,进一步详细说明上述S106 S108中的处理。图7是示出其详 细处理的流程图。适当参照图5 (a)进行说明。通过错误区间指定部240,根据识别结果来指定错误区间(S201 (S106))。根据该错误区间,通过错误区间前后上下文指定部250指定 并保存错误区间的前面的单词Wl (图5 (a)) (S202)。并且,通过错误 区间前后上下文指定部250指定并存储错误区间的后面的单词W2 (图5 (a)) (S203)。接着,通过错误区间前后上下文指定部250指定该单词 Wl的开始时间T1 (图5 (a)) (S204),并且,指定单词W2的结束时间 T2 (图5 (a)),分别进行保存(S205)。这样,通过错误区间特征量提取部260提取在错误区间中进一步加 上其前后各一个单词(一个识别单位)而得到的错误区间、即从开始时 间Tl到结束时间T2的区间的特征量数据(S206 (S107))。在修正部270 中设定将单词Wl作为起点并将单词W2作为终点的约束条件(S207)。 然后,根据该约束条件,基于修正部270对特征量数据进行识别处理, 执行修正处理(S208)。如以上说明的那样,在本实施方式的客户端装置110中,说明其作 用效果。在该客户端装置110中,特征量计算部210计算所输入的声音 的特征量数据,特征量压縮部220将特征量数据发送给作为声音识别装 置的服务器装置120。另一方面,特征量保存部230保存特征量数据。然后,在服务器装置120中进行识别处理,接收部235从服务器装 置120接收识别结果。错误区间指定部240在接收到的识别结果中指定 发生了识别错误的错误区间。该错误区间指定部240能够根据可靠度进 行判断。然后,错误区间特征量提取部260提取错误区间的特征量数据, 修正部270针对提取出的错误区间中的识别结果进行再次识别处理,由 此进行修正处理。即,在统合部280中,对再次识别的结果和在接收部 235中接收到的识别结果进行统合,由此进行修正处理,显示部2卯能够 显示修正后的识别结果。由此,能够简单地修正声音识别的错误以修正 识别结果中必要的部分,能够得到正确的识别结果。例如,最多能够削 减错误单词的70%。并且,能够修正未知词的错误的60%以上。另外,既可以从服务器装置120接收可靠度,也可以在客户端装置110中计算 可靠度。进而,该客户端装置110能够使用错误区间前后上下文指定部250 进行基于约束条件的修正处理(再次识别处理)。即,固定错误区间前后 的单词,进行基于该固定单词的识别处理,由此,能够得到精度更高的 识别结果。另外,在本实施方式或以下所示的其他实施方式中,在服务器装置 120中进行第一次的识别处理,但是不限于此,也可以在客户端装置110 中进行第一次的识别处理,在服务器装置120中进行第二次的识别处理。 此时,当然在服务器装置120中进行错误区间的指定处理等。例如,该 情况下,客户端装置110具有根据在特征量计算部210中计算出的特征 量数据进行识别处理的识别处理部,并且,发送部225向服务器装置120 发送这里的识别结果和特征量数据。在服务器装置120中,具有相当于客户端装置110中的错误区间指 定部240、错误区间前后上下文指定部250、特征量保存部230、错误区 间特征量提取部260、修正部270的各部,在特征量保存部中存储从客户 端装置110发送的特征量数据,根据识别结果进行错误区间的指定和错 误区间前后上下文的指定,根据这些,进行之前保存的特征量数据的修 正处理(识别处理)。向客户端装置110发送这样处理后的识别结果。并且,在本实施方式或以下所示的其他实施方式中,使用由错误区 间前后上下文指定部250确定的约束条件来进行再次识别(修正处理), 但是,该情况下,也可以仅利用错误区间的特征量数据。也可以不使用 这种约束条件,而进行再次识别处理。并且,优选能够在服务器装置120中更换识别方法和本实施方式(或 以下所示的其他实施方式)中的识别方法。艮P,在服务器装置120中, 需要识别不确定的多个用户的声音,所以,需要是通用的。例如,使在 服务器装置120中使用的音响模型保持部、语言模型保持部和辞典保持 部中的各模型数据、辞典数量为大容量,在音响模型中加大音素数量、 在语言模型中加大单词数量等,使各模型数据、辞典数量为大容量,能够应对所有用户。
另一方面,客户端装置110中的修正部270不需要应对所有用户, 使用与该客户端装置110的用户的声音一致的音响模型、语言模型和辞 典。因此,该客户端装置110需要参考修正处理、识别处理和邮件生成 时的文字输入处理,适当更新各模型、辞典。
并且,客户端装置110还具有显示由修正部270修正的识别结果的 显示部290,该显示部2卯不显示在服务器装置120中识别的识别结果。 由此,不显示可能存在识别错误的识别结果,所以,不会对用户造成误 解。
并且,在客户端装置110中,在修正部270中进行再次识别而得到 的识别结果和由接收部235接收到的识别结果相同的情况下,或者在这 些识别结果各自所包含的时间信息中产生偏差的情况下,修正部270判 断为识别错误,显示部2卯不显示识别结果。由此,能够防止显示错误 的识别结果。具体而言,最多能够削减错误单词的70°/。。并且,能够修 正未知词的错误的60%以上。
<第2实施方式〉
接着,对构成为不根据可靠度自动判断错误区间而通过用户手动进 行判断的客户端装置110a进行说明。图8是示出通过用户输入来受理错 误区间的客户端装置110a的功能的框图。如图8所示,该客户端装置110a 构成为包含特征量计算部210、特征量压縮部220、特征量保存部230、 发送部225、接收部235、操作部236、结果保存部237、用户输入检测 部238、错误区间指定部240a、错误区间前后上下文指定部250、错误区 间特征量提取部260、修正部270、统合部280、音响模型保持部281、 语言模型保持部282、辞典保持部283、以及显示部290。该客户端装置 110a与客户端装置110同样,通过图3所示的硬件来实现。
该客户端装置110a与客户端装置110的不同点在于,具有操作部 236、结果保存部237、用户输入检测部238、错误区间指定部240a。下 面,以该不同点为中心进行说明。
操作部236是受理用户输入的部分。用户能够一边确认显示在显示部290上的识别结果, 一边指定错误区间。操作部236能够受理该指定。
结果保存部237是保存由接收部235接收的声音识别结果的部分。 在显示部290上显示所保存的声音识别结果,以使用户能够视认。
用户输入检测部238是检测由操作部236受理的用户输入的部分, 将所输入的错误区间输出到错误区间指定部240a。
错误区间指定部240a是根据从用户输入检测部238输入的错误区间 来指定该区间的部分。
接着,说明这样构成的客户端装置110a的处理。图9是示出客户端 装置110a的处理的流程图。通过特征量计算部210提取经由麦克风输入 的声音的特征数据(SIOI)。然后,在特征量保存部230中保存特征量数 据(S102 )。接着,通过特征量压縮部220对特征量数据进行压缩(S103)。 通过发送部225将压縮后的压縮特征量数据发送到服务器装置120 (S104)。
接着,在服务器装置120中进行声音识别,从服务器装置120发送 该识别结果,由接收部235接收并临时保存,并且,在显示部290上显 示该识别结果(S105a)。然后,用户根据显示在显示部2卯上的识别结 果来判断错误区间,输入该错误区间。然后,通过用户输入检测部238 检测该输入,通过错误区间指定部240指定错误区间。然后,根据该指 定的错误区间来指定前后上下文(S106a)。根据包含该前后上下文的错 误区间,通过错误区间特征量提取部260提取特征量数据(S107),通过 修正部270再次进行声音识别,生成错误区间中的文本数据(S108)。然 后,对错误区间中的文本数据和在接收部235中接收的文本数据进行统 合,在显示部290中显示正确的文本数据(S109)。
接着,进一步详细说明上述S105a S108中的处理。图10是示出客 户端装置110a中的通过用户输入来指定错误区间时的详细处理的流程 图。
通过接收部235接收识别结果,并将其显示在显示部2卯上(S301 )。 用户一边确认显示在显示部290上的识别结果, 一边指定错误区间,通 过用户输入检测部238检测该错误区间的起点位置,并临时保存(S302)。
29然后,通过错误区间前后上下文指定部250指定并保存错误区间的前面 的单词W1(S303),指定并保存所保存的单词Wl的开始吋间TKS304)。
并且,通过用户输入检测部238检测由用户指定的错误区间的终点 位置,并临时保存(S305)。然后,通过错误区间前后上下文指定部250 指定并保存错误区间的后面的单词W2 (S306),指定并保存所保存的单 词W2的结束时间T2 (S307)。
这些处理之后,通过错误区间特征量提取部260提取开始时间Tl 结束时间T2的特征量数据(S308)。在修正部270中设定将单词Wl作 为起点并将单词W2作为终点的约束条件(S309)。然后,根据该约束条 件,基于修正部270对特征量数据进行识别处理,执行修正处理(S310)。
通过这种处理,能够指定基于用户输入的错误区间,由此,能够进 行再次识别的识别结果的修正处理。
在这种客户端装置110a中,显示部290显示识别结果,用户视认该 识别结果,并且,用户通过对操作部236进行操作,从而能够指定错误 区间、即希望修正的位置。由此,能够简单地进行修正处理以修正识别 结果中必要的部分,并且,能够得到正确的识别结果。
<第3实施方式〉
接着,对在从服务器装置120发送的识别结果中不包含时间信息的 情况下也能够正确地指定错误区间的客户端装置110b进行说明。图11 是示出该客户端装置110b的功能的框图。该客户端装置110b构成为包 含特征量计算部210、特征量压縮部220、发送部225、特征量保存部 230、接收部235、时间信息计算部239、错误区间指定部240、错误区间 特征量提取部260、错误区间前后上下文指定部250、修正部270、音响 模型保持部281、语言模型保持部282、以及辞典保持部283。该客户端 装置110b与第1实施方式的客户端装置110同样,通过图3所示的硬件 来实现。
并且,与第1实施方式的客户端装置110的不同点在于,该客户端 装置110b从服务器装置120接收不包含经过信息的识别结果,然后,在 时间信息计算部239中,根据作为识别结果的文本数据自动计算经过时间(帧索引)。下面,以该不同点为中心说明客户端装置110b。
时间信息计算部239是使用在接收部235中接收的识别结果中的文 本数据和存储在特征量保存部230中的特征量数据来计算文本数据中的 经过时间的部分。更具体而言,时间信息计算部239对所输入的文本数 据和存储在特征量保存部230中的特征量数据进行比较,由此,在将文 本数据的一个单词或一个识别单位转换为频率数据的情况下,判断到特 征量数据的哪个部分为止一致,由此,能够计算文本数据中的经过时间。 例如,在到特征量数据的10帧为止与文本数据的一个单词一致的情况下, 该一个单词具有IO帧的经过时间。
错误区间指定部240b能够使用由时间信息计算部239计算出的经过 时间和文本数据来指定错误区间。该错误区间指定部240b根据识别结果 所包含的可靠度信息来判断错误区间。另外,也可以如第2实施方式那 样,通过用户输入来指定错误区间。
错误区间前后上下文指定部250根据这样由错误区间指定部240b指 定的错误区间,指定包含前后的上下文在内的错误区间,错误区间特征 量提取部260提取该错误区间的声音数据,然后,修正部270再次进行 识别处理,由此,能够进行修正处理。
接着,说明该客户端装置110b的处理。图12是示出客户端装置110b 的处理的流程图。通过特征量计算部210提取经由麦克风输入的声音的 特征数据(S101 )。然后,在特征量保存部230中保存特征量数据(S102)。 接着,通过特征量压縮部220对特征量数据进行压縮(S103)。通过发送 部225将压縮后的压縮特征量数据发送到服务器装置120 (S104)。
接着,在服务器装置120中进行声音识别,从服务器装置120发送 该识别结果(不包含经过时间),通过接收部235进行接收(S105)。然 后,根据声音识别结果和特征量保存部230的特征量数据,通过时间信 息计算部239计算经过时间,使用该经过时间和声音识别结果,通过错 误区间指定部240指定错误区间。通过错误区间前后上下文指定部250, 根据该指定的错误区间指定前后上下文(S106b)。根据包含该前后上下 文的错误区间,通过错误区间特征量提取部260提取特征量数据(S107),通过修正部270再次进行声音识别,生成错误区间中的文本数据(S108)。 然后,对错误区间中的文本数据和在接收部235中接收的文本数据进行 统合,在显示部290中显示正确的文本数据(S109)。
接着,说明包含S106b的更详细的处理。图13是示出S105 S108 中的详细处理的流程图。
通过接收部235接收不包含经过时间的识别结果(S401),在时间信 息计算部239中计算文本数据中的经过时间(S402)。通过错误区间指定 部240根据识别结果来指定错误区间(S403)。根据该错误区间,通过错 误区间前后上下文指定部250指定并保存错误区间的前面的单词Wl (图 5 (a)) (S404)。并且,通过错误区间前后上下文指定部250指定并存储 错误区间的后面的单词W2 (图5 (a)) (S405)。接着,通过错误区间前 后上下文指定部250指定该单词Wl的开始时间T1 (图5 (a)) (S406), 并且,指定单词W2的结束时间T2 (图5 (a)) (S407)。
这样,通过错误区间特征量提取部260提取在错误区间中进一步加 上其前后各一个单词而得到的错误区间、即从开始时间Tl到结束时间 T2的区间的特征量数据(S408)。在修正部270中设定将单词Wl作为起 点并将单词W2作为终点的约束条件(S409)。然后,根据该约束条件, 基于修正部270对特征量数据进行识别处理,执行修正处理(S410)。
根据该客户端装置110b,时间信息计算部239根据由接收部235接 收的识别结果和存储在特征量保存部230中的特征量数据,计算识别结 果中的经过时间。然后,错误区间指定部240能够根据该时间信息来指 定错误区间。能够根据这里指定的错误区间来指定其前后上下文,然后, 根据该特征量数据进行修正处理。由此,即使在识别结果中没有包含时 间信息的情况下,也能够指定适当的错误区间。
<第4实施方式>
接着,对仅根据在服务器装置120中进行声音识别而得到的识别结 果来进行修正处理的客户端装置110c进行说明。图14是示出客户端装 置110c的功能的框图。该客户端装置110c构成为包含特征量计算部 210、特征量压縮部220、错误区间指定部240、错误区间前后上下文指
32定部250、修正部270a、以及语言DB保持部284。该客户端装置110c 与客户端装置110同样,通过图3所示的硬件来实现。
该客户端装置110c与客户端装置110相比,不同点在于,构成为不 存储通过声音输入而得到的特征量数据,并且,在修正处理时再次使用 该特征量数据,具体而言,不同点在于,不具有特征量保存部230、错误 区间特征量提取部260、音响模型保持部281、语言模型保持部282、以 及辞典保持部283。下面,根据不同点进行说明。
特征量计算部210根据声音输入来计算特征量数据,特征量压缩部 220对特征量数据进行压縮并将其发送到服务器装置120。然后,接收部 235从服务器装置120接收识别结果。错误区间指定部240通过可靠度信 息或用户操作来指定错误区间,错误区间前后上下文指定部250指定其 前后上下文,指定错误区间。
修正部270a根据存储在语言DB保持部284中的数据库,对由包含 前后的上下文在内的错误区间所指定的文本数据进行转换处理。该语言 DB保持部284存储与语言模型保持部282大致相同的信息,存储各个音 节的连续概率。
进而,该修正部270a将可能在错误区间中出现的单词串w (Wi、 Wi+l…Wj)列入表中。这里,单词串w的数量限制为K。设限制数量K 为与错误单词数量P相同或与P接近的一定范围(K=P-c P+c)。
进而,修正部270a计算将已经列入表中的全部单词串限定为前后单 词W1和W2时的似然。目卩,针对全部W系列,利用在终端保存的语言 DB,使用以下的式(1)求出似然。
单词串(Wl w W2)的似然P (wl w w2) =P (Wl、 Wi、 Wi+1… Wj、 W2) =P (Wl) *P (Wi/Wl) "'*P (W2/Wj) …(1)
进而,计算错误区间的单词串和候选的距离,将该距离相加。该情 况下,成为以下的式(2)的计算式。
单词串(Wl w W2)的似然P (wl w w2) =P (Wl、 Wi、 Wi+1… Wj、 W2) *P (Wi、 Wi+卜.Wj、 We丽)…(2)
P (Wi、 Wi+l…Wj、 Werror)表示错误单词串Werror和候选串Wi、Wi+l…Wj之间的距离。
该式的P (Wn/Wm)将N-gram模型中的Bi-gram作为对象,表示接 着Wm出现Wn的概率。这里,利用Bi-gmm的例子进行说明,但是, 也可以利用其他N-gram模型。
统合部280对这样由修正部270a转换的文本数据和接收到的识别结 果中的文本数据进行统合,显示部290显示统合并修正后的文本数据。 另外,也可以在统合之前,将使用由修正部270a计算出的似然进行排序 的候选列入表中,并由用户选择,也可以自动决定似然最高的候选。
接着,说明这样构成的客户端装置110c的处理。图15是示出客户 端装置110c的处理的流程图。根据声音输入的声音数据,通过特征量计 算部210计算特征量数据,将由特征量压縮部220压縮后的特征量数据 发送到服务器装置120 (S502)。
通过接收部235接收在服务器装置120中进行声音识别后的识别结 果(S502),通过错误区间指定部240指定错误区间(S503)。关于这里 的错误区间的指定,可以基于可靠度进行,也可以通过用户输入来指定。
然后,通过错误区间前后上下文指定部250指定错误区间的前后上 下文(单词)(S504)。然后,通过修正部270a进行再次转换处理,此时, 将错误区间的候选列入表中(S505)。这里,通过修正部270a计算各候 选的似然(S506),进行基于似然的排序处理(S507),在显示部290上 显示排序处理后的候选组(S508)。
在该客户端装置110c中,特征量计算部210根据所输入的声音计算 特征量数据,特征量压縮部220对该特征量数据进行压縮,发送部225 将其发送到服务器装置120。在服务器装置120中,进行声音识别,接收 部235接收其识别结果。然后,修正部270a根据在错误区间指定部240、 错误区间前后上下文指定部250中指定的错误区间,进行修正处理。然 后,统合部280进行统合处理后,显示部290显示修正后的识别结果。 由此,能够简单地修正声音识别的错误以修正识别结果中必要的部分, 能够得到正确的识别结果。另外,在该实施方式中,与第1实施方式相 比,不存储特征量数据,并且在再次识别处理中不使用该特征量数据,利用这点,能够简化其结构。
<第5实施方式>
接着,说明不是在服务器装置120中进行声音识别的分散型处理, 而是在客户端装置110d中进行第一声音识别和第二声音识别的形式。
图16是示出客户端装置110d的功能结构的框图。客户端装置110d 构成为包含特征量计算部210、第一识别部226 (取得单元)、语言模 型保持部227、辞典保持部228、音响模型保持部229、特征量保存部230、 错误区间指定部240、错误区间前后上下文指定部250、错误区间特征量 提取部260、修正部270、音响模型保持部281、语言模型保持部282、 辞典保持部283、统合部280、以及显示部290。该客户端装置110d与客 户端装置110同样,通过图3所示的硬件来实现。
该客户端装置110d与第1实施方式的客户端装置110的不同点在于, 没有用于与服务器装置120进行通信的结构这点、以及具有第一识别部 226、语言模型保持部227、辞典保持部228、音响模型保持部229这点。 下面,以不同点为中心进行说明。
第一识别部226使用语言模型保持部227、辞典保持部228和音响 模型保持部229,对在特征量计算部210中计算出的特征量数据进行声音 识别。
语言模型保持部227是存储表示单词、文字等的连续概率的统计信 息的部分。辞典保持部228保持音素和文本的数据库,例如是存储HMM (Hidden Marcov Model)的部分。音响模型保持部229是对应地存储音
素及其频谱的数据库。
错误区间指定部240输入在上述第一识别部226中识别的识别结果,
指定错误区间。错误区间前后上下文指定部250指定错误区间的前后上 下文,错误区间特征量提取部260提取包含前后上下文在内的错误区间 的特征量数据。然后,修正部270根据特征量数据再次进行识别处理。 该修正部270发挥第二识别部的功能。
然后,统合部280进行统合处理后,显示部290能够显示修正后的 识别结果。接着,说明该客户端装置110d的动作。图17是示出客户端装置110d 的处理的流程图。通过特征量计算部210计算所输入的声音的特征量数 据(S601),在特征量保存部230中保存计算出的特征量数据(S602)。 与该保存处理平行地,通过第一识别部226进行声音识别(S603)。
通过错误区间指定部240和错误区间前后上下文指定部250,指定 由第一识别部226进行声音识别后的识别结果的错误区间(S604)。通过 错误区间特征量提取部260,从特征量保存部230中提取该指定的错误区 间(包含前后上下文)的特征量数据(S605)。然后,通过修正部270再 次识别错误区间的声音(S606)。通过统合部280对这里识别的识别结果 进行统合,通过显示部2卯显示识别结果(S607)。
这样,在客户端装置110d内,通过第一识别部226和第二识别部(修 正部)270进行识别处理,所以,能够进行更准确的声音识别。另外,优 选在第一识别部226和第二识别部中釆取不同的识别方法。由此,针对 在第一识别部226中没有识别的声音,也可以在第二识别部270中对其 进行补充,作为整体,能够期待正确的声音识别结果。
根据客户端装置110d,在特征量计算部210中根据所输入的声音计 算特征量数据,在特征量保存部230中对其进行存储。另一方面,第一 识别部226根据特征量数据进行声音识别处理,错误区间指定部240和 错误区间前后上下文指定部250在所识别的识别结果中指定产生识别错 误的错误区间。然后,修正部270 (第二识别部)修正所指定的错误区间 中的识别结果。由此,能够简单地进行修正处理以修正识别结果中必要 的部分,并且,能够得到正确的识别结果。并且,在客户端装置110d内 进行二次识别处理,由此,不需要使用服务器装置120。
<第6实施方式>
接着,说明第2实施方式的变形例即第6实施方式。根据该实施方 式,其特征在于,自动判断错误区间的终点。
图18是示出第6实施方式的客户端装置110f的功能结构的框图。 客户端装置110f构成为包含特征量计算部210、特征量压縮部220、特 征量保存部230、发送部225、接收部235、操作部236、结果保存部237、用户输入检测部238、错误区间指定部240c、终点判断部241、错误区间 前后上下文指定部250、错误区间特征量提取部260、修正部270、统合 部280、音响模型保持部281、语言模型保持部282、辞典保持部283、 以及显示部290。该客户端装置110f与客户端装置110同样,通过图3 所示的硬件来实现。
该客户端装置110f与第2实施方式的不同点在于,在错误区间指定 部240c中仅受理错误区间的起点,终点判断部241根据规定条件来判断 错误区间的终点。下面,根据图18所示的框图,以与第2实施方式的不 同点为中心进行说明。
与第2实施方式所示的结构同样,在客户端装置110f中,接收部235 接收在服务器装置120中进行识别的识别结果,结果保存部237保存该 识别结果。然后,显示部290显示该识别结果,同时,用户一边査看在 该显示部290上显示的识别结果, 一边对操作部236进行操作,由此指 定错误区间的起点。用户输入检测部238检测该起点,将其输出到错误 区间指定部240c。
错误区间指定部240c根据由用户指定的起点和在终点判断部241中 判断的终点,指定错误区间。在判断错误区间的终点时,当错误区间指 定部240c检测到由用户指定了起点的情况后,将该意思输出到终点判断 部241,指示终点的判断。
终点判断部241是根据来自错误区间指定部240c的指示来自动判断 错误区间的终点的部分。例如,终点判断部241对在接收部25中接收并 在结果保存部237中保存的声音识别结果所包含的可靠度信息和预先设 定的阈值进行比较,将可靠度超过阈值的单词(或可靠度最高的单词) 作为错误的终点。然后,终点判断部241将判断的终点输出到错误区间 指定部240c,由此,错误区间指定部240c能够指定错误区间。
例如,按照以下的声音为例进行说明。另夕卜,这里,为了便于说明, 作为错误区间的起点,指定了 "活性化"。
<讲话内容>
"二o目標^達成卞3/i&^W;、皆占Ay0協力力s必要-c卞。"<声音识别结果>
"二 O目標全活性化(Dt feC^、皆SO協力力S必要Tt。" 这里,试着将声音识别结果划分为单词单位。另外,"/"表示单词 的划分。
"二0/目標/全/活性化/0/f::力/^/d:、 /皆/S/u/0/協力/力V必要rC
卞。"
作为该声音识别结果,在"活性化"的可靠度为0.1、 的可靠 度为0.01、 "/i力"的可靠度为0.4、 "C的可靠度为0.6的情况下,在 将阈值设为0.5的情况下,能够判断为"活性化/0/广c:i6^:"中的
为终点。
另外,终点判断部241能够将可靠度为阈值以上的单词的前一个(在 上面例示中为"t&")判断为终点,但是,在指定错误区间方面,结果 只要包含错误部分即可,所以,能够采用任意的方法。
这种错误区间的指定方法符合用户日常的修正习惯,所以,使用便 利。g卩,例如在汉字转换中,在用户指定错误的情况下,认为通常是首 先输入起点,接着删除错误,输入正确的单词串。上述错误区间的指定 方法也是在输入起点后,自动确定终点,所以,应用该操作方法时,能 够进行不使用户感觉到不舒服的操作。
并且,终点判断部241在判断终点时,不限于上述方法。例如,也 可以是根据特定发音记号来判断终点的方法、设错误起点开始后第M个 单词为终点的方法。这里,基于特定发音记号的方法是根据讲话中的停 顿来进行判断的方法,也可以根据在词组边界出现的短停顿(逗点)、讲 话最后出现的长停顿(句点)来进行判断。由此,利用句子的划分来进 行判断,能够期待更准确的声音识别。
以下示出其具体例。以声音是与上述内容相同的以下内容为例进行 说明。
<讲话内容>
"二 (D目標^達成卞3 & &〖;i d 、皆$ O協力力S必要T卞。" <声音识别结果〉"二 O目標^活性化。fd ft〖二 tt、皆$ /u。協力力S必要Tt。" 用户对操作部236进行操作,由此,当设定"二O目標仝"的后面 为错误区间的起点后,终点判断部241将与该部分最近的停顿(逗点部 分)判断为终点。错误区间指定部240c能够根据该终点来指定错误区间。 在上述例子中,作为错误区间的终点,指定了 "广d&〖二^:、"中的"、" 的部分。另外,"、"的部分实际上不是声音,而是存在一瞬间的状态。
另外,作为特定发音,除了逗点、句点以外,也可以是"之 "、 Q "(日语中的感叹词)这样的发音、或"法卞"、(日语中的 终助词)这样的单词。
接着,示出将错误起点移动的第M个单词作为终点的方法的例子。 以下所示的句子示出了以单词为单位进行划分后的状态。另外,"/"表示 单词的划分。
"二 (D/目標/套/活性化/(D/fc:J6/〖二/^;、 /皆/$ Ay/(D/協力/力V必要/"C
t。"
例如,在设起点为"活性化"的情况下,在M=3的情况下,"活性 化/cD/t力"中的"/"::力"为终点的单词。因此,错误区间指定部240c 能够指定"活性化/^/t&"作为错误区间。另夕卜,当然也可以不是M-3。
接着,示出将识别结果的候选数量(竞争数量)少的单词作为终点 的方法的例子。例如,使用以下的例子进行说明。
在"iO/目標/全/活性化/0/7"c:力"中,列举以下的候选。 "活性化":H"、"沢山"、"糊&"
"力、"、"W
"/"c:fe":-(没有候选)该候选数量反映了该区间的可疑度,可靠 性越低,从服务器装置120发送越多的候选。另外,在该例子中构成为, 在服务器装置120中,代替发送可靠度信息,而直接向客户端装置110 发送根据可靠度信息得到的其他候选。
该情况下,没有候选,所以,能够认为只有"力:力"的可靠 度高。由此,在该例子中,作为错误区间,能够判断为"t&"之前的 为错误区间的终点。另外,作为错误区间的终点,不限于其之前的单词,也可以具有某种程度的宽度。
另夕卜,在"今年/大会/在/日本/柔道/突起/举行"中,例如列举以下的 候选。
"北海道""柔道"、"拜见"、"别的"
"如期""突起"、"路基"、"提起"、"体积"
"举行""举行"。 如上所述,关于终点位置,考虑了基于可靠度的方法、利用特定发 音记号(或发音)的方法、将从起点到第M个作为错误区间的方法,但 是,也可以是这些方法的组合,即,使这些多个方法的修正结果为N-best 形式或从多个方法的识别结果中选择一个识别结果的形式。该情况下, 按照识别结果的分数的顺序,列表显示识别结果,用户可以从该列表中 选择任意的识别结果。
这样,根据错误区间指定部240c指定的错误区间,错误区间前后上 下文指定部250指定包含其前后的区间,错误区间特征量提取部260从 特征量保存部230中提取该特征量数据,修正部270对该特征量数据进 行再次识别处理,由此,进行修正处理。
接着,说明这样构成的客户端装置110f的动作。图19是示出客户 端装置110f的处理的流程图。
通过特征量计算部210提取经由麦克风输入的声音的特征数据 (SIOI)。然后,在特征量保存部230中保存特征量数据(S102)。接着, 通过特征量压縮部220对特征量数据进行压縮(S103)。通过发送部225 将压縮后的压縮特征量数据发送到服务器装置120 (S104)。
接着,在服务器装置120中进行声音识别,从服务器装置120发送 该识别结果,由接收部235接收并临时保存,并且,在显示部290上显 示该识别结果(S105a)。然后,用户根据显示在显示部290上的识别结 果来判断错误区间的起点,通过对操作部236进行操作来指定该起点。 然后,通过用户输入检测部238检测到指定了起点后,通过终点判断部 241自动判断错误区间的终点。例如,根据声音识别结果所包含的可靠度 进行判断,将出现了预先确定的发音记号的位置判断为终点,进而,将起点后的第M个(M为预先确定的任意的值)判断为终点。
然后,通过错误区间指定部240c这样指定起点和终点。然后,根据 该指定的错误区间指定前后上下文(S106c)。根据包含该前后上下文的 错误区间,通过错误区间特征量提取部260提取特征量数据(S107),通 过修正部270再次进行声音识别,生成错误区间中的文本数据(S108)。 然后,对错误区间中的文本数据和在接收部235中接收的文本数据进行 统合,在显示部290中显示正确的文本数据(S109)。
另外,关于包含S106c在内的S105a S108的处理,进行与图10所 示的流程图大致同样的处理,但是,关于S305的处理,终点判断部241 自动判断错误区间的终点位置并保存,这点不同。
如上所述,根据该实施方式,这种错误区间的指定方法符合用户曰 常的修正习惯,能够提供使用非常便利的装置。
<第7实施方式>
接着,说明第7实施方式。根据该实施方式,用户在错误区间中指 定开头的文字,从而将该指定的文字作为约束条件,更正确地进行声音 识别。
图20是示出第7实施方式的客户端装置110g的功能结构的框图。 客户端装置110g构成为包含特征量计算部210、特征量压縮部220、 特征量保存部230、发送部225、接收部235、操作部236、结果保存部 237、用户输入检测部238、错误区间指定部240a、错误区间前后上下文 指定部250a、错误区间特征量提取部260、修正部270、统合部280、音 响模型保持部281、语言模型保持部282、辞典保持部283、以及显示部 290。该客户端装置UOg与客户端装置110同样,通过图3所示的硬件 来实现。
该客户端装置110g在如下方面具有特征操作部236从用户受理错 误区间中的修正后的文字作为约束条件,错误区间前后上下文指定部 250a在错误区间前后指定上下文和在操作部236中受理的修正后的文字, 修正部270将这些错误区间前后上下文和修正后的文字作为约束条件进 行再次识别处理,从而进行修正处理。艮卩,操作部236从用户受理用于指定错误区间的输入,然后,受理
错误区间中的修正后的文字输入。
错误区间前后上下文指定部250a进行与上述第1实施方式中的错误 区间前后上下文指定部250大致相同的处理,指定在错误区间前后所识 别的单词(一个识别单位),并且,指定在操作部236中受理的修正后的 文字。
修正部270根据在错误区间特征量提取部260中提取出的特征量数 据和在错误区间前后上下文指定部250a中指定的约束条件,进行再次识 别处理,能够执行修正处理。
例如,根据以下的例子来说明上述处理。
<讲话内容>
"二 CD目標^達成卞3广d fe〖二 tt 、皆$ A/ O協力力5必要T卞。" <声音识别结果>
"二 60目標^活性化O t力(二 d 、皆$ O協力力S必要T卞。" 该情况下,用户对操作部236进行操作,由此,在错误区间的起点 (在上述例子中为"二0目標^"后面的位置)输入正确的文字内容。 应该输入的假名串是"fdo甘V、卞6tfe^:"。以下的例子是以输入作为 输入开头的一部分的"/i"的情况为例进行说明。另外,通过与上述同 样的方法,决定了错误区间的起点,并决定错误区间的终点。
当用户经由操作部236输入后,错误区间前后上下文指定部 250a将"二0目標^"作为前后上下文,将所输入的文字作为约 束条件,即,将"二^目標^"设定为识别特征量数据时的约束条件。
这样,向用户提示将用户的文字输入内容作为约束条件而再次进行 了声音识别的识别结果,由此,能够提示更准确的识别结果。另外,关 于修正方法,除了声音识别,也可以并用关键文字输入方法。例如,作 为关键文字输入方法,考虑假名汉字转换。在假名汉字转换中,具有如 下功能将输入文字内容与辞典进行比较,来预测其转换结果。例如当 输入后,根据数据库,按顺序将开头的单词串列入表中, 向用户提示。这里,利用该功能,列表显示假名汉字转换的数据库的候选和通过 声音识别得到的候选,根据这些列表,用户可以选择任意的候选。关于 列表显示的顺序,可以是转换结果或识别结果所附加的分数顺序,也可 以是基于如下分数的顺序对基于假名汉字转换的候选和基于声音识别 的候选进行比较,对分别针对完全一致或部分一致的候选附加的分数进 行合计而得到的分数。例如,在假名汉字转换的候选A1 "達成"的分数
为50,声音识别结果的候选B1 "達成卞3"的分数为80的情况下,候 选A1和候选B1部分一致,所以,根据在各分数中乘以规定系数并进行 合计而得到的分数,进行显示。另外,在完全一致的情况下,不需要进 行乘以规定系数这样的调整处理。并且,在用户选择了假名汉字转换的 候选A1 "達成"的阶段,将"0目標^r達成"作为约束条件,对相当 于还未确定的剩余的"卞3"的特征量数据进行再次识别,重新显示候 选列表。
接着,说明这样构成的客户端装置110g的动作。图21是示出客户 端装置110g的处理的流程图。
通过特征量计算部210提取经由麦克风输入的声音的特征数据 (S101)。然后,在特征量保存部230中保存特征量数据(S102)。接着, 通过特征量压縮部220对特征量数据进行压縮(S103)。通过发送部225 将压縮后的压縮特征量数据发送到服务器装置120 (S104)。
接着,在服务器装置120中进行声音识别,从服务器装置120发送 该识别结果,由接收部235接收并临时保存,并且,在显示部290上显 示该识别结果(S105a)。然后,用户根据显示在显示部290上的识别结 果来指定错误区间(S106d)。进而,用户对操作部236进行用于修正错 误区间中的识别结果的文字输入。在操作部236中,受理文字输入后, 将其输出到错误区间前后上下文指定部250a,错误区间前后上下文指定 部250a根据所输入的文字和该指定的错误区间来指定前后上下文。根据 包含该前后上下文的错误区间,通过错误区间特征量提取部260提取特 征量数据(S107),通过修正部270再次进行声音识别,生成错误区间中 的文本数据(S108)。然后,对错误区间中的文本数据和在接收部235中接收的文本数据进行统合,在显示部290中显示正确的文本数据(S109)。 另外,关于包含S106d在内的S105a S108的处理,进行与图10 所示的流程图大致同样的处理。进而,在本实施方式中,除了图10的流 程图中的各处理,还需要在S309中进行将在操作部236中受理的文字设 定为约束条件的处理。另外,需要在S309之前完成作为约束条件的文字 的输入受理。
如上所述,根据该实施方式,除了前后上下文,还设定从用户指定 的文字作为约束条件,由此,能够进行更准确的声音识别。 <第8实施方式>
接着,说明第8实施方式。根据该实施方式,设在修正部270中再 次识别的结果不是与再次识别前的识别结果相同的识别结果。
图22是示出第8实施方式的客户端装置110h的功能结构的框图。 客户端装置110h构成为包含特征量计算部210、特征量压縮部220、 特征量保存部230、发送部225、接收部235、操作部236、结果保存部 237、用户输入检测部238、错误区间指定部240a、错误区间前后上下文 指定部250、错误区间特征量提取部260、修正部270b、统合部280、音 响模型保持部281、语言模型保持部282、辞典保持部283、以及显示部 290。该客户端装置110h与客户端装置110同样,通过图3所示的硬件 来实现。下面,以与图2的客户端装置110的不同点为中心进行说明。
修正部270b与图3中的修正部270同样,是进行再次识别处理等的 部分。进而,修正部270b根据存储在结果保存部237中的识别结果,进 行再次识别处理,以便不会得到同样的识别错误。即,修正部270b对在 错误区间指定部240a中指定的错误区间中的识别结果进行比较,为了不 会得到同样的识别结果,在再次识别的搜索过程中,进行从候选中排除 包含错误区间中的识别结果在内的路径的处理。作为排除处理,修正部 270b以使针对错误区间的特征量数据的候选中的假说的概率极小化的方 式乘以规定系数,由此,不选择结果为极小的候选。另外,在上述方法 中,从识别结果的候选中排除再次识别时可能成为错误的候选(例如"活 性化"),但是不限于此,在提示再次识别的识别结果时,也可以不显示可能成为错误的识别结果的一个候选(例如"活性化")。
另外,该客户端装置110h执行与图8所示的流程图大致相同的处理。 另外,关于在S108的错误区间的识别处理,进行从其候选中排除的识别 处理以便不显示相同的识别结果,这点不同。
如上所述,由于作为修正对象的单词错误,所以,再次识别后的结 果中不应当输出作为修正对象的单词,因此,在该实施方式中,能够不 显示这种修正结果。
<第9实施方式〉
接着,说明第9实施方式。根据该实施方式,在错误区间特征量提 取部260提取的特征量数据的错误区间中计算平均值,使用从特征量数 据中减去该平均值后的数据,进行再次识别处理。
说明其具体结构。图23是示出第9实施方式的客户端装置110i的 功能的框图。该客户端装置110i构成为包含特征量计算部210、特征 量压縮部220、特征量保存部230、发送部225、接收部235、错误区间 指定部240、错误区间前后上下文指定部250、错误区间特征量提取部260、 平均值计算部261 (计算单元)、特征标准化部262 (修正单元)、修正部 270(修正单元)、统合部280、音响模型保持部281、语言模型保持部282、 辞典保持部283、以及显示部290。该客户端装置110i与客户端装置110 同样,通过图3所示的硬件来实现。下面,以与图2的客户端装置110 的不同点、即平均值计算部261和特征标准化部262为中心进行说明。
平均值计算部261是计算在错误区间特征量提取部260中提取的特 征量数据中的错误区间的平均值(或包含错误区间前后在内的平均值) 的部分。更具体而言,平均值计算部261按照错误区间中的各识别单位 的频率对输出值(大小)进行累计相加。然后,利用其识别单位数量去 除进行累计相加而得到的输出值,从而计算平均值。例如,"活性化/^/ 广二力"的错误区间中的识别单位是利用斜线"/"划分的部分。各个识别 单位即识别帧n由频率fnl fnl2构成,设其输出值为gnl gnl2时,能 够利用频率fl的平均值gl-Sgnl/n (在上述例子中n-l 3)进行表示。
艮P,在设构成"活性化"的频率为fll fll2(输出值为gll g112)、构成的频率为f21 f212 (输出值为g21 g212)、构成的 频率为f31 f312(输出值为g31 g312)的情况下,利用(gll+g21+g31) /3来计算频率fl的平均值。
特征标准化部262进行如下处理从由各频率构成的特征量数据中 减去在平均值计算部261中计算出的各频率的平均值。然后,修正部270 对进行减法而得到的数据进行再次识别处理,由此,能够进行修正处理。
在本实施方式中,使用在平均值计算部261中计算出的平均值来修 正特征量数据,由此,例如能够成为去除了用于向特征量计算部210输 入声音的麦克风等集音装置的特性后的数据。即,能够去除麦克风集音 时的噪声,能够更准确地对声音进行修正(识别处理)。另外,在上述实 施方式中,应用了在错误区间特征量提取部260中提取出的错误区间, 但是,也可以利用包含该错误区间在内的一定长度的区间的特征量数据。
并且,上述平均值计算部261和特征标准化部262能够分别应用于 上述第2实施方式 第8实施方式。
<第10实施方式>
在上述第1实施方式 第9实施方式所记载的作为声音识别结果修 正装置的客户端装置110 110i中,修正部270进行修正处理(再次识别 处理),但是不限于此。即,也可以构成为向服务器装置120通知错误区 间指定部240指定的错误区间,由此,在服务器装置120中再次进行修 正处理,接收部235接收该修正结果。服务器装置120中的再次修正处 理采用上述客户端装置110的修正部270中的修正处理。作为客户端装 置110中的通知处理的具体例子,考虑错误区间指定部240计算在错误 区间指定部240中指定的错误区间的时间信息或包含其前后的单词在内 的时间信息,发送部225向服务器装置120通知该时间信息。在服务器 装置120中,进行与最初进行的识别处理不同的声音识别处理,由此防 止再次进行错误的识别。例如,更换音响模型、语言模型、辞典来进行 识别处理。
<第11实施方式>
接着,说明第ll实施方式的客户端装置110k。该第ll实施方式的客户端装置110k识别子字区间,使用该子字区间所记述的子字文字串进 行修正处理。图26是示出该客户端装置110k的功能的框图。
该客户端装置110k构成为包含特征量计算部210、特征量压縮部 220、发送部225、特征量保存部230、接收部235、错误区间指定部240、 子字区间指定部242、分割部243、错误区间特征量提取部260、辞典追 加部265、修正部270、统合部280、音响模型保持部281、语言模型保 持部282、辞典保持部283、以及显示部290。
与第1实施方式的不同点在于,包含子字区间指定部242、分割部 243和辞典追加部265。下面,以该不同点为中心说明其结构。
子字区间指定部242是从在错误区间指定部240中指定的错误区间 指定包含子字文字串在内的区间的部分。在子字文字串中,作为其属性 信息,附加表示是未知词的"subword",子字区间指定部242能够根据 该属性信息来指定子字区间。
例如,图28 (a)示出如下的图在服务器装置120中根据讲话内容 而识别的识别结果。根据图28(a),在"廿y 3々厶七y"中附加"subword" 作为属性信息,子字区间指定部242根据该属性信息将"寸:/3々厶ir y"识别为子字文字串,能够指定该文字串部分作为子字区间。
另外,在图28 (a)中,在根据讲话内容而识别的识别结果的识别单 位中附加帧索引。与上述同样,l帧是10msec左右。并且,在图28 (a) 中,错误区间指定部240能够根据与上述同样的处理来指定错误区间, 能够将(第2个识别单位)到"力"(第8个识别单位)指定为 错误区间。
分割部243是如下的部分以由子字区间指定部242指定的子字区 间所包含的子字文字串为边界,分割由错误区间指定部240指定的错误 区间。根据图28 (a)所示的例子,根据子字文字串即"廿乂3々厶t乂" 分割为区间1和区间2。即,将第2个识别单位即到第5个识别 单位即"寸乂3夕厶七乂"、即称为帧索引的100msec到500msec分割为 区间1 ,将第5个识别单位艮P"廿y 3々厶t 乂"到第8个识别单位即"力",、 即称为帧索引的300msec到600msec分割为区间2。辞典追加部265是在辞典保持部283中追加由子字区间指定部242 指定的子字文字串的部分。在图28 (a)的例子中,将"廿y3々厶ir乂" 作为一个单词,新追加到辞典保持部283中。并且,在该辞典保持部283 中追加子字的读音,并且,在语言模型保持部282中追加子字和其他单 词的连接概率。语言模型保持部282中的连接概率的值可以利用事先准 备的子字专用的分类。并且,子字模型的文字串几乎都是固有名词,所 以,也可以利用名词(固有名词)的分类的值。
通过这种结构,错误区间特征量提取部260根据由分割部243分割 而得到的区间1和区间2,提取保存在特征量保存部230中的特征量数据。 然后,修正部270对与各个区间对应的特征量数据进行再次识别处理, 由此,执行修正处理。具体而言,以图28 (a)为例,区间1的修正结果 为"Ttt電気^ 一力0廿y3夕厶ir乂",区间2的修正结果为"廿:/3
々厶ir:/(D製品^;評判力"。
统合部280根据以在修正部270中修正而得到的识别结果(区间1 和区间2)为边界的子字文字串进行统合处理,并且,与在接收部235中 接收的识别结果进行统合,在显示部290上进行显示。以图28(a)为例, 作为统合结果,最终的错误区间的文本为"TW:電気^一力CD廿:/3々 厶t乂(D製品tt評判力S"。
另外,参照图28 (b),可以了解在汉语发音的情况下,以子字为边 界的分割方法,如图28 (b)所示,这里的子字为"Bulang",因此可以 进行如上所述的分割。
接着,说明这样构成的客户端装置110k的动作。图27是示出客户 端装置110k的动作的流程图。
在S101 S105中,进行与图6所示的客户端装置110相同的处理。 即,通过特征量计算部210提取经由麦克风输入的声音的特征数据 (S101)。然后,在特征量保存部230中保存特征量数据(S102)。接着, 通过特征量压縮部220对特征量数据进行压縮(S103)。通过发送部225 将压縮后的压縮特征量数据发送到服务器装置120 (S104)。然后,在服 务器装置120中进行声音识别,从服务器装置120发送该识别结果,通过接收部235进行接收(S105)。然后,通过错误区间指定部240从声音 识别结果中指定错误区间(S106)。另外,也可以根据该指定的错误区间
来指定前后上下文。
接着,通过子字区间指定部242指定并确定子字区间(S701)。另外, 此时,在位于子字区间中的子字文字串位于客户端装置110k所具有的用 户辞典(例如,假名汉字转换辞典中用户登记的单词、地址薄或电话薄 中登记的姓名等)中的情况下,也可以进行置换为该单词的处理。然后, 通过分割部243,以子字区间为边界分割错误区间(S702)。进行该分割 处理,并且,通过辞典追加部265在辞典保持部283中保持所指定的子 字文字串(S703)。
然后,通过错误区间特征量提取部260提取错误区间的特征量数据 和子字区间的特征量数据(S107a),通过修正部270对错误区间和子字 区间的特征量数据进行再次识别,从而进行修正处理(S108a)。然后, 对错误区间中的文本数据和在接收部235中接收的文本数据进行统合, 在显示部290中显示进行正确识别而得到的文本数据(S109)。另外,在 统合时,以边界的单词为基准连接区间1和区间2的结果。并且,在根 据用户辞典对上述子字文字串进行转换的情况下,修正部270也可以将 转换后的文字串作为约束条件来进行声音识别处理,由此,进行修正处 理。
在本实施方式中,以子字的文字串位于服务器的识别结果中为前提 进行了说明,但是,也可以在客户端装置110k中生成该子字的文字串。 该情况下,在图27的处理S106中的错误区间指定处理后,生成子字文 字串,然后进行子字区间确定处理。并且,客户端装置110k中的上述图 27的处理也可以在服务器或其他装置中进行。进而,关于修正方法,说 明了通过识别来进行修正的方法,但是,也可以是其他方法、例如基于 文字串间的相似度的方法。该情况下,不需要特征量保存部230和保存 音响特征量数据的处理(S102),不需要错误区间特征量提取部260、修 正部270和利用音响特征来识别(S108a)。
进而,在子字的文字串位于辞典保持部283中的情况下,也可以利用辞典保持部283中的信息。例如,在辞典保持部283中存在与"廿y 3夕厶iry"对应的单词、例如"三洋無線"的情况下,不在子字辞典 中进行追加。
并且,在之前的例子中,在分割区间时,也可以在区间1和区间2 中分别包含子字区间,但是,这不是必须的,各分割区间中也可以不包 含子字。即,也可以将第2个单词到第5个子字文字串的开始 分割为区间1,将第5个子字文字串结束到第8个单词结束的"力^"分割 为区间2。该情况下,也可以不进行向辞典追加子字的文字串的追加处理。
接着,说明本实施方式的客户端装置110k的作用效果。在该客户端 装置U0k中,接收部235从服务器装置120接收识别结果,错误区间指 定部240指定错误区间。进而,子字区间指定部242指定错误区间中的 子字区间。能够通过从服务器装置120发送的识别结果所附加的属性信 息对其进行判断。然后,修正部270从特征量保存部230中提取与子字 区间指定部242所指定的子字区间对应的特征量数据,使用该提取出的 特征量数据进行再次识别,由此,执行识别结果的修正。由此,能够这 对子字这种未知词进行修正处理。即,能够基于子字区间这样的未知词 区间进行再次识别。
并且,在本实施方式的客户端装置110k中,分割部243根据由子字 区间指定部240指定的子字区间,将识别结果分割为多个区间。然后, 修正部270按照分割部243所分割的各个分割区间,执行识别结果的修 正。由此,能够縮短识别对象,能够进行更准确的识别处理。
并且,在客户端装置110k中,分割部243对识别结果进行分割,以 使子字区间的终点为一个分割区间的终点,并且,子字区间的起点为所 述一个分割区间下一分割区间的起点。然后,修正部270按照分割部243 所分割的各个分割区间,执行识别结果的修正,并且,将子字区间作为 各分割区间的修正中的约束条件。由此,子字区间包含在任意分割区间 中。由此,进行识别处理时一定包含子字区间,从而能够将子字文字串 作为约束条件来进行识别处理。
并且,在客户端装置110k中,辞典追加部265在识别处理用的辞典保持部283中追加由子字区间指定部242指定的子字区间中的子字文字 串。由此,能够蓄积子字文字串,在今后的识别处理中有效使用,能够 进行更准确的识别处理。 <第12实施方式>
在第11实施方式中,说明了以子字文字串为边界进行分割的方法, 但是,在本实施方式中,说明即使不进行分割,在再次识别的情况下也 必须使用子字文字串的方法。本实施方式采用与上述第11实施方式相同 的装置结构。
图29是声音识别中的搜索过程的概念图,图29 (a)是示出包含子 字文字串即"f"乂3々厶卞y"的搜索过程的概念图,图29 (b)是示出 将子字文字串作为约束条件的多个区间中的搜索过程的概念图。
一般地,在声音识别搜索过程中计算全部路径的假说的似然,保存 中途的结果,最终按照似然从大到小的顺序生成结果。实际上,考虑分 数的方面,利用在中途将搜索范围縮小到一定范围以内的方法。在本实 施方式中,在由子字区间指定部242指定的子字区间位于规定区间(例 如2秒 3秒的期间)的情况下,修正部270使用该子字区间所记述的子 字文字串进行识别处理,使得与其他路径相比,提高在搜索过程中出现 子字文字串的路径的位次,最终优先输出包含子字文字串的识别结果。 例如,通过修正部270得到以下的搜索路径并保持。
路径l:最近/"Cd/玄関AC/待^合;b甘
路径2:昨日/0/会議/ /世界/中
路径3:最近/"e3/単価/高v、/廿y3,厶ir:/
路径4:最近/"Cd;/電気少一力/0/廿乂3夕厶iry 其中的路径3和路径4中存在"寸乂3々厶iry",所以,修正部 270进行处理,以使与路径l、路径2相比,提高这两个路径的位次。如 果这里縮小范围,则不保留路径1和路径2,而保留路径3和路径4。进
而,也可以判断"寸乂3々厶ir:/"的出现位置,縮小到限定在接近位
于原来的识别结果中的3々厶七y"的出现位置(300ms 500ms) 的一定范围内的路径。并且,与最终识别结果中没有出现"廿乂3々厶七y"的候选相比,也可以优先输出出现了 "廿乂3夕厶iry"的候选。
如上所述,在客户端装置110k中,修正部270将包含由子字区间指 定部242指定的子字区间所记述的子字文字串的假说作为识别的搜索过 程,提高优先位次并保持,从该假说中选择最终的识别结果,从而执行 修正。由此,能够进行必须使用子字文字串的识别处理。
权利要求
1.一种声音识别结果修正装置,其特征在于,该声音识别结果修正装置具有输入单元,其输入声音;计算单元,其根据由所述输入单元输入的声音,计算特征量数据;存储单元,其存储由所述计算单元计算出的特征量数据;取得单元,其取得针对由所述输入单元输入的声音的识别结果;指定单元,其指定在由所述取得单元识别的识别结果中产生了识别错误的错误区间;以及修正单元,其从存储在所述存储单元中的特征量数据中提取与所述指定单元所指定的错误区间对应的特征量数据,使用该提取出的特征量数据进行再次识别,由此,执行由所述取得单元得到的识别结果的修正。
2. 根据权利要求1所述的声音识别结果修正装置,其特征在于, 所述取得单元包括发送单元,其向声音识别装置发送由所述输入单元输入的声音;以及接收单元,其接收在所述声音识别装置中识别的识别结果, 所述指定单元指定在由所述接收单元接收的识别结果中产生了识别 错误的错误区间。
3. 根据权利要求1或2所述的声音识别结果修正装置,其特征在于, 所述指定单元通过受理用户操作来指定错误区间。
4. 根据权利要求1 3中的任一项所述的声音识别结果修正装置, 其特征在于,所述指定单元根据所述识别结果所附加的识别结果的可靠度来判断 错误区间,并指定该判断的错误区间。
5. 根据权利要求1 3中的任一项所述的声音识别结果修正装置,其特征在于,所述指定单元计算所述识别结果的可靠度,根据该可靠度判断错误区间,并指定该判断的错误区间。
6. 根据权利要求1 5中的任一项所述的声音识别结果修正装置, 其特征在于,该声音识别结果修正装置还具有确定单元,该确定单元用于确定形 成由所述指定单元指定的错误区间前面至少一个单词、或后面至少一个 单词、或者所述前面的单词和后面的单词双方中的任一种的识别结果,所述修正单元将所述确定单元所确定的识别结果作为约束条件,根 据该约束条件,从所述存储单元中提取与包含错误区间前面的单词、后 面的单词在内的区间对应的特征量数据,对提取出的特征量数据进行识 别处理。
7. 根据权利要求1 5中的任一项所述的声音识别结果修正装置, 其特征在于,该声音识别结果修正装置还具有确定单元,该确定单元用于确定形 成由所述指定单元指定的错误区间前面至少一个单词、或后面至少一个 单词、或者所述前面的单词和后面的单词双方中的任一种的识别结果,所述修正单元将所述确定单元所确定的识别结果作为约束条件,根 据该约束条件,从所述存储单元中提取与错误区间对应的特征量数据, 对提取出的特征量数据进行识别处理。
8. 根据权利要求1 7中的任一项所述的声音识别结果修正装置, 其特征在于,该声音识别结果修正装置还具有单词信息确定单元,该单词信息确 定单元用于确定识别结果中的单词的单词信息,该识别结果形成用于确 定由所述指定单元指定的错误区间前面至少一个单词的信息即单词信 息、或后面至少一个单词的单词信息、或所述前面的单词的单词信息和 后面的单词的单词信息双方中的任一种,所述修正单元将所述单词信息确定单元所确定的单词信息作为约束 条件,根据该约束条件,从所述存储单元中提取与包含错误区间前面的 单词、后面的单词在内的区间对应的特征量数据,对提取出的特征量数 据进行识别处理。
9. 根据权利要求8所述的声音识别结果修正装置,其特征在于, 所述单词信息包含表示单词词类的词类信息和表示单词读法的读音信息的任意一个或多个。
10. 根据权利要求8或9所述的声音识别结果修正装置,其特征在于,该声音识别结果修正装置还具有未知词判定单元,该未知词判定单 元根据所述单词信息,判定形成由所述指定单元指定的错误区间前面至 少一个单词、或后面至少一个单词、或者所述前面的单词和后面的单词 双方中的任一种的识别结果的单词是否是未知词,当所述未知词判定单元判定为所述识别结果的单词为未知词时,所 述修正单元根据所述单词信息进行识别结果的修正处理。
11. 根据权利要求1 10中的任一项所述的声音识别结果修正装置, 其特征在于,该声音识别结果修正装置还具有连接概率存储单元,该连接概率存 储单元存储单词彼此之间的连接概率,所述修正单元通过进行修正处理,生成该错误区间的单词与其前后 或一方的单词的连接概率,使用该连接概率来更新存储在所述连接概率 存储单元中的连接概率。
12. 根据权利要求6 n中的任一项所述的声音识别结果修正装置,其特征在于,该声音识别结果修正装置还具有约束条件存储单元,该约束条件存 储单元存储由所述单词信息确定单元确定的单词信息或由所述确定单元 确定的单词来作为约束条件,所述修正单元根据存储在所述约束条件存储单元中的约束条件,进 行修正处理。
13. 根据权利要求1 12中的任一项所述的声音识别结果修正装置, 其特征在于,该声音识别结果修正装置还具有受理单元,该受理单元从用户受理 文字信息,所述修正单元将所述受理单元所受理的文字信息作为约束条件,进 行错误区间中的识别结果的修正处理。
14. 根据权利要求1 13中的任一项所述的声音识别结果修正装置, 其特征在于,该声音识别结果修正装置还具有时间信息计算单元,该时间信息计 算单元根据由接收单元接收的识别结果和存储在所述存储单元中的特征 量数据,计算识别结果中的经过时间,所述指定单元根据由所述时间信息计算单元计算出的时间信息,指 定错误区间。
15. 根据权利要求1 14中的任一项所述的声音识别结果修正装置, 其特征在于,该声音识别结果修正装置还具有显示单元,该显示单元显示由所述 修正单元修正的识别结果,所述显示单元不显示所述取得单元所取得的识别结果。
16.根据权利要求15所述的声音识别结果修正装置,其特征在于, 在所述修正单元进行再次识别而得到的识别结果和所述取得单元所 取得的识别结果相同的情况下,或者这些识别结果分别包含的时间信息 产生偏差的情况下,判断为识别错误,所述显示单元不显示识别结果。
17. 根据权利要求3所述的声音识别结果修正装置,其特征在于, 所述指定单元通过用户操作来指定错误区间的起点,根据对所述取得单元所取得的识别结果附加的识别结果的可靠度,指定错误区间的终 点。
18. 根据权利要求3所述的声音识别结果修正装置,其特征在于, 所述指定单元通过用户操作来指定错误区间的起点,从该起点隔开规定识别单位数量来指定错误区间的终点。
19. 根据权利要求3所述的声音识别结果修正装置,其特征在于, 所述指定单元通过用户操作来指定错误区间的起点,根据由所述取得单元取得的识别结果中的规定的发音记号,指定错误区间的终点。
20. 根据权利要求3所述的声音识别结果修正装置,其特征在于,所述取得单元在取得识别结果时,取得多个识别候选作为识别结果, 所述指定单元通过用户操作来指定错误区间的起点,根据由所述取 得单元取得的识别候选的数量来指定终点。
21. 根据权利要求1 20中的任一项所述的声音识别结果修正装置, 其特征在于,该声音识别结果修正装置还具有计算单元,该计算单元计算包含由 所述计算单元计算出的特征量数据的错误区间在内的区间的平均值,所述修正单元从提取出的特征量数据中减去由所述计算单元计算出 的平均值,将通过该减法运算得到的数据作为特征量数据,进行再次识 别处理。
22. —种声音识别结果修正装置,其特征在于,该声音识别结果修 正装置具有输入单元,其输入声音;取得单元,其取得针对由所述输入单元输入的声音的识别结果; 指定单元,其指定在由所述取得单元识别的识别结果中产生了识别 错误的错误区间;通知单元,其向外部服务器通知由所述指定单元指定的错误区间,由此向所述外部服务器委托该错误区间的再次识别处理;以及接收单元,其根据所述通知单元的委托,接收在所述外部服务器中 再次识别的错误区间的识别结果。
23. —种声音识别结果修正方法,其特征在于,该声音识别结果修 正方法具有以下步骤输入步骤,其输入声音;计算步骤,其根据由所述输入步骤输入的声音,计算特征量数据; 存储步骤,其存储由所述计算步骤计算出的特征量数据; 取得步骤,其取得针对由所述输入步骤输入的声音的识别结果; 指定步骤,其指定在由所述取得步骤识别的识别结果中产生了识别 错误的错误区间;以及修正步骤,其从在所述存储步骤中存储的特征量数据中提取与所述指定步骤所指定的错误区间对应的特征量数据,使用该提取出的特征量 数据进行再次识别,由此,执行由所述取得步骤得到的识别结果的修正。
24. —种声音识别结果修正方法,其特征在于,该声音识别结果修正方法具有以下步骤输入步骤,其输入声音;取得步骤,其取得针对由所述输入步骤输入的声音的识别结果;指定步骤,其指定在由所述取得步骤识别的识别结果中产生了识别 错误的错误区间;通知步骤,其向外部服务器通知由所述指定步骤指定的错误区间, 由此向所述外部服务器委托该错误区间的再次识别处理;以及接收步骤,其根据所述通知步骤的委托,接收在所述外部服务器中 再次识别的错误区间的识别结果。
25. 根据权利要求1 22中的任一项所述的声音识别结果修正装置, 其特征在于,该声音识别结果修正装置具有子字区间指定单元,该子字区间指定 单元在所述取得单元所取得的识别结果中指定子字区间,所述修正单元从所述存储单元中提取在所述指定单元所指定的错误 区间中进一步与所述子字区间指定单元所指定的子字区间相对应的特征 量数据,使用该提取出的特征量数据进行再次识别,由此,执行所述取 得单元所得到的识别结果的修正。
26. 根据权利要求25所述的声音识别结果修正装置,其特征在于, 该声音识别结果修正装置还具有分割单元,该分割单元根据由所述子字区间指定单元指定的子字区间,将所述取得单元所取得的识别结果 分割为多个区间,所述修正单元按照所述分割单元所分割的各个分割区间,执行识别 结果的修正。
27. 根据权利要求26所述的声音识别结果修正装置,其特征在于, 所述分割单元对识别结果进行分割,使得将子字区间的终点作为一个分割区间的终点,并且,将子字区间的起点作为所述一个分割区间的下一分割区间的起点。
28. 根据权利要求27所述的声音识别结果修正装置,其特征在于, 所述修正单元按照所述分割单元所分割的各个分割区间,执行识别结果的修正,并且,将所述子字区间作为各分割区间的修正中的约束条 件。
29. 根据权利要求25所述的声音识别结果修正装置,其特征在于, 所述修正单元保持包含由所述子字区间指定单元指定的子字区间所记述的子字文字串在内的假说,来作为识别的搜索过程,从该假说中选 择最终的识别结果,从而执行修正。
30. 根据权利要求25 29中的任一项所述的声音识别结果修正装 置,其特征在于,该声音识别结果修正装置还具有辞典追加单元,该辞典追加单元在 识别处理用的辞典数据库中追加由所述子字区间指定单元指定的子字区 间中的子字文字串。
31. 根据权利要求25 30中的任一项所述的声音识别结果修正装 置,其特征在于,该声音识别结果修正装置还具有由用户生成的辞典数据库, 所述修正单元使用根据所述辞典数据库对子字文字串进行转换后的 文字串,进行修正处理。
32. —种声音识别结果修正系统,其特征在于,该声音识别结果修 正系统包括-权利要求1 22或25 31中的任一项所述的声音识别结果修正装 置;以及服务器装置,其根据从所述声音识别结果修正装置发送的声音来进 行声音识别,并向所述声音识别结果修正装置发送识别结果。
全文摘要
本发明提供声音识别结果修正装置、方法以及系统,在识别结果存在错误的情况下,不用花费用户的劳力和时间就能够修正识别错误。对服务器装置(120)发送声音的特征量数据。然后,在服务器装置(120)中进行识别处理,接收部(235)从服务器装置(120)接收识别结果。错误区间指定部(240)根据可靠度等指定在接收到的识别结果中产生了识别错误的错误区间。然后,错误区间特征量提取部(260)提取错误区间的特征量数据,修正部(270)对提取出的错误区间中的识别结果进行再次识别处理,从而进行修正处理。
文档编号G10L15/28GK101567189SQ200910135059
公开日2009年10月28日 申请日期2009年4月22日 优先权日2008年4月22日
发明者中岛悠辅, 仲信彦, 张志鹏 申请人:株式会社Ntt都科摩
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1