语音处理设备和方法及程序的制作方法

文档序号：2823739阅读：234来源：国知局

专利名称：语音处理设备和方法及程序的制作方法
技术领域：
本发明涉及一种语音处理设备和语音处理方法及程序，更具体地讲，涉及一种能够可靠地从输入语音估计正确意图的语音处理设备和语音处理方法及程序。
背景技术：
近年来，已开发了应用语音识别的各种产品或服务。语音识别指的是使用指示声学特征的特征量的出现概率等识别与输入语音对应的单词序列的技术。图1是示出使用语音识别的现有技术中的语音识别设备的配置例子的框图。图1中的语音识别设备1包括输入部分21、AD转换部分22、特征提取部分23、匹配部分24、声学模型数据库25、词典数据库26和语法数据库27。基于用户说话(utterance)的语音输入到包括传声器等的输入部分21。输入部分 21把输入语音转换成作为模拟电信号的语音信号以便输出。AD转换部分22通过采样和量化把从输入部分21输出的模拟输入语音信号转换成数字输入语音信号以便输出。特征提取部分23以适当的时间间隔对从AD转换部分22输出的输入语音信号进行频率分析，由此提取指示语音的谱或其它声学特征的参数。以这种方法提取的参数对应于输入语音信号的特征量。从特征提取部分23输出输入语音信号的特征量的时间序列(以下，称为特征量序列)。特征提取部分23以这种方法提取输入语音信号的特征量序列，并确定输入语音信号的语音区。语音区表示从说话的开始时刻到其结束时刻的区。匹配部分24确定与由特征提取部分23提取的特征量序列最相符的单词序列，并输出确定的单词序列作为语音识别结果。以下，由匹配部分24如此执行的处理称为匹配处理。匹配部分24针对由特征提取部分23确定的语音区执行匹配处理，由此顺序输出针对所有语音区的语音识别结果。在这个方面，当执行匹配处理时，匹配部分24使用声学模型数据库25、词典数据库26和语法数据库27。声学模型数据库25中记录有指示作为识别目标的语音的语言中诸如单个音素或音节的每个预定单位的声学特征的声学模型。作为声学模型，例如，能够采用HMM(隐马尔可夫模型)。词典数据库26中记录有描述关于作为识别目标的语音的每个单词的发音的信息 (以下，称为发音信息)的词典。因此，每个单词和声学模型彼此相关。结果，与词典数据库 26中记录的每个单词相对应地获得声学标准模式。语法数据库27中记录有描述如何能够连接词典数据库26中记录的各个单词的语法规则。作为语法规则，例如，能够采用正规语法、上下文无关语法或包括统计词连接概率的N元组语法。例如，当在声学模型数据库25中采用HMM作为声学模型的情况下，匹配部分24根据由特征提取部分23提取的特征量序列累计特征量的出现概率。也就是说，由于使用上述标准模式累计每个单词的特征量的出现概率，所以为每个单词计算声学评估值(以下，称为声学得分)。另外，例如，当在语法数据库27中采用二元组作为语法规则的情况下，匹配部分 24在相对于前面的单词的连接概率的基础上计算每个单词的语言概率。每个单词的这种语言概率被数字化为语言评估值(以下，称为语言得分)。匹配部分24在通过针对每个单词总体上评估声学得分和语言得分而获得的最终评估值(以下，称为总得分)的基础上，确定与提供给输入部分21的输入语音最相符的单词序列。作为语音识别结果，输出确定的单词序列。例如，在用户说出“KYO-WA-II-TENKI-DESUNE(今天天气不错)”的情况下，输出 “KY0”、“WA”、“II”、“TENKI”和“DESUNE”的单词序列作为语音识别结果。当确定了这种单词序列时，如上所述，对每个单词给予声学得分和语言得分。在把这种语音识别设备应用于机器人的情况下，机器人的操作应该与根据语音识别识别出的单词序列相关。作为实现这种相关的技术，存在下面的第一技术和第二技术。第一技术是这样的技术根据语音识别识别出单词序列，并且相应的操作直接与识别出的单词序列相关。例如，在用户说出“TATTE(起立)，，的情况下，能够控制机器人以执行与根据语音识别识别出的单词序列“TATTE”对应的操作，即控制机器人起立。第二技术是这样的技术从根据语音识别识别出的单词序列提取说话中暗含的用户意图，并且使相应的操作与该意图相关。根据第二技术，例如，就用户对机器人说出的话 (诸如，“TATTE(起来)”、“0ΚΙΤΕ(起床)”、“TACHIAGATTE(起立)”)而言，根据语音识别识别出各个说话。由于估计以这种方法识别出的各个说话中暗含的意图(例如，在这种情况下的“TATTE-KUDASAI (请起立)，，)，所以能够控制机器人以执行与该意图对应的操作(例如，在这种情况下的起立操作)。一般地，尽管一个操作对应于一个意图，但存在多个说话对应于一个意图。因此，根据第一技术，由于一个操作应该对应于一个单词序列，所以同一操作应该分别对应于与一个意图对应的多个单词序列。另一方面，根据第二技术，一个操作必须对应于与多个单词序列对应的一个意图。因此，作为使操作与根据语音识别识别出的单词序列相关的方法，第二技术比第一技术更合适。为了实现这样的第二技术，采用被配置为从根据语音识别识别出的单词序列估计说话中暗含的用户意图的设备。以下，这种设备称为语音理解设备。为了估计说话中暗含的用户意图，现有技术中的语音理解设备在与指示一个意图的意图信息对应的单词词典和语法规则的基础上确定与基于说话的输入语音信号相符的单词序列。针对多条意图信息中的每条意图信息确定这种单词序列。然后，这个语音理解设备针对多条意图信息中的每条意图信息计算确定的单词序列和输入语音信号之间的相似性。具体地讲，针对多条意图信息中的每条意图信息计算指示声学相似性的声学得分和指示语言相似性的语言得分作为指示相似性的值。然后，现有技术的语音理解设备使用这两个得分估计多条意图信息之中与输入语音信号对应的意图(例如，参见日本未审专利申请公开 No. 2006-53203)。

发明内容
然而，使用语音识别的现有技术中的语音理解设备可能错误地估计意图。因此，如果机器人执行与这种意图信息对应的操作，则该操作被识别为并非用户所希望的错误操作。因此，希望提供一种能够可靠地从输入语音估计正确意图的技术。根据本发明的实施例，提供了一种语音处理设备，该语音处理设备包括得分计算装置，计算指示在用户说话的基础上输入的语音信号与指示多个意图中的每个意图的多条意图信息中的每条意图信息的符合度的得分；意图选择装置，在由得分计算装置计算的得分的基础上选择所述多条意图信息之中指示用户说话的意图的意图信息；以及意图可靠性计算装置，在由得分计算装置计算的得分的基础上计算由意图选择装置选择的意图信息的可靠性。得分计算装置可包括声学得分计算装置，针对所述多条意图信息中的每条意图信息计算声学得分作为指示语音信号与意图信息的声学符合度的得分；语言得分计算装置，针对所述多条意图信息中的每条意图信息计算语言得分作为指示语音信号与意图信息的语言符合度的得分；以及预得分计算装置，针对所述多条意图信息中的每条意图信息计算预得分作为在每个发生概率的基础上预先确定的得分。预得分计算装置可响应于输入语音信号时的上下文(context)来调整所述多条意图信息中的每条意图信息的预得分。得分计算装置可计算语音信号中的语音区的得分。得分计算装置还可以计算所述多条意图信息之中的不指示特定意图的意图信息的得分，并且意图选择装置在选择了不指示所述特定意图的意图信息的情况下可以确定与语音信号对应的用户说话是不指示特定意图的无意义说话。得分计算装置可以对声学得分、语言得分和预得分中的每个得分给予权重，并且意图可靠性计算装置可以调整每个权重并在均被给予了调整后的权重的得分的基础上计算可靠性。语音处理设备还可以包括管理装置，基于由意图选择装置选择的意图信息管理输出。根据本发明的其它实施例，提供了一种与根据本发明实施例的上述语音处理设备对应的语音处理方法及程序。根据本发明其它实施例的语音处理方法及程序包括下述步骤计算指示在用户说话的基础上输入的语音信号与指示多个意图中的每个意图的多条意图信息中的每条意图信息的符合度的得分；在计算的得分的基础上选择所述多条意图信息之中指示用户说话的意图的意图信息；以及在计算的得分的基础上计算选择的意图信息的可靠性。如上所述，根据本发明的实施例，可以可靠地从输入语音估计正确意图。

图1是示出现有技术中的语音识别设备的配置例子的框图；图2是示出根据本发明实施例的语音理解设备的配置例子的框图；图3是示出语音理解处理的例子的流程图4是示出多匹配处理的例子的流程图；图5是示出意图信息的例子的示图；图6是示出词典数据库中记录的词典的例子的示图；图7是示出三元组表格的例子的示图；图8是示出二元组表格的例子的示图；图9是示出一元组表格的例子的示图；图10是示出意图信息的例子的示图；图11是示出词典数据库中记录的词典的例子的示图；图12是示出多匹配处理的执行结果的示图；图13是示出多匹配处理的执行结果的示图；图14是示出上下文的状态转变的例子的状态转变图；图15A和图15B是示出输入语音信号中所包括的无声区的示图；图16是示出每个单词的开始时刻和结束时刻的示图；图17是示出无意义说话确定处理的例子的流程图；图18是示出实验结果的示图；图19是示出根据本发明实施例的信息呈现设备的配置的框图；图20是示出信息呈现处理的例子的流程图；以及图21是示出根据本发明实施例的语音处理设备的硬件的配置例子的框图。
具体实施例方式以下将描述根据本发明的语音理解设备的五个实施例(以下，称为第一至第五实施例)。按下面的次序对它们进行描述。1、第一实施例2、第二实施例(上下文用于预得分的调整的例子)3、第三实施例(无声区去除的应用例子)4、第四实施例(无意义说话确定的应用例子)5、第五实施例(语音理解结果的应用例子)1、第一实施例[根据本发明的语音理解设备的配置例子]图2是示出根据本发明的作为语音处理设备的语音理解设备的实施例的配置例子的框图。图2中的语音理解设备41包括输入部分61、AD转换部分62、特征提取部分63、多匹配部分64、声学模型数据库65、意图模型66-1至66-N、意图确定部分67、意图可靠性计算部分68和输出部分69。基于用户说话的语音输入到包括传声器等的输入部分61。输入部分61把输入语音转换成作为模拟电信号的语音信号以便输出。以下，从输入部分61输出的语音信号称为输入语音信号。AD转换部分62通过采样和量化把从输入部分61输出的模拟输入语音信号转换成数字输入语音信号以便输出。
特征提取部分63以适当的时间间隔对从AD转换部分62输出的输入语音信号进行频率分析，由此提取指示语音的谱或其它声学特征的参数。以这种方法提取的参数对应于输入语音信号的特征量。从特征提取部分63输出输入语音信号的特征量的时间序列(以下，称为特征量序列)。特征提取部分63以这种方法提取输入语音信号的特征量序列，并确定输入语音信号的语音区。语音区表示从说话的开始时刻到其结束时刻的区。例如，特征提取部分63 在输入语音信号的功率等的基础上仅提取说话的区，由此检测语音区。声学模型数据库65中记录指示作为识别目标的语音的语言中诸如单个音素或音节的每个预定单位的声学特征的声学模型。作为声学模型，例如，能够采用HMM(隐马尔可夫模型)。意图模型66-k (k是1到N的任意整数值)包括意图信息存储部分91-k、词典数据库92-k、语法数据库93-k和预得分存储部分94-k。指示与意图模型66-k对应的意图的信息(以下，称为意图信息)存储在意图信息存储部分91-k中。描述关于作为识别目标的语音的每个单词的发音的信息(以下，称为说话信息) 并且具有根据意图信息存储部分91-k中所存储的意图信息定义的单词的词典被记录在词典数据库92-k中。因此，每个单词与声学模型相关。结果，获得与词典数据库92-k中记录的每个单词对应的声学标准模式。给出词典数据库92-k中记录的各个单词的连接概率的预定语法规则(诸如，二元组语法或三元组语法)被记录在语法数据库93-k中。特别地，语法数据库93-k中记录的语法规则被配置为对指示意图信息存储部分91-k中存储的意图信息的单词序列给予得分值。对于意图模型66-k预先给出的得分值(以下，称为预得分值)存储在预得分存储部分94-k中。用于针对输入语音信号的意图信息计算指示符合度的得分的多匹配部分64包括声学得分计算部分81、语言得分计算部分82和预得分计算部分83。多匹配部分64与声学模型数据库65 —起使用一个意图模型66_k，并确定与由特征提取部分63提取的特征量序列(输入语音信号)最相符的单词序列。也就是说，在使用针对与一个意图模型66-k对应的意图(由意图信息指示的意图)定义的单词能够形成的单词序列之中，确定与输入语音信号最相符的单词序列。在多匹配部分64中，针对所述多个意图模型66-1至66-N中的每个意图模型，确定与输入语音信号最相符的单词序列。另外，在多匹配部分64中，对于针对所述多个意图模型66-1至66-N中的每个意图模型确定为与输入语音信号最相符的单词序列(使用针对相应意图定义的单词形成的单词序列)，计算声学得分和语言得分。声学得分由声学得分计算部分81计算，语言得分由语言得分计算部分82计算。具体地讲，声学得分计算部分81计算从由多匹配部分64针对一个意图模型66-k 确定的单词序列中所包括的单词模型观察到特征量序列的概率(出现概率)，并在出现概率的基础上计算每个单词的声学得分。语言得分计算部分82计算由多匹配部分64针对一个意图模型66-k确定的单词序列中所包括的单词的连接(邻接)概率，并在该概率的基础上计算每个单词的语言得分。针对所述多个意图模型66-1至66-N中的每个意图模型执行声学得分计算部分81 和语言得分计算部分82的各个处理。结果，在多匹配部分64中，对于针对所述多个意图模型66-1至66-N中的每个意图模型确定的单词序列，为每个单词计算声学得分和语言得分。另外，预得分计算部分83针对所述多个意图模型66-1至66_N中的每个意图模型计算预得分。预得分是如上所述在一条意图信息的发生概率的基础上预先确定的值，并存储在与一条意图信息对应的意图模型66-k的预得分存储部分94-k中。也就是说，预得分计算部分83在与一条意图信息对应的意图模型66-k的预得分存储部分94-k中存储的预得分的上下文的基础上，针对与意图模型66-k对应的意图信息计算预得分。在所有的意图以相同的概率发生的情况下，计算相同的得分值作为预得分。以下，如上所述的与多匹配部分64相应的一系列处理称为多匹配处理。也就是说，作为多匹配处理的结果，针对所述多个意图模型66-1至66-N中的每个意图模型计算声学得分、语言得分和预得分，并把它们提供给意图确定部分67和意图可靠性计算部分68。意图确定部分67针对一个意图模型66-K计算通过总体上评估从多匹配部分64 提供的声学得分、语言得分和预得分而获得的总得分。针对所述多个意图模型66-1至66-N 中的每个意图模型计算这种总得分。因此，意图确定部分67选择与具有总得分之中的最高总得分的意图模型66-t(t是1到N的任何整数)对应的意图信息作为与用户的说话对应的意图信息。以这种方法，总得分用于估计与用户的说话对应的意图。针对由意图确定部分67选择的意图模型66-t，意图可靠性计算部分68在从多匹配部分64提供的声学得分、语言得分和预得分的基础上计算可靠性。针对由意图确定部分67选择的意图信息，输出部分69输出给予了由意图可靠性计算部分68针对与意图信息对应的意图模型66-t计算的可靠性的信息作为语音理解结果。[语音理解处理]图3是示出与语音理解设备41相应的语音理解处理的例子的流程图。在步骤Sl中，输入部分61把输入语音转换成语音信号。也就是说，输入用户说出的语音并将其输出为模拟输入语音信号。在步骤S2中，AD转换部分62对语音信号执行AD转换处理。也就是说，对模拟输入语音信号进行AD转换，并输出作为结果获得的数字输入语音信号。在步骤S3中，特征提取部分63从输入语音信号提取特征量序列并确定语音区。在步骤S4中，作为得分计算设备的多匹配部分64对提取的特征量序列执行多匹配处理。这里，将描述多匹配处理的详细例子。图4是示出多匹配处理的例子的流程图。在步骤S31中，多匹配部分64在多个意图模型66-1至66-N之中确定一个意图模型66-k作为处理目标。在步骤S32中，多匹配部分64确定与由特征提取部分63提取的特征量序列(输入语音信号)最相符的单词序列。在这种情况下，与声学模型数据库65 —起使用意图模型66-k中所包括的词典数据库92-k和语法数据库93-k。以下，将描述词典数据库92-k和语法数据库93-k。在词典数据库92-k中记录有在与意图信息存储部分91-k中存储的意图信息对应的例句的基础上产生并描述关于每个单词的发音信息的词典。在语法数据库93-k中记录有在与意图信息存储部分91-k中存储的意图信息对应的例句的基础上产生并描述关于每个单词的发音信息的语法规则。在这个方面，具体地讲，参照图5至图9，将描述应用于意图模型66-1 (k= 1)的意图信息的例子、以及在与意图信息对应的例句的基础上产生的词典和语法规则的各个例子。接下来，参照图10和图11，将描述应用于意图模型66-2(k = 2)的意图信息的例子、以及在与意图信息对应的例句的基础上产生的词典的例子。图5是示出应用于意图模型66-1的意图信息的例子和与该例子对应的例句的示图。例如，如图5 中所示，指示说话 “ASHITA-N0-TENKI-W0-0SHIETE-KUDASAI (让我知道明天的天气)”的意图的意图信息存储在意图模型66-1的意图信息存储部分91-1中。在这种情况下，在图5中示出的四个例句的基础上产生词典数据库92-1中记录的词典和语法数据库93-1中记录的语法规则。也就是说，在与意图信息对应的例句(也就是说，“ASHITA NO TENKI WO OSHIETEKUDASAI(让我知道明天的天气)”、“ASHITA NO TENKI WA(明天天气怎么样？ ) "ASHITA NO TENKI WO OSHIETEKURERU(告诉我明天的天气 )” 和 “Ε-Τ0 ASHITA NO TENKIGA KIKITAI (嗯，我想知道明天的天气)”)的基础上，产生词典和语法规则。另外，每个例句具有通过空格彼此分开的单词。在图5中的每个例句的基础上产生如图6中所示的词典，并把该词典记录在词典数据库92-1中。图6是示出词典数据库92-1中记录的词典的例子的示图。如图6中所示的词典包括“单词”和“发音”的条目。在“单词”条目中，在其各行中描述如图5中所示的四个例句中所包括的所有单词。在“发音”条目中，记录了与同一行的“单词”条目中描述的单词对应的发音信息。在“发音”条目中描述的发音信息对应于使词典数据库92-1中记录的每个单词与声学模型数据库65相关的信息。例如，在采用HMM作为以音节为单位的声学模型的情况下，通过在相应的发音信息的基础上使声学模型数据库65与每个单词相关，获得与每个单词对应的声学标准模式。除了词典数据库92-1之外，这可以等同地应用于能够记录在所有的词典数据库92-2至92-N中的词典。以下，为了区分单词和发音信息，在“AAA”指示单词的情况下，描述为单词“AAA”，并且在“AAA”指示发音信息的情况下，描述为发音信息“aaa”。具体地讲，例如，在第一行，在“单词”条目中描述单词“Ε-Τ0 (嗯)”，并且在“发音” 条目中描述与单词“Ε-Τ0”对应的发音信息“e-to”。例如，在第六行，在“单词”条目中描述单词“ASHITA (明天)”，并且在“发音”条目中描述与单词“ASHITA (明天)”对应的发音信息“ashita”。具体地讲，在其它行的情况下，在“单词”条目中描述预定的单词，并且在“发音”条目中描述与所述预定的单词对应的发音信息。
另外，例如，产生图5中各例句所包括的各个单词(图6中的词典所包括的各个单词)的发生概率或连接概率的模型(N元组语法)作为语法规则，并随后把它记录在语法数据库93-1中。三个单词的连接概率称为三元组概率，两个单词的连接概率称为二元组概率，每个单词的发生概率称为一元组概率。另外，指示三元组概率的模型的表格称为三元组表格，指示二元组概率的模型的表格称为二元组表格，指示一元组概率的模型的表格称为一元组表格。具体地讲，例如，作为语法规则，如图7至9中所示的三元组表格、二元组表格和一元组表格记录在语法数据库93-1中。图7是示出语法数据库93-1中记录的三元组表格的例子的示图。如图7中所示的三元组表格包括“连接单词”和“三元组概率”的条目。在“连接单词”条目中按连接次序在各行中描述如图5中所示的四个例句中所包括的所有词之中预定的三个连接词。在“三元组概率”条目中描述在同一行的“连接单词” 条目中描述的三个单词按该次序排列的概率，即三元组概率。具体地讲，例如，在第一行，在“连接单词”条目中描述了词“Ε-Τ0(嗯)”、单词 "ASHITA(明天)，，和单词“NO，，。在“三元组概率”条目中，描述了“0.003”。因此，根据第一行的描述，能够看出，单词“Ε-Τ0”、单词“ASHITA”和单词“NO”按该次序连接的三元组概率 (即，这三个单词连接以形成片段(segment) “E-TO ASHITA NO”的概率)变为“0.003”。例如，在第二行，在“连接单词”条目中描述了单词“NO”、单词“ TENKI (天气)”和单词“W0”。在“三元组概率”条目中，描述了“0.01”。因此，根据第二行的描述，能够看出，单词“No”、单词“TENKI，，和单词“W”按该次序连接的三元组概率(即，这三个单词连接以形成片段“NO TENKI W0”的概率)变为“0.01”。类似地，在其它行的情况下，在“连接单词”条目中描述预定的三个单词，在“三元组概率”条目中描述所述预定的三个单词连接的三元组概率。通过参照稍后描述的图8中的二元组表格把最初两个单词的二元组补偿系数与三个单词之中最后两个单词的二元组概率相乘，能够计算图7中未示出的三个单词的三元组概率。图8是示出记录在语法数据库93-1中的二元组表格的例子的示图。如图8中所示的二元组表格包括“连接单词”、“二元组概率”和“二元组补偿系数” 的条目。在如图5中所示的四个例句中所包括的所有词之中，在“连接单词”条目中按连接次序在各行中描述预定的两个连接词。在“二元组概率”条目中描述在同一行的“连接单词”条目中描述的两个单词按该次序排列的概率，即二元组概率。在“二元组补偿系数”条目中描述在同一行的“连接单词”条目中描述的两个单词的二元组补偿系数。二元组补偿系数指的是用于在二元组概率的基础上计算三元组概率的情况的系数，以防止概率的总和超过1。具体地讲，例如，在第一行，在“连接单词”条目中描述了单词“Ε-Τ0(嗯)”、单词 “ASHITA(明天)”。在“二元组概率”条目中，描述了“0.02”。在“二元组补偿系数”条目中描述了“0. 01”。因此，根据第一行的描述，能够看出，单词“Ε-Τ0(嗯)”和单词“ASHITA(明天)”按该次序连接的二元组概率(即，这两个单词连接以形成片段“Ε-Τ0 ASHITA(嗯明天)”的概率)变为“0. 02”。例如，在第二行，在“连接单词”条目中描述了单词“NO”和单词“TENKI (天气)”。在“二元组概率”条目中，描述了 “0. 1”。在“二元组补偿系数”条目中描述了 “0.02”。因此，根据第二行的描述，能够看出，单词“NO”和单词“TENKI，，按该次序连接的二元组概率 (即，这两个单词连接以形成片段“NO TENKI”的概率)变为“0. 1”。通过参照稍后描述的图9中的一元组表格把两个单词之中前面的单词的一元组补偿系数与这两个单词之中后面的单词的一元组概率相乘，能够计算图8中未示出的两个单词的二元组概率。图9是示出记录在语法数据库93-1中的一元组表格的例子的示图。如图9中所示的一元组表格包括“单词”、“一元组概率”和“一元组补偿系数”的条目。在“单词”条目中分别描述如图5中所示的四个例句中所包括的所有单词。在“一元组概率”条目中描述在同一行的“单词”条目中描述的单词排列在片段中的概率，即一元组概率。在“一元组补偿系数”条目中描述在同一行的“单词”条目中所写的单词的一元组补偿系数。一元组补偿系数指的是用于在一元组概率的基础上计算二元组概率的情况的系数，以防止概率的总和超过1。具体地讲，例如，在第一行，在“单词”条目中描述了单词“Ε-Τ0 (嗯)”。在“一元组概率”条目中，描述了 “0.04”。在“一元组补偿系数”条目中描述了 “0.02”。因此，根据第一行的描述，能够看出，单词“Ε-Τ0”排列在片段中的一元组概率变为“0. 04”。作为针对具有低出现概率的单词的处理，可以采用例如通过平滑化(smoothing) 来校正每个概率值的技术，具体地讲，例如线性内插技术、称为补偿平滑的技术。另外，对于一元组概率、二元组概率和三元组概率的计算技术和平滑技术，例如，它们的细节公开于 Morikita Publishing Co.，Ltd 的 Kenji Kita,Tetsu Nakamura 所写的 "Approach on the basis of voicelanguage process—corpus，，。如以上参照图5至9所描述的，在这个特定例子中，对于意图模型66-1，图5中的意图存储在意图信息存储部分91-1中。另外，在图5中的各个例句的基础上产生词典和语法规则。词典记录在词典数据库92-1中，并且语法规则记录在语法数据库93-1中。图10是示出应用于意图模型66-2的意图信息的例子和与该意图信息对应的例句的示图。例如，假设如图10中所示的指示说话“IMA-N0-JIKAN-W0-0SHIETE-KUDASAI (请告诉我几点了？) ”的意图的意图信息存储在意图模型66-2的意图信息存储部分91-2中。在这种情况下，在图10中示出的五个例句的基础上产生词典数据库92-2中记录的词典和语法数据库93-2中记录的语法规则。也就是说，在与意图信息对应的例句“IMA NANJI DESU KA (告诉我几点了？)”、“IMANANJI (几点了？)”、“IMA NANJI ΚΑΝΑ (你知道现在几点了吗？ )”、“IMA NO JIKAN GA ΚΙΚΙΤΑΙ (我想知道几点了)” 和 “ JIKAN WO 0SHIETE(告诉我几点了)”的基础上，产生词典和语法规则。另外，每个例句具有通过空格彼此分开的单词。具体地讲，例如，在如图10中所示的各个例句的基础上产生如图11中所示的词典，并把该词典记录在词典数据库92-2中。
图11是示出词典数据库92-2中记录的词典的例子的示图。以类似于图6中词典的方式，如图11中所示的词典包括“单词”和“发音”的条目。在“单词”条目中，在各行中描述如图10中所示的五个例句中所包括的所有单词。在“发音”条目中，描述与同一行的“单词”条目中描述的单词对应的发音信息。具体地讲，例如，在第一行，在“单词”条目中描述单词“IMA”，并且在“发音”条目中描述与单词“IMA”对应的发音信息“ima”。例如，在第二行，在“单词”条目中描述单词 “DESU”，并且在“发音”条目中描述与单词“DESU”对应的发音信息“desu”。类似地，在其它行的情况下，在“单词”条目中描述预定的单词，并且在“发音”条目中描述与所述预定的单词对应的发音信息。另外，例如，产生图10中的各例句中所包括的各个单词(图11中的词典中所包括的各个单词)的发生概率或连接概率的模型(N元组语法)作为语法规则，并随后把产生的语法规则记录在语法数据库93-2中。具体地讲，例如，虽然未示出，但在语法数据库93-2 中记录与图7至9中示出的三元组表格、二元组表格和一元组表格具有相同结构的三元组表格、二元组表格和一元组表格作为语法规则。以这种方法，在这个特定例子中，与如图5中所示的意图信息“ASHITA-NO-TENKI-W0-0SHIETE-KUDASAI (让我知道明天的天气)”相对应地提供了图6中的词典和图7至9中的语法规则(三元组表格等)。另外，图6中的词典记录在词典数据库92-1中，图7至9中的语法规则(三元组表格等)记录在语法数据库93-1中。对于词典数据库92-1和语法数据库93-1，通过组合存储图5中的意图信息的意图信息存储部分91-1和存储预得分的预得分存储部分94-1而获得的模型对应于意图模型66-1。类似地，在这个特定例子中，对于如图10中所示的意图信息“IMA-N0-JIKAN-W0-0 SHIETE-KUDASAI (请告诉我几点了？)”，提供了图11中的词典和未示出的语法规则(三元组表格等)。另外，图11中的词典记录在词典数据库92-2中，未示出的语法规则(三元组表格等)记录在语法数据库93-2中。对于词典数据库92-2和语法数据库93-2，通过组合存储图10中的意图信息的意图信息存储部分91-2和存储预得分的预得分存储部分94-2 而获得的模型是意图模型66-2。类似地，在其它情况下，例如，与各种意图信息(诸如，“K0NNICHIWA(下午好)”、 “RAJI0-W0-TUKETE (打开收音机)”或“M0-SUK0SHI-MAE-NI-KITE (再走近点儿)”)——对应地提供各个意图模型66-3至66-N。因此，当在如图4中所示的步骤S31的处理中确定意图模型66-1作为处理目标的情况下，在步骤S32的处理中执行下面的处理。也就是说，通过声学模型数据库65、记录如图6中所示的词典的词典数据库92-1和记录如图7至9中所示的语法规则的语法数据库 93-1，确定与意图信息“ASHITA-N0-TENKI-W0-0SHIETE-KUDASAI (让我知道明天的天气)” 对应的单词序列。具体地讲，例如，在用户的说话是“ASHITA-N0-TENKI-W0-0SHIETE (告诉我明天的天气)”的情况下，针对意图模型66-1确定单词序列“ASHITA NO TENKI 0SHIETE”。另一方面，当在步骤S31的处理中确定意图模型66-2作为处理目标的情况下，在步骤S32的处理中执行下面的处理。也就是说，通过声学模型数据库65、记录如图11中所示的词典的词典数据库92-2和记录未示出的语法规则的语法数据库93-2，确定与意图信息“ IMA-N0-JIKAN-W0-0SHIETE-KUDASAI (请告诉我几点了？)”对应的单词序列。具体地讲，例如，在用户的说话是“IMA-N0-JIKAN-W0-0SHIETE(告诉我几点了？)”的情况下，针对意图模型66-2确定单词序列“OSHIETE NO NANJI 0SHIETE”。以这种方法，如果在如图4所示的步骤S32的处理中确定了针对处理目标的意图模型66-k的单词序列，则这一进程前进至步骤S33。在步骤S33中，声学得分计算部分81在特征量序列的出现概率的基础上对于针对处理目标的意图模型66-k确定的单词序列中所包括的每个单词计算声学得分。在步骤S34中，语言得分计算部分82在连接概率的基础上对于针对处理目标的意图模型66-k确定的单词序列中所包括的各个单词计算语言得分。在步骤S33和S34的处理中，对于声学得分和语言得分中的每个得分给予权重系数，或者给予当特定词被插入在针对处理目标的意图模型66-k确定的单词序列中时的惩罚得分。权重系数和惩罚得分将在稍后进行描述。另外，在步骤S33和S34的处理中，声学得分和语言得分的计算方法不受到特别的限制，例如，如上所述，可以采用与现有技术的语音识别处理中广泛使用的技术相同的技术。在步骤S35中，预得分计算部分83在预得分存储部分94_k中存储的预得分的基础上针对处理目标的意图模型66-k计算预得分。在步骤S36中，多匹配部分64确定是否已计算所有意图模型66_1至66_N的得分。在意图模型66-1至66-N之中，在存在尚未确定为处理目标的任何模型的情况下，在步骤S36中确定为“否”，然后这一进程返回至步骤S31以重复相同的处理。也就是说，在步骤S31中，确定还未被确定为处理目标的意图模型66-k作为新的处理目标。然后，在步骤S32至S35的处理中，确定新的处理目标的单词序列，计算该单词序列的声学得分和语言得分，并且还计算该新的处理目标的预得分。其后，确定所有意图模型66-1至66-N中的每个意图模型作为处理目标，并重复执行步骤S31至S36的循环处理。因此，为意图模型66-1至66-N中的每个意图模型确定与相应意图信息对应的单词序列，计算该单词序列的声学得分和语言得分，并计算预得分。因此，在步骤S36中确定为“是”，完成多匹配处理。当这种多匹配处理完成时，将描述从多匹配部分64输出的信息。图12和图13是示出从多匹配部分64输出的信息的一部分的例子的示图。图12是示出从多匹配部分64输出的信息之中针对意图模型66-1的多匹配处理的执行结果的示图。在这个特定例子中，在用户的说话是“ASHITA-N0-TENKI-W0-0SHIETE(告诉我明天的天气)，，的情况下，把作为多匹配处理的图4中的步骤S31的处理中的意图模型66-1 确定为处理目标，并且在步骤S32的处理中针对意图模型66-1确定单词序列“ASHITAN0 TENKI 0SHIETE”。在这种情况下，如图12中所示，针对形成该单词序列的各个单词“ASHITA”、“N0”、 “TENKI”和“OSHIETE”分别计算步骤S33的处理中的声学得分Pai至PA4。另外，在步骤S34 的处理中分别计算语言得分Qai至QA4。另外，在步骤S35的处理中，针对意图模型66-1的意图信息计算预得分Ra。以这种方法，在针对一个意图模型66-1执行多匹配处理的情况下，作为针对意图模型66-1的多匹配处理的执行结果，从多匹配处理64输出下面的信息。也就是说，如图12 中所示的单词序列的各个单词的三个得分(声学得分、语言得分和预得分)对应于如图5 中所示的意图信息作为执行结果信息，并从多匹配部分64输出。图13是示出从多匹配部分64输出的信息之中针对意图模型66-2的多匹配处理的执行结果的示图。在这个特定例子中，在用户的说话是“IMA-N0-JIKAN-W0-0SHIETE(告诉我几点了？)”的情况下，把多匹配处理的步骤S31的处理中的意图模型66-2确定为处理目标，并且在步骤S32的处理中针对意图模型66-2确定单词序列“OSHIETE NO NANJI0SHIETE”。在这种情况下，如图13中所示，针对形成该单词序列的各个单词“0SHIETE”、 "NONANJI，，和“0SHIETE”分别计算步骤S33的处理中的声学得分Pbi至PB4，在步骤S34 的处理中分别计算语言得分Qbi至Qb4。另外，在步骤S35的处理中，针对意图模型66-2的意图信息计算预得分Rb。以这种方法，在针对一个意图模型66-2执行多匹配处理的情况下，作为针对意图模型66-2的多匹配处理的执行结果，从多匹配处理64输出下面的信息。也就是说，如图13 中所示的单词序列的各个单词的三个得分(声学得分、语言得分和预得分)对应于如图10 中所示的意图信息，并从多匹配部分64输出。虽然未示出，但作为其它意图模型66-3至66-N中的每个意图模型的多匹配处理的执行结果，从多匹配部分64输出相同的信息。也就是说，根据相应的意图信息确定的单词序列的各个单词的三个得分(声学得分、语言得分和预得分)作为执行结果信息对应于所述相应的意图信息，并分别从多匹配部分64输出。返回至图3的流程图的描述，在步骤S4以上的多匹配处理之后，在步骤S5中，作为意图选择设备的意图确定部分67为多个意图模型66-1至66-N中的每个意图模型计算总得分。例如，如下计算意图模型66-1的总得分。如图12中所示，根据意图模型66-1的意图信息确定的单词序列的各个单词的三个得分(声学得分、语言得分和预得分)是声学得分Pai至PA4、语言得分Qai至Qa4和预得分RA。在这种情况下，意图确定部分67能够根据下面的公式1计算意图模型66-1的总得分Tl Tl = (PaiPa2Pa3Pa4) · (QaiQa2Qa3Qa4) .Ra · · ·⑴。另外，例如，能够如下计算意图模型66-2的总得分。根据意图模型66-2的意图信息确定的单词序列的各个单词的三个得分(声学得分、语言得分和预得分)是声学得分Pbi至PB4、语言得分Qbi至Qb4和预得分Rb，如图13中所
示在这种情况下，意图确定部分67能够根据下面的公式2计算意图模型66-2的总得分T2 T2 = (PbiPb2Pb3Pb4) · (QbiQb2Qb3Qb4) .Rb · · ·⑵。在步骤S6中，意图确定部分67选择与意图模型66-1至66-N之中具有最大的总得分Tt的意图模型66-t对应的意图信息。另外，此时，意图确定部分67可以选择与意图模型66-1至66-N之中大于阈值并且预设了总得分的多个上层意图模型66对应的多条意图信息。在步骤S7中，意图可靠性计算部分68计算由意图确定部分67选择的意图信息的可靠性。在步骤S6中，在由意图确定部分67选择了多条意图信息的情况下，意图可靠性计算部分68计算所选择的多条意图信息的可靠性。以这种方法，由于计算了所选择的意图信息的可靠性，所以能够舍弃具有低可靠性的意图信息，并且能够仅采用具有高可靠性的意图信息。因此，能够可靠地估计正确意图。例如，在语音理解设备41中仅提供两个意图模型，即意图模型66-1和意图模型 66-2 (N = 2)。在这种情况下，如上所述，多匹配部分64的输出信息包括图12中的一组信息和图5中的意图信息、以及图13中的一组信息和图10中的意图信息。在这种情况下，意图可靠性计算部分68根据下面的公式3计算意图模型66-1的可靠性Rl。
权利要求
一种语音处理设备，包括得分计算装置，计算指示在用户说话的基础上输入的语音信号与指示多个意图中的每个意图的多条意图信息中的每条意图信息的符合度的得分；意图选择装置，在由得分计算装置计算的得分的基础上选择所述多条意图信息之中指示用户说话的意图的意图信息；以及意图可靠性计算装置，在由得分计算装置计算的得分的基础上计算由意图选择装置选择的意图信息的可靠性。
2.如权利要求1所述的语音处理设备，其中，所述得分计算装置包括声学得分计算装置，针对所述多条意图信息中的每条意图信息计算声学得分作为指示语音信号与意图信息的声学符合度的得分；语言得分计算装置，针对所述多条意图信息中的每条意图信息计算语言得分作为指示语音信号与意图信息的语言符合度的得分；预得分计算装置，针对所述多条意图信息中的每条意图信息计算预得分作为在每个发生概率的基础上预先确定的得分。
3.如权利要求2所述的语音处理设备，其中，所述预得分计算装置响应于输入语音信号时的上下文来调整所述多条意图信息中的每条意图信息的预得分。
4.如权利要求3所述的语音处理设备，其中，所述得分计算装置计算语音信号中的语音区的得分。
5.如权利要求3所述的语音处理设备，其中，所述得分计算装置还计算所述多条意图信息之中的不指示特定意图的意图信息的得分，并且其中，意图选择装置在选择了不指示所述特定意图的意图信息的情况下确定与语音信号对应的用户说话是不指示特定意图的无意义说话。
6.如权利要求3所述的语音处理设备，其中，所述得分计算装置对声学得分、语言得分和预得分中的每个得分给予权重，并且其中，意图可靠性计算装置调整每个权重并在均被给予了调整后的权重的得分的基础上计算可靠性。
7.如权利要求3所述的语音处理设备，还包括管理装置，基于由意图选择装置选择的意图信息管理输出。
8.一种语音处理方法，包括下述步骤计算指示在用户说话的基础上输入的语音信号与指示多个意图中的每个意图的多条意图信息中的每条意图信息的符合度的得分；在通过得分计算步骤的处理计算的得分的基础上选择所述多条意图信息之中指示用户说话的意图的意图信息；以及在通过得分计算步骤的处理计算的得分的基础上计算通过意图选择步骤的处理选择的意图信息的可靠性。
9.一种使计算机能够执行控制处理的程序，该控制处理包括下述步骤计算指示在用户说话的基础上输入的语音信号与指示多个意图中的每个意图的多条意图信息中的每条意图信息的符合度的得分；在计算的得分的基础上选择所述多条意图信息之中指示用户说话的意图的意图信息；以及在计算的得分的基础上计算通过意图选择步骤的处理选择的意图信息的可靠性。
10. 一种语音处理设备，包括得分计算单元，被配置为计算指示在用户说话的基础上输入的语音信号与指示多个意图中的每个意图的多条意图信息中的每条意图信息的符合度的得分；意图选择单元，被配置为在由得分计算单元计算的得分的基础上选择所述多条意图信息之中指示用户说话的意图的意图信息；以及意图可靠性计算单元，被配置为在由得分计算单元计算的得分的基础上计算由意图选择单元选择的意图信息的可靠性。
全文摘要
本发明涉及一种语音处理设备和语音处理方法及程序。该语音处理设备包括得分计算单元，计算指示在用户说话的基础上输入的语音信号与指示多个意图中的每个意图的多条意图信息中的每条意图信息的符合度的得分；意图选择单元，在由得分计算单元计算的得分的基础上选择所述多条意图信息之中指示用户说话的意图的意图信息；意图可靠性计算单元，在由得分计算单元计算的得分的基础上计算由意图选择单元选择的意图信息的可靠性。
文档编号G10L15/18GK101989424SQ20101023740
公开日2011年3月23日申请日期2010年7月22日优先权日2009年7月30日
发明者前田幸德, 南野活树, 小川浩明, 本田等申请人:索尼公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：南野活树;本田等;前田幸德;小川浩明
技术所有人：索尼公司
我是此专利的发明人