语音识别装置和方法、语言模型产生装置和方法及程序的制作方法

文档序号：2823392阅读：137来源：国知局

专利名称：语音识别装置和方法、语言模型产生装置和方法及程序的制作方法
技术领域：
本发明涉及用于识别说话者的说话(utterance)的内容的语音识别装置和语音识别方法、语言模型产生装置和语言模型产生方法及计算机程序，更具体地，涉及用于估计说话者的意图并把握通过语音输入让系统执行的任务的语音识别装置和语音识别方法、语言模型产生装置和语言模型产生方法及计算机程序。更精确地讲，本发明涉及用于使用统计语言模型来准确地估计说话内容中的意图的语音识别装置和语音识别方法、语言模型产生装置和语言模型产生方法及计算机程序，更具体地，涉及用于基于说话内容估计针对所关注的任务(focused task)的意图的语音识别装置和语音识别方法、语言模型产生装置和语言模型产生方法及计算机程序。
背景技术：
人们在日常沟通中使用的语言(诸如日语或英语)被称为“自然语言”。许多自然语言源于自发产生，并且随着人类、民族以及社会的历史而进步。当然，人们可以通过他们的身体和手的姿态相互沟通，但是利用自然语言能够实现最自然和高级的沟通。另一方面，伴随着信息技术的发展，计算机扎根于人类社会中，并且深入到各种工业和我们的日常生活中。自然语言固有地具有高度抽象以及模糊的特征，但是可以通过数学地处理语句来经历计算机处理，结果，实现了涉及自然语言的各种应用和服务。可以例示语音理解或语音会话作为自然语言处理的应用系统。例如，当构建基于语音的计算机接口时，语音理解或语音识别是用于实现从人类到计算器的输入的关键技术。这里，语音识别旨在照原样将说话内容转换为字符。相反，语音理解旨在更精确地估计说话者的意图并把握通过语音输入让系统执行的任务，而无需准确地理解语音中的每个音节或每个单词。然而，在本说明书中，为了方便起见，将语音识别和语音理解统称为“语音识别”。下面，将简要描述语音识别处理的过程。通过(例如)麦克风将来自说话者的输入语音当作电子信号，经历AD转换，并且变成由数字信号构成的语音数据。此外，在信号处理部件中，通过对于微小时间的每一帧将声学分析应用到语音数据来产生时间特征向量的串(String)X。接下来，在参照声学模型数据库、词典和语言模型数据库的同时，获得单词模型的串作为识别结果。例如，对于日语的音素来说，在声学模型数据库中记录的声学模型是隐马尔可夫模型(hidden Markov model，HMM)。参照声学模型数据库，可以获得其中输入语音数据X是在词典中登记的单词W的概率P(XlW)作为声学分数。此外，在语言模型数据库中，例如，记录了描述N个单词如何形成序列的单词序列比(word sequence ratio，N_gram)。参照语言模型数据库，可以获得在词典中登记的单词W的出现概率p(W)作为语言分数。此外，可以基于声学分数和语言分数获得识别结果。
这里，可以例示描述语法模型和统计语言模型作为在语言分数的计算中使用的语言模型。例如，如图10所示，描述语法模型是根据语法规则描述语句中的短语的结构的语言模型，并且通过使用Backus-Naur-FornKBNF)中的上下文无关语法进行描述。此外，统计语言模型是利用统计技术，从学习数据(语料库)经历概率估计的语言模型。例如，N-gram 模型产生其中在第i_l个单词以W1,...和Wp1的顺序出现之后，单词Wi以第i个的顺序出现的概率P^lWp. . .，WiJ来近似最接近的N个单词(WiIWi,,. . .，Wp1)的序列比ρ(例如，参见Kiyohiro Shikano禾口Katsunobu Ito 的"Speech RecognitionSystem"("Statistical Language Model"in Chapter 4),pp 53-69,published byOhmsha Ltd,May 15,2001,first edition, ISBN4-274-13228-5)。基本手动地创建描述语法模型，如果输入语音数据遵从语法，则识别准确度高，但是如果数据甚至稍微不遵从语法，则不能实现识别。另一方面，可以通过将学习数据经历统计处理来自动地创建以N-gram模型表示的统计语言模型，此外即使在输入语音数据中的单词的排列与语法规则稍有不同，也可以识别输入语音数据。此外，在创建统计语言模型时，大量的学习数据(语料库)是必要的。作为收集语料库的方法，存在诸如从包括书籍、报纸、杂志等的媒体收集语料库以及从网站上公开的文本收集语料库的一般方法。在语音识别处理中，通过单词和短语识别说话者说出的表达。然而，在许多应用系统中，准确地估计说话者的意图比准确地理解语音中的所有音节和单词更加重要。此外，当在语音识别中，说话内容与所关注的任务不相关时，不需要强制地将任意的任务意图与识别相配。如果输出了错误地估计的意图，则甚至存在可能引起其中系统向用户提供不相关任务的浪费操作的担心。即便对于一个意图也存在各种说话方式。例如，在“操作电视”的任务中，存在诸如 “切换频道”、“观看节目”、“调大音量”之类的多种意图，但是针对每个意图存在多种说话方式。例如，在切换频道(到NHK)的意图中，存在两种或多种说话方式，诸如“请切换到NHK” 和“到NHK”，在观看节目(大河剧历史剧)的意图中，存在两种或多种说话方式，诸如“我想看大河剧”和“打开大河剧”，而在调大音量的意图中，存在两种或多种说话方式，诸如“把音量升高”和“升高音量”。例如，提出了一种语音处理装置，其中针对每个意图(关于请求的信息)准备了语言模型，并且基于声学分数和语言分数将最高总分所对应的意图选作指示说话的请求的信息(例如，参见日本待审查专利申请公开No. 2006-53203)。语音处理装置使用每个统计语言模型作为针对意图的语言模型，并且即使当输入语音数据中的单词的排列与语法规则稍微不同时也能识别意图。然而，即使当说话内容不与所关注的任务的任何意图对应时，该装置强制地将任意意图与内容相配。例如，当语音处理装置被配置来提供与电视操作相关的任务的服务，并且配有多个统计语言模型(其中与电视操作相关的每个意图是固有的)时，甚至对于不想要电视操作的说话内容，输出与示出了计算出的语言分数的高值的统计语言模型对应的意图作为识别结果。因此，以提取与说话的所期望的内容不同的意图的结果而告终。此外，在如上所述配置针对各意图提供单独的语言模型的语音处理装置时，需要根据所关注的特定任务准备用于考虑说话内容提取任务的意图的足够数量的语言模型。此夕卜，需要根据意图收集学习数据(语料库)以创建用于任务中的意图的强健语言模型。存在从诸如书籍、报纸和杂志之类的媒体以及网站上的文本收集语料库的一般方法。例如，提出了一种产生语言模型的方法，其通过在大规模文本数据库中将与识别任务(说话内容)更接近的文本赋予更重的重要度来产生具有高准确度的符号序列比，并且通过使用识别中的比值来改善识别能力(例如，参照日本待审查专利申请公开 No. 2002-82690)。然而，即使可以从诸如书籍、报纸和杂志之类的媒体以及网站上的文本收集大量的学习数据，选择说话者可能说出的短语也很费力，并且使大量语料库完全与意图一致也是困难的。此外，很难指定每个文本的意图或通过意图分类文本。换句话说，不能收集与说话者的意图完全一致的语料库。本发明的发明人考虑需要解决以下两点，以便实现在说话内容中准确地估计与所关注的任务相关的意图的语音识别装置。(1)针对每个意图简单且合适地收集具有说话者可能说出的内容的语料库。(2)不强制地将任意意图与说话内容(其与任务不一致)相配，宁可忽略。

发明内容
期望提供在估计说话者的意图，并且精确地把握通过语音输入让系统执行的任务方面非常优秀的语音识别装置和语音识别方法、语言模型产生装置和语言模型产生方法以及计算机程序。更期望的是，提供在通过使用统计语言模型准确地估计说话内容的意图方面非常优秀的语音识别装置和语音识别方法、语言模型产生装置和语言模型产生方法以及计算机程序。更期望的是，提供在准确地估计说话内容中与所关注的任务相关的意图方面非常优秀的语音识别装置和语音识别方法、语言模型产生装置和语言模型产生方法以及计算机程序。本发明考虑上述情况，并且根据本发明的第一实施例，语音识别装置包括一个或多个意图提取语言模型，其中所关注的特定任务的每个意图是固有的；吸收语言模型，其中任务的任意意图不是固有的；语言分数计算部件，用于计算指示意图提取语言模型和吸收语言模型中的每一个与说话内容之间的语言上的相似度的语言分数；和解码器，用于基于由语言分数计算部件计算出的每个语言模型的语言分数来估计说话内容中的意图。根据本发明的第二实施例，提供一种语音识别装置，其中意图提取语言模型是通过使由指示任务的意图的多个语句组成的学习数据经历统计处理而获得的统计语言模型。此外，根据本发明的第三实施例，提供一种语音识别装置，其中吸收语言模型是通过使与指示任务的意图无关或由自发的说话组成的大量学习数据经历统计处理而获得的统计语言模型。此外，根据本发明的第四实施例，提供语音识别装置，其中用于获得意图提取语言模型的学习数据由基于指示对应的意图的描述语法模型产生并与意图一致的语句组成。此外，根据本发明的第五实施例，提供一种语音识别方法，包括步骤首先计算指示其中所关注的特定任务的每个意图是固有的一个或多个意图提取语言模型与说话内容之间的语言上的相似度的语言分数；其次计算指示其中任务的任意意图不是固有的吸收语言模型与说话内容之间的语言上的相似度的语言分数；和基于在第一和第二语言分数计算中计算出的每个语言模型的语言分数来估计说话内容中的意图。此外，根据本发明的第六实施例，提供一种语言模型产生装置，包括单词含义数据库，其中关于所关注的特定任务的每个意图，通过抽象化可能在指示意图的说话中出现的第一语音部分串的词汇候选以及第二语音部分串的词汇候选，登记了第一语音部分串 (first part-of-speech string)的抽象词汇和第二语音部分串的抽象词汇的组合以及指示抽象词汇的相同含义或类似意图的一个或多个单词；描述语法模型创建单元，其基于在单词含义数据库中登记的、指示任务的意图的第一语音部分串的抽象词汇和第二语音部分串的抽象词汇的组合以及指示抽象词汇的相同含义或类似意图的一个或多个单词，创建指示意图的描述语法模型；收集单元，其通过针对意图自动地从描述语法模型产生与每个意图一致的语句来针对意图收集具有说话者可能说出的内容的语料库；和语言模型创建单元，其通过将针对意图收集的语料库经历统计处理来创建其中每个意图是固有的统计语言模型。然而，这里提及的第一语音部分的特定示例是名词，而第二语音部分的特定示例是动词。简单讲，最好理解指示意图的重要词汇的组合被称作第一语音部分和第二语音部分。根据本发明的第七实施例，提供一种语言模型产生装置，其中单词含义数据库具有针对每一串在矩阵上排列的第一语音部分串的抽象词汇和第二语音部分串的抽象词汇，并且具有在与具有意图的第一语音部分的词汇以及第二语音部分的词汇的组合对应的列中给出的、指示意图的存在的标记。此外，根据本发明的第八实施例，提供一种语言模型产生方法，包括步骤通过抽象化用于传达包含在所关注的任务中的每个意图的必要短语来创建语法模型；通过使用语法模型自动地产生与每个意图一致的语句来针对意图收集具有说话者可能说出的内容的语料库；和通过利用统计技术从每个语料库执行概率估计来构建与每个意图对应的多个统计语言模型。此外，根据本发明的第九实施例，提供一种以计算机可读格式描述以便在计算机上执行用于语音识别的处理的计算机程序，该程序促使计算机用作一个或多个意图提取语言模型，其中所关注的特定任务的每个意图是固有的；吸收语言模型，其中任务的任意意图不是固有的；语言分数计算部件，用于计算指示意图提取语言模型和吸收语言模型中的每一个与说话内容之间的语言上的相似度的语言分数；和解码器，用于基于由语言分数计算部件计算出的每个语言模型的语言分数来估计说话内容中的意图。根据本发明的以上实施例的计算机程序被定义为以计算机可读格式描述以便实现计算机上的预定处理的计算机程序。换句话说，通过将根据本发明实施例的计算机程序安装在计算机上，可以在计算机上发挥协作的动作，并且可以获得如根据本发明的第一实施例的语音识别装置中那样的效果。此外，根据本发明的第十实施例，提供一种以计算机可读格式描述以便在计算机上执行用于产生语言模型的处理的计算机程序，该程序促使计算机用作单词含义数据库，其中关于所关注的特定任务的每个意图，通过抽象化可能在指示意图的说话中出现的第一语音部分串的词汇候选以及第二语音部分串的词汇候选，登记了第一语音部分串的抽象词汇和第二语音部分串的抽象词汇的组合以及指示抽象词汇的相同含义或类似意图的一个或多个单词；描述语法模型创建单元，其基于在单词含义数据库中登记的、指示任务的意图的第一语音部分串的抽象词汇和第二语音部分串的抽象词汇的组合以及指示抽象词汇的相同含义或类似意图的一个或多个单词，创建指示意图的描述语法模型；收集单元，其通过针对意图自动地从描述语法模型产生与每个意图一致的语句来针对意图收集具有说话者可能说出的内容的语料库；和语言模型创建单元，其通过将针对意图收集的语料库经历统计处理来创建其中每个意图是固有的统计语言模型。根据本发明的以上实施例的计算机程序被定义为以计算机可读格式描述以便实现计算机上的预定处理的计算机程序。换句话说，通过将根据本发明实施例的计算机程序安装在计算机上，可以在计算机上发挥协作的动作，并且可以获得如根据本发明的第六实施例的语言模型产生装置中那样的效果。根据本发明，可以提供在估计说话者的意图，并且精确地把握要通过语音输入让系统执行的任务方面非常优秀的语音识别装置和语音识别方法、语言模型产生装置和语言模型产生方法以及计算机程序。此外，根据本发明，可以提供在通过使用统计语言模型准确地估计说话内容的意图方面非常优秀的语音识别装置和语音识别方法、语言模型产生装置和语言模型产生方法以及计算机程序。
此外，根据本发明，可以提供在准确地估计说话内容中与所关注的任务相关的意图方面非常优秀的语音识别装置和语音识别方法、语言模型产生装置和语言模型产生方法以及计算机程序。根据本发明的第一到第五和第九实施例，除了所关注的任务中包含的意图是固有的统计语言模型之外，通过提供诸如自发的说话语言模型之类的、与说话内容(其与所关注的任务不一致)对应的统计语言模型，通过并行地执行处理，并且通过忽略与任务不一致的说话内容中的意图的估计来实现针对任务的强健意图提取。根据本发明的第六到第八以及第十实施例，通过预先确定所关注的任务中包含的意图并自动地从指示意图的描述语法模型中产生与意图一致的语句来针对意图简单并合适地收集具有说话者可能说出的内容的语料库(换句话说，创建其中意图是固有的统计语言模型所需的语料库)。根据本发明的第七实施例，通过将在说话中可能出现的名词串的词汇候选和动词串的词汇候选排列在用于串的矩阵上，可以把握可能说出的内容而不会遗漏。此外，由于在每个串的词汇候选的符号中登记了具有相同含义或类似含义的一个或多个单词，因此可以提供与具有相同含义的说话的各种表达对应的组合，并且产生具有相同意图的大量语句作为学习数据。如果根据本发明的第六到第八以及第十实施例采用用于学习数据的收集方法，则可以针对每个意图划分与一个所关注的任务一致的语料库，并且可以简单并有效地收集语料库。此外，通过从每个所创建的学习数据中创建统计语言模型，可以获得其中相同任务的一个意图是固有的一组语言模型。此外，通过使用语素解释软件，语音部分和动词变化信息 (conjugationinformation)被提供给要在统计语言模型的创建期间使用的每个语素。
根据本发明的第六和第十实施例，配置来进行创建统计语言模型的过程，其中收集单元针对每个意图，通过从用于意图的描述语法模型中自动地产生与每个意图一致的语句来收集具有说话者可能说出的内容的语料库，并且语言模型创建单元通过使针对每个意图收集的语料库经历统计处理来创建其中意图是固有的统计语言模型。在这一点上，存在如下所示的两个优点。
(1)促进了语素(单词的划分)的一致性。在手动创建语法模型时，存在不能实现语素的一致性的高可能性。然而，即使语素不统一，在创建统计语言模型时也可以通过使用语素解释软件来使用统一的语素。(2)通过使用语素解释软件，可以获得关于语音部分或动词变化的信息，并且可以在创建统计语言模型时反应该信息。利用基于要在下面和附图中描述的本发明的实施例的详细描述，本发明的目标、特性和优点将变得更加清楚。

图1是示意性图示根据本发明实施例的语音识别装置的功能结构的方框图；图2是示意性图示用于传达意图的短语的最小必要结构的图；图3A是图示其中以矩阵形式排列抽象名词词汇和动词词汇的单词含义数据库的图；图3B是图示其中针对抽象词汇登记指示相同含义或类似意图的单词的图；图4是用于描述基于在图3A所示的矩阵中放置标记所指示的名词词汇和动词词汇的组合创建描述语法模型的方法的图；图5是用于描述通过从用于每个意图的描述语法模型中自动地产生与意图一致的语句来收集具有说话者可能说出的内容的语料库的方法的图；图6是图示在从语法模型构建统计语言模型的技术中的数据流的图；图7是示意性图示利用针对所关注的任务的意图习得的N个统计语言模型1到N 以及一个吸收统计语言模型构建的语言模型数据库的结构示例的图；图8是图示当语音识别装置针对任务“操作电视”执行含义估计时的操作示例的图；图9是图示在本发明的实施例中提供的个人计算机的结构示例的图；和图10是图示利用上下文无关语法描述的描述语法模型的示例的图。
具体实施例方式本发明涉及语音识别技术，并且具有关注特定任务，准确地估计说话者说出的内容中的意图的主要特征，由此解决以下两点。(1)针对每个意图简单且合适地收集具有说话者可能说出的内容的语料库。(2)不强制将任意意图与说话内容(其与任务不一致)相配，而是宁可忽略。下面将参照附图详细地描述用于解决这两点的实施例。图1示意性图示根据本发明实施例的语音识别装置的功能结构。附图中的语音识别装置10配有信号处理部件11、声学分数计算部件12、语言分数计算部件13、词典14和解码器15。语音识别装置10被配置来准确地估计说话者的意图，而不是准确地理解语音中的逐音节和逐单词的所有内容。来自说话者的输入语音通过(例如)麦克风作为电信号输入到信号处理部件11。这样的模拟电信号通过采样和量化处理经历AD转换以变为由数字信号组成的语音数据。此外，信号处理部件11通过对于微小时间的每一帧将声学分析应用到语音数据来产生时间特征向量的序列X。通过应用诸如离散傅立叶变换(DFT)之类的频率分析的处理(作为声学分析)，例如，产生基于频率分析的特征向量的序列X，其具有诸如每个频带的能量(所谓功率谱)之类的特性。接下来，在参照声学模型数据库16、词典14和语言模型数据库17的同时，获得单词模型的串作为识别结果。声学分数计算部件12计算用于指示包括基于词典14形成的单词串的声学模型与输入语音信号之间的声学相似度的声学分数。例如，在声学模型数据库16中记录的声学模型是用于日语的音素的隐马尔可夫模型(HMM)。声学分数计算部件12可以在参照声学数据库的同时，获得其中输入语音数据X是在词典14中登记的单词W的概率p(X|W)作为声学分数。此外，语言分数计算部件13计算用于指示包括基于词典14形成的单词串的语言模型与输入语音信号之间的语言相似度的语言分数。在语言模型数据库17中，记录了描述 N个单词如何形成序列的单词序列比(N-gram)。语言分数计算部件13可以通过参照语言模型数据库17，获得在词典14中登记的单词W的出现概率P(W)作为语言分数。解码器15基于声学分数和语言分数获得识别结果。具体地，如下面的等式(1)所示，如果计算其中在词典14中登记的单词W是输入语音数据X的概率ρ (W |X)，则以具有高概率的顺序搜索并输出候选单词。ρ (W I Χ) ρ (W) · ρ (X I W)…(1)此外，解码器15利用下面所示的等式(2)估计最佳结果。W = argmaxp (W X)…(2)语言分数计算部件13使用的语言模型是统计语言模型。可以从学习数据中自动地创建由N-gram模型表示的统计语言模型，并且即使当输入语音数据中的单词的排列与语法规则稍微不同时也可以识别语音。假设根据本发明实施例的语音识别装置10估计说话内容中与所关注的任务相关的意图，为此，语言模型数据库17安装有与所关注的任务中包含的每个意图对应的多个统计语言模型。此外，语言模型数据库17安装有与说话内容 (其与所关注的任务不一致)对应的统计语言模型以便忽略针对与任务不一致的说话内容的意图估计(这将在后面详细描述)。存在很难构建与每个意图对应的多个统计语言模型的问题。这是因为即使可以收集在诸如书籍、报纸、杂志之类的媒体以及网站上的大量文本数据，选出说话者可能说出的短语也很费事，并且很难具有针对每个意图的大量语料库。此外，不容易在每个文本中指定意图或针对每个意图分类文本。因此，本实施例使得可以简单并合适地针对每个意图收集具有说话者可能说出的内容的语料库，并且通过使用从语法模型构建统计语言模型的技术，针对每个意图构建统计语言模型。
首先，如果预先确定在所关注的任务中包含的意图，则通过制作传达意图抽象所需的短语(或符号化)来有效地创建语法模型。接下来，通过使用所创建的语法模型，自动地产生与每个意图一致的语句。同样地，在针对每个意图收集具有说话者可能说出的内容的语料库之后，可以通过利用统计技术从每个语料库执行概率估计来构建与每个意图对应的多个统计语言模型。此外，例如,Karl Weilhammer>Matthew N.Stuttle禾口Steve Young(Interspeech, 2006) pjf^^ "Bootstrapping Language Models for DialogueSystems" π Τ/Λ ^ ΙΙ 型构建统计语言模型的技术，但是没有提及有效的构建方法。相反，在本实施例中，可以如下所述那样有效地从语法模型构建统计语言模型。将描述关于使用语法模型针对每个意图创建语料库的方法。当创建用于学习其中包括任意一个意图的语言模型的语料库时，创建描述语法模型以获得语料库。发明人认为说话者可能说出的简单且简短的语句(或用于传达意图所需的最小短语)的结构由名词词汇和动词词汇的组合组成，如“执行某事”(如图2所示)。因此，可以抽象化(或符号化)用于每一个名词词汇和动词词汇的单词以便有效地构建语法模型。例如，指示电视节目的名称(诸如“大河剧”(历史剧)或“笑一笑”(喜剧节目)) 的名词词汇被抽象化为词汇“_Title”。此外，用于在观看节目中使用的机器(诸如电视等) 的动词词汇(诸如“请重播”、“请显示”或“我希望观看”)可以被抽象化为词汇“_Play”。结果，可以由用于_Title&_Play的符号的组合来表示具有“请显示节目”的意图的说话。此外，例如，如下所示，针对每个抽象词汇登记了指示相同含义或类似意图的单词。可以手动地进行登记工作。_Title =大河剧、笑一笑、..._Play =请重播、重播、显示、请显示、我希望观看、执行、打开、播放、...此外，将“_Play_Title”等创建为用于获得语料库的描述语法模型。从描述语法模型“_Play_Title”创建诸如“请显示大河剧(历史剧)，，之类的语料库。同样地，可以由每一个抽象名词词汇和动词词汇的组合组成描述语法模型。此外，每一个抽象名词词汇和动词词汇的组合可以表示一个意图。因此，如图3A所示，通过在每一行中排列抽象名词词汇，而在每一列中排列抽象动词词汇来形成矩阵，并且通过针对具有意图的抽象名词词汇和动词词汇的每一个组合在矩阵的对应列中放置指示意图的存在的标记来构建单词含义数据库。在图3A所示的矩阵中，与标记组合的名词词汇和动词词汇指示其中包含任意一个意图的描述语法模型。此外，针对利用矩阵中的行划分的抽象名词词汇，在单词含义数据库中登记指示相同含义或类似意图的单词。此外，如图3B所示，针对利用矩阵中的列划分的抽象动词词汇，在单词含义数据库中登记指示相同含义或类似意图的单词。此外，单词含义数据库可以被扩展到三维排列，而不是如图3A所示的矩阵那样的二维排列。下面是将单词含义数据库(其处理与任务中包含的每个意图对应的描述语法模型)表达为如以上那样的矩阵的优点。(1)容易确认是否全面地包含说话者的说话内容。(2)容易确认是否可以匹配系统的功能而没有遗漏。
(3)可以有效地创建语法模型。在图3A所示的矩阵中，赋以标记的名词词汇和动词词汇的每个组合对应于指示意图的描述语法模型。此外，如果指示相同含义或类似意图的每一个登记的单词被强制与抽象名词词汇和抽象动词词汇中的每一个相配，则可以有效地创建以BNF形式描述的描述语法模型(如图4所示)。关于一个所关注的任务，可以通过登记在说话者说话时可能出现的名词词汇和动词词汇来获得对于任务特定的一组语言模型。此外，每个语言模型具有其中固有的一个意图(或操作)。换句话说，从用于每个意图的描述语法模型(其从以图3A所示的矩阵形式的单词含义数据库中获得)中，通过自动地产生与图5中所示的意图一致的语句，可以针对每个意图收集具有说话者可能说出的内容的语料库。可以通过利用统计技术从每个语料库执行概率估计来构建与每个意图对应的多个统计语言模型。从每个语料库构建统计语言模型的方法不限于任意特定的方法，并且由于可以将公知的技术应用到其上，因此这里不提及其细节描述。如果需要的话，可以参照上述 Kiyohiro Shikano 禾口 Katsunobu Ito 所著的 “Speech Recognition System，，。图6图示从语法模型(至今已经对其进行了描述)构建统计语言模型的方法中的数据流。单词含义数据库的结构如图3A所示。换句话说，涉及所关注的任务(例如，电视的操作等)的名词词汇被制成指示相同含义或类似意图的每一个组，并且在矩阵的每一行中排列被制成每个抽象组的名词词汇。以相同的方式，关于所关注的任务的动词词汇被制成指示相同含义或类似意图的每一个组，并且在矩阵的每一列中排列被制成每个抽象组的动词词汇。此外，如图3B所示，针对抽象名词词汇中的每一个登记指示相同含义或类似意图的多个单词，并且针对抽象动词词汇中的每一个登记指示相同含义或类似意图的多个单词。在图3A所示的矩阵上，在与具有意图的名词词汇和动词词汇的组合对应的列中赋予指示意图的存在的标记。换句话说，与标记匹配的名词词汇和动词词汇的每个组合对应于指示意图的描述语法模型。描述语法模型创建单元61拾取在矩阵上具有标记的指示意图的抽象名词词汇与抽象动词词汇的组合作为线索，然后强制指示相同含义或类似意图的每个登记的单词与抽象名词词汇和抽象动词词汇中的每一个相配，并且以BNF的形式创建描述语法模型来将模型存储为上下文无关语法的文件。自动地创建BNF形式的基本文件，然后将根据说话的表达以BNF文件的形式修改模型。在图6所示的示例中，通过基于单词含义数据库由描述语法模型创建单元61构建N个描述语法模型1到N，并且将其作为上下文无关语法的文件进行存储。在本实施例中，在定义上下文无关语法中使用BNF形式，但是本发明的精神不必限于此。可以通过从创建的BNF文件中创建语句来获得指示特定意图的语句。如图4所示，以BNF形式的语言模型的转换(transcription)是从非终端符号(开始)到终端符号(结束)的语句创建规则。因此，收集单元62可以自动地产生指示相同意图的多个语句(如图 5所示)，并且可以通过针对指示意图的描述语法模型从非终端符号(开始)到终端符号 (结束)搜索路线来针对每个意图收集具有说话者可能说出的内容的语料库。在图6所示的示例中，从每个描述语法模型自动产生的语句组被用作指示相同意图的学习数据。换句话说，由收集单元62针对每个意图收集的学习数据1到N变为用于构建统计语言模型的语料库。同样地，可以通过关注在简单和简短的说话中形成含义的名词和动词的部分并将它们中的每一个符号化来获得描述语法模型。此外，由于从BNF形式的描述语法模型产生指示任务中的特定含义的语句，可以简单并有效地收集用于创建其中固有意图的统计语言模型所需的语料库。此外，语言模型创建单元63可以通过利用统计技术针对每个意图的语料库执行概率估计来构建与每个意图对应的多个统计语言模型。从BNF形式的描述语法模型产生的语句指示任务中的特定意图，因此，使用包括语句的语料库创建的统计语言模型可以被称作针对意图的说话内容中的强健语言模型。此外，从语料库构建统计语言模型的方法不限于任意特定的方法，并且由于可以应用公知的技术，因此，这里不提及其详细描述。如果需要的话，可以参照上述Kiyohiro Shikano 禾口 Katsunobu Ito 所著的 “Speech RecognitionSystem，，。在这里的描述中，可以理解，针对每个意图简单且合适地收集具有说话者可能说出的内容的语料库，并且可以通过使用从语法模型构造统计语言模型的技术来构造针对每个意图的统计语言模型。顺序地，将提供在语音识别装置中，不强制地将任意意图与说话内容(其与任务不一致)相配，而是可以将其忽略的方法的描述。当执行语音识别处理时，语言分数计算部件13从针对每个意图创建的语言模型组中计算语言分数，声学分数计算部件12利用声学模型计算声学分数，而解码器15采用最可能的语言模型作为语音识别处理的结果。因此，可以从用于识别针对说话选择的语言模型的信息中提取或估计说话的意图。当语言分数计算部件13使用的语言模型组仅由针对所关注的特定任务中的意图创建的语言模型组成时，可能强制地将与任务无关的说话与任意语言模型相配，并且该模型可能作为识别结果输出。因此，以提取了与说话内容不同的意图的结果而告终。因此，在根据本实施例的语音识别装置中，针对所关注的任务中的每个意图，除了统计语言模型之外，还在语言模型数据库17中提供与说话内容(其与任务不一致)对应的吸收统计语言模型，并且与吸收统计语言模型合作地处理任务中的统计语言模型组，以便吸收不指示所关注的任务中的任意意图(换句话说，与任务无关)的说话内容。图7示意性图示与所关注的任务中的每个意图对应的N个统计语言模型1到N以及包括一个吸收统计语言模型的语言模型数据库17的结构示例。如上所述，通过利用统计技术，针对从描述语法模型(其指示任务中的每个意图) 产生的用于学习的文本执行概率估计来构建与任务中的每个意图对应的统计语言模型。相反，通过利用统计技术针对从网站等收集的语料库一般地执行概率估计来构建吸收统计语言模型。这里，例如，统计语言模型是N-gram模型，其产生其中在第(i_l)个单词以 W1,...和Wp1的顺序出现之后，单词Wi以第i个的顺序出现的概率ρ (Wi IW1,. . .，WiJ，以近似最接近的N个单词(WiIWiI,... ,WiJ的序列比ρ(如上所述)。当说话者的说话内容指示所关注的任务中的意图时，从通过学习具有意图的学习文本而获得的统计语言模型k获得的概率p(k) (WiIffm,...，Wi^1)具有高值，并且可以准确地把握在所关注的任务中的意图 1到N(其中，k是从1到N的整数)。另一方面，通过使用包括从(例如)网站收集的大量语句的一般语料库来创建吸收统计语言模型，并且与具有任务中的每个意图的统计语言模型相比，吸收统计语言模型是由大量词汇组成的自发说话语言模型(口语模型)。吸收统计语言模型包括指示任务中的意图的词汇，但是当针对具有任务中的意图的说话内容计算语言分数时，具有任务中的意图的统计语言模型具有比自发说话语言模型更高的语言分数。这是因为吸收统计语言模型是自发说话语言模型，并且具有比其中指定了意图的每个统计语言模型更大量的词汇，因此具有特定意图的词汇的出现概率必然较低。相反，当说话者的说话内容与所关注的任务无关时，其中与说话内容类似的语句存在于指定意图的学习文本中的概率较低。为此，其中与说话内容类似的语句存在于一般语料库中的概率相对高。换句话说，从通过学习一般语料库获得的吸收统计语言模型获得的语言分数比从通过学习指定意图的学习文本获得的任意统计语言模型获得的语言分数相对更高。此外，可以通过从解码器15输出“其它”作为对应的意图来防止强制地将任意意图与说话内容(其与任务不一致)相配的情况。图8图示当根据本实施例的语音识别装置针对任务“操作电视”执行含义估计时的操作示例。当输入的说话内容指示在任务“操作电视”中的诸如“换频道”、“观看节目”之类的任意意图时，基于声学分数计算部件12计算出的声学分数和语言分数计算部件13计算出的语言分数，可以在解码器15中搜索任务中的对应意图。相反，当输入的说话内容不指示任务“操作电视”中的意图(如，“该去超市了”) 时，参照吸收统计语言模型获得的概率值期望是最高的，并且解码器15获得意图“其它”作为搜索结果。甚至当识别出与任务无关的说话内容时，除了与任务中的每个意图对应的统计语言模型之外，根据本实施例的语音识别装置通过将由自发说话语言模型等组成的吸收统计语言模型应用到语言模型数据库17，从而不采用任务中的任意统计语言模型，而是使用吸收统计语言模型，因此可以减少错误地提取意图的风险。可以利用硬件以及软件执行上述一系列处理。例如，在使用后者的情况下，可以以执行预定程序的个人计算机实现语音识别装置。图9图示在本发明的实施例中提供的个人计算机的结构示例。中央处理单元 (CPU) 121遵循在只读存储器(ROM) 122或记录单元128中记录的程序执行各种处理。遵循程序执行的处理包括语音识别处理、创建用在语音识别处理中的统计语言模型的处理和创建在创建统计语言模型中使用的学习数据的处理。每一个处理的细节如上所述。随机存取存储器(RAM) 123合适地存储CPU 121执行的程序和数据。CPU 12UR0M 122和RAM 123经由总线124相互连接。CPU 121经由总线124连接到输入/输出接口 125。输入/输出接口 125连接到包括麦克风、键盘、鼠标、开关等的输入单元126和包括显示器、扬声器、灯等的输出单元127。此外，CPU 121根据从输入单元126输入的命令执行各种处理。连接到输入/输出接口 125的记录单元128是(例如)硬盘驱动器(HDD)，并且记录要由CPU 121执行的程序或诸如处理数据之类的各种计算机文件。通信单元129经由诸如因特网或其它网络(任何一个都未示出)之类的通信网络与外部装置(未示出)通信。此外，个人计算机可以经由通信单元129获得程序文件或下载数据文件以便将其记录在记录单元128中。连接到输入/输出接口 125的驱动器130在磁盘151、光盘152、磁光盘153、半导体存储器154等安装到其中时对它们进行驱动，并且获取在这样的存储区域中记录的程序或数据。如果需要的话，所获得的程序或数据被传送到记录单元128以进行记录。当利用软件进行一系列处理时，将组成软件的程序从记录介质中安装到被合并到专用硬件中的计算机或能够执行各种功能的装有各种程序的通用个人计算机中。如图9所示，除了记录程序的ROM 122、包含在记录单元128中的硬盘等(与上述的计算机不同，以预先合并到计算机中的状态向用户提供)之外，记录介质包括其中记录程序的磁盘151 (包括软盘)、光盘152 (包括紧凑盘只读存储器(CD-ROM)和数字多功能盘 (DVD))、磁光盘153 (包括迷你盘(MD)(作为商标))或包括半导体存储器154的封装介质等(将它们分发来向用户提供程序)。此外，如果需要的话，则用于执行上述一系列处理的程序可以通过诸如路由器或调制解调器之类的接口、经由有线或无线通信介质(诸如局域网(LAN)、因特网或数字卫星广播)安装在计算机中。本发明包含涉及于2009年3月23日向日本专利局提交的日本优先权专利申请JP 2009-070992中公开的主题，在这里通过引用将其全部内容合并在此。本领域技术人员应该理解，可以给予设计需要以及其它因素进行各种修改、组合、子组合以及替换，而他们落入所附权利要求及其等效物的范围内。
权利要求
一种语音识别装置，包括一个或多个意图提取语言模型，其中所关注的特定任务的每个意图是固有的；吸收语言模型，其中所述任务的任意意图不是固有的；语言分数计算部件，用于计算指示所述意图提取语言模型和所述吸收语言模型中的每一个与说话内容之间的语言上的相似度的语言分数；和解码器，用于基于由所述语言分数计算部件计算出的每个语言模型的语言分数来估计说话内容中的意图。
2.如权利要求1所述的语音识别装置，其中所述意图提取语言模型是通过使由指示所述任务的意图的多个语句组成的学习数据经历统计处理而获得的统计语言模型。
3.如权利要求1所述的语音识别装置，其中所述吸收语言模型是通过使与指示任务的意图无关或由自发的说话组成的大量学习数据经历统计处理而获得的统计语言模型。
4.如权利要求2所述的语音识别装置，其中用于获得所述意图提取语言模型的学习数据由基于指示对应的意图的描述语法模型产生并与意图一致的语句组成。
5.一种语音识别方法，包括步骤第一语言分数计算步骤，计算指示其中所关注的特定任务的每个意图是固有的一个或多个意图提取语言模型与说话内容之间的语言上的相似度的语言分数；第二语言分数计算步骤，计算指示其中所述任务的任意意图不是固有的吸收语言模型与说话内容之间的语言上的相似度的语言分数；和基于在第一和第二语言分数计算步骤中计算出的每个语言模型的语言分数估计说话内容中的意图。
6.一种语言模型产生装置，包括单词含义数据库，其中关于所关注的特定任务的每个意图，通过抽象化可能在指示意图的说话中出现的第一语音部分串的词汇候选以及第二语音部分串的词汇候选，登记了所述第一语音部分串的抽象词汇和所述第二语音部分串的抽象词汇的组合以及指示抽象词汇的相同含义或类似意图的一个或多个单词；描述语法模型创建部件，其基于在所述单词含义数据库中登记的、指示任务的意图的所述第一语音部分串的抽象词汇和所述第二语音部分串的抽象词汇的组合以及指示所述抽象词汇的相同含义或类似意图的一个或多个单词，创建指示意图的描述语法模型；收集部件，其通过针对意图自动地从描述语法模型产生与每个意图一致的语句来针对意图收集具有说话者可能说出的内容的语料库；和语言模型创建部件，其通过将针对意图收集的语料库经历统计处理来创建其中每个意图是固有的统计语言模型。
7.如权利要求6所述的语言模型产生装置，其中所述单词含义数据库具有针对每一串在矩阵上排列的所述第一语音部分串的抽象词汇和所述第二语音部分串的抽象词汇，并且具有在与具有意图的所述第一语音部分的词汇以及所述第二语音部分的词汇的组合对应的列中给出的、指示意图的存在的标记。
8.一种语言模型产生方法，包括步骤通过抽象化用于传达包含在所关注的任务中的每个意图的必要短语来创建语法模型；通过使用所述语法模型自动地产生与每个意图一致的语句来针对意图收集具有说话者可能说出的内容的语料库；和通过利用统计技术从每个语料库执行概率估计来构建与每个意图对应的多个统计语言模型。
9.一种以计算机可读格式描述以便在计算机上执行用于语音识别的处理的计算机程序，所述程序促使计算机用作一个或多个意图提取语言模型，其中所关注的特定任务的每个意图是固有的；吸收语言模型，其中所述任务的任意意图不是固有的；语言分数计算部件，用于计算指示所述意图提取语言模型和所述吸收语言模型中的每一个与说话内容之间的语言上的相似度的语言分数；和解码器，用于基于由所述语言分数计算部件计算出的每个语言模型的语言分数来估计说话内容中的意图。
10.一种以计算机可读格式描述以便在计算机上执行用于产生语言模型的处理的计算机程序，所述程序促使计算机用作单词含义数据库，其中关于所关注的特定任务的每个意图，通过抽象化可能在指示意图的说话中出现的第一语音部分串的词汇候选以及第二语音部分串的词汇候选，登记了所述第一语音部分串的抽象词汇和所述第二语音部分串的抽象词汇的组合以及指示所述抽象词汇的相同含义或类似意图的一个或多个单词；描述语法模型创建部件，其基于在所述单词含义数据库中登记的、指示任务的意图的所述第一语音部分串的抽象词汇和所述第二语音部分串的抽象词汇的组合以及指示所述抽象词汇的相同含义或类似意图的一个或多个单词，创建指示意图的描述语法模型；收集部件，其通过针对意图自动地从所述描述语法模型产生与每个意图一致的语句来针对意图收集具有说话者可能说出的内容的语料库；和语言模型创建部件，其通过将针对意图收集的语料库经历统计处理来创建其中每个意图是固有的统计语言模型。
11.一种语言模型产生装置，包括单词含义数据库，其中关于所关注的特定任务的每个意图，通过抽象化可能在指示意图的说话中出现的第一语音部分串的词汇候选以及第二语音部分串的词汇候选，登记了所述第一语音部分串的抽象词汇和所述第二语音部分串的抽象词汇的组合以及指示抽象词汇的相同含义或类似意图的一个或多个单词；描述语法模型创建单元，其基于在所述单词含义数据库中登记的、指示任务的意图的所述第一语音部分串的抽象词汇和所述第二语音部分串的抽象词汇的组合以及指示抽象词汇的相同含义或类似意图的一个或多个单词，创建指示意图的描述语法模型；收集单元，其通过针对意图自动地从所述描述语法模型产生与每个意图一致的语句来针对意图收集具有说话者可能说出的内容的语料库；和语言模型创建单元，其通过将针对意图收集的语料库经历统计处理来创建其中每个意图是固有的统计语言模型。
全文摘要
公开了语音识别装置和方法、语言模型产生装置和方法及程序。所述语音识别装置，包括一个或多个意图提取语言模型，其中所关注的特定任务的意图是固有的；吸收语言模型，其中任务的任意意图不是固有的；语言分数计算部件，用于计算指示意图提取语言模型和吸收语言模型中的每一个与说话内容之间的语言上的相似度的语言分数；和解码器，用于基于由语言分数计算部件计算出的每个语言模型的语言分数来估计说话内容中的意图。
文档编号G10L15/18GK101847405SQ20101013585
公开日2010年9月29日申请日期2010年3月16日优先权日2009年3月23日
发明者前田幸德, 南野活树, 本田等申请人:索尼公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：前田幸德;本田等;南野活树
技术所有人：索尼公司
我是此专利的发明人

上一篇：一种将midi音乐生成动画的方法和系统的制作方法
上一篇：用于原声鼓和电子鼓的鼓皮的制作方法