语音识别设备和方法

文档序号：2837189阅读：817来源：国知局

专利名称：语音识别设备和方法
技术领域：
本发明涉及通过将语音信号转换成字符串来识别语音的设备和方法。
背景技术：
最近，基于语音输入的人机界面进入了实用阶段。例如，一种基于语音的操作系统允许用户通过说出预定的命令来对系统进行操作。系统识别该语音命令，执行相应操作。另一个例子是通过分析用户说出任何句子，将该句子转换成字符串，从而将语音输入生成文档的系统。
机器人与用户之间基于语音的交互技术的研究和发展也处于活跃期。研究者试图通过语音输入指挥机器人执行特定动作或通过机器人访问多种信息。
这些系统使用的语音识别技术将语音信号转换成数字数据，并将该数据与预定模式进行比较。
在语音识别技术中，语音会由于环境噪音、用户声音的质量和音量、语音速度等问题而得到错误的识别。很难对方言进行识别，除非系统的词汇字典中包含该口语词。此外，还会因为语音数据和文本语料库不足而发生错误的识别，语音数据和文本语料库用于创建在标准模式、词汇网络、语言模型等中包含的特征、概率等。为了减少计算量而对候选数进行限制从而删除了正确的词，以及由于用户不正确的发言或者重述也会导致错误的识别。
由于有多种因素引发错误识别，用户无论如何需要修改不正确的部分从而校正字符串。其中最可靠和简单的方法是使用键盘、笔等设备；但是，使用此种设备就抵消了语音输入中不用手的特征优势。此外，如果用户能够使用此种设备，也就根本不需要语音输入。
另一种校正错误部分的方法是用户重新说出句子；但只是重述相同的句子很难防止错误识别的再次发生，而且让用户重复长句子压力很大。
为解决这个问题，JP-A H11-338493(KOKAI)和JP-A2003-316386(KOKAI)公开了通过只说出被错误识别的语音部分来校正错误的技术。根据该技术，将第一语音的时间序列特征与用于校正的稍后说出的第二语音的时间序列特征进行比较，第一语音中与第二语音相似的部分被检测为错误部分。从第二语音的候选中删除与第一语音中错误部分对应的字符串，以选择第二语音的最可能的字符串，这样就实现了更可靠的识别。
但是，JA-A H11-338493(KOKAI)和JP-A 2003-316386(KOKAI)公开的技术有缺陷，在有同音词或相似发言词时可能再发生错误识别。
例如，在日语中，经常有同一发音的很多同音词。此外，还有大量的发音相似的词。
当有大量同音词和相似发音词时，使用该语音识别技术就无法从这些词中选择合适的词，因此词识别不会很准确。
基于此原因，在JA-A H11-338493(KOKAI)和JP-A 2003-316386(KOKAI)公开的技术中，用户需要重复相同的发音直至得到正确的结果，增加了校正过程的负担。

发明内容
根据本发明的一方面，一种语音识别设备包括语义关系存储单元，其彼此关联地存储词之间的语义关系和指示语义关系的程度的相关比；第一输入接收单元，其接收第一语音的输入；第一候选生成单元，其识别第一语音，并生成第一识别候选和第一识别候选的第一似然度；第一候选选择单元，其根据第一识别候选的第一似然度，选择第一识别候选中的一个，作为第一语音的识别结果；第二输入接收单元，其接收第二语音的输入，第二语音包括目标词和线索词，目标词包含在第一识别候选中，线索词提供了用于校正目标词的线索；第二候选生成单元，其识别第二语音，并生成第二识别候选和第二识别候选的第二似然度；词提取单元，其从第二识别候选中提取目标词的识别候选和线索词的识别候选；第二候选选择单元，其从语义关系存储单元中获得与所提取的目标词的识别候选和所提取的线索词的识别候选之间的语义关系相关联的相关比，并根据所获得的相关比选择第二识别候选中的一个，作为第二语音的识别结果；校正部分确定单元，其对第一语音的识别结果和第二语音的识别结果进行比较，并确定出对应于目标词的部分；以及校正单元，其校正对应于目标词的所确定出的部分。
根据本发明的另一方面，一种语音识别方法包括接收第一语音；识别所接收的第一语音，以生成第一识别候选和第一识别候选的第一似然度；根据第一识别候选的第一似然度，选择为第一语音生成的第一识别候选中的一个，作为所述第一语音的识别结果；接收第二语音，其包括目标词和线索词，目标词包含在第一识别候选中，线索词提供了用于校正目标词的线索；识别所接收的第二语音，以生成第二识别候选和第二识别候选的第二似然度；从所生成的第二识别候选中提取目标词的识别候选和线索词的识别候选；从语义关系存储单元中获得与所提取的目标词的识别候选和所提取的线索词的识别候选之间的语义关系相关联的相关比，其中语义关系存储单元相互关联地存储词之间的语义关系和指示语义关系的程度的相关比；根据所获得的相关比选择第二识别候选中的一个，作为第二语音的识别结果；将第一语音的识别结果与第二语音的识别结果进行比较；确定出第一语音中对应于目标词的部分；以及校正对应于目标词的所确定出的部分。

图1是根据本发明第一实施例的语音识别设备的示意图；图2是图1所示的语音识别设备的框图；图3示出了存储在音素字典存储单元中的音素字典的数据配置的例子；图4示出了存储在词汇字典存储单元中的词汇字典的数据配置的例子；图5示出了存储在历史存储单元中的音素串候选组的数据格式的例子；图6示出了存储在历史存储单元中的词串候选组的数据格式的例子；图7和图8示出了用于解释词之间关系的层次图；图9示出了存储在语言模型存储单元中的语言模型的数据配置的例子；图10是根据第一实施例的语音识别过程的流程图；图11是校正候选选择过程的流程图；图12是校正部分确定过程的流程图；图13示出了第一语音的识别结果的例子；图14示出了第二语音的音素串候选组的例子；图15示出了第二语音的词串候选组的例子；图16示出了第二语音的识别结果的例子；图17示出了用于解释校正部分确定过程的示意图；图18和图19示出了在语音识别过程中使用的输入数据、中间数据、输出数据的例子；图20示出了基于同现信息的词之间关系的例子；图21示出了根据第二实施例的语音识别设备的示意图；图22是图21示出的语音识别设备的框图；图23是根据第二实施例的语音识别过程的流程图；图24根据第二实施例的校正部分确定过程的流程图；以及图25是根据第一或第二实施例的语音识别设备的硬件框图。
具体实施例方式
以下将结合附图对本发明的示例性实施例进行详细描述。本发明并不限于下面描述的实施例。
根据本发明第一实施例的语音识别设备，通过参考分配给由用户校正的字符串的语义约束信息来校正错误识别的语音，从而准确识别用户说出的语音。
图1是根据第一实施例的语音识别设备100的示意图。语音识别设备100包括语音输入按钮101a、校正语音输入按钮101b、麦克风102和显示单元103。用户按下语音输入按钮101a来输入语音。当从语音识别的字符串包含错误时，用户按下校正语音输入按钮101b来输入校正语音。麦克风102以电信号的方式接收用户说出的语音。显示单元103显示代表识别为用户输入语音的词的字符串。
图2是根据第一实施例的语音识别设备100的框图。除了语音输入按钮101a、校正语音输入按钮101b、麦克风102和显示单元103之外，语音识别设备100还包含如音素字典存储单元121、词汇字典存储单元122、历史存储单元123、语义关系存储单元124和语言模型存储单元125的硬件。
语音识别设备100还包含软件，如按钮输入接收单元111、语音输入接收单元112、特征提取单元113、候选生成单元114、第一候选选择单元115a、第二候选选择单元115b、校正部分确定单元116、校正单元117、输出控制单元118和词提取单元119。
音素字典存储单元121存储音素字典，其包含每个音素的特征数据的标准模型。音素字典类似于基于隐马尔可夫模型(HMM)的一般语音识别过程中常用的字典，包含与每个音标相关联的时间序列特征。该时间序列特征可以与即将描述的特征提取单元113输出的时间序列特征以相同的方式进行比较。
图3示出了存储在音素字典存储单元121中的音素字典的数据配置的例子。如图3所示，音素字典以包含节点和有向链接的有限自动机的方式表示每个时间序列特征。
每个节点表示核对(collation)的状态。例如，对应于音素“i”的节点i1、i2和i3表示不同状态。每个有向链接与作为该音素的子元素的特征(未示出)相关联。
词汇字典存储单元122存储词汇字典，其包含与输入语音比较的词信息。词汇字典与基于HMM的语音识别过程中使用的字典类似，预先包括与每个词对应的音素串，并用于找出与通过基于音素字典的核对而获取的每个音素串对应的词。
图4是存储在词汇字典存储单元122中的词汇字典的数据配置的例子。词汇字典彼此关联地存储词、组成每个词的音素串、和词的出现概率。
当第二候选选择单元115b确定对校正语音输入的识别结果时使用出现概率，该值是根据大量语音数据和文本语料库预先计算得到的。
历史存储单元123存储在语音识别过程中输出的多种中间数据。中间数据包括参考音素词典选择的表示音素串候选的音素串候选组和参考词汇字典选择的表示词串候选的词串候选组。
图5示出了存储在历史存储单元123中的音素串候选组的数据格式的例子。如图5所示，以格结构的形式表示音素串候选。“H”代表头节点，“E”代表格结构的尾节点，它们都不含任何对应的音素或词。
在语音的第一部分中，音素串“ichiji”在日语中意思是一点钟，而另一音素串“shichiji”在日语中的意思是七点钟，将它们作为候选输出。
图6示出了存储在历史存储单元123中的词串候选组的数据格式的例子。如图6所示，也以格结构的形式表示词串候选。“H”代表格结构的头节点，“E”代表格结构的尾节点。
在语音的第一部分中，“ichiji”在日语中意思是一点钟，“ichiji”在日语中意思是一个字，“shichiji”在日语中意思是七点钟，将这些词作为候选输出。
尽管在图5和图6的音素串候选组和词串候选组中没有示出，但还与对应于每个音素或词的节点相关联地存储与语音的对应部分的相似度。换句话说，每个节点关联于一个相似度，其是指示在语音中该节点的概率的似然度。
语义关系存储单元124相互关联地存储词之间的语义关系和语义关系的程度，可以采取类属词典的形式，其中，以层次结构表示词之间的概念关系。
图7是用于解释词之间关系的层次图。在图7中，“图书馆”，“美术馆”等作为相关词与“馆长”相关联。在层次概念下，“馆长”和“船长”在语义上与“职位”相关联。
为每个语义关系分配一个相关比(rel)。“rel”的值大于等于0且小于等于1，值越大表明关系的程度越高。
语义关系还包括一般类属词典中列出的同义词、准同义词等的任何关系。将这些关系的层次结构实际上以表格等形式存储在语义关系存储单元124中。
图8是用于解释词之间关系的另一层次图。在图8中，在层次概念下，“中午”、“傍晚”和“夜晚”在语义上与“时间”相关联。此外，“四点钟”，“五点钟”，“六点钟”，“七点钟”等在层次概念下与“傍晚”语义上相关联。
语言模型存储单元125存储语言模型，其相互关联地包括词之间的连接关系和关系的程度。该语言模型与基于HMM的语音识别过程中使用的模型类似，用于从中间数据中选择最可能的词串。
图9示出了存储在语言模型存储单元125中的语言模型的数据配置的例子。在图9中，该语言模型基于二元组，着重于两个词之间的关系，两个词相继出现的出现概率用作连接关系的程度。
该语言模型将两个词(第一词和第二词)和出现概率相关联。出现概率是预先通过分析大量文本语料库计算得出的。语言模型不局限于二元组，并且语言模型可以基于着重于三个词之间关系的三元组，等等。
音素字典存储单元121、词汇字典存储单元122、历史存储单元123、语义关系存储单元124以及语言模型存储单元125可以采用任何普通记录介质的形式，比如硬盘驱动器(HDD)、光盘、存储卡、随机访问存储器(RAM)、等等。
按钮输入接收单元111接收语音输入按钮101a和校正语音输入按钮101b的按下和释放操作，这样就确定了由语音输入接收单元112接收的语音部分的具体起始点和结束点。更具体地，按钮输入接收单元111确定了时间段，其中语音输入按钮101a或校正语音输入按钮101b被按下长于预定时间的时间。该时间段期间对语音进行识别，这样可以基于所谓的即按即讲系统来执行语音识别过程。
语音输入接收单元112从麦克风102接收用户的语音输入，将其转换成电信号，然后将电信号输出到特征提取单元113。更具体地，语音输入接收单元112将接收到的语音转换成电信号，对该电信号执行模拟-数字(A/D)转换，然后输出用脉冲编码调制(PCM)转换的数字数据。该过程可以用传统的语音信号数字化方式实现。
在语音输入按钮101a被按下的同时通过语音输入接收单元112接收的语音称作第一语音。在校正语音输入按钮101b被按下的同时通过语音输入接收单元112接收的语音称作第二语音，用来校正第一语音。
特征提取单元113通过基于对从语音输入接收单元112输出的数字数据进行快速傅里叶变换(FFT)所进行的频谱分析，提取语音的声学特征，用于确定出音素。
通过频谱分析，连续的语音波形被分成很短的时间段，提取出目标时间段内的特征，并顺序地轮换该分析的时间段，从而可以获得时间序列特征。特征提取单元113的提取过程可以使用任意传统方法，如除频谱分析外还可以使用线性预测分析和倒谱分析。
候选生成单元114使用音素字典和词汇字典，为第一语音或第二语音生成可能的音素串候选组和可能的词串候选组。候选生成单元114可以使用基于HMM的传统语音识别处理方式生成候选内容。
更具体地，候选生成单元114将特征提取单元113提取的时间序列特征与存储在音素字典中的标准模型进行比较，根据对应的有向链接改变该节点表示的状态，从而选择更相似的音素候选。
很难只选择一个音素，因为在音素字典中记录的标准模式通常与用户输入的实际语音不同。假定后面将缩小候选范围，候选生成单元114生成小于等于预定数目的最相似音素。
此外，候选生成单元114可以通过从识别出的第二语音删除第一语音中特定的词或字符串来生成候选，如JP-A 2003-316386(KOKAI)中的描述。
第一候选选择单元115a从候选生成单元114输出的第一语音的词串候选组中为第一语音选择最可能的词串。也可以在该过程中使用传统的基于HMM的语音识别技术。基于HMM的技术使用存储在语言模型存储单元125中的语言模型来选择最可能的词串。
如前面所述，语言模型关联于第一词、第二词以及这两词连接的出现概率。因此，第一候选选择单元115a可以将第一语音的词串候选组中的词对的出现概率进行比较，并选择有最大概率的最可能的词对。
词提取单元119从候选生成单元114输出的第二语音的词串候选组中提取词，用于获得语义关系。
第二候选选择单元115b从候选生成单元114输出的第二语音的词串候选组中选择第二语音的最可能的词串。第二候选选择单元115b进行简单处理，即使用类属词典仅检查与相邻段的关系，以选择词串。这是因为第二语音以校正为目，输入的是较短的短语，无需假定检查复杂的句子。这个过程可以使用维特比算法实现，它是一种动态规划。
更具体地，第二候选选择单元115b参考语义关系存储单元124来获得由词提取单元119提取的词之间的语义关系，并选择在语义上最强相关的一组词作为最可能的词串。此时，第二候选选择单元115b考虑在语言模型存储单元125中的语言模型的概率、与第二语音的相似度、以及在词汇字典存储单元122中存储的词的出现概率，来选择最可能的词串。
校正部分确定单元116参考第二候选选择单元115b选择的词串和在历史存储单元123中存储的第一语音和第二语音，确定出第一语音中待校正的部分(在下文中称之为“校正部分”)。更具体地，校正部分确定单元116首先从第二语音的每个词串候选中选择关注区域中存在的词。关注区域是被修饰词出现的地方。在日语中，被修饰词常常是最后一个词或者包含多个名词的复合词，其被认为是关注区域。在英语中，起始词或复合词被认为是关注区域，因为修饰词通常跟在被修饰词后，其间具有如“of”和“at”的介词。
校正部分确定单元116然后从历史存储单元123获得与关注区域对应的第二语音的音素串候选组，将其中的每一个与第一语音的音素串候选组进行比较，由此确定出第一语音中的校正部分。
校正单元117校正由校正部分确定单元116确定出的校正部分中的部分词串。更具体地，校正单元117用与第二语音的关注区域对应的词串替换第一语音中的校正部分，以校正第一语音。
此外，校正单元117可以用与整个第二语音对应的词串替换第一语音的校正部分。
输出控制单元118控制在显示单元103上显示作为由第一候选选择单元115a输出的对第一语音的识别结果的词串的过程。输出控制单元118还在显示单元103上显示作为由校正单元117的校正的结果的词串。输出控制单元118不局限于将词串输出到显示单元103。输出控制单元118可以使用诸如将由词串合成的声音输出到扬声器(未示出)的输出方法，或者使用任何其它传统方法。
下面将描述根据第一实施例的使用语音识别设备100的上述语音识别过程。图10是根据第一实施例的语音识别过程的总体过程的流程图。
首先，输入按钮接收单元111接收来自语音输入按钮101a或者校正语音输入按钮101b的按压操作(步骤S1001)。
然后，语音输入接收单元112接收第一语音输入(步骤S1002)。特征提取单元113提取由语音输入接收单元112接收到的第一语音的声学特征(步骤S1003)。特征提取单元113使用频谱分析等来提取声学特征。
接着，候选生成单元114参考存储在音素字典存储单元121中的音素字典和存储在词汇字典存储单元122中的词汇字典，通过将提取的特征和字典中记录的标准模式进行比较，为第一语音生成可能的词串候选组(步骤S1004)。
然后，语音输入接收单元112确定语音是否是在语音输入按钮101a被按下时输入的(步骤S1005)。换句话说，语音输入接收单元112确定输入的语音是第一语音还是用于校正第一语音的第二语音。
如果语音是在语音输入按钮101a被按下时输入的(步骤S1005中的是)，第一候选选择单元115a参考语言模型，选择最可能的词串作为第一语音的识别结果(步骤S1006)。更具体地，第一候选选择单元115a从词串候选组中挑出两个词，通过参考存储在语言模型存储单元125中的语言模型获得具有最高出现概率的一对词，并选择获得的该对词作为最可能的词。
接着，输出控制单元118将选择的词串显示在显示单元103上(步骤S1007)。用户查看显示单元103上的词串，如果需要校正，则在按下校正语音输入按钮101b的同时输入第二语音。语音输入接收单元112接收第二语音，生成词串候选(步骤S1001到S1004)。
此时，由于语音输入接收单元112确定语音输入时语音输入按钮101a没有被按下(步骤S1005中的否)，所以第二候选选择单元115b执行校正候选选择过程，从词串候选中选择最可能的词串(步骤S1008)。校正候选选择过程将在后面描述。
校正部分确定单元116执行校正部分确定过程，以确定出第一语音中要被第二语音校正的部分(步骤S1009)。校正部分确定过程将在后面描述。
校正单元117校正在校正候选选择过程中确定出的校正部分(步骤S1010)。输出控制单元118然后将校正词串显示在显示单元103上(步骤S1011)，然后语音识别过程结束。
下面将详细说明步骤S1008中的校正候选选择过程。图11是校正候选选择过程的整体过程的流程图。在图11中，这里使用维特比算法选择词串候选。
首先，第二候选选择单元115b初始化词指针的位置，以及综合优先级(IP)(步骤S1101)。
词指针的位置是指示如图6所示的格结构中的节点位置的信息，这里将指针位置初始化指向头节点。综合优先级是为选择最可能词串而计算的优先级的综合值，这里将其初始化为一。
词提取单元119获得指针位置前的词(步骤S1102)。假定指针位置前的词候选数是j，则获得的词表示成We1，We2，...，Wej(j为整数)。
词提取单元119获得指针位置处的词(步骤S1103)。假定指针位置处的词候选数是i，则获得的词表示成Ws1，Ws2，...，Wsi(i为整数)。
第二候选选择单元115b选择一对Wem(m是大于0且小于等于i的整数)和Wsn(n是大于0且小于等于i的整数)(步骤S1104)，并执行步骤S1105到步骤S1108的过程。
第二候选选择单元115b计算Wem和Wsn之间的语义关系连接似然度的值(以下表示为“Sim(Wsn，Wem)”)(步骤S1105)。语义关系连接似然度是这样一个值，其指示在Wem前的最近的自立词(以下表示为“prek(Wem)”)与Wsn之间的相关比，该值由下面公式(1)计算Sim(Wsn，Wem)＝argmaxk(rel(Wsn，prek(Wem)))(1)argmax()表示计算括号内数值的最大值的函数，rel(X，Y)表示词X和词Y之间语义关系的相关比。使用传统的形态学分析等技术，参考分析字典(未示出)确定词是否是自立词。
接着，第二候选选择单元115b计算Wem和Wsn之间的连接优先级(CP)的值(步骤S1106)。连接优先级表示Wem和Wsn的语言模型的概率(以下表示为“P(Wsn|Wem)”)与语义关系连接似然度(以下表示为“Sim”)的加权几何平均。连接优先级计算公式(2)如下CP＝P(Wsn|Wen)λ×Sim(Wsn，Wem)λ-10≤λ≤1) (2)第二候选选择单元115b计算Wsn的词优先级(WP)的值(步骤S1107)。词优先级表示与语音的相似度(以下表示为“SS(Wsn)”)和Wsn的出现概率(以下表示为“AP(Wsn)”)的加权几何平均，其通过下面公式(3)计算WP＝SS(Wsn)μ×AP(Wsn)μ-1(0≤μ≤1) (3)第二候选选择单元115b根据如下公式(4)计算优先级IP、AP和WP的乘积(以下表示为“TPmn”)(步骤S1108)。
TPmn＝IP×AP×WP (4)第二候选选择单元115b确定是否已经处理了所有的词对(步骤S1109)。如果并不是所有的词对都得到了处理(步骤S1109为否)，则第二候选选择单元115b选择另一对重复该过程(步骤S1104)。
如果所有词对都得到了处理(步骤S1109为是)，则第二候选选择单元115b用计算得到的TPmn值中的最大值替代IP值，并选择Wem和Wsn之间的相应链接(步骤S1110)。
当在Wem前找到最近的自立词时，第二候选选择单元115b选择到一个自立词的链接，该自立词的rel(Wsn，prek(Wem))值最大。
然后，第二候选选择单元115b将指针位置前进到下一词(步骤S1111)，并确定指针位置是否到达句子的末尾(步骤S1112)。
如果指针位置没有到达句子末尾(步骤S1112中为否)，则第二候选选择单元115b在指针位置处重复该过程(步骤S1102)。
如果指针位置到达句子末尾(步骤S1112中为是)，则第二候选选择单元115b选择所链接路径上的词串作为最可能的校正词串(步骤S1113)，然后校正候选选择过程结束。
下面将详细说明S1009中的校正部分确定过程。图12是根据第一实施例的校正部分确定过程的整体过程的流程图。
首先，校正部分确定单元116从音素串候选中获得与第二语音中关注区域对应的音素串(步骤S1201)。一组获得的音素串表示为{Si}。
校正部分确定单元116从历史存储单元123中获得第一语音的音素串(步骤S1202)。校正部分确定单元116检测所获得的第一语音的音素串中与音素串组{Si}中的音素串最相似的部分，然后将它指定为校正部分(步骤S1203)。
下面将说明根据第一实施例的语音识别过程的一个特定例子。图13示出了第一语音识别结果的例子。图14示出了第二语音的音素串候选组的例子。图15示出了第二语音的词串候选组的例子。
在图13中示出的例子中，用户用日语说出意思是“请预约七点钟”的第一语音，句子被错误的识别成“请预约一点钟”。
用户用日语说出意思是“傍晚七点钟”的短语作为第二语音，来校正第一语音。在本例子中，获得图14中所示的音素串候选和图15中所示的词串候选。
当使用三元组作为语言模型时，三个联接的词1501(yu-gata)、1504(no)和1507(shichiji)意思是“傍晚七点钟”，具有高出现概率。意思是浴衣的词1502或意思是墨西哥的“Yukatan”(地理名称)的词1503不大可能与意思是“一点钟”的词1505、意思是“一个字”的词1505和意思是“七点钟”的词1507中的任何一个一起使用。
用这种方法，当可以使用三元组作为语言模型时，可以如传统技术中那样，使用语言模型的概率选择恰当的词串候选。
但是，由于三元组包括大量的组合，所以问题是，语言模型的构造需要大量的文本数据，并且语言模型的数据非常大。为了解决这些问题，有时使用联接两个词的二元组作为语言模型。当使用二元组时，不可能缩小来自图15中所示词串候选的恰当词串的范围。
另一方面，根据第一实施例，可以使用类属词典选择恰当的词串，其中类属词典表达了在特定词的前一个自立词与该特定词之间的语义关系，该语义关系可以是层次关系、部分整体关系、同义词关系以及关联词关系。
图16示出了由第二候选选择单元115b在此过程中选择的第二语音识别结果的例子。
在如图16所示的第二语音的识别结果被选择后，校正部分确定单元116执行校正部分确定过程(步骤S1009)。
图17是解释校正部分确定过程的示意图。图17的顶端部分包括对应于第一语音的词串和音素串，图17的中间部分包括对应于第二语音的词串和音素串，图17的底端部分包括校正结果。为了简单起见，图17的词串中省略了词串的链接信息，词串和校正词串的实际配置如图13和图16中所示，音素串和音素串候选的配置如图5中所示。
如图17所示的例子中，“shichiji”和“ichiji”是为第二语音获得的对应于关注区域的音素串候选(步骤S1201)。将获得的音素串候选与对应于第一语音的音素串“ichiji-de-yoyaku-wo-onegai-shi-masu”进行比较，发现音素串候选对应于“ichiji”。这就确定了词1701(ichiji)是校正部分(步骤S1203)。
校正单元117然后执行校正过程(步骤S1010)。对于第一语音，意思是“请预约一点钟”的日语句子是错误选择的识别结果(参看图13)。但是如图17所示，通过将意思为“一点钟”的词替换成意思为“傍晚七点钟”的校正词串的关注区域中包含的意思为“七点钟”的词，得到意思为“请预约七点钟”的正确词串。
尽管在此例子中只对关注区域进行了替换，由校正部分确定单元116确定的校正部分还可以被整个校正词串替换。例如，在这种情况下，意思为“一点钟”的词可以被意思为“傍晚七点钟”的校正词串替换，得到意思为“请预约傍晚七点钟”的词串。
下面将描述根据第一实施例的语音识别过程的另一个例子。图18和图19示出了语音识别过程中使用的输入数据、中间数据和输出数据的例子。
图18示出的例子中，用户输入的日语句子1801的意思是“我想会见馆长”，输出识别结果1802。意思为“馆长”的词1811被错误识别成意思为“船长”的词1812。
当用户输入意思为“美术馆馆长”的日语短语1803时，该词被正确识别出来，并输出识别结果1804。
图19示出的例子中，用户输入意思为“刹车坏了”的英语句子1901，输出了识别结果1902。意思为“刹车”的词1911被错误识别成意思为“休息”的词1912。
当用户输入意思为“汽车的刹车”的英语短语1903时，校正部分的词被正确识别出来，并输出了识别结果1904。
下面将描述根据第一实施例修改的例子。上面描述的例子使用了诸如层次关系、部分整体关系、同义词关系和关联词关系的语义关系，语音识别设备100还可以使用词之间同现关系的信息(以下称为“同现信息”)。同现信息是特定两个词一起使用的概率的数值(以下称为“同现概率”)。
例如，意思为“可口”的词和意思为“咖啡”的词被认为经常一起使用，意思为“热”的词和意思为“咖啡”的词也被认为经常一起使用。这两对的同现概率很高。另一方面，意思为“酷热”的词和意思为“咖啡”的词被认为很少一起使用，因此这一对的同现概率很低。
图20示出了基于同现信息的词之间关系的例子。意思为“可口”的第一词和意思为“咖啡”的第二词的词对的同现概率为0.7，它比其它词对的同现概率要高。
同现概率是通过分析大量文本数据而获得的，并且预先存储在语义关系存储单元124中。当第二候选选择单元115b选择第二语音的候选词时，可以使用同现信息代替相关比(rel)。
如上所述，根据第一实施例的语音识别设备识别用户为了校正错误识别而说出的语音时，考虑了用户向校正字符串附加的语义限制信息。这样，即使校正词有很多同音词和发音类似的词，还是可以通过参考语义信息确定出校正词，从而增加语音识别的准确性。这减少了当语音被错误识别时用户的校正负担。
根据第二实施例的语音识别设备使用诸如笔的定点设备来指定校正部分。
图21示出了根据第二实施例的语音识别设备2100的示意图。该语音识别设备2100包括定点设备2204和显示单元2203。诸如显示面板的显示单元2203显示与作为用户输入语音的识别结果的词串对应的字符串。
定点设备2204用来指出显示单元2203上显示的字符串等，其包括麦克风102和语音输入按钮101a。麦克风102以电信号的形式接收用户的声音。用户按下语音输入按钮101a来输入语音。
显示单元2203还包括通过触摸面板从定点设备2204接收输入的功能。如图21所示，用下划线2110等标记出被指定为错误的部分。
第二实施例不同于第一实施例之处在于，语音识别设备2100不包含校正语音输入按钮101b。因为刚通过定点设备2204指出错误部分后就输入的语音被确定为第二语音，所以语音识别设备2100只需要一个按钮来输入语音。
从设置在定点设备2204上的麦克风102输入的语音数据通过无线通信系统或类似的方式(未示出)传输给语音识别设备2100。
图22是语音识别设备2100的结构的框图。如图22所示，语音识别设备2100包括硬件，如语音输入按钮101a、麦克风102、显示单元2203、定点设备2204、音素字典存储单元121、词汇字典存储单元122、历史存储单元123、语义关系存储单元124、以及语言模型存储单元125。
此外，语音识别设备2100还包括软件，如按钮输入接收单元111、语音输入接收单元112、特征提取单元113、候选生成单元114、第一候选选择单元115a、第二候选选择单元115b、校正部分确定单元2216、校正单元117、输出控制单元118、词提取单元119、以及面板输入接收单元2219。
根据第二实施例的软件配置与第一实施例的不同之处在于，增加了面板接收单元2219，以及校正部分确定单元2216与校正部分确定单元116的功能不同。因为其它单元和功能与图2中所示的一样，因此使用了相同的标号，它们的解释也省略了。
面板输入接收单元2219接收通过定点设备2204在显示单元2203上输入的指定错误部分。
校正部分确定单元2216确定由定点设备2204指定的待校正部分(指定校正部分)附近、第一语音的字符串中的校正部分。指定校正部分的附近表示该指定校正部分之前或之后的预定范围或者之前和之后的预定范围。
根据第一实施例的校正部分确定单元116将第二语音与第一语音中的所有部分进行比较以确定校正部分，而根据第二实施例的校正部分确定单元2216通过参考由定点设备2204输入的对校正部分的指定，在最小范围内确定校正部分。这改进了处理速度和搜索准确性。
现在描述根据第二实施例的语音识别设备2100的语音识别过程。图23是根据第二实施例的语音识别过程的整体过程的流程图。
面板输入接收单元2219接收由定点设备2204输入的对校正部分的指定(步骤S2301)。面板输入接收单元2219只有当输入用于校正的第二语音时才接收该输入。
按钮输入接收单元111接收语音输入按钮101a的按下操作(步骤S2302)。
步骤S2303至S2305中接收和识别第一语音的过程和输出识别结果的过程与图10的步骤S1002至S1004中执行的过程一样，因此在此省略对它们的描述。
候选生成单元114在步骤S2305中生成词串的候选后，语音输入接收单元112确定该输入是否是在校正部分的指定被输入后进行的(步骤S2306)。语音输入接收单元112根据步骤S2306的结果，确定输入的语音是第一语音还是第二语音。更具体地，如果是在定点设备2204指定了校正部分之后通过按下语音输入按钮101a进行的语音输入，则语音输入接收单元112确定该语音是第二语音，否则确定该语音是第一语音。
步骤S2307至S2309中的第一候选选择过程、输出控制过程、以及第二候选选择过程与图10中步骤S1006至S1008中执行的过程一样，因此在此省略对它们的描述。
在步骤S2309中选择了第二语音的识别结果之后，校正部分确定单元2216执行校正部分确定过程(步骤S2310)。校正部分确定过程将在下面详细描述。
步骤S2311和S2312中的校正过程和识别结果输出过程与图10中步骤S1010和S1011中执行的过程一样，因此在此省略对它们的描述。
下面将详细描述步骤S2310中的校正部分确定过程。图24是根据第二实施例的校正部分确定过程的总体过程的流程图。
步骤S2401中的音素串获得过程与图12中的步骤S1201中执行的过程一样，因此在此省略对它的描述。
在步骤S2401中从音素串候选中获得与关注区域对应的第二语音的音素串后，校正部分确定单元2216从历史存储单元123中获得与第一语音中的指定校正部分或其附近对应的音素串(步骤S2402)。
如图21所示的例子中，校正部分确定单元2216获得对应于词2111的音素串，该词包含在用下划线2110标出的指定校正部分中，意思为“一点钟”。此外，校正部分确定单元2216获得与指定校正部分的附近中的词2112对应的另一个音素串。
步骤S2403中的相似部分检测过程与图12中的步骤S1203中执行的过程一样，因此在此省略对它的描述。
如上所述，根据第二实施例的语音识别设备中，可以使用诸如笔的定点设备来指定校正部分，并且能够在指定部分的附近中确定校正部分，从而校正所确定的部分。这样就保证了对错误识别的语音的校正，而无需增加用户的负担。
图25是根据第一或第二实施例的语音识别设备的硬件框图。
根据第一或第二实施例的语音识别设备包括控制单元，如中央处理单元(CPU)51；存储单元，如只读存储器(ROM)52和RAM53；通信接口(I/F)54，其与网络连接以进行通信；以及总线61，其将各单元互相连接起来。
在语音识别设备上执行的语音识别程序被预先存储在ROM 52等中。
语音识别程序还可以以可安装格式或可执行格式记录在计算机可读记录介质中，如只读光盘(CD-ROM)、软盘(FD)、可记录光盘(CD-R)、或数字通用光盘(DVD)。
语音识别程序还可以存储在连接到诸如互连网的网络的计算机中，这样就可以通过网络下载该程序。语音识别程序可以通过诸如互连网的网络提供或发行。
语音识别程序包括前面提到的以下模块面板接收单元，按钮输入接收单元，语音输入接收单元，特征提取单元，候选生成单元，第一候选选择单元，第二候选选择单元，校正部分确定单元，校正单元，输出控制单元模块。通过CPU 51从ROM 52中读取并执行该语音识别程序，在主存储单元中加载和生成这些单元。
另外的优点和改进对于本领域内技术人员是显而易见的。因此，本发明的范围不局限于在此描述的具体细节和示例性实施例。相应的，在不脱离所附权利要求及其等效内容限定的一般发明概念的精神和范围的情况下，可以作出各种修改。
权利要求
1.一种语音识别设备，包括语义关系存储单元，其彼此关联地存储词之间的语义关系和指示所述语义关系的程度的相关比；第一输入接收单元，其接收第一语音的输入；第一候选生成单元，其识别所述第一语音，并生成第一识别候选和所述第一识别候选的第一似然度；第一候选选择单元，其根据所述第一识别候选的所述第一似然度，选择所述第一识别候选中的一个作为所述第一语音的识别结果；第二输入接收单元，其接收第二语音的输入，该第二语音包括目标词和线索词，所述目标词包含在所述第一识别候选中，所述线索词提供用于校正所述目标词的线索；第二候选生成单元，其识别所述第二语音，并生成第二识别候选和所述第二识别候选的第二似然度；词提取单元，其从所述第二识别候选中提取所述目标词的识别候选和所述线索词的识别候选；第二候选选择单元，其从所述语义关系存储单元中获得与所述提取的所述目标词的识别候选和所述提取的所述线索词的识别候选之间的语义关系相关联的相关比，并根据所述获得的相关比，选择所述第二识别候选中的一个作为所述第二语音的识别结果；校正部分确定单元，其将所述第一语音的所述识别结果与所述第二语音的所述识别结果进行比较，并确定出对应于所述目标词的部分；以及校正单元，其校正对应于所述目标词的所述确定出的部分。
2.根据权利要求1的语音识别设备，其中，所述目标词的所述识别候选包括第一组词，所述线索词的所述识别候选包括第二组词，所述第二候选选择单元分别从所述第一组词和所述第二组词中选择第一词和第二词，其中与所述第一词和所述第二词之间的语义关系相关联的所述相关比最大，并且所述第二候选选择单元选择所述第二语音的识别结果，其包括所述选择的第一词和所述选择的第二词。
3.根据权利要求1的语音识别设备，还包括语言模型存储单元，其存储语言模型，所述语言模型将词之间的连接关系和所述连接关系的程度进行关联，其中所述第二候选选择单元还获得与所述提取的所述目标词的识别候选和所述提取的所述线索词的识别候选之间的连接关系相关联的所述连接关系的程度，并根据所述获得的所述连接关系的程度和所述相关比选择所述第二语音的识别结果。
4.根据权利要求1的语音识别设备，其中，所述第二候选选择单元根据所述第二识别候选的所述第二似然度和所述相关比，选择所述第二语音的识别结果。
5.根据权利要求1的语音识别设备，还包括词汇字典存储单元，其彼此关联地存储词和所述词的出现概率，其中所述第二候选选择单元还获得与所述目标词的所述识别候选相关联的出现概率，并根据所述获得的出现概率和所述相关比选择所述第二语音的识别结果。
6.根据权利要求1的语音识别设备，其中所述语义关系存储单元彼此关联地存储所述词之间的语义内容的层次关系和所述相关比，以及所述第二候选选择单元从所述语义关系存储单元中获得与所述提取的所述目标词的识别候选和所述提取的所述线索词的识别候选之间的语义内容的所述层次关系相关联的所述相关比，并根据所述获得的相关比选择所述第二语音的识别结果。
7.根据权利要求1的语音识别设备，其中，所述语义关系存储单元存储词之间的同义词关系和准同义词关系中的至少一个，作为与所述相关比相关联的所述语义关系。
8.根据权利要求1的语音识别设备，其中所述语义关系存储单元彼此关联地存储指示多个词一起出现的同现关系和指示出现所述同现关系的概率的同现概率，以及所述第二候选选择单元从所述语义关系存储单元中获得与所述提取的所述目标词的识别候选和所述提取的所述线索词的识别候选之间的所述同现关系相关联的所述同现概率，并根据所述获得的同现概率选择所述第二语音的识别结果。
9.根据权利要求1的语音识别设备，其中，所述校正单元用所述第二候选选择单元从所述目标词的所述识别候选中选择的词来校正对应于所述目标词的所述确定出的部分。
10.根据权利要求1的语音识别设备，其中，所述校正单元用所述第二候选选择单元选择的所述第二语音的所述识别结果来校正对应于所述目标词的所述确定出的部分。
11.根据权利要求1的语音识别设备，还包括显示单元，其显示所述第一语音的所述识别结果；以及校正部分指定单元，其指定所述显示单元上显示的所述第一语音的所述识别结果中的校正部分，其中所述校正部分确定单元在所述指定的校正部分的之前和之后的至少之一的预定范围内确定与所述第一语音中的所述目标词对应的部分。
12.根据权利要求11的语音识别设备，其中，所述第二输入接收单元在所述校正部分被指定后接收语音输入，作为所述第二语音的输入。
13.根据权利要求1的语音识别设备，其中当按下第一按钮时，所述第一输入接收单元接收语音输入，作为所述第一语音，以及当按下第二按钮时，所述第二输入接收单元接收语音输入，作为所述第二语音。
14.一种语音识别方法，包括接收第一语音；识别所述接收的第一语音，以生成第一识别候选和所述第一识别候选的第一似然度；根据所述第一识别候选的所述第一似然度，选择为第一语音生成的所述第一识别候选中的一个，作为所述第一语音的识别结果；接收第二语音，其包括目标词和线索词，所述目标词包含在所述第一识别候选中，所述线索词提供了用于校正所述目标词的线索；识别所述接收的第二语音，以生成第二识别候选和所述第二识别候选的第二似然度；从所述生成的第二识别候选中提取所述目标词的识别候选和所述线索词的识别候选；从语义关系存储单元中获得与所述提取的所述目标词的识别候选和所述提取的所述线索词的识别候选之间的语义关系相关联的相关比，其中所述语义关系存储单元相互关联地存储词之间的语义关系和指示所述语义关系的程度的相关比；根据所述获得的相关比选择所述第二识别候选中的一个，作为所述第二语音的所述识别结果；将所述第一语音的所述识别结果与所述第二语音的所述识别结果进行比较；确定出所述第一语音中对应于所述目标词的部分；以及校正对应于所述目标词的所述确定出的部分。
全文摘要
一种语音识别设备，包括第一候选选择单元，其根据第一识别候选的似然度从第一识别候选中选择第一语音的识别结果；第二候选选择单元，其从第二识别候选中提取包含在第一语音中的目标词的识别候选和线索词的识别候选，获得与所提取的目标词的识别候选和所提取的线索词的识别候选之间的语义关系相关联的相关比，并根据所获得的相关比选择第二语音的识别结果；校正部分确定单元，其确定第一语音中对应于目标词的部分；以及校正单元，其校正所确定出的部分上的词。
文档编号G10L15/08GK101042867SQ200710084368
公开日2007年9月26日申请日期2007年2月28日优先权日2006年3月24日
发明者住田一男申请人:株式会社东芝

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：住田一男
技术所有人：株式会社东芝
我是此专利的发明人