用于构成连续语音识别器的方法

文档序号：2834383阅读：563来源：国知局

专利名称：用于构成连续语音识别器的方法
技术领域：
本发明涉及一种用于构成连续语音识别器的方法，其例如可以用于电视机的语音控制的。
连续语音识别系统把连续语音波形转换为一系列相等间隔的参数矢量。该系列参数矢量建立判断所说出的单词序列的基础。统计方法用于判定哪一个单词序列最适合于参数矢量的序列。特别是使用两种概率，声音概率和语言概率。声音概率把参数矢量的序列与词汇表的各个单词相联系。语言概率使用语言模型，并且基于给定单词的各个序列具有不同概率的事实，其中有意义的语句比无意义的语句具有更高的概率。为了把所需的计算能力减小为合理的数值，对于给定单词不使用所有在前的单词，而仅仅使用两个(二单词组)或三个连续单词(三单词组)。对于不同二单词组或三单词组的概率是在“训练”期间由在训练文本语料库中的相关概率所确定的。
用于构成语音识别器(二单词组或三单词组模型)的统计语法的标准程序用已有的软件从足够大的语料库执行计算。该语料库由几千个或更多有意义的语句所构成，并且要从适当的场景建立，或者使用标准语料库。对于特定的应用来说通常没有现成的语料库，或者已有的语料库不完全合适或者太大。
本发明的一个目的是一种用于构成连续语音识别器的方法，其完全适合于特定应用，并且如果该应用扩大则其以简单的方式来适应。
该目的是通过在权利要求1中所述的方法而实现的。
原则上，用于构成连续语音识别器的方法，其中根据语句语料库计算统计语法模型，使用语句发生器，其建立分别覆盖要构成的语料库的特定区域的语句组，其中该语料库从语句发生器的输出中组合。
在一个优选方式中，该语句发生器是从小场景中得出或者根据直觉建立。
在一个优选方案中，该语料库是从语句发生器的加权输出中组合而得的。
另外，由语句发生器所覆盖的特定区域是特定命令、请求或问题。
最后，另外使用用于补充语句外延的特定发生器，其可以链接到任意数目的语句发生器。
本发明具有如下优点语料库的组合是一个受控制的过程。如果语料库仅仅是足够大的话，这比简单依赖于语料库是良好形成并且相容的事实更加对应于工程学的方式。
可以更容易地保证必要(确定性的)单词组合(例如，数字或日期，肯定能得到的所有组合)。即使在一个大的语料库(例如，在报纸或在电话呼叫)中，也不一定存在这些组合。
该语料库可以为特定任务设计，而不需要太多的额外开销。
可以逐渐变化。即使从实际情景或从情景的预先过滤提取中，可以容易地添加新的或丢失的特征。
语句产生的依据不是“各个说话人”，而是“对个人语音的认识”。更加普通的方法是首先引向基本系统，然后可以在次级处理中细化。至少从最初可以避免从几百个说话人收集语句。
语句产生处理“拓宽”可用的数据库。可以使忘记组合的危险最小化，并且把一般分支概率引入发生器网络可以用于优化识别器行为。
下面参照附图描述本发明的示例实施例，其中

图1示出用于命令语句的发生器。
本发明的一个示例实施例表现在用于语音控制中的独立于说话人的统计语法和词汇的构成，以及用于电视机的对话系统，包括EPG(错误模式生成程序)。
建立十八个语句发生器，其中的十二个是基本发生器，并且其中的六个用于产生语句外延。该发生器独立工作，但是部分地共用相同的主格，并且它们使用共同的词汇。发生器的一个列表如下。
●命令命令句●注释以“I prefer”，“I don’t mind”，“it is”等等为开始的语句。
●请求以“I want”，“I would like to”等等为开始的语句。
●响应对系统的回答“Yes”，“No”，“thank you”，“None of them”等等。
●quest_what 以“what”为开始的问句。
●quest_cwould以“can，could，would，等等”为开始的问句。
●quest_when 以“when”为开始的问句。
●quest_which 以“which”为开始的问句。
●quest_who 以“who”为开始的问句。
●quest_how 以“how”为开始的问句。
●quest_do以“do”为开始的问句。
●quest_is以“is”为开始的问句。
●if_esc 条件句外延●esc_add_expr_esc 附加表达外延，例如“Tell me…”，“Let us…”等等。
●esc_glob_ell_esc 对语句外延的省略(仅仅在语句的开始处)●esc_item_ell_esc 对项目外延的省略，例如“the newsand the weather report”等等。
●esc_prog_ell_esc 对程序外延的省略，例如“BBCONE或者EECTWO_”● esc_time_ell_esc 对时间外延的省略，例如“before sixo’clock或者after eight o’clock”，等等。
在下文列表中的主格用于大多数发生器。
● intro 引入“Yes”，“No”，犹豫词和停顿。
● hesitate 用于前导(intro)的犹豫词，例如“well”，“so”，“right”，“ehmm”，“hum”，等等。
● adv_time 时间的提前表达● time 用于adv_time及其他地方的时间● hour 用于time及其他地方的数字(带有“1”)● hours 用于time及其他地方的数字(不带有“1”)● minutes用于time及其他地方的数字● ord序数(“第一”…“第十”)● item_def_sing 例如“adventure movie”，“talkshow”等词条● item_def_plur 例如“adventure movies”，“talkshows”等词条● item_def_singl 例如“adventure movie”，“talkshow”等词条● item_def_plurl 例如“adventure movies”，“talkshows”等词条● item_indef 例如“an adventure movie”，“adifferent talkshow”等词条● program例如“BBC”、“CNNINTERNATIONAL”等节目图1示出用于命令句的语句发生器。
该语句发生器以主格“intro”为开始，其中包括前导词，例如“yes”、“no”，犹豫词或停顿。在前导部分之后，实际命令输入开始。可以有各种语法结构。用户可以在一个完整句中给出命令，以“you must，shall，…”、“I want you to…”、“Please…”为开始，随后跟着一个动词，例如“show”或者“offer me”等等，并且最后跟着该广播的节目或者节目类型和时间。但是，还可以跳过部分命令句并以各个动词为开始，或者甚至以节目或节目类型等等为开始。对于节目或节目类型，还可以使用主格，其中分别包括不同节目或节目类型。该节目类型可以用单数、复数或不定格式给出，其考虑到各种主格。在输入时，可以使用另外的主格，其允许一般的时间表达，例如“tomorrow”、“this afternoon”、“before midnight”，但是还可以是确切的时间表达，例如“8 pm”。最后，该命令可以用“Please”结束。
补充句扩展(介绍，例如，其他或特定的表达)可以与已经存在的语料库相联系。这提供更高的自由度，特别是对于更加复杂的句子的产生，限制语料库变大，以及不违反模块化。
它还可以从子句单元(分句或短语)建立一个语料库，并且把在双字母组中的这些单元相联系。如果适当地选择子单元和联系，这提供一种从非常小的语料库设计语法的方式。
只要可用，每个语句发生器的词汇可以从系统词典中取出。特定词，例如节目，可以从音素中合成，所有语句发生器的所有使用单词被保存在一个用户词典中。如果一个词多于一个音标，则它在词典中不只一次出现，但是仅仅一个词条。
完整的语料库从所有语句发生器的输出构成。每个发送器的所产生语句数可以独立调节。该平衡主要基于语法分析，具有一些扩展。
在这一点上，该识别器由该词典和所有语句(语料库)。该词典是完整的并可以随后装载到识别器中。该语料库是基于补偿的二单词组，其是在不重要的一些中间步骤之后自动建立的，该步骤没有在此描述。
在该二单词组计算中，仅仅考虑到来自单词列表中的单词。所有其他单词都被忽略。该单词列表包含词汇表的所有单词(每个单词出现一次)以及节点！ENTER和！EXIT。除了在该语句开始和/或末尾存在未知单词之外，该二单词组强制所有语句以！ENTER节点为开始，以！EXIT节点为结束。补充句扩展一单词！ESCAPE为开始和/或结束(根据定义)。因此，在识别处理中，这些扩展不能直接进入和/或退出。这意味着，该扩展仅仅能够从在该语料库的任何其他匹配语句中的相应(相同)单词，通过！ESCAPE之后的第一单词进入和/或通过在！ESCAPE之前的最后一个单词。在扩展发生器的设计中必须非常小心，因为可能会出现被忽略或不希望有的链接，或者出现平衡问题。
二单词组文件必须转换为格文件，并且然后可以直接装载到识别器中。从语音相关的观点来看，识别器的构成在此完成。词典和格是主要用户定义文件，其确定识别器的大小的属性。
完整的系统可以包括附加的部件，例如语法分析器、语境转换器、对话管理器、交互发生器、文本发音单元、对话管理器，这些都没有在此描述。
本发明可以便利地用于在中等规模的应用程序中的连续语音的语音识别，该中等规模的应用程序例如语音控制的EPG，具有几百个单词的词汇表，或者在大规模应用程序中的专业化的子词汇表，但是还可以应用于任何其他类型的语音控制和对话系统。
权利要求
1．一种用于构成连续语音识别器的方法，其中根据语句语料库计算统计语法模型，其特征在于，使用语句发生器，其建立分别覆盖要构成的语料库的特定区域的语句组，其中该语料库从语句发生器的输出中组合。
2．根据权利要求1所述的方法，其特征在于，该语句发生器是从小场景中得出或者根据直觉建立。
3．根据权利要求1或2所述的方法，其特征在于，该语料库是从语句发生器的加权输出中组合而得的。
4．根据权利要求1至3中的任何一项所述的方法，其特征在于，由语句发生器所覆盖的特定区域是特定命令、请求或问题。
5．根据权利要求1至4中的任何一项所述的方法，其特征在于，另外使用用于补充语句外延的特定发生器，其可以链接到任意数目的语句发生器。
全文摘要
用于构成语音识别器的统计语法的标准程序用已有的软件从足够大的语料库执行计算。该语料库由大量语句所构成,并且要从适当的场景建立,或者使用标准语料库。对于特定的应用来说通常没有现成的语料库,或者已有的语料库不完全合适或者太大。根据本发明,使用语句发生器,其建立其建立分别覆盖要构成的语料库的特定区域的语句组。可以使用用于补充语句外延的特定发生器,其可以具有到任意数目的语句发生器的链接。
文档编号G10L15/197GK1296256SQ0013345
公开日2001年5月23日申请日期2000年11月7日优先权日1999年11月11日
发明者克劳斯·艾尔茨-格林, 于尔根·拉布斯申请人:德国汤姆森-布兰特有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：克劳斯.艾尔茨-格林;于尔根.拉布斯
技术所有人：德国汤姆森-布兰特有限公司
我是此专利的发明人

上一篇：标准图形生成装置和方法以及计算机可读的记录媒体的制作方法
上一篇：信息处理设备、方法和记录媒体的制作方法