分布式语音识别方法

文档序号：2834551阅读：191来源：国知局

专利名称：分布式语音识别方法
技术领域：
本发明涉及通过操作语音识别手段而在用户终端上实现的声音控制应用。所考虑的用户终端是所有具有感觉声音手段的装置，通常为一个麦克风，能够处理这种声音并且通过传送通道与一个或多个服务器相连。这些可以是，例如，用于家庭办公应用，汽车(轿车收音机或其他车辆功能控制)，PCs或电话中的可控或遥控手段。所涉及的应用范围基本上是用户利用声音命令控制一种活动，索要信息或试图进行远端互动。声音命令的使用不排除在用户终端之内其他活动手段的存在(多模系统)，并且信息的返回，系统状态或应答也可以在视觉，听觉，嗅觉或任何其他人类可接受的组合手段中实现。
一般来说，实现语音识别的手段包括用于获得听觉信号的手段，选取建模参数用于进行声学分析的手段以及，最后，识别手段，其将这些选取的建模参数与模型相比较并且建议模型中的存储手段尽可能与信号相关联。可以任选地使用声音活性检测(VAD)手段。这些能提供与要被识别的语音相对应的序列检测。它们在没有声音活性的时期之外从在输入端的听觉信号选取语音片段，其将随后通过建模参数选取手段被处理。
更具体的是，本发明涉及三种语音分布手段装载式，集中式和分布式之间的相互作用。
背景技术：
在一个装载式语音识别模式中，用于实现语音识别的整个手段位于用户终端之内。这种识别模式的局限性明显与装载处理机的功率和用于存储语音识别模型的可用内存相关。在另一方面，这种模式允许独立操作，没有与服务器相连，并且在与减少处理容量成本相关的方面取得可靠的进展。
在一个集中式语音识别模式中，整个语音识别过程和识别模型都位于并且实现于一台计算机上，通常将其称为声音服务器，可被用户终端通达。终端简单地将语音信号传送至服务器。该手段常用于电信操作者提供的应用中。这样，基础终端能够实现复杂的声音激活的服务。许多类型的语音识别(加强的，可变的，巨大词汇，活动词汇，连续语音，一人或多人发言，多种语言等等)可以在一个语音识别服务器中实现。事实上，集中式计算机系统具有巨大而提高了的模型存储容量，工作内存空间和计算能力。
在一个分布式语音识别模式中，声学分析手段装载在用户终端之内，识别手段位于服务器。在这种分布式模式中，与建模参数选取手段相关联的噪音过滤功能可以在音源有利的实现。只有被传送的建模参数允许在传送率中实质的增加，其尤其有利于多模应用。此外，要识别的信号能得到更好的保护以防止传送错误。任选地，声音活性检测(VAD)也可以是装载式的以便在语音顺序排列期间只传送建模参数，其有利于显著减少有效传送的持续时间。分布式语音识别还允许用于语音和数据的信号，显著文本，图像和影像被携带在相同的传送通道上。传送网络可以是，例如，IP，GPRS，WLAN或者以太网络类型。这种模式还可以让用户受惠于防止传送给服务器的打包信号丢失的保护和更正程序。然而，其要求具有严格传送条件的可利用的数据传送通道。
本发明提出了一种语音识别系统，其包括用户终端和服务器，结合了各种由装载式，集中式和分布式语音识别模式所提供的功能，因而为采用声音激活控制的多模服务的用户提供了在效率，舒适度和人机互动方面最佳的系统。
专利US6487534B1公开了一种分布式语音识别系统，其包括用户终端，该终端具有用于检测声音活动的手段，用于选取建模参数的手段和识别手段。该系统另外还包括一个也具有识别手段的服务器。所公开的方法包括在用户终端实现第一识别阶段。然后，依赖于这个第一阶段的结果，在终端计算出的建模参数被送至服务器，以便这次通过服务器中的识别手段确定在后者模型中存储的形式并且与传送来的信号相关联。
在所引用的文件中公开的系统的目标是减少服务器的负荷。然而，其结果是识别最好在用于终端中第一阶段所要求的时间之后实现。当第二阶段必须发生时，整个识别时间等于第一阶段识别时间加上第二阶段的时间。

发明内容
本发明的目标之一是一种能优化用于语音识别所要求的，以及进而用于实现用户所要求的活动的时间。
根据第一方面，本发明提出了一种分布式语音识别方法，包括至少一个用户终端和至少一个服务器，其能通过电信网络彼此相联系，根据该方法，在用户终端，至少执行以下步骤—获取要识别的听觉信号；以及—计算用于要识别的听觉信号的建模参数；以及—力图将一种存储手段与建模参数相关联；以及—独立于力图关联存储手段的步骤之外，传送一个指示要识别的听觉信号的信号至服务器；以及，在服务器，至少执行以下步骤—接收由用户终端传送来的信号；—力图将一种存储手段与接收的信号相关联。
根据本发明的一种方法允许避免在终端的处理时间和在服务器的处理时间的累积，这样就减少了对用户要求应答的时间。
尤其是在被识别的信号特性不确定时，为了能够尽可能快地确定要实现的应答，它还允许分别充分发挥在终端和在服务器可利用的识别手段的特性。
在优选实施例中，通过用户终端传送至服务器的信号是从至少要识别的听觉信号和指示建模参数的信号中选择的。然后，如果所接收的信号是听觉类型的，服务器计算用于接收听觉信号的建模参数并力图将一种存储形式与所接收听觉信号的建模参数相关联，如果所接收的信号隐含建模参数，服务器力图将一种存储形式与所述建模参数相关联。
传送信号的选择——听觉信号(压缩的或其他)或者通过用于计算终端的建模参数的手段所分送的信号——可以通过应用类型进行确定，依据网络状态，或在终端和服务器各自的控制手段之间伴随协调活动。
有利的是，为了通过从原始信号去除没有声音活动的时期而产生要识别的听觉信号，在终端要识别信号的获取包括施加至原始听觉信号的声音活性检测。被传送的信号因而将被从这种排除了没有声音活动时期的听觉信号和指示建模参数的信号之间选择。
在根据本发明的方法的一个实施例中，被传送的信号从至少原始听觉信号，在声音检测之后排除了没有声音活动时期的代表原始信号的听觉信号以及隐含建模参数的信号中选择。
有利的是，如果接收的信号是排除了没有声音活动时期的听觉信号，服务器计算用于接收信号的建模参数并且力图将一种存储形式与接收的听觉信号建模参数相关联。当接收的信号是听觉类型信号，但是在其上没有进行声音活性检测，服务器执行一个施加至接收的听觉信号的声音活性检测从而通过从原始信号中去除没有声音活动时期而产生一个要识别的听觉信号。然后，它计算用于要识别的听觉信号的建模参数。最后，它力图将一种存储形式与建模参数关联起来。
有利的是，当这种关联形式存在时，在终端确定的相关联的存储形式被选择。所确定的关联存储形式首先被选择。或者再次，选择根据限定的标准(例如，真实匹配的可能性)判断出的最好的关联存储形式。
根据第二方面，本发明提出一种用于实现上述分布式语音识别方法的用户终端。
根据第三方面，本发明提出一种用于实现上述分布式语音识别方法的服务器。
在一个优选实施例中，至少一些用于在终端实现识别过程的手段(参数选取手段或识别手段)可以通过电信网络下载。它们可以是，例如，通过服务器下载。

本发明的其它优点和特点将通过以下描述变得更为清楚。以下说明仅仅是示例性的并且必须结合相应的附图，该单一附图是显示根据本发明的用户终端和服务器一个例子的框图。
图1是显示根据本发明的用户终端和服务器一个例子的框图。
具体实施例方式
在单一附图中所显示的系统包括服务器1和用户终端2，其通过具有用于传送声音信号的通道和用于传送数字信号通道的网络(未示出)彼此相连。
终端2包括麦克风4，其从用户收集以听觉信号存在的要识别的语音。终端2还包括组件5，6，7。声音活性检测组件VAD5提供对应于语音的顺序的检测，其被要求去识别。该组件5是设计用于快速检测命令单词的例子。组件6以公知手段进行声音分析它计算建模参数，同时提供一个声音过滤功能。
组件7运行已知类型的识别算法，例如基于带有减少词汇量的隐藏的Markov模式。该识别工具7可以以单声道模式操作并且要求针对用户声音的起始学习阶段。
终端包括一个设计来从在麦克风4输出端的听觉信号，代表通过声音活性检测手段5获取的语音片段的信号和指示建模参数6的信号之间选择一个听觉信号的控制器8。
终端另外还包括一个用于通过网络传送由控制器8所选择的信号至服务器的界面9。
服务器1包括用于接收选址至其上的信号的网络界面10，和一个控制器11，其能分析所接收的信号并且随后有选择的将信号送至组件12，13，14之中的一个服务器处理组件。组件12是一个声音活性检测子，以与组件5相似的手段检测对应于语音的片段。然而，它可以不同于组件5，并且，例如，被设计成快速检测整个短语。它的应答时间因而可以不同于组件5。在本实施例中，它的应答时间将更慢。组件13提供了与终端中组件6相似的建模参数计算手段。然而，计算模型可以是不同的。组件14实现已知类型的识别算法，例如基于具有任何给定词汇量的隐藏的Markov模型，例如大于100000单词。这种识别工具14将输入端的参数与代表单词或短语的语音模型相比较，并且在考虑描述预定单词链的语法模型，指示单词发音的词汇模型和代表发出声音的声学模型的情况下确定最佳关联形式。这些模型是用于例如多声道，能够脱离说话者可靠识别语音。
控制器11这样控制VAD组件12，参数计算组件13和识别工具14a/当通过网络界面10接收的信号是听觉类型并且不隐含在声音活性检测之后所获得的语音片段时，声音活性检测组件12被作为输入信号选址至它们的接收信号激活，然后通过组件12选取的语音片段作为输入参数被分址至建模参数计算组件13，然后被该组件13选取的参数作为输入参数被分址至识别工具14。
b/当通过接收界面10接收的信号隐含声音活性检测之后的语音片段时，建模参数计算组件13通过作为输入信号分址至其上的接收信号而被激活，然后通过该组件13选取的参数作为输入参数被分址至识别工具14。
c/当通过接收界面10接收的信号隐含建模参数时，所述参数作为输入参数被分址至识别工具14。
现在所考虑的一种应用是，在其中用户声称“叫安东尼”，其中“安东尼”出现在本地记录簿中。由终端的麦克风4获得的对应听觉信号通过VAD组件5处理，其从中选取语音片段随后分址至计算建模参数的组件6。这些参数随后分址至识别工具7从而将它们与取自本地记录簿的形式相关联。平行的，控制器8从原始听觉信号，在声音活性检测之后指示从原始听觉信号中选取的语音片段的听觉信号以及隐含建模参数的信号之间选择一个要识别的信号。所选择的信号通过传送界面9被传送至服务器。
在所考虑的实施例中，通过终端控制器8所选择的信号是原始听觉信号，它一旦被麦克风获得就被送至服务器。
服务器接收由终端传送的要识别的信号并且以如上所述手段处理它。
这样，识别过程在两端被实现。在时间T1，终端确定一个相关联形式F1；在时间T2，服务器确定另一个不同于F1的相关联形式F2。这两个形式之一根据选择标准被保留。选择标准可以是，例如，如下一旦被发现就最快被选择，没有等待其他形式确定的形式。在终端的局部应用过程随后进入下一个应用阶段。
然后，用户声称“检索来自Josiane的信息”。
终端的应答不一致而在时间T1’之后导致拒绝。识别在服务器平行进行并且在时间T2’之后结束，确定了关联形式，其将允许用户所要求的信息被运行。
这样，根据本发明的识别方法优点在于结合了终端和服务器的识别系统。短词可以很快被终端识别工具7确定而更加复杂的短语很快被服务器的识别工具14识别。更好应用了各自VADs的特性，更加优化了处理时间，终端的VAD5是设计来快速检测命令单词的例子而服务器的VAD12被设计来快速检测短语。
终端控制器8确定要被传送给服务器的信号，例如作为控制标准的功能。这些标准例如可以与所考虑的应用问题相关联，或者与在终端和在服务器的各种处理手段(各自的控制手段可以协同)的负荷量相关联，或者又与可得到的声音传送通道或数据传送通道的量相关联。
例如，对于一些终端，所传送的信号将系统成为一个隐含建模参数的信号。对于其它终端，所传送的信号将取决于过程中的应用。
在本发明的一个实施例中，在可获得的数据通道有问题或者所考虑的终端计算组件6有问题的情况下，控制器8被设计成传送听觉信号(原始的或VAD之后的)。该听觉信号可以通过可获得的声音信号传送通道被传送。
确定最终保留形式的手段在连续应用中被利用，在通过服务器的识别组件所提供的相关形式和终端所提供的相关形式之间，可以基于各种能从一个终端变化至另一的标准而实现，但是也可以是从一个应用变化至另一个或者从一个给定的情况变化至另一个。
这些标准可以是，例如，优先给出在终端实现的识别，或者具有最高匹配可能性的相关联形式，又或者是最快确定的形式。这些选择标准可以被整合，例如，在终端或服务器的控制器8，11之中。
根据本发明的服务器还能够通过既没有选取建模参数的手段也没有识别手段(或者其选取和识别手段未被激活)，但是可能具有VAD的终端实现语音识别。
在一个实施例中，终端2的识别工具7是一种下载的可执行程序，例如，从服务器通过传统数据交换手段。
有利的是，对于终端2的给定应用，终端中的识别模型可以在连接至网络的专用通话期间被下载或更新。
其它用于语音识别的软件资源也可以从服务器1下载，例如用于建模参数计算的组件6或者声音活性检测器5。
可以描述的其它例子，例如，与汽车相关的应用，家务应用或多媒体应用。
如上示范性实施例所述，根据本发明的系统允许利用用于语音识别过程的各种资源并且实现在终端(例如通过下载)和在服务器的处理时间和结果的优化。
权利要求
1.一种分布式语音识别方法，包括至少一个用户终端和至少一个服务器，其能通过电信网络彼此相联系，根据该方法，在用户终端，至少执行以下步骤—获取要识别的听觉信号；—计算用于要识别的听觉信号的建模参数；以及—力图将一种存储手段与建模参数相关联；以及—独立于力图关联存储手段的步骤之外，传送一个隐含要识别的听觉信号的信号至服务器；以及，根据该方法，在服务器，至少执行以下步骤—接收由用户终端传送来的信号；—力图将一种存储手段与接收的信号相关联。
2.权利要求1所述的分布式语音识别方法，根据该方法，由用户终端传送至服务器的信号从至少要识别的听觉信号和隐含建模参数的信号中选择；根据该方法，如果接收的信号是听觉类型，服务器计算用于接收听觉信号的建模参数并且力图将一种存储形式与所接收的听觉信号的建模参数相关联；根据该方法，如果受接收的信号隐含建模参数，服务器力图将一种存储形式与所述建模参数相关联。
3.权利要求1或2所述的方法，其特征在于，在终端要识别信号的获得包括一个声音活性检测以便以从没有声音活动时期之外的原始听觉信号中所选取的语音片段的形式产生要识别的听觉信号。
4.如权利要求3所述的方法，其特征在于，传送的信号是从至少原始听觉信号，在声音检测之后选取的语音片段形式的要识别的听觉信号以及指示建模参数的信号之间选择的。
5.权利要求2到4任意一项所述的方法，根据该方法，当接收的信号是听觉类型时—如果接收的听觉信号是以声音检测之后所选取的语音片段形式存在，服务器计算用于接收信号的建模参数并且力图将一种存储形式与接收的听觉信号的建模参数相关联；—否则，服务器执行一个施加至所接收的听觉信号的声音活性检测以便以从没有声音活动时期之外的原始听觉信号中所选取的语音片段的形式产生要识别的听觉信号，然后计算用于听觉信号的建模参数并且力图将一种存储形式与建模参数相关联。
6.前述任一权利要求的方法，其特征在于，在终端被确定的相关联的存储形式被选择，当这种关联形式存在时。
7.权利要求1至5任意一项所述的方法，其特征在于，最快确定的相关联的存储形式被选择。
8.权利要求1-5任意一项所述的方法，其特征在于，根据限定的标准判断出的最好相关联存储形式被选择。
9.一种用于实现如权利要求1-8中一个权利要求所述分布式语音识别方法的用户终端，包括—用于获得要识别的听觉信号的手段；—用于计算针对听觉信号的建模参数的手段；以及一—用于从要识别的听觉信号和隐含已处理的建模参数的信号之间选择要传送至服务器的信号的控制手段；—用于将至少一种存储形式与计算手段所计算的建模参数相关联的识别手段。
10.如权利要求9所述的用户终端，其特征在于，用于获得要识别的听觉信号的手段包括用于检测声音活性以便以从没有声音活动时期之外的原始听觉信号中所选取的语音片段的形式产生要识别的听觉信号的手段。
11.如权利要求10所述的用户终端，其特征在于，控制手段被设计成用来从原始听觉信号，在声音检测之后选取的语音片段形式的要识别的听觉信号以及隐含已处理的建模参数的信号之间选择选择至少一种要传送至服务器的信号。
12.如权利要求9至11任意一项所述的用户终端，其特征在于，参数计算手段和识别手段的至少一部分是从服务器下载的。
13.如权利要求9至12任意一项所述的用户终端，包括用于确定在终端和服务器各自确定的存储形式之间所要选择的存储形式的手段。
14.一种实现如权利要求1至8之一所述分布式语音识别方法的服务器，包括—用于接收来自用户终端并在所述终端被选择的信号的手段；以及—用于将至少一种存储形式与输入端的建模参数相关联的识别手段。
15.如权利要求14所述服务器，还包括—用于计算输入信号的建模参数的手段；—用于控制计算手段和识别手段的控制手段以便·当通过接受手段接收的信号是听觉类型时，通过将所选择的信号作为输入信号分址至计算手段而激活参数计算手段，并且将计算手段所计算的参数作为输入参数分址至识别手段，并且·当通过接受手段接收的所选择的信号隐含建模参数时，将所述隐含的参数作为输入参数分址至识别手段。
16.如权利要求15所述的服务器，还包括用于检测活性的手段，以便以从没有声音活动时期之外的原始听觉信号中所选取的语音片段的形式产生要识别的听觉信号，并且其特征在于，的控制手段被设计成在接收信号是听觉类型时用来控制参数计算手段和识别手段以便·如果接收的听觉类型信号是以声音检测之后语音片段的形式存在，通过将所接收的信号作为输入信号分址至计算手段而激活参数计算手段，并且将计算手段所计算的参数作为输入参数分址至识别手段；·否则，通过将所接收的信号作为输入信号分址至服务器声音活性检测手段而激活它，然后将声音活性检测手段所选取的信号作为输入参数分址至参数计算手段，然后将参数计算手段所计算的参数作为输入参数分址至识别手段。
17.如权利要求14至16任意一项所述的服务器，包括用于通过终端上的电信网络下载声音识别软件资源的手段。
18.如权利要求17所述的服务器，其特征在于，所述资源包括VAD组件，用于计算针对听觉信号的建模参数的组件和用于将至少一种存储形式与建模参数相关联的识别组件中的至少一种。
19.如权利要求14至18任意一项所述服务器，包括用于确定在终端和服务器各自确定的存储形式之间所要选择的存储形式的手段。
全文摘要
本发明涉及一种分布式语音识别方法，其包括能通过电信网络彼此联系的至少一个用户终端和至少一个服务器。本发明的方法包括以下步骤在用户终端，力图将一种存储手段与要被识别的信号相关联，以及独立于所述步骤之外，传送一个信号至服务器，指示要被识别的信号；并且，在服务器，力图将存储手段与所接收的信号相关联。
文档编号G10L15/32GK1764946SQ200480008026
公开日2006年4月26日申请日期2004年3月8日优先权日2003年3月25日
发明者让·蒙内, 让-皮埃尔·珀蒂, 帕特里克·布里萨尔申请人:法国电信

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：让.蒙内;让－皮埃尔.珀蒂;帕特里克.布里萨尔
技术所有人：法国电信
我是此专利的发明人