基于客户机-服务器的分布式语音识别系统的制作方法

文档序号：2824136阅读：218来源：国知局

专利名称：基于客户机-服务器的分布式语音识别系统的制作方法
技术领域：
本发明涉及分布式语音识别(DSR)系统和构架。更加具体来说，本发明涉及一种新的DSR系统和方法，其在客户机设备执行语音识别的声音处理部分和在服务器设备的语言处理部分。
背景技术：
自从有了现代计算机的思想开始，工程师和语言学家已经共同工作，以使得通过一个机器完美地实现人的语音识别。自动语音识别的一个目标是使得一个系统接收输入的人的语音、把其转换为可识别的形式，并且用所识别的语音执行有用的功能。
目前，存在各种用于语音识别技术的商业应用程序。听写机例如可以“听”人口述，并且“实时地”把“所听到”的文本传送到监视器上。另一个应用程序涉及能够接收和执行由人的语音而不是通过鼠标或键盘所发出的控制命令的机器。例如，一个人可以对计算机说“读我的电子邮件”。该应用程序可以使用语音识别技术来识别由说话人所发出的字串。执行所需任务的一系列命令然后可以被发出，导致计算机读取该人的电子邮件。
另一种应用程序已经被开发用于基于客户机-服务器的语音系统和构架。通常，语音识别的任务被分布在客户机和服务器之间。例如，移动电话或个人数字助理(PDA)可以被用作为客户机，其捕获语音，获得语音特征，并且把该特征发送到位于一个中央位置的服务器。该通信可以在例如互联网这样的网络上发生。一旦该语音特征被该服务器所接收，则它们被处理，用于声音识别和用于所用的给定人的语言的语言处理。
更加具体来说，人的语音被例如麦克风这样的设备在客户机方所捕获。该语音信号被转换为数字形式，以便于被数字计算机所分析。该数字信号被通过一个特征提取模块，其将提取该语音信号的声音特征，例如在周期采样点处的能量集中。所提取的特征然后被通过例如Mel频率对数倒频谱系数(Mel Frequency Cepstral Coefficients)这样的数学模型而量化。该被量化的特征被组织为一个数据包，用于发送到一个服务器。
然后，该服务器接收包含量化特征的数据包，并且执行声音和语言处理，以提供一个字串。由于该服务器服务于多个客户机，因此该声音处理被一个与说话人无关(SI)的模型所模拟。
在传统的DSR方法的缺点中的一个缺点是它不能够利用与说话人相关(SD)的模型所提供的改进的字错误率(WER)的优点。在两种模型之间的差别在于一个SD模型已经被特定人的语音所训练，结果用于该特定人的WER较低。这是因为来自不同语言背景的人对于相同的字词发出显著不同的声音信号。来自不同区域的人可能具有不同的口音和发音。
相反，当该系统由各种说话人所使用时，例如一个自动出纳机(ATM)，使用一个SI模型并且其被指定为处理任何说话人，而与说话人的语言特征无关，例如说话人的发音，由于性别和年龄以及说话人的声音的强度所导致的语音变化，SD模型具有比SI模型低2-3倍的WER。由于传统的DSR方法处理在该服务器而不是在客户机处处理的声音，因此使得系统构架采用具有较低的WER的SD声音识别模型来提高整体识别精确度是不现实和没有效率的。

图1示出采用本发明的一个实施例的新的DSR方法的示意通信网络的方框图。
图2示出采用本发明一个实施例的新的DSR方法的示意基于客户机-服务器的DSR系统的方框图。
图3示出采用本发明一个实施例的新的DSR方法的示意图。
图4示出在一个基于客户机-服务器系统的客户机节点处采用本发明的一个实施例的新的DSR方法的示意图。
图5示出采用根据本发明一个实施例的方法的在一个客户机节点处产生的示意音标字图(phonetic word graph)。
图6A示出根据本发明一个实施例的一个音标字图的发送处理的示意流程图。
图6B示出用于发送根据本发明一个实施例的方法的示意音标字图的示意数据报(datagram)。
图7A示出在一个基于客户机-服务器系统的服务器节点处根据本发明一个实施例的方法的新的DSR方法的示意图。
图7B示出根据本发明一个实施例的方法的在一个客户机-服务器网络系统的服务器节点处产生的示意音标字图。
图7C示出从图5中所示的音标字图扩展的一个示意音标字图。
图8示出采用根据本发明一个实施例的新的DSR方法的示意系统的方框图。
具体实施例方式
在下文对本发明的详细描述中，给出各种具体细节，以提供对本发明的彻底理解。但是，本领域的普通技术人员显然将认识到可以在没有这些具体细节的情况下实现根据本发明的方法。在其他方面，没有描述公知的方法、处理、部件和电路，以避免对本发明的各个方面造成混淆。
根据本发明的方法包括将在下文中描述的各种步骤。这些步骤可以用硬件部件来实现，或者可以体现机器可执行的指令中，其可以被用于使用该指令编程的通用处理器来执行该步骤。另外，该步骤可以通过硬件和软件的组合来执行。
本发明揭示了一种新的DSR方法，其不同于传统的DSR方法，并且获得改进的识别精度。该新的DSR方法利用与SD声音识别模型相关的较低WER的优点。这通过把该语音识别处理分割和分布到在客户机设备的声音识别和在服务器设备的语言处理来实现。因此在一个客户机设备捕获语音之后，其根据一种SD个性化的声音模型来进行声音处理。该处理获得关于最可能说出的内容的一个N个最佳假设(N-besthypothesis)。接着，形成一个字图包，并且通过网络发送到一个服务器设备。最后，该服务器设备接收该字图包，对其进行解码，并且进行语言处理，获得一个所识别的字串。
一旦人的语音被在一个客户机设备处捕获，则它将被进行声音分析。声音识别涉及提取所捕获的语音信号的特征，以及在一个声音模型中搜索在所捕获语音的所提取特征和在该声音模型中存储的已知以前记录的语音特征之间的一个或多个可能的匹配。在一个优选实施例中，一个音标字图可以被用于表示该语音。该声音模型可以是一个个性化的SD模型，其由用户，例如移动电话或PDA的所有者，进行个人训练。从而，该字图被包装并且通过一个网络发送到一个中央服务器。该服务器然后可以利用所选择的语言模型来对该音标字图进行语言处理，并且产生一个所识别的字串。
现在参见图1，其中示出一个示意的DSR系统。客户机1、客户机2和C1-C4是采用根据本发明一个实施例的新的DSR方法的不同客户机设备的例子。客户机1是一个个人数字助理110。客户机2是一个移动电话120，以及C1-C4是作为在一个示意的LAN 138中的节点的计算机终端。在每种情况中，该客户机设备被配置为捕获人的语音。例如，对于PDA 110的人的语音112以及对于移动电话120的。所捕获的信号然后被进行声音处理，并且在该客户机设备产生所获得的包含一系列音标字图的所获得数据包。
然后，该数据包被通过网络100发送，例如通过互联网发送。对于在PDA 110所发出的语音，处理服务器150接收该数据包(未示出)，然后对包含在该数据包中的数据执行声音处理，产生所识别的字串152。类似地，主机180和主机160从移动电话120(客户机2)和C1130接收数据包，并且分别产生所识别的字串182和162。客户1可以通过最初读出一个字串和训练PDA来对PDA 110进行训练。类似地，客户2可以通过读出一个字串并且对该移动电话提供所他所说的文本来训练移动电话120。一旦客户机设备已经被训练，其可以形成一个个性化的声音模型，其可以被客户机设备用作为检索和比较所说的内容的基础。
现在参见图2，其中示出一个示意的DSR系统的方框图。该图示出在客户机设备220所说出的人的语音信号200如何在服务器设备252被转换为所识别字串260。该信号200被在一个基于客户机-服务器系统的客户机220节点处捕获，并且在该客户机设备220处执行声音处理和识别230。如图2中所示，客户机220可以是一个计算机终端210。但是，客户机220还可以是一个移动电话、PDA等等。实际上，该客户机设备是具有接收人的语音信号200，对其进行声音处理并且识别其音标构成，以及准备所获得的音标数据用于通过例如通信网络240这样的网络242发送的功能的任何设备。、仍然参见图2，该处理服务器254处理该新的DSR系统的语言处理250阶段。该处理服务器254可以是一个服务器计算机系统252，其能够接收音标数据并且对其进行语言分析，以获得字串260。一旦该服务器252已经完成语言处理250，则该服务器252产生一个所识别的字串260，然后其可以被通过网络242发送回客户机220。
现在参见图3，其中示出根据本发明一个实施例的方法而设计的新的DSR系统的示意图。该图表示当采用新的DSR方法时人的语音信号300所经受的一个示意操作序列。
在功能块310处，在该客户机设备340接收人的语音信号300。例如，一个人可以对麦克风说话，其将捕获人的语音信号300。在一个示意实施例中，人可能被限于可以被用作为控制命令的单词命令，即，一个自动语音识别(ASR)系统。在另一个实施例中，该系统可以包括大词汇连续语音识别(LVCSR)。根据本实施例的方法采用ASR和LVCSR。
在功能块310处，所捕获的人的语音信号300被一个模数转换器转换为数字信号。在功能块320中，所获得数字化信号的特征例如被一个特征参数提取模块820所提取(参见图8)。功能块320可以被进一步细分为如功能块322所示的结束点检测、如功能块324中所示的预先强调滤波(pre-emphasizing filtration)，以及在功能块326所示的特征计算。在结束点检测过程中，对于一个语音特征的开始和结束进行检测。换句话说，对一个特征何时结束以及另一个特征何时开始进行判断。在预先强调滤波过程中，该语音信号被滤波，以放大该语音信号的重要特征。最后，在该特征计算过程中，该语音信号的特征被计算，以形成一系列可能的候选项。
相应地，在已经提取语音特征之后，在功能块342处对所捕获的人的语音信号进行声音处理。该声音处理是提供在功能块320识别的语音特征与已知的音标单元(phonetic unit)的匹配。因此，声音处理包括接收一个人的语音信号，并且使用一个声音模型来重新产生最接近于表示该输入语音的一系列声音。该声音模型可以由例如音标级、半音节或音节单元这样的子字单元来组织。但是，也可以应用使用其他音标单元的声音模型。
执行声音处理的一个方法是通过利用隐藏马尔可夫模型(HMM)。本领域所公知的HMM是由声音状态的一个马尔可夫链所构成的随机有限状态自动控制。这些状态模拟语音的瞬时结构，即，该状态如何随时间而变化。用于每个这些状态的概率函数、模拟发射和声音矢量的观察由HMM所表示。
一旦一个HMM被用于表示该语音特征，则一个搜索空间被确定，并且可以在一个声音模型内对以前形成的HMM进行搜索。该HMM可以在一个客户机设备的训练阶段过程中形成，该训练阶段可能在一个人第一次使用该客户机设备340时出现。例如，当一个人购买一个移动电话时，该电话可以具有一个这样的按键，当该按键被按下时可以把该电话置于训练模型。在该模型的过程中，该人可能被要求说出字、音素或者其他出现在屏幕上的音标单元。然后该移动电话可以捕获由该用户所产生的声音，并且通过图3的功能块322-326来运行它，以提取与该声音相关的特征并且形成一个HMM。在该训练阶段过程中，由于客户机设备340确切地已知该声音所表达的字，因此它可以存储两块信息(所读出的字及其提取的特征)，并且创建对该移动电话的用户个性化的声音模型。
通过创建一个个性化的声音音标模型，该移动电话可以利用一个SD声音模型，其具有比SI声音模型好2-3倍的WER。
在功能块334中，配置一个优化处理。可以使用任何知识来源来对所说的字进行判断。例如，由客户机设备的用户所训练的单个音素的声音音标模型可以被单独使用或者与其他知识来源相结合使用，该知识来源例如为发音词典。但是，如果该用户不是实际使用该客户机设备的人，则实际使用该设备的人应当训练该设备，因为这是该人的语音特征，这会导致更加精确的识别处理。
在功能块336处，在完成声音模型的搜索之后确定一个N个最佳假设。但是，除了N个最佳假设之外，可以利用一个单独最佳假设策略(single-best hypothesis strategy)。在功能块338中，产生一个音标字图(Pword图)。该pword图的主要思想是在关于实际说出的音素的不确定性较高的的语音信号的区域中提出音标的替换选项。所期望获得的优点是声音识别处理与复杂语言模型的应用相分离。该语言模型可以被随后根据本发明的实施例的方法应用于在服务器计算机处执行的后处理中。字替换选项的数目是可以根据用户所需的不确定性级别或精度而变化的设计参数。
一旦一个Pword图已经在功能块338处产生，则Pword图可以被打包并且发送到该服务器设备。任何发送介质以及任何打包方案可以被用于把该Pword图发送到该服务器。例如，一个网际协议数据报可以通过把该Pword图打包为数据报而在所示的功能块354处产生。该数据报然后可以通过网络350发送，如功能块352所示。在本发明的一个优选实施例中，网络350可以是互联网，但是可以使用例如局域网这样的任何其他类型的网络。
在功能块356中，包含Pword图的数据报被一个服务器所接收，并且该Pword图被从该数据报上除去。在功能块382处，可以在Pword图上执行语言处理。该语言处理涉及把该系列声音组织在一个Pword图中，并且把其转换为实际的字。所接收的Pword图被一个节点接着一个节点地分析。对于每个节点，对可用和由用户所选择的特定语言模型检查该字典和语法规则。在一个实施例中，该客户机设备可以具有一个语言选择按键，使得用户用英语或汉语或者该系统可以支持的任何其他语言来说话。在功能块390处，根据由该客户机设备所发送的Pword图形成一个实际Pword图(参见图5)。最后，在功能块386处，采用一种搜索算法来通过一个字典和语法词典来确定所识别的字串。
现在参见图4，其中示出一个客户机设备的方框图。该客户机设备可以是多个便携式设备，例如移动电话、PDA、便携式计算机或者可以由与位于不同地理位置的另一个设备通信的用户所使用的任何其他设备。
一旦一个人决定与一个远程服务器进行通信，则该人将具有与例如麦克风这样的客户机设备的接收器模块说话的选项。但是，该客户机设备对所捕获的人的语音信号400执行一系列操作。这些操作在图4中的功能块420和450中示出。在人的语音信号400上执行的操作通常可以被分为两种。在功能块422、424、426和428处表示的第一系列功能过程中，人的语音信号被经过一个处理，其中该人的语音信号被根据本领域所公知的方法转换为数字信号。然后，在功能块412处，该数字化的信号被显示给一个特征提取模块，其提取在该人的语音信号中存在的特征。这些特征可以表示在被定期测量的语音信号中的集中的能量，并且可以被表示为声音矢量的总和，例如在功能块428中所示为x1、x2、...、xT。但是，还可以提取本领域所公知的该声音信号的其他特征。
在功能块450处，声音矢量x1、x2、...、xT被提供给一个声音处理器，其可以识别产生该x1、x2、...、xT声音矢量的语音。为了实现该任务，该声音处理器可以参考一个声音模型，其包含用于由使用该客户机设备的人以前发出的各种语音的声音矢量。该模型可以容易地由将最初使用该客户机设备的人所训练。例如，当第一次购买的人可以编程或训练该客户机设备。该设备可以具有一个“训练我(train me)”的开关，当该开关被激活时，将在其屏幕上闪现文字，提示用户对该文字发音。该设备例如可以根据特定的设计参数闪现文字、音素、音节、半音节或者任何字的其他单元。音标单元的选择对基于本发明的实施例的方法没有影响。
因此，例如该设备闪现单词“apple”，并且用户说出“apple”。该设备将例如通过麦克风捕获由该用户所说出的语音产生的语音信号。本领域的普通技术人员知道该信号是一个模拟信号，当在一个示波器上观看时，该信号可能类似于语音信号400。在捕获该信号之后，该声音处理器可以使用在功能块412、422、424、426和428的功能，以提取由说出单词“apple”的用户所产生的信号的特征，导致产生一组声音矢量。然后，该表达被与该单词“apple”的表示一同存储在一个数据库中。该处理可以一个单词接着一个单词地连续进行。显示给该设备的单词越多，则用于该用户或设备拥有者的声音模型越完整。一旦该模型被完成，则该设备被准备用于在功能块450出现的声音识别。
该声音处理器现在负责识别所说出的语音的任务。它通过对包含被训练的声音模型的数据库进行搜索而完成该任务。在功能块446处，进行搜索，以发现用于该语音的一个或多个匹配。对所说出的单词的判断可以通过一个优化处理来实现。几种搜索处理方法已经被开发并且是本领域所公知的。例如，可以使用具有修改选项的一个定向搜索策略。另外，可以应用一个树词典或一次完成的算法。特定搜索策略的选择不影响或改变根据本发明的实施例的方法。
在功能块442处，包含声音模型的数据库被收集。本实施例的语音识别系统的训练阶段发生在该功能块处。在功能块444处，一个语言模型被考虑，以连接到在功能块446处使用的搜索策略。但是，在客户机方添加一个语言模型可以是一种设计选择。不必包含一个语言模型来实现根据本实施例的方法。
该搜索结果在功能块448处产生。在此，产生一个N个最佳假设。尽管，还可以在一个优选实施例中使用单个最佳假设，但是N个最佳假设产生更高的精度，因为它不但对所说出的内容提供单一的猜测，而是多个猜测。在功能块452处，从该信息可以产生一个字图。一个字图的主要思想是字的替换。字图必须被证明在需要高精度的情况下是有效的。实际上，在图5中所示的一个字图显示具有类似声音、或特征、或声音矢量的字词。这种相似性可能造成混淆。例如，在汉语中的字“duo”和“dao”和“yao”在频谱分析器上看起来几乎相同。类似地，参见图5，字“dai”、“nai”和“mai”除了一个字母或音素之外相类似。这些在大多数语言中普遍的相似性可以通过使用在下文将参照图7A讨论的语言模型中给出的语法词典作进一步的分析。
参见图4，一旦产生表示所说出的字的替换选项的字图，该设备可以把该信息作为一个二进制文件发送到一个远程服务器。该字图可以被表示为如图6B中所示的一个数据报中。但是，可以采用该数据的任何其他形式的打包。
现在参见图5，其中示出具有两级替换选项容量的字图的一个例子。在本例中，该实际读出的字词的汉语为“wo yao mai zhong ke jian”，其含义“我要买中科健”(中科健是在中国股票市场上的一种股票的名称)。该字图是如图4中所示的声音处理器的输出，在功能块452处。该声音处理器把该设备所捕获的声音矢量与该声音模型相比较，并且对该声音处理器提供为每个字词提供三个替换选项。字512、511和510表示“yao”及其替换选项。字514、515和516表示“mai”及其替换选项，相应地，在图5中所示的字图可以与一个语言模型相结合而使用，其包括一个字典和语法词典，以确定由该字图所表示的单个最佳句子。把一个语言模型应用到该字图可以在一个服务器节点处进行，因为该语言处理是相当复杂的处理并且与声音识别处理无关。因此，本实施例的方法通过产生具有两级字替换选项的字图而利用SD声音模型的优点。该字图将被传送到一个服务器，其然后完成该识别处理，并且确定单个最佳句子。
现在参见图6A，其中示出根据本发明一个实施例的发送处理。在功能块602处，由客户机设备产生一个音标字图。在功能块604处，该字图被转换为一个二进制文件，并且被打包用于通过网络发送。例如，在功能块604，一个TCP/IP数据报被用作为用于发送的载体。但是，可以使用对该字图打包以便于发送的任何其他方法，并且该特定的选择对于根据本发明的实施例的方法没有影响。在功能块606处，该数据报被发送到该服务器，并且在功能块608处，该数据报被在该服务器处接收。
现在参见图6B，其中示出一个示意的网际协议数据报。在该数据报600的报头612部分中，包含本领域所公知的客户机设备的逻辑地址和服务器设备的逻辑地址以及任何其他控制信息。该数据区域610可以包括由该客户机设备所产生的音标字图的二进制表示。
现在参见图7a，其中示出服务器节点700的示意方框图。在功能块710处，如图6B中所示的TCP/IP数据报由服务器700所接收。在功能块712处，从其二进制形式对该字图解码，并且形成在相应的客户机节点(未示出)说出的内容的实际字图表示。在这一点处，该服务器具有该语音的N个假设表示的等价物。如本领域所公知那样，该服务器可以使用在该功能块720的一个语言模型以及如功能块718所示的字典，以进行搜索并且判断最可能的语音。
在该处理过程中，对于每个音标字图节点(参见图7b和7c)，该服务器700通过检查该字典和语法词典而查找所选择的音标字。但是，本发明不限于该字典和语法模型。任何其他语言模型，例如还可以使用基于高速缓存的语言模型、基于触发器的语言模型以及长范围的三元语言模型(编入词典的无上下文的语法)。无论所使用的特定语言模型，在功能块720的结果是可以被存储的一个被识别的字串，或者可以被用作为该服务器700的命令。
现在参见图7b，其中示出一个示意的真实音标字图。该音标字图表示所说出的字串“我要买中科健(wo yao mai zhong ke jian)”。从该字图中，可以产生如图7c中所示的一个相应字图。在该处理中，该服务器对于每个音标字图(例如“yao”)搜索声音类似于“yao”的字。作为另一个例子，对于该音标字“zhong”，实际的字可能是“中”或者“重”或“种”(这是发音类似于“zhong”的字)。这些字的发音在英语上不类似，但是在汉语中它们是类似的。根据本实施例的方法不限于英语或汉语。可以使用能够构造一个语言模型的任何语言。
再参见图7b，一旦对于每个音标字节点获得字替换选项，该服务器可以根据被查找到的这些字产生多个实际字的节点。然后在该音标字图中复制该拓扑关系，以获得如图7c中所示的扩展的音标字图，该图示出从图7b中所示的字图获得的音标字图。
现在参见图7c，该扩展的音标字图被示出。在此，该服务器将根据一个语言模型考虑所读出序列的不同可能。例如，在该字“I”(主语)之后，该语言模型可能检测一个动词，例如“want”，而不是一个名词。相应地，可以采用一个修正策略，其中在“I”之后的名词不被进一步考虑，例如名词“medicine”可能不会跟随在作为主语的字“I”之后。按照这种方式，结果的搜索空间可能被大大地减小。类似地，一个词典可以被用于消除其他类似读音的字。在此，可以使用基于二元语言模型或三元语言模型的语言模型。该二元或三元语言模型的选择不影响根据现在参见图8，其中示出包括客户机设备、服务器设备和一个通信网络的语音识别系统的示意框图。语音输入800可以是一个用户的名字，例如John。该语音输入800可以被连接到属于John的一个客户机设备的麦克风所捕获，例如John的移动电话或PDA。John可以使用其设备的训练模型来训练他的设备识别他的语音。位于客户机设备810的声音模型824被用于该训练模型中。当John被提示说出不同的字、短语或句子时，该语言模型收集对应于每个语言的数据。当John准备通过一个通信网络840与一个远程服务器850进行通信时，他可以切断该训练模式，并且开始说话，就好像他与另一个人进行普通对话那样。该客户机设备810将捕获John的语音并且使其通过特征提取模块822，以按照如本领域普通技术人员所公知那样对该模拟人的语音信号800执行一系列前端处理。而在现有技术的模型中，根据本发明一个实施例，所提取的特征被发送到该服务器，用于语言处理，一个附加功能出现在该服务器设备处，即，导致产生一个音标字图的声音处理。由此，一个实施例利用SD声音模型的优点，因为John能够个性化地训练该设备，因此导致获得一个SD个性化的声音模型。现有技术不能够利用与SD模型相关的较低WER的优点，在该客户机收集的特征被直接发送到该服务器，并且该服务器执行声音识别和分析。通过该现有技术使用SD模型是不实际的，因为该服务器服务于许多用户而不知道他们的身份。因此，该现有技术被限于SI模型，这容易导致较高的错误率。
一旦该声音处理器接收所提取的特征，它搜索由John的声音所训练的与说话者相关的声音模型。所获得匹配是可以用数据报发送到该服务器850的已知音标单元830。该数据报被在服务器850处所接收，并且提供到一个与读音词典857相结合的一个语言处理器855，并且语言模型859确定所识别的字串。
权利要求
1.一种方法包括在一个客户机节点接收人的语音信号；识别所述人的语音信号的特征；识别对应于所述被识别的特征的已知音标单元；形成包含至少一个所述已知音标单元的数据包；以及把所述数据包发送到一个服务器节点。
2.根据权利要求1所述的方法，其中所述客户机节点选自移动电话、个人数字助理以及便携式计算机系统。
3.根据权利要求1所述的方法，其中识别所述人的语音信号的特征包括对所述人的语音信号执行结束点检测；对所述人的语音信号执行预先强调滤波；以及量化所述人的语音信号。
4.根据权利要求1所述的方法，其中识别对应于所述被识别的特征的已知音标单元包括搜索一个声音模型，其中包括由包含一个声音状态的马尔可夫链的隐藏马尔可夫模型所模拟的子字单元。
5.根据权利要求1所述的方法，其中识别对应于所述被识别的特征的已知音标单元包括使用一个与说话者相关的声音模型。
6.根据权利要求1所述的方法，其中所述已知音标单元形成一个音标字图。
7.根据权利要求1所述的方法，其中所述数据包包括一个源地址、目标地址和所述已知音标单元的二进制表示。
8.根据权利要求1所述的方法，其中所述数据包被通过互联网发送。
9.一种系统包括客户机节点，其中包括识别人的语音信号的特征的特征提取模块，连接到所述特征提取模块的声音处理模块，该声音处理模块从所述被识别的特征识别已知音标单元，以及连接到所述声音处理模块的发送器模块，该发送器模块形成包含至少一个所述音标单元的数据包并且把所述数据包发送到一个服务器；以及服务器，其中包括接收器模块，用于接收所述数据包并且从所述数据包中除去所述至少一个所述已知音标单元；以及语言处理模块，用于识别与所述至少一个所述已知音标单元相关的字。
10.根据权利要求9所述的系统，其中所述客户机节点选自移动电话、个人数字助理以及便携式计算机系统。
11.根据权利要求9所述的系统，其中所述特征提取模块还被配置为对所述人的语音信号执行结束点检测、预先强调滤波以及量化。
12.根据权利要求9所述的系统，其中所述声音处理模块包括一个与说话者相关的声音模型。
13.根据权利要求9所述的系统，其中所述声音处理模块根据所述已知声音单元形成一个声音字图。
14.根据权利要求9所述的系统，其中所述发送器模块形成所述字图的二进制表示，并且在发送所述字图之前，把所述二进制表示与一个源地址和目标地址一同置于一个数据报中。
15.一种客户机设备，其中包括接收器模块，用于接收人的语音信号；特征提取模块，其连接到所述接收器模块，用于识别所述人的语音信号的特征；声音处理模块，其连接到所述特征提取模块，用于从所述被识别的特征中识别已知音标单元，并且形成包含至少一个所述音标单元的数据包；以及发送器模块，其连接到所述声音处理模块，用于把所述数据包发送到一个服务器节点。
16.根据权利要求15所述的客户机设备，其中所述特征提取模块还被配置为对所述人的语音信号执行结束点检测、预先强调滤波以及量化。
17.根据权利要求15所述的客户机设备，其中所述声音处理模块包括一个与说话者相关的声音模型。
18.根据权利要求15所述的客户机设备，其中所述声音处理模块从所述被识别的已知音标单元形成一个字图。
19.根据权利要求18所述的客户机设备，其中所述字图是一个音标字图。
20.一种服务器，其中包括接收器模块，用于从一个客户机节点接收包含至少一个已知音标单元的数据包，并且从所述数据包中除去所述至少一个已知音标单元；以及语言处理模块，其连接到所述接收器模块，用于确定与所述至少一个已知音标单元相关的字。
21.根据权利要求20所述的服务器，其中通过互联网接收所述数据包。
22.根据权利要求20所述的服务器，其中所述数据包是一个数据报，其中包含具有所述客户机节点的地址、所述服务器的地址以及所述已知音标单元的报头部分。
23.一种包含可由一个处理器执行的程序的计算机可读介质，其中包括第一子例程，用于在一个客户机节点接收人的语音信号；第二子例程，用于识别所述人的语音信号的特征；第三子例程，用于识别对应于所述被识别的特征的已知音标单元；第四子例程，用于形成包含至少一个所述已知音标单元的数据包；以及第五子例程，用于把所述数据包发送到一个服务器节点。
24.根据权利要求23所述的计算机可读介质，其中所述第三子例程从所述已知音标单元形成一个音标字图。
25.根据权利要求24所述的计算机可读介质，其中所述数据包是包含所述音标字图、所述客户机节点的地址和所述服务器节点的地址的数据报。
26.根据权利要求23所述的计算机可读介质，其中所述第三子例程还形成一个与说话者相关的声音模型。
27.根据权利要求23所述的计算机可读介质，其中所述第五子例程把所述数据报通过互联网发送到所述服务器节点。
28.一种包含可由一个处理器所执行的程序的计算机可读介质，其中包括第一子例程，用于从一个客户机节点接收包含至少一个已知音标单元的数据包；第二子例程，用于从所述数据包除去所述至少一个已知音标单元；以及第三子例程，用于识别与所述至少一个已知音标单元相关的字。
29.根据权利要求28所述的计算机可读介质，其中所述数据包被一个客户机节点通过互联网发送。
30.根据权利要求28所述的计算机可读介质，其中所述数据包是包含所述至少一个已知音标单元和所述客户机节点的地址的数据报。
全文摘要
一般来说，新的基于客户机－服务器的分布式语音识别系统(DSR)在一个客户机设备提供识别由人所发出的语音的有效方法，并且通过网络发送到一个远程服务器。该系统在该客户机和服务器之间分布该语音识别处理，使得一个与说话者相关的语言模型可以被利用，与该传统的DSR系统相比产生更高的精度。相应地，该客户机设备被配置为通过使用一个由要被识别语音的相同终端用户所训练的声音模型执行声音识别而产生一个音标字图。所获得的音标字图被发送到该服务器，其将进行该语言处理，并且产生所识别的字串。当与使用传统DSR的设计相比，该新的DSR方法和系统产生小2－3倍的字误码率，获得更高精度的识别系统。
文档编号G10L15/30GK1545694SQ01823555
公开日2004年11月10日申请日期2001年6月19日优先权日2001年6月19日
发明者赵庆伟, 张向东, 杨永红, 袁宝胜申请人:英特尔公司, 英特尔中国有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵庆伟;张向东;杨永红;袁宝胜
技术所有人：英特尔公司;英特尔中国有限公司
我是此专利的发明人