具有语音识别设备的数据处理系统或通信终端以及识别某些声学对象的方法

文档序号：7587231阅读：90来源：国知局

专利名称：具有语音识别设备的数据处理系统或通信终端以及识别某些声学对象的方法
现今，识别自然语音的设备和方法被本领域来自许多不同应用范围的技术人员所熟悉。在此，此种系统的实用性和性能极大地依赖于其复杂性和应用范围大小。总的适用原则是这种系统的识别速率通常随着待识别声学对象(字、音素、单个字母等等)的增加而大大降低。但同时，按照成本和空间要求计算、并考虑培训工作的话，费用通常也会随着应用的扩大而大大增加。
因此，常规的语音识别系统还没有被用于很多应用领域，尽管从用户的观点来看，原则上它们是合适的。所以，本发明的任务在于提供一种技术理论，此技术理论使得语音识别的使用即使是在那些由于经济或者别的原因而不允许费用太大的应用领域中也是可能的。该任务由具有语音识别设备的数据处理系统或通信终端来实现，或者由权利要求之一所述的识别某些声学对象的方法来实现。
本发明的产品、即数据处理系统或者通信终端具有一个识别语音的设备，该设备被特地安装用来识别某些声学对象，也即单个字母、字母组合或者控制命令，这些设备或者还可以进行专门配置来识别这些对象。这也相应地适用于本发明方法的语音识别算法。而且提供一个用于对已识别的声学对象进行声输出或光显示的设备。这样，待识别的声学对象的数和量就可以在很大程度上适应于预期的应用。所设的用于对已识别的声学对象进行声输出或光显示的设备可以在用户和装置之间形成直接反馈，由此使用户对识别性能进行有效的控制，而且允许以一种简单而有效的方式使错误识别的数量得以减少。
如果用户借助声输出或光显示确定出一个错误识别，那么他可以重复对待识别对象进行声学输入。由于该过程有可能在短时间内不会产生正确的识别，所以根据本发明的优选实施方案提供了以下方法如此地安装或可以如此配置语音识别设备，使得在输出或显示一个声学对象之后，所述对某个第一控制命令的识别将紧接着促使输出或显示另一个声学对象。这样，在一个声学对象被输出或者显示之后，也即譬如在一个确定的错误识别之后，用户能够通过声学输入一个特定的声学对象、也即一个控制命令来促使所述的装置输出另一个声学对象。
譬如对于一些可能的声学对象选择{AO1，AO2，…，AOn}，如果语音识别设备或语音识别算法测出了识别概率{p1，p2，…，pn}，并且此概率具有以下性质1＞p1＞＝p2＞＝，…，＞＝pn＞0，那么该优选实施方案可以实现譬如在输出错误识别的对象AO1之后输出或显示AO2，或者采取类似措施以支持用户尽可能舒适地校正该识别错误。这种特殊的声学对象或控制命令譬如可以选择为“错误”这个词。对于本领域的技术人员来说，在本说明的基础上考虑本发明该实施方案的其它应用可能性并不困难。
本发明的其它优选实施方案由其它从属权利要求给出。
下文在优选实施例的基础上，并辅以附图对本发明进行更为详尽的解释。

图1概略示出了本发明一个装置的优选实施方案的结构和工作模式。
正如图1所示，本发明的该实施方案的数据处理系统(DPCD)或通信终端(DPCD)包括一个语音识别单元(SRU)，它识别由该装置的用户说出的声学对象(AO)并将已识别的声学信号(RAO)馈至用于声输出或光显示的设备(DU)。依照本发明，语音识别设备被特地安装用来识别某些声学对象(AO)，也即单个字母、字母组合或者控制命令，这些设备或者还可以进行专门配置来识别这些对象。
于是，该语音识别设备总是给用户说出的声学对象(AO)分配一个由此设备识别的声学对象(RAO)。由于识别自然语音总会因一些原理性的原因而遇到某种不确定性，所以，按照所使用的话音识别算法，已识别的声学对象通常将是那些通过考虑所说出的声学对象的测定特征而被考虑为最可能或者最合理的声学对象。
用户通过输出或显示设备(DU)接收同识别过程的结果有关的反馈信号。然后用户就可以按照所述结果的类型来对此作出反应。如果声学对象被错误识别，用户就可以通过说出一条为此而设置的控制命令、譬如“再来一次”来通知语音识别算法该声学对象识别不正确，或者说该算法本应识别另一个对象。然后，用户就可以再说一次他所想要的对象。此过程可以一直持续到语音识别单元识别出想得到的对象为止。
另一控制命令、譬如“错误”这个词的输入可以如此地控制语音识别算法，使得输出另一个声学对象，优选地，此对象的可能性或合理性比前一个输出对象低，但是比所有其它被考虑的对象都要高。在这种情况下，用户不必再说一遍此对象；替而代之的是为待识别对象提供另外一些选择物，直到用户不再输入相应的控制命令或者输入一个表示确认的命令，譬如“正确”。
依照另一个优选实施方案，可以提供一个控制命令、譬如“继续”这个词，在说出或者显示一个声学对象之后，该命令的识别便紧接着促使显示或输出以某种意义跟随前一对象的对象。在这种情况下，对象的顺序不必依照识别概率或者合理性值的大小来确定，而是可以通过该装置存储器(MU)中的录入项顺序来规定，或者通过对象的字母顺序、或通过所定义的上下文中按语义定义的对象顺序来规定。譬如，该对象的顺序可以通过数据库或电话本内的顺序来规定，或者通过保存在存储器中的文件结构，譬如客户文件、字典或类似文件的结构来规定。
当本专利申请提到为某一功能或工作模式而安装或可进行配置的设备时，便意味着这些设备的相应功能特征可以永久或暂时地受到限制。而且，针对某一功能或工作模式，这些设备可以由制造商和用户之间所牵涉到的所有人员进行安装和配置，譬如利用生产过程、对硬件的调整、或者对软件的使用或参数化，或采取一些等价的方法或措施，等等。本领域的技术人员将很容易从本说明书中推导出很多类似或等价的方法或者措施来达到此目的。
优选地，通过对软件进行合适地选择或参数化来安装或配置语音识别设备，此软件实现了语音识别算法中的所需功能和/或对该设备的过程控制。优选通过譬如对数据结构、譬如数据库结构进行合适地选择或参数化来安装或配置数据存储器，该数据库结构定义了数据在该存储器上的存储方式以及访问该数据的方式。
系统的有效识别性能可以通过识别具有以下特点的声学对象或一系列对象而显著提高，此声学对象或一系列对象对应于数据存储器中的一个录入项，而且由该识别促使显示或输出该录入项(ME)，或在所述装置中触发一个同该录入项相关联的功能(FU)。由此，就能够非常有利地利用很可能要识别的对象的预先知识。尽管该技术在原理上是为本领域的技术人员已知的；但正如相应的试验已表明的那样，在特别设计用来识别有限数目的待识别对象(如单个字母)的语音识别系统方面，此技术是尤其有效的。
因此，如果譬如电话本录入项中的头三个字母被识别，那么本发明的一个优选实施方案规定输出或显示该电话本录入项。如果这不是想要得到的录入项，那么也许采取如下做法就足够了，即输入(即说出)一个控制命令或几个另外的控制命令，譬如“继续”或“街道”或“传真号”或“连接”，以便根据用户所知道的通话方名字、通过说出其名字的头三个开始字母来输出其传真号，或利用通信终端拨打此号。还有很多其它的功能可以通过这种方式触发，譬如文本或者图象的输出、数据记录的显示等等，其如此之多，此处不可能一一列举。
实现本发明的装置或者方法的性能可以通过提供某些控制命令进一步提高，譬如“字母”、“控制”或“组合”等等，通过说出这些控制命令，用户能够根据自己的选择(永久或者暂时地)将某群待识别的对象限制在某一特定子群之中，譬如单个字母、字母组合或者控制命令。
利用本发明，特别是移动电话或无绳电话或有线电话中能够通过语音选择进行呼叫的电话录入项的数目能随心所欲地增加。在这种常规的系统中，只有有限数目的录入项允许用于语音选择，依照经验至多允许20或30个录入项。这归因于待重新识别的语音样本的可用存储空间，也即归因于由此产生的成本和空间需要。如果录入项数目进一步增加，经验表明训练语音识别的费用也会显著增加，这是用户难以接受的。
依照本发明的优选实施方案，用户只针对字母表中的字母、可能的组合以及少数几个控制命令对语音识别算法进行训练。用户通过这种方式安装或相应地配置该语音识别算法来识别这些声学对象。通过开始字母和(最好不超过2个的)随后字母的声学输入进行询问。错误识别通过合理性检查而减少，也就是说，譬如通过比较对象和存储器中的录入项。输入的名称只说一次，并以低比特率(譬如GSM速率的一半)在编码器中进行转换，而且必要时以压缩方式存放在相应的存储位置。
作为选择方案，也可使用把名字合成为语音的合成程序，这可能需要较少的存储空间。在任何情况下，无须针对大量的名字对语音识别进行训练，而只需对固定的、一组大概30个的序列字母和控制命令进行训练。
为了使用本发明的实施方案，用户譬如通过一旁的滚动键激活功能特征“语音选择”，并依次输入所寻找的录入项的头几个字母，有可能就是以“字母A”这种形式。在此，经验表明这种识别概率比单个字母情形的识别概率要大得多。每个输入都通过输出已识别的信号进行声学确认。如果该对象被正确识别，那么就输入待识别的下一个对象。
如果一个对象识别错误，用户用“错误”或者“否”进行应答。然后系统建议下一个可能的字母，譬如用“T”代替“D”，或者用“A”代替“H”等等。在大多数情况下，输入开始两个或三个字母就足以找到正确的录入项了。如果输入了一个相应的控制命令，或者没有出现其它输入(控制命令＝语音暂停)，终端就会输出终端电话本中的相应名字。如果很多录入项的开始字母顺序相同，用户就发出譬如，“继续”命令，直到确认“正确的”名称。
如果一个字母识别错误，并且结果是，字母表中比较远的首字母-譬如“T”代替“D”-作为输入字母组合的头部而输出，那么用户就输入(也即说出)控制命令“选择”。然后终端就建议最有可能的下一个正确的开始字母组合。由于知道电话本中存储的名称，所以从一开始就可以排除大多数可能的错误组合。此后，用户发出“拨号”命令。
权利要求
1.具有语音识别设备(SRU)的数据处理系统(DPCD)或通信终端(DPCD)，具有以下特征a)所述语音识别设备被特地安装用来识别某些声学对象(AO)，也即单个字母、字母组合或者控制命令，或者该设备还可以进行专门配置来识别这些对象；b)装设一种用于对已识别的对象(RAO)进行声输出(DU)或光显示(DU)的设备。
2.如权利要求1所述的装置，其语音识别设备(SRU)如此地安装或可以如此配置，使得在输出或显示一个声学对象之后，所述对某个第一控制命令的识别将紧接着促使输出或显示另一声学对象。
3.如以上权利要求之一所述的装置，它具有一个数据存储器(MU)，该存储器如此地进行安装或可以如此配置，使得同数据存储器中的录入项相对应的声学对象或一系列对象的识别促使显示或输出该录入项(ME)，或在所述装置中触发一个同该录入项相关联的功能(FU)。
4.如权利要求3所述的装置，其中，通过将可能的对象或对象序列同数据存储器(MU)中存在的录入项进行比较而改善所述的识别性能。
5.如以上权利要求之一所述的装置，其语音识别设备可以通过某些控制命令而被置为特定的操作状态，以便识别单个字母、字母组合或者控制命令。
6.一种识别某些声学对象的方法，其中a)采用了一种语音识别算法，该语音识别算法被特地安装用来识别某些声学对象，也即单个字母、字母组合或者控制命令，或者该算法还可以进行专门配置来识别这些对象；b)对已识别的声学对象进行声输出或者光显示。
7.如权利要求6所述的方法，它如此地安装或可以如此配置，使得在输出或者显示一个声学对象之后，所述对某个第一控制命令的识别将紧接着促使输出或显示另一声学对象。
8.如以上权利要求之一所述的方法，它如此地安装或可以如此配置，使得同数据存储器中的录入项相对应的声学对象或一系列对象的识别促使显示或输出该录入项，或在所述装置中触发一个同该录入项相关联的功能。
9.如以上权利要求之一所述的方法，其中，通过将可能的对象或对象序列同数据存储器中存在的录入项进行比较而改善所述的识别性能。
10.如以上权利要求之一所述的方法，其语音识别算法可以通过某些控制命令而被置为特定的操作状态，以便识别单个字母、字母组合或者控制命令。
全文摘要
具有数据库功能的小型设备,譬如具有电话本功能的移动电话,它可以利用简化的语音识别设备进行控制,该语音识别设备被专门设计用来识别控制命令、单个字母或者字母组合。这样可以改善识别性能,并且允许使用较大的数据库而对硬件的性能要求较低。
文档编号H04M1/27GK1348581SQ99815435
公开日2002年5月8日申请日期1999年1月14日优先权日1998年11月6日
发明者F·米勒申请人:西门子公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：F.米勒
技术所有人：西门子公司
我是此专利的发明人

上一篇：用于cdma移动站的移动估计器的制作方法
上一篇：利用移动台定位和信号强度值标识小区越区切换边界的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。