从语音识别系统的词汇表中确定假设列表的方法

文档序号：2829547阅读：247来源：国知局

专利名称：从语音识别系统的词汇表中确定假设列表的方法
技术领域：
本发明涉及一种用于从语音识别系统的词汇表中确定假设列表的方法和计算机程序产品。
背景技术：
从可预定的词汇表中可以识别单个单词或者单词链的语音识别系统通常被用于通过口头命令来操作电话机或者操作汽车装备的与安全不相关的部件。其它公知的实例涉及由动手术的医生来操作手术显微镜和操作个人计算机。
在操作汽车导航系统时，例如可以通过语音输入来通知所希望的目标位置。在此，地名的输入是一种特别的挑战。在德国有在70000与80000之间的地点，这些地点可被考虑作为驾车的目标。利用单个单词识别来解决该任务由于缺乏上下文信息是一种对语音识别系统的技术的极其高的要求。出于该原因，但是也为了输入用户不知道其正确发音的(诸如国外的)城市名，提供用字母拼读解决方案，在这些用字母拼读解决方案中要求用户说出所希望的目标位置的开头若干字母。
在这种方法中，用户通过用开头字母拼读(Anbuchstabieren)将目标位置通知给导航系统。借助所识别的字母序列，通过导航系统从该大量的所有地点中确定那些其开头字母相似于所识别的字母序列的地点。在选择列表中按照相似性来排列地点，提供给用户用于进一步进行选择。用户可以随后再次通过语音输入或者通过键盘来说明所希望的目标位置。
在该方法中不利之处在于，对于所输入的字母序列由系统以相应的相似性在语音识别系统的词汇表中识别多个录入项，并且因此可能只给用户呈现了很长的假设列表，用于进行选择。如果用户然后认识到，由他所说出的字母的数量显然还不够，则他只能通过重新按压所谓的按键通话键来重新启动识别并且说出更大量的字母。

发明内容
因此，给本发明提出了以下的任务，即说明一种用于从语音识别系统的词汇表中确定假设列表的方法，通过该方法实现了通过用户的安全和快速的应用。
根据本发明，通过具有在权利要求1和权利要求9中所说明的特征的方法和计算机程序产品来解决该任务。在从属权利要求中说明了本发明的有利的扩展方案。
按照本发明，在用于从语音识别系统的词汇表中确定假设列表的方法中，由用户来拼读要识别的单词的开头字母。确定所识别的字母序列和语音识别系统的词汇表的录入项之间的相似性的距离量度(Abstandsmass)。然后进行下列措施之一当多个所确定的距离量度之间的差低于可预定的第一值时，由语音识别系统请求用户继续拼读要识别的单词的字母。当可预定的距离量度超出可预定的第二值时，由语音识别系统请求用户重复拼读要识别的单词的开头字母。当多个所确定的距离量度之间的差超出可预定的第一值和/或可预定的距离量度低于可预定的第二值时，在显示装置上给用户示出具有所确定的录入项的假设列表，用于进行选择。通过本发明方法，因此以有利的方式建议了一种启发式方法，该启发式方法控制了，是否由语音识别系统提议用户继续用字母拼读、重复用字母拼读或者给用户提供选择列表。由此不再要求由用户在长的假设列表中搜索，并且因此是较少费时的。因此，可以由用户更快速和更安全地来进行所希望的目标位置的输入，因为该用户较少被要求输入或由于输入而被转移注意力。
根据本发明的有利的改进方案，为了确定所识别的字母序列和词汇表的录入项之间的相似性的距离量度而确定两个字母的相似性的距离值。对于该距离量度，将字母序列的各字母的距离值与相应录入项的相对应字母的距离值进行合计。这仅是一种用于确定所识别的字母序列和词汇表的录入项之间的相似性的距离量度的可能性。
确定所识别的字母序列和词汇表的录入项之间的相似性的距离量度的其它可能性在于，例如在单词中间允许断开字母拼读的附加条件下，将莱文斯坦距离(Levensteinabstand)用作距离量度。
莱文斯坦距离是作为最小数量的原子变化的两个字符链之间的差别的量度，该原子变化是必需的，以便将第一字符链转换成第二字符链。原子变化例如是单个字母的插入、清除和替代。通常给原子变化分配费用，并且因此通过合计单个费用获得了两个字符链的距离或相似性的一种量度。
根据本发明的其它有利的改进方案，除了假设列表之外也在显示装置上示出了所识别的字母。由此，可以有利的方式给用户响应，已识别了多少个字母，和必要时在本发明的可选的扩展方案中通过可预定的符号来表征，用何种可靠性已识别了一字母。
在实施根据本发明的计算机程序产品时，通过用于从语音识别系统的词汇表中确定假设列表的程序流程控制设备识别了要由用户拼读开头字母来识别的单词。确定了所识别的字母序列和语音识别系统的词汇表的录入项之间的相似性的距离量度。最后采取下列措施之一当多个所确定的距离量度之间的差低于可预定的第一值时，由语音识别系统请求用户继续拼读要识别的单词的字母。当可预定的距离量度超出可预定的第二值时，由语音识别系统请求用户重复拼读要识别的单词的开头字母。当多个所确定的距离量度之间的差超出可预定的第一值和/或可预定的距离量度低于可预定的第二值时，在显示装置上给用户示出具有所确定的录入项的假设列表，用于进行选择。

以下在实施例上借助附图来详细阐述本发明。其中图1示出了针对语音识别系统和用户之间的交互作用的过程的三种可能的替换方案的示意图，图2示出了用于从语音识别系统的词汇表中确定假设列表的方法流程的示意图。
具体实施例方式
作为本发明的实施例，图1a示出了当假设列表中的多个单词在与所识别的字母序列的相似性方面几乎没有区别时的语音识别系统与用户之间的交互作用的过程。在该实例中想输入目标位置“柏林”的用户说出了字母“BER”101。语音识别系统识别了字母序列BER，并且示出了词汇表中的利用该字母序列所找到的录入项的假设列表，102。由于假设列表中的单个录入项在其与字母序列的相似性方面几乎没有区别，所以由系统请求用户继续用字母拼读，103。用户于是附加地将字母“LI”104灌输到该系统中。基于所识别的字母序列BERLI，语音识别系统编排了新的假设列表，105，该假设列表短得多并且因此对于用户更清楚。
图1b示出了当从假设列表中没有一个录入项具有与所识别的字母序列的足够的相似性时的语音识别系统和用户之间的交互作用的可能的过程。想输入柏林作为目标位置的用户将“BERLI”106作为字母序列灌输到该系统中。由语音识别系统识别了字母序列BRLEDICK，并且示出了从该错误识别的字母序列中推导出来的假设列表，107。由系统确定，具有最好相似性量度的假设列表中的录入项的相似性总还是不够的。因而由语音识别系统请求用户重复输入字母序列，108。用户重新将字母序列“BERLI”109输入到系统中。系统仅在正确识别的字母序列BERLI的基础上编排新的和短得多的假设列表，110。由此可以修正错误识别的字母序列，其中也可以通过将字母拼读识别的声音精度包括在内来扩展本方法，以便及早识别由于强烈的背景噪声或者附加噪声所引起的错误识别。
图1c示出当多个不同的字母具有与所识别的字母序列高的相似性时的语音识别系统和用户之间的交互作用的过程。想去往奥伯豪森(Oberhausen)的用户将“OBER”111作为字母序列灌输到该系统中。语音识别系统对于所灌输的字母O识别了发音相似的字母O和U，并且将所灌输的字母B引向发音相似的字母B和W。这由系统利用星形符号来表征，112。基于假设列表中的录入项之间的大的相似性，由语音识别系统请求继续用字母拼读，113。此后，用户将字母序列“HAU”灌输到系统中，114。通过附加的信息，系统现在明确地识别了字母O和B，在此期间现在不再明确地识别字母R、H和U，115。又向用户发出继续用字母拼读的请求，116。在由用户输入了字母“SE”117之后，现在由系统编排包括所希望的目标位置作为第一录入项的假设列表118。
作为其它的实施例，图2示出一种用于从语音识别系统的词汇表中确定假设列表的方法的可能的流程。用户要么通过按压按键通话键以相应的输入对话来启动字母拼读识别，201，要么直接由以前的对话步骤得到输入。语音识别系统例如通过“蜂鸣声(Beep)”发信号通知准备好接收字母序列，202。用户拼读所希望的目标位置或者所希望的目标城市的开头若干字母，203。本发明不是只限于导航目标的语音输入，而是可用于任何字母拼读任务。这例如即使在移动通信设备的地址簿中也可能是这种情况。系统将词汇表的单词的假设列表与其与所识别的字母序列的相似性一起计算出来，204。当最好的假设的相似性太小时，尽管纯粹的声音的字母识别已足够，仍然存在大约通过强烈的背景噪声或者副驾驶的插话引起的错误输入，或者由于另外的原因，该识别曾是有缺陷的，205。当多个假设的相似性几乎相等时，所说的字母的数量是不够的，206。当单个假设在与所识别的字母序列的相似性方面以足够的量度互相区别时，这些假设的有关其与所识别的序列的相似性方面的空间因而是相当稀少的，系统决定，字母的数量是足够的，207。
如果相似性太小，则建议用户重新启动字母拼读过程，208。如果单个录入项的相似性之间的区别足够，则系统显示出传统的选择列表，209。系统可选地在第一行中显示出字母的假定的序列。未曾明确识别的字母或者针对其在词汇表的录入项中对于该位置存在多个相似字母的字母通过特殊符号“*”来示出。在该实例中，在列表中示出了最好识别的开头序列，210。如果假设列表的录入项之间的相似性几乎相等，则系统请求用户继续用字母拼读，211。从在方法结束时所示出的假设列表中，用户以传统的形式从该列表中选出他所希望的目标位置，212，用户是通过语音输入行号或者通过触觉选择来选出。
本发明不限于此处所述的实施例。
权利要求
1.用于从语音识别系统的词汇表中确定假设列表的方法，在该方法中，由用户拼读要识别的单词的开头字母，并且确定所识别的字母序列和语音识别系统的词汇表的录入项之间的相似性的距离量度，其中进行下列措施之一-当多个所确定的距离量度之间的差低于可预定的第一值时，由所述语音识别系统请求用户继续拼读要识别的单词的字母，-当可预定的距离量度超出可预定的第二值时，由所述语音识别系统请求用户重复拼读要识别的单词的开头字母，-当多个所确定的距离量度之间的差超出所述可预定的第一值和/或可预定的距离量度低于所述可预定的第二值时，在显示装置上给用户示出具有所确定的录入项的假设列表，用于进行选择。
2.按权利要求1所述的方法，其中，为了确定所识别的字母序列和所述词汇表的录入项之间的相似性的距离量度，确定两个字母的相似性的距离值，对于所述距离量度，将所述字母序列的各字母的距离值和相应词汇表录入项的相对应的字母的距离值进行合计。
3.按权利要求2所述的方法，其中，确定两个字母的发音相似性的距离值。
4.按以上权利要求之一所述的方法，其中，考虑莱文斯坦距离(Levensteinabstand)作为距离量度。
5.按以上权利要求之一所述的方法，其中，除了所述假设列表之外，也在所述显示装置上示出所识别的字母。
6.按权利要求5所述的方法，其中，在所述显示装置上通过可预定的符号表征地示出了未明确地识别出的字母或者对其在词汇表中在各自的位置上存在着相似的字母的字母。
7.按以上权利要求之一所述的方法，其中，由所述语音识别系统以声音和/或可视的形式实现所述请求。
8.按以上权利要求之一所述的方法，其中，当所述假设列表中的假设的数量超出第三值时，由所述语音识别系统请求用户继续进行所述要识别的单词的字母拼读。
9.计算机程序产品，该计算机程序产品可被装载到程序流程控制设备的工作存储器中并且具有至少一个代码段，在实施该计算机程序产品时，为了从语音识别系统的词汇表中确定假设列表，由用户拼读要识别的单词的开头字母，并且确定所识别的字母序列和所述语音识别系统的词汇表的录入项之间的相似性的距离量度，其中，如果所述计算机程序产品在所述程序流程控制设备中运行，则进行下列措施之一，-当多个所确定的距离量度之间的差低于可预定的第一值时，由所述语音识别系统请求用户继续拼读要识别的单词的字母，-当可预定的距离量度超出可预定的第二值时，由语音识别系统请求用户重复拼读要识别的单词的开头字母，-当多个所确定的距离量度之间的差超出所述可预定的第一值和/或可预定的距离量度低于所述可预定的第二值时，在显示装置上给用户示出具有所确定的录入项的假设列表，用于进行选择。
全文摘要
本发明说明一种用于从语音识别系统的词汇表中确定假设列表的方法，在该方法中，由用户拼读要识别的单词的开头字母，并且确定所识别的字母序列和语音识别系统的词汇表的录入项之间的相似性的距离量度，其中进行下列措施之一当多个所确定的距离量度之间的差低于可预定的第一值时，由所述语音识别系统请求用户继续拼读要识别的单词的字母。当可预定的距离量度超出可预定的第二值时，由所述语音识别系统请求用户重复拼读要识别的单词的开头字母。当多个所确定的距离量度之间的差超出所述可预定的第一值和/或可预定的距离量度低于所述可预定的第二值时，在显示装置上给用户示出具有所确定的录入项的假设列表，用于进行选择。
文档编号G10L15/22GK1892818SQ20061009568
公开日2007年1月10日申请日期2006年6月29日优先权日2005年6月29日
发明者S·海登雷希, N·昆斯特曼恩申请人:西门子公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：S.海登雷希;N.昆斯特曼恩
技术所有人：西门子公司
我是此专利的发明人

上一篇：一种在语音合成系统中提升模板句合成效果的方法
上一篇：乐器的调音设备和其中使用的计算机程序的制作方法