用于语言模型切换和自适应的装置和方法

文档序号:6556683阅读:149来源:国知局
专利名称:用于语言模型切换和自适应的装置和方法
技术领域
本发明通常涉及自然语言处理领域,更具体地,本发明涉及一种用于语言模型切换和自适应的装置和方法。
背景技术
语言模型技术是自然语言处理中的关键组成部分,其被广泛应用于多个领域,例如,语音识别(SR),光学字符识别(OCR),预测文本输入(PTE,通常针对非英语语言和全句子文本输入,一般被称为句子级输入方法)等。通常,语言模型被用于估计句子的概率。例如,在语音识别中,声音识别器给出声学假设序列,所述序列能够生成不同的候选句子。之后,由语言模型对每个候选句子打分,具有最高得分的候选句子将被看作最佳候选句子。类似地,对于如汉字的非英语语言的文本输入或对于移动电话之类的十键盘装置的文本输入较为困难,因为用户需要输入编码序列并从较长的列表中选择所需的候选对象。语言模型可以帮助用户自动选择所述的对象,例如,移动电话上的数字序列“4663”对应于三个英文候选词“good/home/gone(好/家/回)”,如果前一个词是“回”,则语言模型自动预测出“家”是第一候选词。换句话来说,当语言相关的不确定产生时,可以使用语言模型来选择候选对象。
但是语言模型的性能是非常依赖于输入范围的。如果基于语言模型的应用程序工作的输入范围不同于训练域,则其性能将会自动降低。为了解决这一问题,当输入范围改变时,应当改变语言模型。但是,如果应用程序需要在多个不同输入范围之间频繁地进行切换,则语言模型的性能不能够从语言模型的修改中获得益处,而修改甚至会使模型不可使用。下面,将解释这一情形。
如上所述,语言建模中普遍存在的问题是依赖于输入范围的问题。如果目的应用程序工作在规定输入范围中,这一问题看起来并不显著,但是如果应用程序用在彼此不同的多个输入范围中时,所存在的问题将会影响语言模型的性能。
通常,存在两种解决所述依赖于输入范围的问题的流行方法。第一种方法是语言模型自适应(LMA),第二种方法是语言模型切换(LMS)。这两种方法都试图根据最近的输入数据(例如,由输入方法产生的输入文本)提供的信息来增强语言模型。
传统的语言模型自适应假设当前的主题是局部稳定的,即,在使用语言模型的整个过程中输入范围并没有改变。因此,可以使用当前的输出文本来修改语言模型,从而该模型在后续使用中将会更有效。最流行的方法是根据最近文本建立高速缓存模型,并使用插值法将通用模型和高速缓存模型合并。在某些情况下,例如,对于较长文件的语音识别或对于较长的打印文件的光学字符识别,这一方法是有效的。
传统的语言模型切换方法也假设当前的主题局部稳定(stationary)。但是有时候当前的文本流不足以用于增强语言模型,相反地,当前的文本流用于确定当前的主题并针对当前的主题选择出预先建立的合适的模型。
由于传统方法仅将当前的文本流用于进行语言模型自适应和切换,我们称之为基于文本流的语言模型自适应/切换方法。
如上所述,基于文本流的语言模型自适应/切换方法都是假设当前主题局部稳定的,因此当前的文本流可以用于增强模型。但实际上,这种假设并不总是令人满意的。有时候,文本流的数量太少而不能用于语言模型自适应,而且对于语言模型自适应来说该文本流基本上没有用处。有时候,语言模型应用程序频繁地从一上下文切换至另一上下文,而不提供任何文本流,即,破坏了局部稳定特性。因此,语言模型切换或语言模型自适应方法都不能有效运用。
具体地,基于文本流的方法所唯一使用的是当前文本流。由于主题的非稳定性质,语言模型自适应或切换方法可能会起到误导作用。此外,当运行应用程序时,当前的应用程序的输入范围可以在多个不同的输入区域中进行切换。目前存在的解决方案通过使用当前的文本流修改模型来解决这一问题。很明显地,如果输入范围的切换非常频繁,则要不断地修改语言模型,或者当刚刚选中新的模型时,输入范围就改变了。这将导致严重的后果之前应用的方法与后续的输入请求不一致。模型的性能将会被减弱而不是被改进。
以当前广泛使用的汉字输入方法为例,输入方法仅知道当前的编辑输入区域需要填充文本串,而不关心当前的应用程序或当前的输入区域所具有的特定偏好。实际上,如果用户在联系管理人中添入一项时,编辑输入区域像名称、地址、位置、爱好和电话号码是必需的。很明显地,这些输入区域彼此很不相同,以及根据名称输入自适应的信息并不能够提高地址输入的性能,甚至可能会误导地址输入。在这种情况下,基于文本流的方法根本不能够应用。
以用于10键盘移动电话的句子级输入方法作为另一个例子。当用户输入短信时,输入范围是短信会话。当用户在地址薄的名称输入区域中填写时,所述输入范围是名称。而当用户通过智能电话上网冲浪时,他/她使用因特网URL填写浏览器的地址栏,以及当用户拨号其朋友的电话时,输入区域是电话号码。类似地,在上述情况中,基于文本流的方法也提供不了帮助。
如果语音识别系统使用上述两个例子中所使用的所述输入方法,则情况类似。
总之,纯基于文本流的方法并不提供一种有效的机制来识别在上述上下文敏感情况中语言模型当前用于哪个输入范围(或根本不存在固定的输入范围)。此外,在LMB引擎应用程序在多个输入范围之间频繁切换时,该方法也不能有效解决依赖于输入范围的问题。此外,由于对输入范围的检测并不精确,可能模型自适应完全是胡乱进行的。
我们发现有时候,语言模型请求是固定和具体的。例如,移动电话上的联系管理人的输入区域请求名称输入,可以获得该请求并用于语言模型切换和自适应。

发明内容
因此,考虑到上述问题提出本发明。本发明的目的是提供一种用于语言模型切换和自适应的方法和装置。本发明包括当应用程序的状态变化时为特定情形选择合适的语言模型,并使用反馈的文本流结果修改特定的语言模型。因此,解决了当在不同的语言模型中执行切换时依赖于输入范围的问题,以及对特定语言模型的自适应改进了语言模型的性能。
根据本发明第一方面,提供了一种用于语言模型切换和自适应的装置,包括通知管理器,用于在目的应用程序的状态变化时,将目的应用程序的当前状态信息或对语言模型的请求通知语言模型切换部分;语言模型切换部分,用于根据接收的所述当前状态信息或所述请求从语言模型集中选择一个或多个要被切换的语言模型;基于语言模型的引擎,用于使用一个或多个选中的语言模型对用户的输入进行解码;语言模型自适应部分,用于接收解码的结果并根据所述解码的结果修改一个或多个选中的语言模型。
根据本发明第二方面,提供了一种用于语言模型切换和自适应的方法,包括通知步骤,用于在目的应用程序的状态变化时,通知目的应用程序的当前状态信息或对语言模型的请求;语言模型切换步骤,用于根据通知的所述当前状态信息或所述请求从语言模型集中选择一个或多个要被切换的语言模型;解码步骤,用于使用一个或多个选中的语言模型对用户的输入进行解码;语言模型自适应步骤,用于接收解码的结果并根据所述解码的结果修改一个或多个选中的语言模型。
与传统的对语言模型依赖于输入范围的问题的解决方案不同,本发明针对不同的输入范围构建了特定模型,并使用目的应用程序的状态以及历史文本数据。此外,LMB引擎与目的应用程序进行通信以交换重要信息。本发明所获得的益处如下1.提供一种机制,开发工作在不同输入范围内并在所述输入范围内频繁切换的LMB引擎;2.每种语言模型彼此不同,甚至词汇也可以完全不同,从而LMB引擎更为灵活;
3.由于语言模型自适应是对当前的特定语言模型执行的,从而比通用语言模型自适应更有效且目的明确;4.由于LMB引擎可以与目的应用程序通信,从而可以开发具有其独特请求的新的目的应用程序,以及所述通信机制可以用于向语言模型集中增加新的语言模型,以完成新的请求。这意味着该方法向LMB引擎提供了良好的扩展性。
由于本发明具有上述益处,其可以增强语言模型的功能并改进LMB引擎的性能。


通过以下结合附图,对优选实施例的描述,本发明的这些和/或其他目的和特征将变得更加清楚而且更为容易理解,其中图1是根据本发明实施例的用于语言模型切换和自适应的装置的示意方框图;图2是根据本发明的装置的执行切换和自适应处理的部件的示意方框图;图3是描述了用于切换和自适应语言模型的方法的流程图;图4示出了本发明的语言模型集的逻辑结构图;图5是根据本发明的映射表的示意结构;图6是描述执行语言模型自适应的实例装置的示意图;图7是描述目的应用程序的状态变化的示例的示意图;图8是根据本发明示例的用于语言模型切换和自适应的装置的示意方框图;图9是根据本发明另一个示例的用于语言模型切换和自适应的装置的示意方框图。
具体实施例方式
图1示出了根据本发明的用于语言模型切换和自适应的装置的结构图。所述装置包括CPU 01,用于对所有应用程序提供计算功能;内部总线02,所述装置通过内部总线02在内存07和永久存储器04(可以是硬盘和闪存)之间交换数据;通用应用程序09,以及用户接口03,例如可以是用于按键输入的键盘和用于语音输入的麦克风,等等。永久存储器04存储有语言模型集05和一些其它数据06。所述装置还包括目的应用程序14,语言模型自适应部分12,语言模型切换部分11,通知管理器13和语言模型相关(LMB)的引擎10。
LMB引擎10通常使用语言模型并为应用程序提供语言模型相关的服务。例如,LMB引擎10是文本输入引擎或语音识别引擎。目的应用程序14是从LMB引擎10接收语言模型相关的服务的应用程序,例如,笔记本(Notepad),Word引用程序和邮件编辑器等。
语言模型集05管理用于不同状态的语言模型集。语言模型切换部分11在不同的语言模型中进行切换。通知管理器13在语言模型切换部分11和目的应用程序14之间传送通知信息。当目的应用程序的状态改变或发送了对特定语言模型的请求,通知管理器13将察觉这一变化,因此通知管理器13将向语言模型切换部分发送对特定语言模型的请求或目的应用程序的状态信息,从而语言模型切换部分11将当前的语言模型切换到合适的语言模型,以增强语言模型的性能。在接收到状态信息时,语言模型切换部分11根据一映射表将状态信息转换为对语言模型的请求并选择对应的语言模型。所述映射表作为其它数据06存储在永久存储器4上,图5将对其进行描述。
语言模型自适应部分12用于根据反馈的输入结果对语言模型执行自适应。当LMB引擎10通过使用当前激活的模型解码用户输入时,语言模型自适应部分12接收对输入解码的结果并根据解码的结果修改当前的激活语言模型。
因此,语言模型自适应部分12提供了使用来自LMB引擎10的获得的文本的解码结果的反馈通道,从而对当前激活的模型进行自适应。语言模型切换部分11和语言模型自适应部分12还提供了访问语言模型集的接口。通知管理器13用作这些组件之间的桥梁。
有时候,语言模型集05,语言模型切换部分11,语言模型自适应部分12以及通知管理器13可以合并为一个模块,或嵌入在LMB10引擎中。
图2示出了执行切换和自适应处理的图1所示装置中的主要部件的示意图。在图2中,仅示出了主要部件05,10,11,12,13和14。出于清楚描述的目的,目的应用程序的状态由14’表示。每个目的应用程序具有其对应状态14’,例如目的应用程序状态DAS4 141。当当前的目的应用程序变化(或仅仅是从同一个应用程序的一个输入区域切换到另一个输入区域并产生了新的请求)时,其状态变化了,通知管理器13将觉察到这一变化并通知语言模型切换部分,从而选择合适的模型(一个或多个)或修改当前模型(一个或多个)以适应特定状态。一个语言模型可以由多个目的应用程序状态(LAM2由DA1和DA2两者使用)使用,且一种应用程序状态也可能需要多种语言模型并将所述多个语言模型组合来完成其请求(LM3和LM4组合在一起为DAS2提供服务)。
在该图中,DAS4 141是当前激活的目的应用程序状态,以及语言模型0501是当前激活的语言模型。在DAS4 141和语言模型0501之间的虚线示出了这一关系,以及粗体虚线101和102示出了LMB引擎10使用了应用于当前激活的目的应用程序状态的当前激活的语言模型(一个或多个)。在语言模型切换部分11从语言模型集0501中为当前的目的应用程序DAS4 141选择合适的语言模型(一个或多个)时,反馈结果用于改进当前激活的语言模型0501,以及由语言模型切换部分12执行自适应的语言模型被表示为05011。LMB引擎10解码用户的输入并将解码的输入结果提供给语言模型自适应部分12,从而语言模型自适应部分12将当前激活的语言模型0501修改为自适应后的语言模型05011。如果反馈结果不可用,则省略所述自适应操作。
现在将参考图3和图1描述用于语言模型的切换和自适应的方法。图3示出了所述方法的总流程图。在S3010,目的应用程序的当前状态变化(意味着激活了当前目的应用程序的新的输入区域或激活了新的应用程序或从目的应用程序发送了对LM的请求)。在S3011,通知管理器13察觉出这一变化,并在S3012向语言模型切换部分11通知当前的状态信息或对语言模型的请求。在S3013,语言模型切换部分接收到这一通知,并在S3014根据当前的状态信息或对语言模型的请求选择相应的语言模型,其中当接收到状态信息时,语言模型切换部分先将所述状态信息解译为对语言模型的请求。在S3015,LMB引擎10使用新的激活的语言模型以便对从用户接收的输入进行解码,并在S3016将解码后的结果发送给目的应用程序14。此外,在S3017,将解码后的结果反馈到语言模型自适应部分12用于进行语言模型切换,因此,增强了相应模型的性能。
按照所述方式,通过执行S3015,s3016和S3017完成了解码和反馈自适应操作的循环。如果在S3018确定当前的目的应用程序状态14’并没有变化,则所述操作跳转至S3015并重复所述解码和自适应循环。否则如果当前的目的应用程序状态1400变化以及在S3019用户并不希望结束所述程序,则处理跳转至S3010并重复所述整个操作。
图4示出了本发明的语言模型集的逻辑结构。在图4中,示出了五个语言模型。语言模型LM1被标记为053。LM1 053指示了特定语言I的整个空间(如果需要的话多个语言模型的联合也是可以的)。部分052是语言I的空间的子集1。基于所述子集1构造LM1 053并描述其特增。子集是语言子空间,例如,汉语名称,家庭地址表示,ID身份证号(汉语中,存在针对ID身份证号的一些规则),等等。如图4所示,一种语言中可以有多个特定的语言模型,此外,两个或多个子集之间的重叠也是可以的。
图5示出了根据本发明的映射表的示意结构图。所述映射表将目的应用程序状态映射到对语言模型集中的一个或多个语言模型的请求。所述映射表帮助语言模型切换部分11和语言模型自适应部分12针对特定的目的应用程序状态选择合适的语言模型。
部分1411示出了目的应用程序状态。所述目的应用程序状态包括应用程序的名称,输入区域名称,输入区域ID等等。目的应用程序状态被映射到具体的请求,例如,部分11011,部分11012,部分11013等,或者说是映射到了具体的输入范围。之后,将请求映射到语言模型集05中用于所述输入范围的特定语言模型(例如模型0501,模型0502)。在示例映射表中,请求中的部分11012与单个模型0501对应,而请求中的部分11013与两个模型0501和0502相对应。如果目的应用程序提供了具体请求(即,对语言模型的请求),则语言模型切换部分将根据所述请求查找合适的语言模型,如果目的应用程序不能够提供具体的请求,但是提供了其状态,则语言模型切换部分先将该状态解译为具体的请求。
图6示出了执行语言模型自适应的示例装置。该图示出了在LMB引擎10为目的应用程序(即,短信管理器14)工作时如何执行语言模型自适应。
在短信管理器14中,列出了三个视图。SM(短信)编辑器用于编辑新的消息或应答输入的消息;SM收件箱和SM发件箱用于分别存储从其他人接收到的消息以及发出的消息。由于该图仅是为了描述自适应文本如何用于增强特定模型的性能,仅呈现了用于语言模型自适应的主要部件,这里省略了例如通知管理器13和语言模型切换部分11。语言模型切换部分从短信管理器获取文本流,并根据所述文本流修改语言模型集05中的当前语言模型0503。LMB引擎10使用增强的语言模型指导对用户输入进行的解码操作。
图7示出了描述目的应用程序的状态变化的示例的示意图。名片卡管理器是目的应用程序14的一个示例,其具有针对不同输入区域的多个不同的输入请求。用户输入信息填写名片卡管理器。如图7所示,部分1411是当前的输入区域,以及它具体地是公司名称输入区域。该请求将被通知管理器觉察,以及语言模型切换部分11从语言模型集05中选择合适的语言模型0504,并使用户的输入更为精确。
图8示出了根据本发明的一个示例的用于语言模型切换和自适应的装置的示意图。装置100工作在WinCE OS。
该图中示出的主要部件(通知管理器13)源自Microsoft MSDN文档,以及下列的描述部分源自MSDN文档。文本输入引擎10’是将用户的物理输入转换为有含义的内容,例如,汉字字符被编码为拼音,实际上,每个拼音是字母表字母的字符串并对应于发音。由于存在大量的汉字字符,不能够通过按键直接地输入汉字字符(实际上,不存在具有这么多按键的键盘)。相反地,用户输入拼音串,并从编码候选结果中选择所需的字符。由于汉字中存在太多的同音字,语言模型可以用于对所有候选词进行评分,特别是对于句子等级输入的方法,语言模型非常必要且有用。
在该图中,例如,目的应用程序14是Pocket WORD。文本输入引擎10’利用语言模型切换部分11和自适应部分12使用语言模型集05,从而为目的应用程序预测整个候选句子。文本输入引擎10’通过通知管理器13与目的应用程序14通信。
通知管理器13包括两个单元GWES图形用户接口1301和软键盘输入面板(SIP)1302。GWES图形用户接口1301是GWES(图形,窗口,和事件子系统,其包括核心MicrosoftWindowsCE大部分功能)模块,其提供低层系统支持。GWES图形用户接口1301为目的应用程序14检测状态变化。SIP1302实际上管理触摸屏并提供目的应用程序和文本输入引擎之间的通信支持。SIP1302是WinCE Os的一部分,其用于察觉目的应用程序的状态变化。SIP1302具有向文本输入引擎10’通知状态变化和请求来自文本输入引擎10’的动作和信息的机制。具体地,SIP1302包括功能接口(具体请参考Micrisoft开发者网络)并能够为通信执行多种操作。SIP1302可以向文本输入引擎10’通知目的应用程序14正在改变其状态,例如,目的应用程序的当前输入区域是请求输入汉语名称的名称输入区域,或当前输入区域是请求输入汉字古诗(古诗基本上完全不同于现代汉语,其中每个句子通常包括5或7个汉字,而一首诗一般包含4个短句)。此外,如果目的应用程序14知道它的请求奇特且文本输入引擎10’并不包括这种领输入范围的信息时,它还可以向语言模型集中添加特殊字典(lexicon)和新的语言模型,以便为特定输入范围增强输入性能。即,这种机制为文本输入引擎10’提供了良好的可扩展性。
语言模型切换部分11包括两个单元。一个单元是接收和解译单元1101,另一个单元是LM选择单元1102。接收和解译单元1101管理目的应用程序14的列表以及目的应用程序的对不同输入区域的相应请求。接收和解译单元1101接收状态信息并分析所述请求,或者将状态信息解译为对语言模型的具体请求。然后,将解译结果传送到LM选择单元以便确定应该使用哪个或哪些模型。
实际上,存在为语言模型切换部分11确定当前输入区域的请求的两种模式。一种是主动模式,另一种是被动模式。在主动模式中,目的应用程序获知由语言模型切换部分定义的具体的请求说明,并通过通知管理器13将对语言模型的请求直接发送到语言模型切换部分11。语言模型切换部分11接收到对语言模型的请求并切换模型。在被动模式中,目的应用程序并不知道语言模型切换部分定义的具体的请求说明,所以什么也不发送。语言模型切换部分应当查询目的应用程序的状态,例如,应用程序标题,输入区域标题,输入区域的ID等等。接收和解译单元1101获取所述信息并将该信息解译为具体的请求。有时候,主动模式和被动模式都用于确定请求。
语言模型自适应部分12对选出的语言模型进行自适应。必须指出语言模型自适应是对激活的模型执行的,而不是对整个模型集。在通知管理器13选择出合适的模型之后,文本输入引擎10’对来自用户的输入信息进行解码并将其提供给语言模型自适应部分12。因此,语言模型自适应部分12使用所述反馈结果来增强激活的语言模型。
根据本发明的所述示例,当目的应用程序的请求变化时,并不需要输入方法改变软键盘布局,仅需要加载不同的语言模型来完成当前的特定请求。
图9示出了根据本发明另一个示例的用于语言模型切换和自适应的装置的示意图。所述装置包括全局语言模型(LM)映射部分14001,目的应用程序14,通知管理器13,LMB引擎10,语言模型切换部分11,语言模型自适应部分12以及语言模型集05。全局LM映射部分14001根据其存储的标准化的语言模型输入范围划分说明将目的应用程序14的状态映射到语言模型。在所述说明中,语言域被划分为一些小域,每一个域分配有唯一的ID。划分的域对应于对语言模型的请求,以及所述说明中已经具体地规定了所述请求。例如,所述请求是如图5所示的汉语名称,英语名称。全局LM映射部分14001可以嵌入在所述装置的操作系统中。
因此,当目的应用程序的状态变化时,使用全局LM映射部分14001以及标准化请求标志来确定对应的具体请求,从而清楚地表示出所述请求。所述标准化请求标志(未示出)被嵌入在目的应用程序14中。该请求标志指示了在目的应用程序的状态发生变化时对语言模型的请求。通知管理器13与LMB引擎10、语言模型切换部分11以及语言模型自适应部分12一起操作,从而如果需要的话为当前的具体请求选择相应的语言模型并在需要时对特定语言模型进行自适应。
不同于图8,语言模型切换部分11包括接收单元1103,而不是接收和解译单元1101。语言模型接收单元1103仅接收具体请求,以及并不需要进行任何解译操作,因为目的应用程序利用全局LM映射部分14001知道其自己的请求,并将所述请求直接发送到通知管理器13。
尽管已经示出和描述了本发明,本领域的技术人员可以理解的是,在不偏离本发明的原理和精神的前提下,可以在本实施例中进行改变,本发明的范围由所附权利要求及其等价物限定。
权利要求
1.一种用于语言模型切换和自适应的装置,包括通知管理器,用于在目的应用程序的状态变化时,将目的应用程序的当前状态信息或对语言模型的请求通知语言模型切换部分;语言模型切换部分,用于根据接收的所述当前状态信息或所述请求从语言模型集中选择一个或多个要被切换的语言模型;基于语言模型的引擎,用于使用一个或多个选中的语言模型对用户的输入进行解码;语言模型自适应部分,用于接收解码的结果并根据所述解码的结果修改一个或多个选中的语言模型。
2.如权利要求1所述的装置,其中所述基于语言模型的引擎是语音识别引擎。
3.如权利要求1所述的装置,其中所述基于语言模型的引擎是文本输入引擎。
4.如权利要求1或3所述的装置,其中所述语言模型切换部分包括接收和解译单元,用于从通知管理器接收目的应用程序当前的状态信息或对语言模型的请求,并在接收到状态信息时通过搜索映射表将所述状态信息解译为对语言模型的请求;和语言模型选择单元,用于根据对语言模型的请求或对语言模型的解译的请求选择一个或多个要被切换的语言模型。
5.如权利要求1或4所述的装置,其中所述通知管理器包括GWES图形用户接口,用于检测目的应用程序的状态的变化;和软键盘输入面板,用于将目的应用程序的当前状态信息或对语言模型的请求通知语言模型切换部分。
6.如权利要求1所述的装置,其中语言模型集中的一个语言模型在一个语言域中与另一个语言模型重叠或不和另一个语言模型重叠。
7.如权利要求1所述的装置,其中还包括全局语言模型映射部分,用于将目的应用程序的状态映射到对应的一个或多个语言模型;其中目的应用程序利用请求标志和全局语言模型映射部分获知对语言模型的请求,并将对语言模型的请求发送到通知管理器。
8.如权利要求7所述的装置,其中语言模型切换部分包括接收单元,用于从通知管理器接收目的应用程序的对语言模型的请求;和语言模型选择单元,用于根据接收的请求从语言模型集中选择一个或多个要被切换的语言模型。
9.一种用于语言模型切换和自适应的方法,包括通知步骤,用于在目的应用程序的状态变化时,通知目的应用程序的当前状态信息或对语言模型的请求;语言模型切换步骤,用于根据通知的所述当前状态信息或所述请求从语言模型集中选择一个或多个要被切换的语言模型;解码步骤,用于使用一个或多个选中的语言模型对用户的输入进行解码;语言模型自适应步骤,用于接收解码的结果并根据所述解码的结果修改一个或多个选中的语言模型。
10.如权利要求9所述的方法,其中所述用户输入是用于语音识别的输入。
11.如权利要求9所述的方法,其中所述用户输入是文本输入。
12.如权利要求9或11所述的方法,其中所述语言模型切换步骤包括接收和解译步骤,用于接收目的应用程序当前的状态信息或对语言模型的请求,并在接收到所述状态信息时通过搜索映射表将所述状态信息解译为对语言模型的请求;和语言模型选择步骤,用于根据对语言模型的请求或对语言模型的解译的请求选择一个或多个要被切换的语言模型。
13.如权利要求11或12所述的方法,其中所述通知步骤包括检测步骤,用于检测目的应用程序的状态的变化;和通信步骤,用于通知目的应用程序的当前状态信息或对语言模型的请求。
14.如权利要求9所述的方法,其中语言模型集中的一个语言模型在一个语言域中与另一个语言模型重叠或不和另一个语言模型重叠。
15.如权利要求9所述的方法,其中所述方法还包括全局语言模型映射步骤,用于将目的应用程序的状态映射到对应的一个或多个语言模型;其中目的应用程序利用请求标志和全局语言模型映射步骤获知对语言模型的请求,并将对语言模型的请求发送到通知步骤。
16.如权利要求15所述的方法,其中语言模型切换步骤包括接收步骤,用于接收目的应用程序对语言模型的请求;和语言模型选择步骤,用于根据接收的请求从语言模型集中选择一个或多个要被切换的语言模型。
全文摘要
一种用于语言模型切换和自适应的装置,包括通知管理器,用于在目的应用程序的状态变化时,将目的应用程序的当前状态信息或对语言模型的请求通知语言模型切换部分;语言模型切换部分,用于根据接收的所述当前状态信息或所述请求从语言模型集中选择一个或多个要被切换的语言模型;基于语言模型的引擎,用于使用一个或多个选中的语言模型对用户的输入进行解码;语言模型自适应部分,用于接收解码的结果并根据所述解码的结果修改一个或多个选中的语言模型。以及一种用于语言模型切换和自适应的方法。从而增强了语言模型的输入,提高了用户输入的准确性。
文档编号G06F17/20GK101034390SQ20061005478
公开日2007年9月12日 申请日期2006年3月10日 优先权日2006年3月10日
发明者吴根清, 许荔秦 申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1