语言输入用户界面的制作方法

文档序号:6546138阅读:274来源:国知局
专利名称:语言输入用户界面的制作方法
技术领域
本发明涉及语言输入用户界面。更具体地说,本发明涉及可供输入语音文本并将其转换成语言文本的语言专用或多种语言字处理系统、电子邮件系统、浏览器等使用的语言输入用户界面。
背景技术
使用字母数字键盘(例如英语QWERTY键盘)的语言专用字处理系统已存在许多年了。字母数字键盘适用于采用小字母表,例如罗马字符集的语言。但是不是所有的语言都具有较小的字符库。例如,诸如中文、日文、韩文之类基于字的语言(也称为符号语言)可能具有数千个字。并不存在用于基于字的语言的语言专用键盘,因为实际上不能制造支持如此多的不同字的单独按键的键盘。
语言专用字处理系统允许用户从小的字符集键盘(例如QWERTY键盘)输入语音文本并把语音文本转换成基于字的语言的语言文本,而不是设计昂贵的语言和方言专用键盘。“语音文本”代表说指定语言时发出的语音,而“语言文本”代表当指定语言以文本形式出现时实际书写的字。例如就中文来说,拼音是语音文本的一个例子,汉字是语言文本的一个例子。一般,表述语音文本所需的字符集远远小于用于表述语言文本的字符集。通过把语音文本转换成语言文本,使用常规的计算机和标准的QWERTY键盘,可借助语言专用字处理器处理多种不同的语言。
为了便于用户输入语音文本,语言专用字处理系统通常采用语言输入用户界面(UI)。但是现有的语言输入界面的用户友好性不是很好,因为这些输入界面不易掌握并且不适应快速的击键速度。作为这种不友善性的一个例子,一些传统的语言输入用户界面使语音文本输入和转换后的语言文本输出分离。例如,用户可能在可视显示屏幕的一个位置输入语音文本,在该屏幕上的一个单独并且截然不同的位置呈现语言文本的转换字符。这两个位置甚至可能具有它们自己的本地光标。这种双重呈现会使用户弄错实际进行输入的地方。此外,用户必须在屏幕上的位置间不断扫视。
从而,现有的语言输入UI通常只由专业打字员使用,不被普通的个人计算机(PC)用户使用。在基于字符语言的国家中,这些利害关系显著影响PC应用的普及性。
一般,存在两种语言输入用户界面(1)基于代码的用户界面和(2)基于模式的用户界面。就基于代码的用户界面来说,用户记忆与语言单字相关的代码。代码由输入装置输入,并且被转换成所需的语言文本。一旦用户记住代码,则这种用户界面允许用户很快地输入文本。但是,这些代码通常不易于记忆,相反易于遗忘。
就基于模式的用户界面来说,输入语音文本并将其转换成所需的语言文本。基于模式的用户界面不需要用户记忆代码,但是一般要求用户在输入语言文本和编辑语言文本之间转换模式。在微软的通过利用语音-语言转换适合于外文,例如中文的“Word”商标字处理程序中采用了基于模式的用户界面的一个例子。当在“Word”程序中输入语音文本时,向用户呈现一个定域工具条,所述定域工具条使用户能够在用户输入语音字符(例如中文拼音)的输入模式和用户校正由于识别和转换程序的结果偶尔产生的不可避免的错误的编辑模式之间转换。
这些常规界面的一个缺陷在于用户必须了解当前的模式-输入模式或编辑模式-并且采取与文本输入无关的附加步骤(例如点击工具条控制按键)在模式之间进行转换。因此这种界面导致额外的用户工作,并且把用户的注意力从文本输入转向其它外围控制方面,从而显著降低输入速度。
从用户界面观点来看,基于模式的用户界面的另一问题涉及如何处理不可避免的转换错误。当识别和转换引擎把语音文本转换成不正确的语言字符时,产生转换错误。由于指定语言的本质和语音文本可用于预测预期字符的精度的缘故,产生转换错误是相当常见的。在用户转换到编辑模式之后,用户界面一般向用户提供纠正字符的一些方式。例如在微软的用于中国的“Word”商标字处理程序中,向用户提供包含可能的备选字符的方框。如果列表较长,则该方框提供滚动可能字符列表的控件。
传统的基于模式的用户界面的另一缺陷在于它们需要用于输入不同语言的模式转换。当用户正在输入语音文本并且想要输入第二种语言的文本时,用户必须转换模式以便输入第二种语言。例如,在微软的“Word”环境下,定域工具条提供使用户能够在输入第一种语言(例如中文拼音)和输入第二种语言(例如英文)之间切换的控制按键。用户必须有意识地启动该控制按键,以便通知预期语言的字识别引擎。
涉及语言输入UI的另一利害关系,尤其是从非专业打字员的观点来看,是打字错误。语音文本输入UI的一般用户尤其易于输入打字上的输入错误。打字错误的原因之一在于来自不同地区的用户通常使用基于字的语言的不同方言。由于他们的本地方言的缘故,用户拼错语音文本。语音文本方面微小的偏差会导致完全错误的字符文本。
因此需要一种改进的语音输入用户界面。

发明内容
本发明涉及一种智能地把用户输入的语音文本和从语音文本转换而来的语言文本结合到相同的屏幕区中的语言输入用户界面。该用户界面是无模式的,因为它不要求用户在输入和编辑模式之间转换。无模式的用户界面还适应多种语言的输入,而不要求在这些语言间进行明确的模式转换。从而对用户来说,该用户界面直观、易学并且友好。
在一种实现中,语言输入用户界面(UI)包括把语音文本和转换的语言文本结合起来的成行输入特征。具体地说,同时在和先前输入的语音文本及先前转换的语言文本相同的一行中显示用户正在输入的语音文本。在和先前转换的语言文本相同的一行中显示输入的语音文本使用户能够把他们的注意力集中到同一行中,从而产生更直观和更自然的用户界面。
语言输入UI支持语言文本编辑操作,包括1)添加语言文本;2)删除语言文本;3)用一个或多个候选替换语言文本替换选择的语言文本。用户界面使用户能够通过手动键入稍后能够被转换成新的语言文本的新的语音文本,选择语言文本并替换它。另一方面,用户界面提供候选语言文本的一个或多个列表。首先和选择的要改变的语言文本一起提供一个浮动列表。按照这种方式,在句子结构中原位提供候选语言文本,使用户能够使上下文语法关系方面的纠正形象化。按照根据候选文本的选择实际上是用户最初的预期选择的概率等级或者概率分数的分类顺序,提供候选文本列表。该层次结构可以概率、字的笔划或者其它量度为基础。最前面的候选文本是给予该句子最高分数的候选文本,之后是给予该句子次高分数的第二候选文本,依次类推。
当用户滚动该列表时,在语境菜单内更新该列表。另外,沿滚动操作的方向以动画移动的形式表示当前的视觉选择。动画显示有助于用户确定正被滚动的列表有多长或者有多快。一旦用户选择替换文本,则在句子内语言文本的位置插入选择的替换文本,从而使用户能够把注意力集中于正被编辑的一行。
语言输入UI的另一特征在于使用户能够针对正被编辑的语言文本查看先前输入的语音文本。用户可选择先前输入的语音文本,并且当选择时,在语言文本的位置显示先前输入的语音文本。随后可编辑该语音文本并将其转换成新的语言文本。
语言输入用户界面的另一特征是基于句子的自动转换特征。就基于句子的自动转换而论,在输入后续的语音文本之后,句子内先前转换的语言文本还可被自动转换成不同的语言文本。一旦结束句子,例如由句号指示,则该句子中的语言文本就被固定,不能因为输入后一句子中的输入文本而被进一步自动转换成不同的语言文本。要认识到在备选实施例中可使用基于短语的自动转换或者类似的自动转换。
语言输入用户界面的另一特征是具有语言文本确认的基于句子的自动转换。在语音文本被转换成语言文本之后,用户可确认刚刚转换的语言文本,从而不再由于句子语境的缘故进一步自动转换刚刚转换的语言文本。
语言输入界面的另一特征是能够在不转换模式的情况下处理多种语言。当和语音文本互混时,第二种语言的字词或符号被看作是特殊的语言输入文本并且被显示为第二语言文本。从而,当输入不同的语言时,不要求用户转换模式。
根据下述具体说明并且参考相关附图,表征本发明的这些及其它各种特征和优点将是显而易见的。


在附图中,相同的数字用于表示相同的组件和功能元件。
图1是具有实现语言输入体系结构的语言专用字处理器的计算机系统的方框图。语言输入体系结构包括语言输入用户界面(UI)。
图2是语言输入用户界面的一种实现的屏幕显示的示意图。图2图解说明语言输入UI的成行输入特征。
图3是语言输入UI的屏幕显示的示意图,它表示了自动转换特征。
图4是语言输入UI的屏幕显示的示意图,它表示基于句子的自动转换特征。
图5是语言输入UI的屏幕显示的示意图,它表示原位纠错特征和语音文本提示特征。
图6是语言输入UI的屏幕显示的示意图,它表示第二候选文本列表特征。
图7是语言输入UI的屏幕显示的示意图,它表示原位语音文本纠正特征。
图8是语言输入UI的屏幕显示的示意图,它表示图7的原位语音文本纠正的后续屏幕。
图9是语言输入UI的屏幕显示的示意图,它表示图7和8的原位语音文本纠正的后续屏幕。
图10是语言输入UI的屏幕显示的示意图,它表示包含多种不同语言的混合文本的输入。
图11是利用语言输入用户界面输入文本的方法的流程图。
图12是成行输入子过程的流程图。
图13是自动转换子过程的流程图。
图14是具有确认的字符文本的自动转换子过程的流程图。
图15是原位纠错子过程的流程图。
图16是具有第二候选文本列表的原位纠错子过程的流程图。
图17是语音文本提示子过程的流程图。
图18是原位语音文本纠正子过程的流程图。
图19是成行输入混合语言文本子过程的流程图。
图20图解说明例证的用户输入和所得到的例证的中文输入用户界面的屏幕镜头,它表示了成行输入特征的一个例子。
图21图解说明例证的中文输入用户界面的例证屏幕显示,它表示拼音文本提示特征的一个例子。
图22图解说明例证的用户输入和所得到的例证的中文输入用户界面的屏幕镜头,它表示了原位纠错特征的一个例子。
图23图解说明例证的用户输入和所得到的例证的中文输入用户界面的屏幕镜头,它表示了原位拼音文本纠正特征的一个例子。
图24图解说明例证的用户输入和所得到的例证的中文输入用户界面的屏幕镜头,它表示了英文/中文的混合输入特征的一个例子。
图25图解说明例证的用户输入和所得到的例证的中文输入用户界面的屏幕镜头,它表示了第二候选文本列表的一个例子。
图26图解说明例证的用户输入和所得到的例证的中文输入用户界面的屏幕镜头,它表示了具有字符确认的基于句子的自动转换特征的一个例子。
图27图解说明了语音文本(例如中文拼音文本)及其相应的字文本(例如中文字文本)的定义,以及非语音文本(例如字母数字文本)的定义。
具体实施例方式
本发明涉及简化语音文本输入和到语言文本的转换的语言输入用户界面。为了便于说明,在由通用计算机执行的字处理程序的一般环境下说明本发明。但是,本发明可在除字处理之外的许多不同环境(例如电子邮件系统、浏览器等)中实现,并且可在许多不同类型的装置上实施。
系统结构图1表示具有中央处理器(CPU)102、存储器104和输入/输出(I/O)接口106的例证计算机系统100。CPU102与存储器104和I/O接口106通信。存储器104代表易失性存储器(例如RAM)和非易失性存储器(例如ROM、硬盘等)。
计算机系统100具有通过I/O接口106连接的一个或多个外围设备。例证的外围设备包括鼠标110、键盘112(例如字母数字QWERTY键盘、速写键盘等)、显示监视器114、打印机116、外围存储器118和麦克风120。该计算机系统可实现为例如通用计算机。因此,计算机系统100实现存储在存储器104中并在CPU102上执行的计算机操作系统(图中未示出)。操作系统最好是支持窗口环境的多任务操作系统。一种适宜的操作系统是来自微软公司的Windows操作系统。
注意也可使用其它计算机系统结构,例如手持式设备、多处理器系统、基于微处理器或者可编程的消费电子装置、网络PC、迷你计算机、大型计算机等等。另外,虽然图1中图解说明了独立的计算机,不过语言输入UI可在分布式计算环境中实现,在分布式计算环境中由通过通信网络(例如LAN、因特网等)链接的远程处理设备执行任务。在分布式计算环境中,程序模块既可位于本地存储器中又可位于远程存储器中。
数据或字处理程序130保存在存储器104中并在CPU102上执行。其它程序、数据、文件等也可保存到存储器104中,不过为了便于说明没有表示出。字处理程序130被配置成接收语音文本并且自动将其转换成语言文本。更具体地说,字处理程序130实现语言输入体系结构131,为了便于说明,所述语言输入体系结构131被实现为存储在存储器中并且可在处理器上执行的计算机软件。除了体系结构131之外,字处理程序130还可包括其它组件,但是对于字处理程序来说,这些组件被认为是标准化的,因此将不具体表示或说明这些组件。
字处理程序130的语言输入体系结构131具有用户界面(UI)132、搜索引擎134、语言模型136和打字模型137。体系结构与语言无关。UI132和搜索引擎134是通用的,可用于任何语言。通过改变语言模型136和打字模型137,体系结构131适合于特定的语言。体系结构的更详细说明参见同时待审的申请序列号No.__,“Language Input ArchitectureFor Converting One Text Form To Another Text Form With ToleranceTo Spelling,Typographical,And Conversion Errors”和序列号No._,“Language Input Architecture For Converting One Text Form toAnother Text Form With Modeless Entry”,这两件同时待审的申请作为参考包含于此。
搜索引擎134、语言模块136和打字模型137一起构成语音文本-语言文本转换器138。对于本公开文献来说,“文本”意味一个或多个字符和/或非字符符号。“语音文本”一般指的是代表当说指定语言时发出的声音的字母数字文本。“语言文本”是表示书面语言的字符和非字符符号。“非语音文本”是不代表当说指定语言时发出的声音的字母数字文本。非语音文本可包括除语言文本之外代表书面语言的标点符号、特殊符号和字母数字文本。
图27表示语音文本、转换后的语言文本和非语音文本的一个例子。该例中,语音文本是可被翻译成“hello”的中文拼音文本。例证的字符文本是同样可被翻译成“hello”的中文汉字文本。例证的非语音文本是一串字母数字符号文本“@3m”。为了便于说明,在基于中文的字处理器的方面说明字处理器130,语言输入体系结构131被配置成把拼音转换成汉字。即,语音文本是拼音,语言文本是汉字。
但是,语言输入体系结构与语言无关,并且可用于其它语言。例如,语音文本可以是日语口语,而语言文本代表日文书面语言,例如日本汉字。存在许多其它例子,包括(但不局限于)阿拉伯语、朝鲜语、印度语、其它亚洲语言等等。
更一般地说,语音文本可以是以基于罗马字的字符集(例如英文字母表)表示的任意字母数字文本,所述基于罗马字的字符集表示当说指定语言时发出的声音,而当被书写时,所述指定语言并不采用基于罗马字的字符集。
通过一个或多个外围输入设备,例如鼠标110、键盘112或麦克风120输入语音文本。按照这种方式,允许用户利用键盘输入或者口头语言输入语音文本。在口语输入的情况下,计算机系统还可实现语音识别模块(图中未示出),以便接收口语单词并将其转换成语音文本。下面的讨论假定在实际大小的标准字母数字QWERTY键盘上进行借助键盘112的文本输入。
当输入语音文本时,UI132显示该语音文本。UI最好是图形用户界面。用户界面132把语音文本(P)传递给搜索引擎134,搜索引擎134再把语音文本传递给打字模型137。打字模型137产生可能是用户预期的语音文本的适宜版本的各种打字候选文本(TC1,…TCN),假定语音文本可能包括错误。打字模型137把打字候选文本返回给搜索引擎13,搜索引擎13再将其传递给语言模型136。语言模型136产生以语言文本书写的可能代表用户预期的语音文本的转换形式的各种转换候选文本(CC1,…CCN)。转换候选文本与打字候选文本相关。从语音文本到语言文本的转换不是一对一的转换。相同或相似的语音文本可能代表语言文本中的若干字符或符号。从而,在转换成语言文本之前,解释语音文本的上下文。另一方面,非语音文本的转换一般是直接的一对一转换,其中显示的字母数字文本和字母数字输入一样。
转换候选文本(CC1,…CCN)传回给搜索引擎134,搜索引擎134进行统计分析,确定哪一个打字候选文本和转换候选文本最有可能成为用户预期的打字文本和转换文本。一旦计算出概率,则搜索引擎134选择概率最大的候选文本,并把转换文本的语言文本返回给UI132。UI132随后在显示画面的同一行中用转换候选文本的语言文本替换语音文本。同时在新插入的语言文本的前一行中继续显示新输入的语音文本。
如果用户希望改变搜索引擎134选择的语言文本,则用户界面132提供按照抉择实际是预期回答的似然性排序的第一其它高概率候选文本列表。如果用户仍然对可能的候选文本不满意,则UI132提供第二列表,所述第二列表提供所有可能的选择。第二列表可按照概率或者其它量度(例如中文字符的笔划数或者复杂性)排序。
语言输入用户界面剩下的说明将特别针对用户界面132的特征。具体地说,用户界面132在视觉上把输入的语音文本的显示和转换后的语言文本的显示集合到屏幕上的同一行中。在语音文本和转换后的语言文本如何可视地出现在显示屏幕上这方面说明许多特征,例如窗口或菜单或光标的出现和定位。注意这些特征由用户界面132单独支持或者由用户界面132和操作系统一起支持。
图2-10图解说明语言输入用户界面132的一个例证实现的各种屏幕显示。在图2-10中使用符号“P”表示已输入并且已显示在UI中,但是还未被转换成语言文本的语音文本。符号“C”表示从输入的语音文本P转换来的已转换语言文本。对各个语音文本P使用下标,例如P1,P2,…PN及对各个已转换语言文本C使用下标,例如C1,C2…CN,以表示单个的语音文本和转换后的语言文本。
集合的成行(In-Line)文本输入/输出图2表示由语言输入UI132单独或者结合操作系统给出的屏幕显示200。在该图中,屏幕显示200类似于通常的图形窗口,例如由微软的Windows操作系统产生的那些窗口。图形窗口适合于供语言输入使用,并且给出成行输入区202,在成行输入区202中输入语音文本并且随后将其转换成语言文本。图2中由平行的虚线形象地表示成行区202。
输入光标204标记当前位置,在所述当前位置将输入下一语音文本。图形UI还可包括若干工具条,例如工具条206、208、210、212,或者依赖于应用程序的其它功能特征,例如字处理器、数据处理器、电子数据表、因特网浏览器、电子邮件、操作系统等等。在字或数据处理领域中工具条为人们熟知,不进行详细说明。
成行输入区202集合语音文本P的输入和转换后的语言文本C的输出。这使用户能够把注意力集中在单一屏幕区上。当用户输入语音文本(借助键盘输入或者语音输入)时,沿第一方向(例如横越屏幕的水平方向)成行显示语音文本P。依据转换后的语言文本C1C2和输入的语音文本P1P2P3决定输入光标204的位置,或者输入光标204与转换后的语言文本C1C2和输入的语音文本P1P2P3成一直线。图2中,输入序列从左到右,输入光标204位于先前输入的语音文本P1P2P3的右侧。将认识到沿阅读指定语言的相同方向输入文本在本发明的范围之内,本实现中说明的“从左到右”输入序列只是一个例子。此外,要认识到语言输入UI事实上能够沿任意方向,包括(但不局限于)垂直方向、对角线方向等成行输入。其它成行格式也是可能的,包括其中在用户看来成行输入功能似乎远离或接近用户的各种三维格式。
自动转换当用户输入语音文本P时,转换器138自动把语音文本转换成转换后的语言文本C。一般来说,在语音文本P被转换成语言文本C之前,会输入一些语音文本元素P(例如1到6个语音文本元素P)。
当进行转换时,在如同由成行区202所示的和语音文本P相同的行中呈现转换后的语言文本C。当用户继续输入语音文本时,和先前转换的语言文本C成一行地显示最新输入的语音文本P。例如在图2中,和最近转换的语言文本C1C2成一行地显示语音文本P1P2P3。和先前转换的语言文本C成一行地显示输入的语音文本P使用户能够使他们的注意力集中到同一行上,从而使输入过程更直观和自然,另外还允许更快的输入。
当用户继续输入语音文本P时,用户界面实时地自动把语音文本P转换成语言文本C,用户不必转换模式。如图3的例子中所示,一旦用户输入语音文本P4,先前的语音文本P1P2P3就被自动转换成语言文本C3。用户继续输入语音文本P4P5P6P7,而不必转换模式或者踌躇。
从语音文本到语言文本的转换是由语言模型136控制的自动过程。语言文本C3被选择为所有可能语言文本中概率最高的语言文本,并且这样被用在自动转换中。但是用户键入越多,所考虑的上下文越大。因此,当进一步输入诸如P4P5P6P7之类的语音文本时,语言文本C3可能被改变成不同的语言文本。
语言输入体系结构131可被配置成使根据另外的输入文本的输入对转换后的语言文本进行改变的次数降至最低。在某些情况下,有可能转换后的语言文本随输入文本的各个输入字改变,实质是在两个或者更多的可能解释间翻转,在指定上下文关系中,所述两个或者更多的可能解释具有成为用户预期文本的近似相同可能性。语言文本的持续翻转在视觉上可能分散用户的注意力。
为了使文本翻转降至最少,转换器138可实现一个或多个基于概率的规则,所述规则规定保持当前的语言文本,除非存在指定另一上下文的更大可能性。这样,当从统计观点来看,第二语言文本只是稍好时,转换器138不愿意把转换后的语言文本改变成第二语言文本。重要程度随着上下文而变化。例如,转换器138可被配置成只有当修改的语言文本的似然性比它将要替换的语言文本大至少5个百分点时,才修改语言文本。
基于句子的自动转换和确认的自动转换如果对很长的一串文本(例如文本段落)进行转换,用户可能会觉得不舒适。就用户界面的一种实现而论,从语音文本P到语言文本C的自动转换是基于句子的自动转换。换句话说,一旦完成一个句子,则当在后一句子中输入语音文本P时,该句子中的的语言文本C将不再被自动转换成不同的语言文本C。基于句子的自动转换特征显著降低了用户的打字错误,并且防止先前的句子持续不断地自动转换。
应理解,可以其它多种方式确定句子。例如,句子可被定义为某一预定标点符号内的一串文本,例如两个句点之间的一串文本,各种预定标点符号之间的一串文本,包含某些文本元素的一串文本等等。一旦用户输入标点符号,则在该标点符号和前一标点符号(如果有的话)之间输入的一串文本被看作为一个句子。当用户在后续句子中输入语音文本时,该句子中的一串转换后的语言文本C不再被自动转换。本领域中的技术人员将认识到如果需要,自动转换可基于两个或多个句子。
图4图解说明借助标点符号确认句子时的屏幕显示200。除了确认句子之外,标点符号的输入一般会使句子尾部的语音文本P被自动转换成语言文本C。例如如图4中所示,一旦输入逗号400,语音文本P4P5P6P7被转换成语言文本C4。该串语言文本C1C2C3C4现在被看作句子。转换后的语言文本C1C2C3C4将不再自动转换。
除了基于句子的自动转换之外,用户可在从输入的语音文本P进行转换之后明确确认一个或多个转换的语言文本C。用户可通过在键盘输入用户命令(例如空格键输入)确认刚刚转换的语言文本C,从而刚刚转换的语言文本C将不再由于句子的上下文关系而被自动转换。后面参考图20和24说明这一特征的一个详细例子。
延迟转换就多种语言而论,和语音文本相比,用户通常更习惯于阅读和纠正语言文本。当输入语音文本时,在试图确定输入的文本是否正确之前,用户通常等待转换。对于与拼音字符相比更喜欢阅读并纠正中文汉字字符的中文用户来说更是如此。
考虑到这种用户特性,语言输入体系结构131被设计成仔细考虑何时把语音文本转换成语言文本。一般来说,当转换器确信转换后的语言文本是用户预期的文本时进行转换。就UI环境来说,该问题变成在任意时刻应显示语音文本的多少字符,以致最后的转换产生当用户输入更多的语音文本时不可能被修改的语言文本。转换过快会在转换后的语言文本中产生更多的错误,从而迫使用户更频繁地纠正转换后的语言文本。转换太慢会产生向用户呈现长串的语音文本,而不是所需的语言文本的烦扰。
作为转换过早和转换过迟之间的折衷,语言输入体系结构可被配置成延迟转换,直到输入最佳数目的语音字符,从而确保高的转换精度为止。实践中,该体系结构被设计成延迟选择转换后的文本和在语音文本的位置显示转换后的语言文本,直到输入最小数目的字符之后和输入最大数目的字符之前为止。例如,适合于中文的语言输入体系结构可被配置成当输入并在UI中显示至少一个拼音字符和最多六个拼音字符时,把拼音文本转换成汉字文本。
根据一种实现,语言输入体系结构执行一组规则,以便相对于指定的上下文关系,确定在选择并显示转换后的语言文本之前,可输入的语音字符的最佳数目。这些规则可如下总结为规则1总是显示最后(即最近输入的)输入字符。
规则2在输入和显示多个输入字符之后,评估可能匹配的候选文本中一个或多个字符的头N个转换候选文本。如果对于所有N个转换候选文本,至少一个转换后字符相同,则把构成输入文本一部分的至少一个输入字符转换成输出文本中的匹配转换字符。
规则3如果第一个最可能的转换候选文本得分显著高于第二个最可能的转换候选文本,则把至少一个输入字符转换成第一转换候选文本的字符。
无模式编辑图5-9图解说明该体系结构支持的无模式编辑特征的例证实现。用户界面使用户能够从输入模式无缝地转变到编辑模式,而不需要明显的模式转换操作。此外,编辑模式支持传统的编辑功能,例如语言文本的添加、删除和替换。本发明允许通过输入新的语音文本或者从至少一个候选替换语言文本列表中选择替换语言文本,来替换语言文本。
原位错误纠正图5表示具有各种编辑特征的屏幕显示200。为了便于说明,假定用户通过输入标点符号400已确认语言文本C1C2C3C4(图4之前),现在希望编辑确认的语言文本C1C2C3C4。用户把光标204的位置改变到确认的语言文本C1C2C3C4内的所需位置。可以多种不同方式完成光标定位,包括(但不局限于)方向键、鼠标点击或口头命令。图5图解说明重新定位到语言文本C3前,以便选择该字符进行编辑的光标204。
一旦光标204被定位到语言文本C3前,则用户输入一个或多个用户命令,调用编辑窗口或者编辑框500,所述编辑窗口或编辑框500在包含要编辑字符的文本处叠加在成行区202上或者附近。可以本领域中众所周知的几种方式中的任意方式实现用户命令,包括(但不局限于)按下键盘112上的换码键“ESC”。
在图解说明的实现中,编辑窗口或编辑框500沿垂直于成行文本的第一方向(例如水平方向)的第二方向(例如垂直方向)在语言文本C3附近弹出。弹出式编辑窗口500具有两个部分输入文本提示窗口502和可滚动的候选文本窗口504。这些部分最好由共同的用户命令同时调用。用户先前输入的字符C3的对应语音文本P1P2P3直接出现在输入文本提示窗口502上方,并且与正被编辑的语言文本C3垂直成一直线。显示输入的语音文本P1P2P3允许用户查看先前他们关于语言文本C3输入的是什么,并且如果需要的话对其进行编辑。输入文本提示窗口502具有布置在顶部的向上滚动条506。激活该向上滚动条506导致语音文本P1P2P3进入句子中,并且替换语言文本字符C3。
候选文本窗口504包含具有和语言文本C3相同或相似语音文本的至少一个候选替换语言文本C3a,C3b,C3c,C3d的可滚动列表。候选文本窗口504被布置成垂直于包含语言文本C1C2C3C4的成行输入区202,直接位于语言字符C3下方,并与语言字符C3垂直成一直线。上标被用于表示不同的语言文本字符,例如C3a,C3b,C3c和C3d。当存在比候选文本窗口504中能够显示的更多的候选文本时,在候选文本窗口504的底部呈现向下滚动条508。用户可选择(例如点击)向下滚动条508查看另外的替换语言文本。原位窗口502和504的一个特征是可动画显示滚动操作,从而展示向上或向下移动的候选文本。这向用户提供每次滚动该列表一个条目的视觉反馈。
如图所示,输入文本提示窗口502中的语音文本P1P2P3和候选文本窗口504中的候选替换语言文本C3a,C3b,C3c,C3d另外有数字0、1、2、3、4作为引用编号。可以不同的方式实现替换语言文本的编号方法和候选文本窗口504的大小。就一种实现而论,候选文本窗口504的尺寸有限,并且只列出概率最大的头四个替换语言文本。
最好按照某一顺序或者等级排列候选文本窗口504中的候选语言文本C3a,C3b,C3c,C3d。例如,顺序可以候选文本实际上是用户最初预期的文本的概率或者可能性为基础。该概率由搜索引擎134结合由语言模型136返回的候选文本计算得到。如果指定上下文中某一替换语言文本的概率高于指定上下文中另一替换语言文本的概率,则在靠近于要编辑的语言文本处用较低引用编号显示具有较高概率的替换语言文本。
用户可随意地选择语音文本P1P2P3或者通过输入适当的引用编号选择替换语言文本C3a,C3b,C3c,C3d之一替换字符文本C3,或者通过其它常见的技术(指向并点击选择的选项)替换字符文本C3。选择的替换文本随后代替成行文本中的字符C3。一旦用户选择某一候选文本,则弹出式编辑窗口500可被配置成自动消失,留下纠正后的文本。另一方面,用户可利用常规方法,例如用鼠标点击窗口502和504外面,明确关闭文本提示窗口502和候选文本窗口504。
由原位窗口502和504实现的文本替换特征被称为原位纠错特征。在要替换的语言文本C3的原位显示选择的语音文本P1P2P3或者从替换语言文本C3a,C3b,C3c,C3d中选择的一个语言文本。原位纠错特征使用户能够把注意力集中于最接近于包含要编辑的语言文本的一串语言文本。
第二候选文本列表图6图解说明类似于图5中所示的屏幕显示200,不过还表示了与第一候选文本窗口504分离并且邻近第一候选文本窗口504的第二候选文本窗口600。第二候选文本窗口600列举和要编辑的字符文本C3的相应语音文本P1P2P3具有相同或相似的语音文本的替换语音文本的更大或者有可能完整的列表。输入文本提示窗口502中的语音文本P1P2P3和候选文本窗口504中的替换语言文本C3a,C3b,C3c,C3d同样列举在第二候选文本窗口600中。在备选实施例中,在第二候选文本窗口600中只列举另外的替换候选文本。
为了打开第二候选文本窗口600,用户输入命令,例如在候选文本窗口504中有效的同时,按下键盘上的右箭头键。用户随后可借助适当的命令,例如鼠标点击或者键盘输入,选择所需的替换语言文本。用户可在文本字符之间移动中心点602。
第二候选文本窗口600中的候选文本也可按照某一顺序排列,不过不必按照用于第一候选文本窗口504的相同的排队技术。如处理第一候选文本窗口504中的候选文本那样依据概率分数进行分类一般不适用于全部候选文本窗口600,因为许多候选文本之间的变化较小,并且没有意义。对于在该环境中确定特定候选文本的位置,用户可能没有直观感受。因此,第二候选窗口600尝试按照能够直观发现所需候选文本的其它一些方式对候选文本排队。
可用于把第二候选文本窗口600中的候选文本(尤其是在日语和汉语的情况下)的一种量度是字符或符号的复杂程度。例如,对于一系列中文候选文本来说,可按照构成该候选文本所需的笔划数列举候选文本。笔划顺序为搜寻所需语言文本的用户施加一些切实感受。用户可快速扫视窗口600中含有复杂程度看起来相似的字符的特定区域。这种排队量度并不是用来使用户计数或者知道准确的笔划数,而只是产生有效、始终一致并且视觉上可识别的分类顺序。
要关闭窗口600,用户输入一个命令,例如在键盘上进行键盘输入或者在窗口600外点击鼠标。要认识到在本领域中窗口的开/关,窗口中的向上/向下滚动和向左/向右滚动,以及窗口中的向上/向下滚动的控制为人们熟知,不作详细说明。
原位语音文本纠正图7-9表示各种情况下的一系列屏幕显示200,从而图解说明图5中所示的语音文本P1P2P3的原位语音文本纠正。本例中,用户确定输入文本提示窗口502中的语音文本P1P2P3不正确。正确的语音文本应为P1aP2P3。为了纠正该语音文本,用户首先从输入文本提示窗口502中选择语音文本P1P2P3。
图7表示在正被编辑的文本字符C3的位置显示选择的语音文本P1P2P3。用户随后可通过把P1改变为P1a编辑该语音文本。
图8表示语音文本被改变成P1a后的UI。文本提示窗口502同样被更新以反映这种变化。作为编辑操作的结果,在候选文本窗口504中显示具有相同或相似编辑语音文本P1aP2P3的至少一个新的替换语言文本C3j。用户随后可在候选文本窗口504中选择替换语言文本(例如C3j)。
图9表示选择的代替编辑的语音文本P1aP2P3的替换文本C3j。在备选实施例中,编辑的语音文本可被自动转换成最可能的新的替换语言文本。
混合语言输入语言输入体系结构还被进一步配置成区分两种或多种语言。第一种语言被检测为语音文本,并被转换成语言文本,而第二种语言被检测为非语音文本并被原样保持。当用户输入文本时,UI132在同一行中同时呈现两种语言。该技术有益于消除当输入多语言文本时,在两种输入模式之间转换的需要。就用户而论,该用户界面是无模式的。
图10图解说明该用户界面的屏幕显示200,并且示范两种不同语言的混合文本的组合处理和呈现。符号“A”代表第二语言文本的字符。第二语言A是非语音语言,其中第二语言文本A被显示为用户的输入。例如,第一语言是中文汉字,第二语言是英语。要认识到多种语言可以是任意数目的不同语言。
在一种实现中,用户可输入混合语言文本,其中之一中是可转换为语言文本C(例如汉字)的语音文本(例如拼音)。基于字符的语言的语音文本P和语言文本A成行显示,直到语音文本P被自动转换成语言文本C为止,语言文本C和第二种语言的语言文本A成行显示。图10图解说明在相同成行区域202内的输入语音文本P、转换后的语言文本C和第二语言文本A。
不同的字体或颜色可用于区分语音文本P和非语音文本A。例如,以第一种字体或颜色显示语音文本P,而以不同于第一种字体或颜色的第二种字体或颜色显示非语音文本A。除了字体或颜色之外,其它技术可用于在视觉上区分语音文本P和非语音文本A。
一般的UI操作图11-19图解说明由语言输入体系结构实现的方法。这些方法被实现为语言输入用户界面的一部分,以方便语音文本的输入和编辑,以及转换后的语言文本的编辑。图11图解说明一般过程,而图12-19更详细地图解说明某些操作。辅助参考图2-10的屏幕显示说明这些方法。
图11表示通过语言输入用户界面输入文本的方法1100。在操作1102,用户界面使用户能够在公共成行区202内输入文本。在所描述的实现中,输入文本是语音文本,例如中文拼音。该输入文本被自动转换成基于字的语言的语言文本,例如中文汉字(操作1104)。前面参考图1说明了这种转换的一种例证实现。如果读者感兴趣,可在所包含的同时待审的申请,序列号No.__,“Language Input Architecture For ConvertingOne Text Form to Another Text Form With Tolerance To Spelling,Typographical,And Conversion Errors”和序列号No.__,“LanguageInput Architecture For Converting One Text Form to Another Text FormWith Modeless Entry”中找到更详细的说明。
操作1106确定用户是否想要在转换后编辑语言文本,由光标重新定位或者明确的命令指出。如果是(即,来自操作1106的“是”分支),则UI接收最接近要编辑字符的光标的用户重新定位(操作1108)。如图5中所示,光标可被重新放置到语言文本字符的前面。
在步骤1110,如图5中所示,UI响应用户命令打开编辑窗口500。编辑窗口500包括用于替换语言文本的第一候选文本列表504。如果在候选文本列表504中不存在适当的候选替换文本,则用户可决定调用如图6中所示的第二候选文本列表窗口600。操作1112确定用户是否已请求第二候选文本窗口600。如果在第一候选文本窗口504中可获得适当的候选文本,从而用户决定不打开第二候选文本列表窗口(即来自操作1112的“否”分支),则用户可从第一候选文本列表窗口中选择替换语言文本,替换要编辑的语言文本(操作1114)。
另一方面,如果用户调用第二候选文本窗口(即来自操作1112的“是”分支),则UI打开第二候选文本列表窗口,并且允许用户选择用于替换被编辑的语言文本的替换语言文本(操作1116)。随后代替成行区202中的语言文本显示选自第一候选文本列表窗口504或者第二候选文本列表窗口600的替换语言文本(操作1118)。在操作1106继续该操作流程。
如果用户不想编辑文本(即来自操作1106的“否”分支),则UI确定用户是否继续输入文本,由用户改变光标位置并且继续输入字符指出(操作1120)。如果用户的操作倾向于暗示继续输入文本,则光标被移回位于当前部分末端的输入位置(操作1122),并且在输入成行操作1102中继续操作流程。如果用户不想继续,则终止该过程。
成行输入操作1102和1104图12图解说明成行输入子过程1200,它是图11的操作1102和1104的例证实现。图2和3中图解说明了描绘该子过程的例证屏幕显示。
在操作1202,UI接收来自输入装置(例如键盘、语音识别)的输入语音文本串(例如拼音)。语言输入UI在和先前转换的语言文本相同的成行区202内显示该语音文本(操作1204)。语音文本-语言文本转换器138在操作1206中把该串语音文本转换成语言文本(例如汉字)。语言输入UI用转换后的语言文本串替换该语音文本串,并在成行区202中显示该语言文本(操作1208)。随后退出子过程1200。
基于句子的转换操作1104图13图解说明自动转换子过程1300,它是操作1104的另一例证实现。图3和4中图解说明了描绘该子过程的例证屏幕显示。
在操作1302,语言输入体系结构接收用户通过输入装置输入的一串语音文本。语言输入UI在成行区202中显示输入的语音文本(操作1304)。在操作1306,语言输入体系结构确定该语音文本是属于已有的句子还是属于新的句子。这种确定可以用户是否已输入某些形式的标点符号,例如句号或逗号为基础。
如果输入的语音文本属于新的句子(即来自操作1306的“新句子”分支),则输入的语音文本被自动转换成语言文本,而不考虑前一句子中前一文本的内容(如果有的话)(操作1308)。相反,如果输入的语音文本不属于新的句子(即来自操作1306的“现有句子”分支),则在该句子的上下文关系内自动转换该句子中的语音文本(操作1310)。作为这种转换的一部分,当其它文本持续不断地改变整个句子的预期含义时,以前转换的语言文本可被进一步修改。在转换操作1308和1310之后退出该操作流程。
确认转换操作1104图14图解说明其中用户确认转换后的语言文本的自动转换子过程1400。子过程1400是操作1104的另一例证实现。
在操作1402,语言输入体系结构接收用户通过输入装置输入的一串语音文本。语言输入UI在成行区202中显示输入的语音文本(操作1404)。相应的未确认的语言文本的语音文本被自动转换成基于字的语言的语言文本(操作1406)。
在操作1408,语言输入UI确定用户是否已确认转换后的语言文本。如果否,则退出该子过程。否则,如果用户已确认该语言文本(即来自操作1408的“是”分支),则UI确认转换后的语言文本,并且当输入其它语音文本时,不在进一步的前后关系中考虑该语言文本(操作1410)。随后退出该操作流程。
原位纠错操作1108-1118图15-18图解说明原位纠错子过程的不同实现,它是图11的操作1108-1118的例证实现。图15和16的子过程涉及使用第一和第二候选文本列表纠正语言文本。图17和18的子过程目标在于使用语音文本提示窗口纠正语音文本。
图15图解说明通过在弹出式候选文本窗口中提供备选的语言文本纠正转换后的语言文本的原位纠错子过程1500。图5中图解说明了描绘该子过程1500的例证屏幕显示。
在操作1502,响应用户把光标移动到紧邻先前输入的语言文本(例如在字之前)的操作,语言输入UI选择或识别要编辑的语言文本。UI打开编辑窗口500(包括直接位于要编辑的语言文本下方的第一候选文本窗口504),显示选择的语言文本的替换候选文本列表(操作1504)。
在操作1506,UI接收用户选自第一候选文本窗口504的候选替换文本。语言输入UI在相同成行区202内显示代替选择的语言文本的选择的候选替换语言文本(操作1508)。随后退出该操作流程。
图16图解说明通过在第二个更大的弹出式候选文本窗口中提供完整的备选语言文本列表,纠正转换后的语言文本的原位纠错子过程1600。图6中图解说明了描绘该子过程1600的例证屏幕显示。
在操作1602,响应用户把光标移动到紧邻先前输入的语言文本(例如在字之前)的操作,语言输入UI选择或识别要编辑的语言文本。UI打开编辑窗口500(包括直接位于要编辑的语言文本下方的第一候选文本窗口504),显示选择的语言文本的替换候选文本列表(操作1604)。如果用户找不到恰当的替换候选文本,则用户可调用候选的替换语言文本的第二候选文本窗口600(操作1606)。和第一候选文本窗口相比,第二候选文本列表包含更大或更完整的候选替换语言文本列表。
在操作1608,UI接收用户选自第二候选文本窗口600的替换候选文本。语言输入UI在相同成行区202内显示代替选择的语言文本的选择的候选替换语言文本(操作1610)。随后退出该操作流程。
图17图解说明通过借助弹出式提示窗口编辑先前输入的语音文本,纠正转换后的语言文本的原位纠错子过程1700。图7中图解说明了描绘该子过程1700的例证屏幕显示。
在操作1702,响应用户把光标移动到紧邻先前输入的语言文本(例如在字之前)的操作,语言输入UI选择或识别要编辑的语言文本。UI打开编辑窗口500(包括直接位于要编辑的语言文本上方,显示用户输入的语音文本的语音文本提示窗口502)(操作1704)。
一旦用户在提示窗口502中选择语音文本(即来自操作1706的“是”分支),UI显示代替正被编辑的语言文本的语音文本(操作1708)。这使得用户能够纠正成行区202内的语音文本。随后退出该操作流程。
图18图解说明通过编辑先前输入的语音文本,并查看编辑后的一组新候选文本,纠正转换后的语言文本的原位纠错子过程1800。图8和9中图解说明了描绘该子过程1800的例证屏幕显示。
在操作1802,响应用户把光标移动到紧邻先前输入的语言文本(例如在字之前)的操作,语言输入UI选择或识别要编辑的语言文本。UI打开编辑窗口500(包括直接位于选择的语言文本上方的语音文本提示窗口502和直接位于该语言文本下方的第一候选文本窗口504)(操作1804)。
一旦用户在提示窗口502中选择语音文本(即来自操作1806的“是”分支),UI显示代替正被编辑的语言文本的语音文本(操作1808)。UI接收并在成行编辑区202中显示语音文本的用户编辑(操作1810)。响应该编辑,UI在第一候选文本窗口504中显示新的候选替换语言文本列表(操作1812)。如果需要,用户可进一步调用第二候选文本窗口600。
在操作1814,UI接收用户从第一候选文本窗口504的新列表中选择的候选替换文本。语言输入UI在相同的成行区202内显示选择候选替换语言文本用于代替选择的语言文本(操作1816)。随后退出该操作流程。
多种语言输入图19图解说明其中利用成行输入UI输入两种或更多种不同语言的多种语言输入子过程1900。图10中图解说明了描绘该子过程1900的例证屏幕显示。
在操作1902,语言输入体系结构接收用户借助输入装置输入的语音文本和非语音文本的一串混合文本。语言输入UI在和先前转换的语言文本相同的成行区202内显示该混合文本(操作1904)。
在操作1906,语言输入体系结构确定输入文本是否是和非语音文本(例如英语)相反的语音文本(例如拼音)。如果输入文本是语音文本(即来自操作1906的“是”分支),则语言输入体系结构把该语音文本转换成语言文本(操作1908)。UI在输入的语音文本的位置和先前的文本成行地显示该语言文本(操作1910)。另一方面,如果输入文本是非语音文本(即来自操作1906的“否”分支),则语言输入体系结构不对其进行转换,UI显示该非语音文本,使之与先前的文本成行(操作1912)。随后退出该操作流程。
例证的基于中文的实现图20-26图解说明中文环境下语言输入体系结构和UI的例证实现。在这种情况下,语音文本是中文拼音,语言文本是中文汉字字符。
图20图解说明表示成行输入特征的一个例子的中文输入用户界面的一种实现。表2000包含用户输入的两串拼音文本2002和2004,以及当其出现在成行输入区中时对应的转换后的汉字文本2006和2008。例证的显示屏幕2010显示在表2000下方,并且包含转换后的汉字文本2008。注意与转换后的中文文字同行地显示在光标2012输入的拼音文本。在字处理领域中,屏幕2010中所示的其它特征为人们熟知。
图21图解说明其中当前在成行输入区202中显示转换后的汉字文本的中文UI屏幕2100。用户已移动光标选择供编辑的中文文本2104,并已调用由拼音文本提示窗口2108和第一汉字候选文本窗口2110组成的弹出式编辑窗口2106。在拼音文本提示窗口2108中显示与选择的中文文本2104相关的拼音文本2112。
图22图解说明表示原位纠错特征的一个例子的中文输入用户界面的一种实现。表2200在左栏中描述两种用户操作-打开包含语音提示和候选文本列表的编辑窗口的操作2202和从候选文本列表中选择条目“1”的操作2204。响应左栏中的用户操作,表2200中的右栏图解说明了相应的例证屏幕镜头2206和2208。
就屏幕镜头2206来说,用户通过把光标移动到字符文本2210之前,选择供编辑的中文文本2210。用户输入命令,打开包含拼音文本提示窗口2212和第一候选文本列表窗口2214的编辑窗口。随后,用户从候选文本列表2214中选择条目“1”,与条目“1”相关的第一候选文本2216代替初始的选择文本2210。另外注意列表2208中的候选文本被更新(即向上滚动一位),以反映选择的候选文本2216被转移到成行输入区中。这种更新可以是动画式的,从而在视觉上说明选择的候选文本2216被转移到成行区中。
图23表示图解说明拼音文本的原位纠正的中文输入用户界面的另一种实现。表2300中的左栏包含一系列的用户操作2302-2310,右栏表示由这些用户操作产生的相应例证屏幕镜头2312-2320。
当用户决定编辑字符文本时,用户把光标移动到要编辑的字符文本之前(操作2302)。假定用户选择要编辑的中文文本2330(UI屏幕镜头2312)。在把光标移动到字符文本2330前面之后,用户输入命令(例如按下“ESC”键)调用编辑窗口(操作2304)。从而,如UI屏幕镜头2314中所示,打开拼音文本提示窗口2332和第一候选文本列表窗口2334。
随后用户输入“0”(操作2306)选择拼音文本提示窗口2332中的拼音文本2336。选择的拼音文本2336替换选择的字符文本2330,如UI屏幕镜头2316中所示。此时,用户可以自由编辑初始的拼音文本。
假定用户在拼音文本2336中添加辅助撇号(操作2308),产生如UI屏幕镜头2318中所示的文本2336′。编辑的拼音文本2336′既显示在成行区中又显示在拼音文本提示窗口2332中。在该编辑之后,利用新的候选字符文本列表更新第一候选文本窗口2334。本例中,在第一候选文本列表窗口2334中显示对应于编辑的拼音文本2336′的新的候选字符文本2338。
最后,用户通过例如输入“1”在第一候选文本列表窗口2334中选择所需的字符文本2338(操作2310)。从而,如UI屏幕镜头2320中所示,显示选择的字符文本2338代替编辑的拼音文本2336′。按照这种方式,新的字符文本2338有效替换初始的语言文本2330。
图24表示图解说明混合语言,例如中文和英语的输入的中文输入用户界面的另一实现。表2400中的左栏包含两个用户操作2402和2404,右栏表示由这些用户操作产生的对应例证屏幕镜头2406和2408。
假定如操作2402所示,用户输入混合的拼音文本2410和英文文本2412。用户可把混合文本输入语言输入UI,而不必在中文输入和英文输入之间改变模式。即,用户不停顿地在同一行中简单输入拼音文本和英文文本。拼音文本2410被转换成中文文本2414,并显示在相同的成行区内,如UI屏幕镜头2406中所示。英文文本2412不被语言输入体系结构转换,而是按照输入被显示。
随后,用户输入混合的拼音文本2416、英文文本2418和拼音文本2420,而不必改变模式(操作2404)。如UI屏幕镜头2408中所示,拼音文本2416和2420分别被转换成中文文本2422和2424。英文文本2418保持不变,并且与转换后的中文文本成行地被显示。
按照一种实现,可不同地显示语音文本和非语音文本以区分它们。例如,比较图20的表2000中的混合文本和图24的表2400中的混合文本。以收缩的粗体字显示拼音文本(例如图20中的2012),而以稀疏的courier字体显示英文文本(例如图24中的2412和2418)。
图25表示图解说明原位编辑的第一和第二候选文本列表的中文输入用户界面的另一种实现。表2500中的左栏包含两个操作2502和2504,右栏表示由这些用户操作产生的对应例证屏幕镜头2506和2508。
在操作2502,用户选择要编辑的中文文本,并输入命令以打开拼音文本提示窗口2510和第一候选字符文本列表2512。如UI屏幕镜头2506中所示,窗口2510和2512分别出现在成行输入区的上方和下方。
随后在操作2504中,用户输入命令打开第二候选字符文本列表。如UI屏幕镜头2508中所示,紧跟在第一候选文本列表2512之后弹出打开第二候选字符文本窗口2514。用户随后可从第二候选字符文本列表窗口2514中选择候选字符文本。
图26表示图解说明具有确认的字符文本的基于句子的自动转换的中文输入用户界面的另一种实现。表2600中的左栏包含一系列的五个操作2602-2610,右栏表示由这些用户操作产生的对应例证屏幕镜头2612-2620。
在操作2602,用户输入拼音文本2622和2624。如UI屏幕镜头2612所示,拼音文本2622被自动转换成字符文本2626,拼音文本2624保持不变,直到用户进一步输入其它文本为止。在操作2604,用户随后输入拼音文本2628。由于拼音文本2628的增加导致上下文关系的改变,先前转换的字符文本现在被转换成不同的中文字符文本2630。在UI屏幕镜头2614中图解说明了转换后的字符文本的这种修改。此时拼音文本2624和2628保持不变,并且继续被表示为和修改的语言文本排成一行。
随后在步骤2606,用户输入确认命令(例如按下空格键),确认刚刚转换的字符文本2630。同时,根据迄今句子中的上下文关系,拼音文本2624和2628分别被自动转换成中文文本2632和2634。屏幕镜头2616中对此进行了图解说明。
随后,在操作2608,用户输入同一句子中的其它拼音文本(图中未示出),该拼音文本被转换成字符文本2636,如UI屏幕镜头2618中所示。注意确认的字符文本2630不会因拼音文本的后续输入而被改变。
为了便于比较,假定字符文本2630未被用户操作2606确认(例如用户未按下空格键)。相反,用户在没有确认字符文本2630的情况下输入另外的拼音文本。这种情况下,字符文本2626保持不变并且不被修改成文本2630,如UI屏幕镜头2620所示。这是因为从拼音文本到字符文本的自动转换是以句子为基础的,并且字符文本2626是句子的一部分。只要句子有效(即没有任何标点符号终止该句子或者还没有开始任何新句子),就会对当前句子中先前转换的字符文本进行进一步的修改,除非用户确认转换后的字符文本。
结论虽然上面的说明使用特定于结构特征和/或方法动作的语言,但是要明白在所属的权利要求中限定的本发明并不局限于说明的具体特征或动作。相反,只是作为实现本发明的例证形式公开这些具体特征和动作。
权利要求
1.一种方法,包括接收用户输入的输入文本;把输入文本转换成输出文本;和在共同的输入行内显示输入文本和输出文本。
2.按照权利要求1所述的方法,其中输入文本包括语音文本,输出文本包括基于字的语言文本。
3.按照权利要求1所述的方法,其中输入文本包括中文拼音,输出文本包括中文汉字。
4.按照权利要求1所述的方法,其中显示包括在共同的水平行内显示输入文本和输出文本。
5.按照权利要求1所述的方法,其中显示包括在输入文本的位置显示输出文本,所述输出文本由所述输入文本转换而来。
6.按照权利要求1所述的方法,还包括当输入另外的输入文本时,修改输出文本。
7.按照权利要求6所述的方法,还包括响应标点符号的用户输入,当输入另外的输入文本时,停止进一步修改输出文本。
8.按照权利要求6所述的方法,还包括响应输出文本的用户确认,当输入另外的输入文本时,停止进一步修改输出文本。
9.按照权利要求6所述的方法,还包括响应输出文本的用户确认,停止修改输出文本,同时使未转换的输入文本保持可修改状态。
10.按照权利要求1所述的方法,还包括当输入另外的输入文本时,有选择地修改输出文本,以致如果这种修改仅仅产生较小的改进时就不进行任何修改。
11.按照权利要求1所述的方法,还包括在不从输入模式转换到编辑模式的情况下,使用户能够在共同的输入行内编辑输出文本。
12.按照权利要求1所述的方法,还包括响应供编辑的输出文本的用户选择,邻近输入行中选择的输出文本显示一个编辑窗口。
13.按照权利要求12所述的方法,其中输入行沿第一方向定向,并且还包括沿垂直于第一方向的第二方向为编辑窗口定向。
14.按照权利要求1所述的方法,还包括响应供编辑的输出文本的用户选择,邻近输入行中选择的输出文本显示输入文本提示窗口,输入文本提示窗口包括输入文本,选择的输出文本由所述输入文本转换而来。
15.按照权利要求1所述的方法,还包括响应供编辑的输出文本的用户选择,邻近输入行中选择的输出文本显示第一候选文本列表,第一候选文本列表包含可替换选择的输出文本的一个或多个预备的候选输出文本。
16.按照权利要求15所述的方法,还包括按照顺序对第一候选文本列表内的候选输出文本排序。
17.按照权利要求15所述的方法,其中第一候选文本列表可滚动,并且还包括当滚动该列表时,动画移动候选输出文本。
18.按照权利要求15所述的方法,还包括显示包含与第一候选文本列表相比更完整的一组候选输出文本的第二候选文本列表。
19.按照权利要求18所述的方法,还包括按照字结构的复杂性排列第二候选文本列表中的候选输出文本。
20.按照权利要求18所述的方法,还包括按照第一量度对第一候选文本列表中的候选输出文本排序;和按照不同于第一量度的第二量度,对第二候选文本列表中的候选输出文本排序。
21.按照权利要求1所述的方法,其中沿第一方向对输入行定向,并且还包括响应供编辑的输出文本的用户选择沿垂直于第一方向的第二方向在选择的输出文本上方显示输入文本提示窗口,输入文本提示窗口包含输入文本,选择的输出文本由所述输入文本转换而来;和沿第二方向在选择的输出文本下方显示第一候选文本窗口,所述第一候选文本窗口包含可替换选择的输出文本的一个或多个预备的候选输出文本。
22.按照权利要求1所述的方法,其中输入文本包括语音文本和非语音文本,该方法还包括把语音文本转换成语言文本;和在共同的输入行内显示语言文本、非语音文本和新输入的语音文本。
23.按照权利要求1所述的方法,还包括使用户能够在不在用于第一种语言的第一输入模式和用于第二种语言的第二输入模式之间进行转换的情况下,输入包含至少两种语言的输入文本。
24.按照权利要求1所述的方法,其中输入文本包括单个的输入字符,该方法还包括当至少显示一个输入字符,并且最多显示六个输入字符时,把输入字符中的至少一个字符转换成输出文本。
25.按照权利要求1所述的方法,其中输入文本包括单个的输入字符,该方法还包括评估用于匹配字符的至少两个候选转换字符;和如果两个候选转换字符中的至少一个字符匹配,把至少一个输入字符转换成匹配的字符。
26.按照权利要求1所述的方法,其中输入文本包括单个的输入字符,该方法还包括总是显示最近输入的输入字符。
27.按照权利要求1所述的方法,其中输入文本包括单个的输入字符,该方法还包括如果第一最可能的候选转换字符的得分明显高于第二可能的候选转换字符的得分,则把至少一个输入字符转换成第一最可能的候选转换字符的输出文本。
28.一种或多种计算机可读的媒介,所述媒介具有计算机可读的指令,所述指令当在处理器上执行时,指令计算机执行按照权利要求1所述的方法。
29.一种方法,包括当用户输入语音文本时显示该语音文本;和显示由语音文本转换来的语言文本,在由其转换得到语言文本的语音文本的位置呈现语言文本,从而一起显示语言文本和未被转换的语音文本。
30.按照权利要求29所述的方法,其中语音文本包括中文拼音,语言文本包括中文汉字。
31.按照权利要求29所述的方法,还包括在共同的水平行内一起显示未转换的语音文本和语言文本。
32.按照权利要求29所述的方法,还包括当输入另外的语音文本时,修改语言文本。
33.按照权利要求32所述的方法,还包括响应标点符号的用户输入,当输入另外的语音文本时,停止进一步修改语言文本。
34.按照权利要求32所述的方法,还包括响应语言文本的用户确认,当输入另外的语音文本时,停止进一步修改语言文本。
35.按照权利要求32所述的方法,还包括响应语言文本的用户确认,停止修改语言文本,同时使未转换的语音文本保持可修改状态。
36.按照权利要求29所述的方法,还包括随着输入另外的语音文本,如果第二语言文本更可能是预期的语言文本,则把语言文本修改为第二语言文本。
37.按照权利要求29所述的方法,还包括在不从输入模式转换到编辑模式的情况下,使用户能够编辑语言文本。
38.按照权利要求29所述的方法,还包括响应供编辑的语言文本的用户选择,邻近选择的语言文本显示编辑窗口。
39.按照权利要求29所述的方法,还包括响应供编辑的语言文本的用户选择最接近于选择的语言文本显示语音文本提示,语音文本提示包含语音文本,选择的语言文本由所述语音文本转换而来;和最接近于选择的语言文本显示减少的一组候选文本列表,候选文本列表包含一组减少的可替换选择的语言文本的一个或多个预备的候选语言文本。
40.按照权利要求39所述的方法,还包括按照顺序对候选文本列表内的候选语言文本排序。
41.按照权利要求39所述的方法,其中候选文本列表可滚动,并且还包括当滚动该列表时,动画移动候选语言文本。
42.按照权利要求39所述的方法,还包括显示不同于减少的一组候选文本列表的一组完整的候选文本列表,完整的候选文本列表包含完整的一组候选语言文本。
43.按照权利要求42所述的方法,还包括按照字结构的复杂性,排列完整的一组候选文本列表内的候选语言文本。
44.按照权利要求42所述的方法,还包括按照第一量度排列减少的一组候选文本列表中的候选语言文本;和按照不同于第一量度的第二量度,排列完整的一组候选文本列表中的候选语言文本。
45.按照权利要求29所述的方法,其中语音文本包含单个的字符,该方法还包括当显示至少一个语音字符,并且最多显示六个语音字符时,至少把语音字符之一转换成语言文本。
46.一种或多种计算机可读的媒介,所述媒介具有计算机可读的指令,所述指令当在处理器上被执行时,指令计算机执行按照权利要求29所述的方法。
47.一种方法,包括提供接收用户输入的语音文本和非语音文本的用户界面;把语音文本转换成语言文本;和一起显示语言文本、非语音文本和未被转换的语音文本。
48.按照权利要求47所述的方法,还包括在共同的水平行内成行地显示语言文本、非语音文本和未被转换的语音文本。
49.按照权利要求47所述的方法,还包括与显示未被转换的语音文本不同地显示非语音文本,以致非语音文本看起来不同于未被转换的语音文本。
50.按照权利要求47所述的方法,还包括以第一种字体显示非语音文本,以不同于第一种字体的第二种字体显示未被转换的语音文本。
51.按照权利要求47所述的方法,还包括以第一种颜色显示非语音文本,以不同于第一种颜色的第二种颜色显示未被转换的语音文本。
52.一种或多种计算机可读的媒介,所述媒介具有计算机可读的指令,所述指令当在处理器上被执行时,指令计算机执行按照权利要求47所述的方法。
53.一种语言输入用户界面,包括基于行的输入区;在基于行的输入区内显示的输入文本;和在基于行的输入区内和未被转换的输入文本一起显示的由输入文本转换而来的输出文本。
54.按照权利要求53所述的语言输入用户界面,其中输入文本包括语音文本,输出文本包括基于字的语言文本。
55.按照权利要求53所述的语言输入用户界面,其中输入文本包括中文拼音,输出文本包括中文汉字。
56.按照权利要求53所述的语言输入用户界面,其中基于行的输入区采取水平方向。
57.按照权利要求53所述的语言输入用户界面,其中输出文本替换输入文本,输出文本由所述输入文本转换而来。
58.按照权利要求53所述的语言输入用户界面,其中当输入另外的输入文本时,进一步修改输出文本。
59.按照权利要求53所述的语言输入用户界面,其中响应标点符号的用户输入,使输出文本固定不变。
60.按照权利要求53所述的语言输入用户界面,其中响应输出文本的用户确认,使输出文本固定不变。
61.按照权利要求53所述的语言输入用户界面,还包括在不从输入模式转换到编辑模式的情况下,在基于行的输入区内编辑输出文本的编辑装置。
62.按照权利要求53所述的语言输入用户界面,还包括用户调用的布置在要编辑的特定输出文本附近的编辑窗口。
63.按照权利要求53所述的语言输入用户界面,其中沿第一方向给基于行的输入区定向,并且还包括邻近基于行的输入区布置的,并且沿垂直于第一方向的第二方向定向的编辑窗口。
64.按照权利要求53所述的语言输入用户界面,还包括由用户调用的、接近选择的要编辑的输出文本布置在基于行的输入区附近的输入文本提示,该输入文本提示窗口包含输入文本,所选择的输出文本由所述输出文本转换而来。
65.按照权利要求53所述的语言输入用户界面,还包括用户调用的接近选择的要编辑的输出文本布置在基于行的输入区附近的候选文本列表,候选文本列表包含可替换选择的输出文本的一个或多个预备的候选输出文本。
66.按照权利要求65所述的语言输入用户界面,其中按照顺序在候选文本列表内对候选输出文本排序。
67.按照权利要求65所述的语言输入用户界面,其中候选文本列表可滚动,并且在滚动过程中,候选输出文本被动画显示。
68.按照权利要求53所述的语言输入用户界面,还包括可被用户调用的第一和第二候选文本列表;第一候选文本列表包含可替换选择的输出文本的一个或多个预备的候选输出文本;和和第一候选文本列表相比,包含完整的一组候选输出文本的第二候选文本列表。
69.按照权利要求68所述的语言输入用户界面,其中按照字结构的复杂性排列第二候选文本列表中的候选输出文本。
70.按照权利要求68所述的语言输入用户界面,其中按照第一量度对第一候选文本列表内的候选输出文本排序,按照不同于第一量度的第二量度排列第二候选文本列表中的候选输出文本。
71.按照权利要求53所述的语言输入用户界面,其中基于行的输入区沿第一方向被定向,并且还包括接近选择的要编辑的输出文本布置在基于行的输入区上方,并且沿垂直于第一方向的第二方向定向的输入文本提示,所述输入文本提示包含输入文本,选择的输出文本由所述输入文本转换而来;和接近选择的要编辑的输入文本布置在基于行的输入区下方的候选文本列表,所述候选文本列表包含可替换选择的输出文本的一个或多个预备的候选输出文本。
72.按照权利要求53所述的语言输入用户界面,其中输入文本包含语音文本和非语音文本,输出文本、语音输入文本和非语音输入文本一起显示在基于行的输入区内。
73.一种包含按照权利要求53所述的语言输入用户界面的字处理器。
74.一种语言输入体系结构,包括使用户能够输入输入文本的用户界面;把输入文本转换成输出文本的语言转换器;并且所述用户界面被配置成与未转换的输入文本成行地显示转换后的输出文本。
75.按照权利要求74所述的语言输入体系结构,其中输入文本包括语音文本,输出文本包括基于字的语言文本。
76.按照权利要求74所述的语言输入体系结构,其中输入文本包括中文拼音,输出文本包括中文汉字。
77.按照权利要求74所述的语言输入体系结构,其中用户界面在共同的水平行内呈现输出文本和未转换的输入文本。
78.按照权利要求74所述的语言输入体系结构,其中当输入另外的输入文本时,语言转换器继续修改输出文本,当输出文本被修改时,用户界面不断改变输出文本。
79.按照权利要求74所述的语言输入体系结构,其中用户界面使用户能够在不从输入模式转换到编辑模式的情况下编辑输出文本。
80.按照权利要求74所述的语言输入体系结构,其中用户界面在沿第一方向定向的公用行内呈现输出文本和未转换的输入文本,并在选择的要编辑的输出文本附近呈现编辑窗口,所述编辑窗口沿垂直于第一方向的第二方向定向。
81.按照权利要求74所述的语言输入体系结构,其中用户界面给出包含输入文本的输入文本提示,选择的输出文本由所述输入文本转换而来。
82.按照权利要求74所述的语言输入体系结构,其中用户界面给出包含可替换选择的输出文本的一个或多个预备的候选输出文本的候选文本列表。
83.按照权利要求74所述的语言输入体系结构,其中用户界面给出第一和第二候选文本列表,第一候选文本列表包含可替换选择的输出文本的一个或多个预备的候选输出文本,第二候选文本列表包含比第一候选列表完整的一组候选输出文本。
84.按照权利要求74所述的语言输入体系结构,其中输入文本包含语音文本和非语音文本,并且还包括语言转换器被配置成把语音文本转换成语言文本,同时使非语音文本保持不被转换;和用户界面被配置成成行地显示语言文本、未转换的语音文本和非语音文本。
85.一种包含按照权利要求74所述的语言输入体系结构的字处理器。
86.一种语言输入体系结构,包括接收以语音文本书写的输入串,并确定候选串作为输入串被不正确输入的打字错误概率有多大的打字模型;确定以语言文本书写的串代表候选串的语言文本概率有多大的语言模型;根据打字错误概率和语言文本概率,有选择地把输入的语音文本串转换成语言文本串的搜索引擎;和在公用行内显示语音文本和语言文本的用户界面。
87.具有计算机可读指令的一种或多种计算机可读媒介,所述计算机可读指令当在处理器上被执行时,指令计算机接收输入的语音文本串;把输入的语音文本串转换成输出的语言文本串;和在基于行的输入区内成行地一起显示语言文本和未转换的语音文本。
88.具有计算机可读指令的一种或多种计算机可读媒介,所述计算机可读指令当在处理器上被执行时,指令计算机接收语音文本和非语音文本的输入串;把语音文本转换成语言文本;在基于行的输入区内成行地一起显示语言文本、非语音文本和未转换的语音文本。
全文摘要
语言输入体系结构接收用户从输入装置(例如键盘、语音识别)输入的输入文本(例如基于字的语言的语音文本)。输入文本被转换成输出文本(例如基于字的语言的书面语言文本)。语言输入体系结构具有成行地显示输出文本和未转换的输入文本的用户界面。当输入文本被转换时,在UI中利用转换后的输出文本替换所述输入文本。除了这种成行输入特征之外,UI还能够在不要求用户从输入模式转换到编辑模式的情况下,实现原位编辑或纠错。为了帮助这种原位编辑,UI提供弹出式窗口,所述弹出式窗口包含语音文本以及第一和第二候选文本列表,输出文本由所述语音文本转换而来,所述第一和第二候选文本列表分别包含可用于替换当前的输出文本的较小一组预备候选文本和较大一组预备候选文本。语言输入用户界面还允许用户输入不同语言的混合文本。
文档编号G06F17/28GK1387639SQ00815295
公开日2002年12月25日 申请日期2000年11月3日 优先权日1999年11月5日
发明者王建, 张高, 韩建, 陈征, 令显宁, 李凯夫 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1