多模式数据输入设备的制作方法

文档序号：6509534阅读：222来源：国知局

专利名称：：多模式数据输入设备的制作方法
技术领域：
：本发明涉及一种数据输入方法和数据输入设备。针对使用少至12个键的键盘这样的小键盘输入中文和其它表意字符的数据输入设备已经进行了大量的努力。其例子可以在未决的Balakrishnan的专利申请08/754,453和Guo的专利申请09/220,308中找到，这些专利已经转让给本发明的受让人。基于字符的拼音表示的数据输入设备稍微有些不自然，在该设备中，他们要求用户在输入之前在内心将字符翻译成拼音。基于笔划表示的数据输入设备要自然得多，但是，单个中文或日文字符可包括许多笔划，并且仍然需要按压许多键用于唯一识别字符或用于字符字典的搜索，以限制到可管理的候选子组。一种可替代的数据输入方法是语音识别。语音输入是非常自然的，并且具有提供高速数据输入的潜力，但不幸的是其处理方面的问题非常复杂。语音识别的问题包括识别模式要适应于许多不同的声调和话音模式，或需要长期的训练过程以唯一地适应于对目标用户自己的话音和讲话特征的识别处理。此外，语音识别要求高性能的处理器和非常大的存储器，致使具有好的语音识别能力的设备非常昂贵，并且这种处理不太适用于具有低性能的处理器和有限的存储器的小手持设备。在小平台设备上的语音识别性能也将是很差的。语音识别在听写之后，一般要求台式机的计算能力和相当数量的编辑。在大多数现有的小手持设备上具有的计算和编辑资源都有限，在其上配置流行的连续语音识别技术还是不现实的。然而，要求较小计算能力的单词听写技术在小的手持设备上很快将变得可行。其在手持设备上将使文本输入更容易和对用户更友好，像我们已经看见的在台式平台上的蜂窝电话或双向寻呼器之类的手持设备，其对使用像中文和日文之类的表意语言来说是特别有用的。在手持设备上，文本输入对某些以内容为中心的功能的有效使用是非常重要的，例如在蜂窝电话上的SMS(短消息服务)和电话簿搜索以及在PDA上的记笔记。当操作像SMS和电话薄搜索之类的功能时，人名和像地名之类的专有名词的输入，在处理过程中将变得非常频繁。不幸的是，由于所包含的词汇的限制，当前的单词听写系统一般不能处理大多数人名和专有名词。结果，人名和专有名词的输入经常要求单词听写系统在单个字符的层次上执行识别任务。首先，将一个字分成字符，并将它们中的每一个一个接一个地连续听入系统以进行识别。在台式平台上采用单词中文听写技术的经验已经显示，在字符层次的识别准确度比在单词层次上要低得多，这主要是由于在中国语言中的严重的同音字现象。换句话说，虽然听写系统在处理单词时一般能够正确地发送相当满意的结果，但当处理单个字符时其通常输出非常差的结果。现在，我们面临这样一个问题，一方面，我们需要采用语音识别技术的优点，另一方面，单个字符的处理变成一大障碍。通过采用两种不同的方案可以解决这个问题，首先是仅使用语音，第二是使用语音并借助于笔的帮助。在仅使用语音的方案中，让我们首先回忆一下，当我们将我们的名字或目的城市通过电话告诉航空代理时，我们会经常这样说“John，J是日本，O是俄亥俄州，H是夏威夷，N是纽约”，以试图减少可能的混淆。当以中文听写单个字符时，我们可以同样做。例如，如果我们要听写意味着某些涉及医药或医疗处理的字符“yil”时，在我们发出话音“yil”之后，识别系统将通常产生一候选列表，一般包括数十个，具有相同的发音“yil”的侯选字。如果在发音中不考虑音调，则候选列表将会更长。然而，如果我们借用上述的减少含糊的思想说“yilshenldeyil”，意思是“yil表示医生(yilshenl)”，我们可以希望该听写系统能够以非常高的准确度对“yil”产生正确的字符。这个方案具有几个内在的优点，1)当人们用中文进行对话，试图使他们自己表达得更为清楚时，这是非常常见的方式，即对于这种用法不需要学习曲线；2)其使用非常简单和固定的语法结构，大多数听写系统能很容易地对嵌入的语法信息进行有效地使用；3)重复所需字符的相同发音两次，这帮助该听写系统可靠地捕获所讲字符的正确声学表示。在第二个方案中，如果想要一个特定的字符，首先形成包含该字符的共同单词，然后听写入该系统。当产生和显示候选单词的列表时，从候选单词列表中用笔挑选出想要的字符。这种方案的优点是，1)用笔去点中和选择是非常直观和自然的，并且比采用话音也更容易和快捷；2)和用于点中和选择单词一样，可以用几乎相同的方法用笔去点中和选择单个字符，使经过两种不同的情形(单词和单个字符)时操作一致。因此，有必要改进数据输入的方法。附图的详细说明参考图1，显示的数据输入设备具有麦克风10，其通过模数转换器11连接到微处理器12。另外还示出一数字化器15，其具有X和Y输出16和17，通过接口单元18连接到微处理器12。存储器20和显示器22也连接到微处理器12。存储器20优选地包括字符字典，但可以含有如下所述的其它数据。微处理器12具有接收来自模数转换器11的输入的语音预处理器功能单元24、和接收来自接口单元18的输入的笔划预处理器功能单元26。分别将音节识别器25和笔划识别器27连接到单元24和26。搜索引擎28接收来自音节识别器25和笔划识别器27的输入，并与存储器20中的字符字典和显示器22连接。在操作中，用户通过对麦克风10讲话和对所需字的音节元素的发音，来进行汉字之类的数据输入元素的输入。中文字符都是单音节的。汉语有一套已建立的语音元素以表示其音节(通常称为“bo-po-mo-fo”)。用户发出所需要的字的话音。预处理器功能24进行归一化和滤波功能，并且音节识别器25通过将其解码为bo-po-mo-fo的表示对所讲音节提供识别结果。识别器25的输出是一个分值或一组分值，表示在输入的语音和由bo-po-mo-fo表示的不同的候选音节之间的相似的紧密度。在最小的时候，识别器25的输出是具有最高分的音节的标识符，但是识别器25的输出也可以是一组音节，其每个都具有超过预定阈值的分数。搜索引擎28从识别器25接收音节的标识符或多个音节的多个标识符，并对具有标识的音节或多个音节的所有单词搜索储存在存储器20中的字典。一般来说，在这个阶段识别的字的数量是相当大的(一般超过几十个)，而且经常因为太大而不能将该组在一选择列表中呈现给用户。为了更具体地识别所需字，使用数字化器15。用户使用铁笔14(或使用手指、或通过其它下面描述的装置)输入所需字的笔划。由用户输入的笔划可以是所需字的每个字符的第一笔划，或其可以是所需字的第一字符。铁笔14在数字转换器15上的划过运动产生了下笔输入、X和Y坐标序列以及提笔事件。将X和Y坐标发送到执行诸如平滑、人工产物(artifacts)移除和分段功能的笔划预处理器26。这些步骤在美国专利5,740,273中已有说明，将其结合于此作为参考。笔划识别器27识别想要的笔划并将标识符发送到搜索引擎28，标识已识别的笔划。现在搜索引擎28能进一步限定其对存储在存储器20中的字典的搜索。如果，作为输入到搜索引擎的音节和笔划元素的组合的结果，搜索引擎可以发送唯一的结果，则将这个唯一的结果显示在显示器22上，而且用户具有一机会以确认已识别的字或取消它并再输入它，或者取消其笔划输入和不用取消音节输入而再进行笔划输入。如果搜索引擎28没有识别出跟随音节输入和字的所有字符的第一笔划输入的唯一结果，有许多可以替换的方法可以进行操作。如果作为音节输入和笔划输入的结果，通过搜索引擎而识别了少量的字，可以将这些结果显示在选择列表上，并且可提供给用户一个机会以敲一键、或提供笔输入或话音输入，选择显示在这个列表中的字的一个。用户还可选择输入所需字的字符的下一个笔划，允许笔划识别器27将另一个笔划发送到搜索引擎28，并且允许搜索引擎28进一步限定其已识别字的搜索。根据需要可要求任意数量的笔划以限定对唯一结果或用于选择的可管理的候选列表的搜索。参考图2，显示的是通过微处理器12进行的处理的基本单元。在步骤100字输入开始，接收音节输入(步骤101)，紧接在这个步骤之后，在步骤102接收笔划输入。在步骤103，如果从输入的音节和输入的笔划的组合中有唯一的结果，则在步骤104显示这个结果并且在步骤105结束该处理。在步骤102之后，如果对应输入的音节和输入的笔划的组合有一组结果，则该处理返回步骤102用于其它笔划的输入，并且步骤102可以重复需要的次数以提供唯一的结果。本领域的技术人员将可认识到图2的处理可以有许多方法加以改进，而不是严格地限于本发明的构成。例如，在输入笔划后，如果没有发送结果，这表示该笔划不是正确的类型。换句话说，在字典里没有字对应于该输入元素的组合。通过搜索引擎28进行的搜索自然会“不清楚”。例如，音节识别器25可以发送多于一个的语音结果以及对其发送的每个结果的置信等级，同样地，笔划识别器27可以发送多于一个的笔划结果以及对其发送的每个笔划的置信等级，这种搜索引擎28使用音节元素和笔划元素的不同组合，累计它们各自的置信等级以提供跨越一置信等级谱的结果的范围，并且发送所有那些超过某置信等级的结果，或发送结果的最上端的组(例如，最上端的5个)，而不用考虑绝对等级。除中文、日文和表意语言外，所描述的设备还可以应用于其它语言。例如，可将其应用到英语，在英语的情况下，存储在存储器20中的数据元素不是字符，而是多音节字(或实际上可以包括单音节字)。在这个实施例中，用户发出字的第一个音节话音，搜索引擎搜索这些字的字典，以搜索所有以该已识别音节开始的字或搜索所有以一组已标识的符号中的任何一个开始的字。为进一步限定搜索，用户使用铁笔14(或使用下面描述的小键盘)输入单个字符。所输入字符优选是第二个音节的第一个字符。作为例子，下面是一个具有13个字的表达式(引述自WinstonChurchill先生的原话)，其中有7个是多音节字“amonstroustyranny，neversurpassedinthedarklamentablecatalogueofhumancrime”。可以输入多音节字第一个音节的发音(mons，tyr，nev，sur，等)，并且在音节之后马上输入字符(t，a，e，p，等)，或者输入该组多义字符的数字表示(2＝a，b，c；3＝d，e，f；4＝g，h，i；5＝j，k，l；6＝m，n，o；7＝p，q，r，s；8＝s，t，u，v；9＝w，x，y，z)。作为另一选择，可输入下一个音节的紧接着的字符，可以从多音节字的剩下的输入中选择不同的字符，例如下一个辅音(在这个例子中是t，n，r，p等)或最后一个辅音(s，y，r，d，等)。对每个字符来说与字符输入相比，上述例子减少了按键，而与每个音节的语音处理相比，则减省了处理。这种减省在汉语上的效果更为显著。不使用铁笔和数字化器作为笔划输入设备，也可以使用机械输入设备。例如，可以使用9个键(多于或少于这些键)的简单小键盘。假如输入的语言是中文，该键盘的每个键表示一笔划或一类笔划，正如未决的专利申请09/220,308所说明的那样，该专利申请是由吴等人于1998年12月23提交的，并已转让给本发明的受让人，将其结合于本文中作为参考。如果输入的语言是基于罗马字母表，则可以使用小键盘，正如未决的专利申请08/754,453所公开的那样，在该小键盘上每个键表示多个字母表的字母。一种可替换的输入设备是像操纵杆或鼠标按键之类的设备，正如上述未决的吴等人的专利申请所描述的一样，其是手指操作的并允许用户输入指针点(compass-point)笔划(或复杂的具有数个指针点段的笔划)。另一种可能的输入设备是如未决的专利申请09/032,123(1998年2月27日由Panagrossi提交的)所描述的一样，其具有多个按键并检测手指经过按键的运动。权利要求1.一种数据输入方法，其包括接收话音输入步骤，接收表示数据元素的第一语音分量的话音输入；接收机械输入步骤，接收表示数据元素的至少一个书写分量的机械输入；识别步骤，从话音输入和至少一个书写分量中识别所要求的数据元素。2.如权利要求1所述的方法，其中接收话音输入的步骤包括接收和识别bo-po-mo-fo语音的元素，该元素是中文字符的语音表示的开始元素。3.如权利要求2所述的方法，其中接收机械输入的步骤包括从一组键中接收键的输入。4.如权利要求3所述的方法，其中所述接收键的输入的步骤包括从具有多个键的小键盘中接收键的输入，其中每个键表示一类手写笔划。5.如权利要求1所述的方法，其中所述接收机械输入的步骤包括接收字符的第一笔划。6.如权利要求4所述的方法，其中所述接收机械输入的步骤包括接收数据元素的第二分量的第一笔划，这里第二分量跟随着由语音分量识别第一分量。7.如权利要求1所述的方法，其中所述接收机械输入的步骤包括接收和识别来自二维笔划输入设备(15)的笔划输入。8.如权利要求1所述的方法，其中所述识别步骤包括，根据第一语音分量和至少一个书写分量搜索一组预存储的数据元素。9.如权利要求8所述的方法，其进一步包括，当所述识别步骤没有给出唯一的结果时，接收表示至少一个其它书写分量的至少一个另外的机械输入，以唯一地识别所要求的数据元素。10.一种数据输入设备，其包括音频输入(10)，用于接收数据元素的语音分量；机械输入(14，15)，用于接收数据元素的至少一个书写分量；存储单元(20)，其中已存储了多个数据元素的代表；以及搜索引擎(28)，用于对至少一个由语音分量和书写分量表示的数据元素搜索储存元素。全文摘要通过音频输入(10)接收表示数据元素的第一语音分量的话音输入。通过如数字转换器、键盘、或其它装置之类的机械输入设备(15)接收如笔划或字符之类的表示数据元素的至少一个书写分量的机械输入。从话音输入和至少一个书写分量中识别所要求的数据元素。文档编号G06F3/00GK1359514SQ00809910公开日2002年7月17日申请日期2000年6月27日优先权日1999年7月6日发明者郭进,查尔斯·－闽·吴申请人:摩托罗拉公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭进;查尔斯.-闽.吴
技术所有人：摩托罗拉公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。