采用时序歧义编码的解码方法以及采用该方法的装置的制作方法

文档序号:6477015阅读:169来源:国知局

专利名称::采用时序歧义编码的解码方法以及采用该方法的装置的制作方法
技术领域
:本发明涉及一种解码方法及一种解码装置,尤其涉及一种使用含糊编码的解码方法以及一各使用该解码方法的装置。
背景技术
:当今,各种智能设备功能强大且可制作得很小以方便携带,例如行动电话、MP3播放机等等。由于尺寸受到限制,这些装置的人机介面设计面临巨大挑战。以文字输入为例,当前的解决手段包括传统的多次击键输入法、预测式输入法以及微型标准键盘。传统的多次击键输入法(例如ABC输入法)简单,但是输入效率低且很难使用。微型标准键盘的设计假定用户都很熟悉传统的标准键盘而且很容易适应微型键盘。然而第一个假定只适用于电脑用户,许多未成年人在习惯标准键盘之前就已经先习惯了手机输入法。尽管这种设计相较于分散排布或按字母顺序排布的方式来说可以帮助电脑用户更容易找到字母,然而过小的尺寸使得微型键盘的易用性大为降低。另一方面,预测式输入法可很大程度上减少输入每个字母所需按键的次数。然而预测式输入法同样引入一些新的问题a)在用户输入时预测文字随机变化;b)用户在输入时很难检测其输入的正确性而且误输入的回复处置让用户非常恼火;c)如果该输入法预设的字典内没有所要输入的词则用户需要切换至其他输入法(例如多次击键输入法)重新输入;以及d)总体来说,预测式输入法就人的感知或其自身表现皆为不可预测且不可靠的。在一组映射(mapping)中,编码序列与解码序列被对应起来,且映射中的每个编码序列为一个字串。如果一个字串对应于多个映射则称为具有空间歧义。图1A与图1B示出空间歧义编码的例子,其中图1A所示为先前技术所使用的通用键盘,图1B所示为该键盘的歧义编码。键区100内包括多个数字按键101及特殊功能键104,105。传统的歧义编码方式将数个解码字串组成一个解码字串集合并将该解码字串集合指定给一个编码字串集合。在对应至编码字元集的域后,单纯基于该域的知识即可将群组化的字元区分开来。此过程可看做是一种损失编码过程。为回复丢失的资讯,可生成所有可能的组合而让用户去从中选择一个正确的组合。多次击键输入法通过让用户在每次输入时选择所想要输入的字元以在字元层级上解决歧义编码的问题。而传统的预测式输入法则在单词的层级上解决歧义编码的问题。以图1B中所示输入"HOME"为例,输入序列"4663"的一个编码字元110代表一个集合103中的一个解码字元112。交联网络lll显示所有相邻编码字元的组合。由于输入序列的组合有M'L种,其中M为字元集合的大小,L为输入字串的长度,因此不可能一一列举所有的组合(本例中组合仅为3~4=81种,然而一但L=IO,则组合数为3~10=59049种)。—般说来,语言学知识能用来大幅度减少输出的数量。最常用的作法就是提供一个字典用于与输出进行匹配并输出匹配结果供用户选择。然而,即使导入了语言学,输入序列"4663"仍然可以多种方式去解释,例如"HOME"、"GOOD"、"GONE"、"HOOD"、"HOOF"、"HONE"、"GOOF"、"I匪E"、"INNE"、"HOND"、"INOF"与"GOOE"。换句话说,传统的输入方法与装置中,有太多可能结果使得用户不能高效的输入单词。有鉴于此,有必要提供一种更好的编码规则,以及一种可轻易实现并被用户接受的解码方法。
发明内容本发明的目的就是在提供一种可有效减少可选项的采用时序歧义的解码方法。本发明的再一目的是提供一种可有效减少可选项的采用时序歧义的解码装置。为实现上述发明目的,本发明提供一种解码方法,其用于将编码序列映射至解码序列,每个编码序列包括至少一个选自编码字元集的字元,每个解码序列包括至少一个选自被非语标语言使用的解码字元集的解码字元,该解码方法包括接收输入的编码字元,以及将输入的编码字元组合至一个输入序列的末尾,其中该输入序列为时序歧义的,从而该输入序列可被解析成至少两个不同的编码序列组合,且每个编码序列组合包括该编码序列中的至少一个。本发明还提供一种解码装置,其包括一键盘,用于输入一个包括至少一个选自一编码字元集的字元的输入序列;一输出装置,用于选择性输出一输出序列,该输出序列包括至少一选自一解码字元集的解码字元,其中该输出序列是根据该输入序列而生成;以及一解码装置,包括将编码序列映射至解码序列的映射,每个编码序列包括至少一个选自该编码字元集的编码字元,每个解码序列包括至少一个选自该解码字元集的解码字元,该映射是用于根据该输入序列的至少一部分而将该输入序列映射至该输出序列,其中,当一个字元藉由该键盘输入时,该解码装置将该输入的编码字元组合至该输入序列的尾端,该输入序列为时序歧义的,从而该输入序列可被解析为至少两个不同的编码序列组合。本发明还提供一种解码方法,其包括维持一将多个编码序列映射至多个解码序列的映射,每个编码序列包括至少一个选自一编码字元集的字元,每个解码序列包括至少一个选自一被非语标语言使用的解码字元集的字元;接收一或多个编码字元到一输入序列中;如果该输入序列长度大于一则生成多个编码序列组合;选择该编码序列组合中的一个;根据该映射将该选择的编码序列组合映射至一输出序列;及输出该输出序列。本发明提供的解码方法以及解码装置因采用时序歧义编码,因此输出的可选项目的数量将被大幅减少。为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。图1A为先前技术中通用的键盘示意图。图IB为空间歧义映射关系示意图。图2为本发明实施例提供的装置的电路方框图。图3A为本发明实施例提供的部分编码规则示意图。图3B演示本发明实施例中输入"HOME"时的时序歧义。图4为本发明实施例提供的编码字元序列与解码字元序列映射规则示意图。图5A为本发明实施例提供的语言学时序歧义消解流程图。图5B为本发明实施例提供的采用语言学二元统计模型计算语言学分值的流程图。图6为本发明实施例提供的具有中间形态的基于形状的映射关系图。图7为本发明实施例提供的时序歧义消解的流程图。图8为本发明实施例提供的文字输入系统结构框图。图9A-9I为本发明实施例中输入并采用字典检索消除"WORK"的歧义示意图。20:解码装置200:键盘230:解码器232:映射250:输出装置320:序歹lJ"38"302:"E"303:"B"312:"3"313:"8"308:输入序列309:片段序列317、318:字元316、320:片段600:键盘字母表601:英文字母表602:中间形状604:破坏性操作402:解码字元403、404、405:按键800:用户801:显示装置802:键盘803:序列分割器804:时序歧义片段化模块805:语言频率模块806:乐观歧义消解模块807:语言学时序歧义消解模块808:字典模块809:输入控制模块820:文字输入821:时序片段化序列822:控制输入823:预测查询824:预测结果具体实施例方式图2所示为本发明一实施例提供的解码装置电路方框图。本实施例中,解码装置20包括一键盘200,一解码器230及一输出装置250。键盘200用于输入一个输入序列,该输入序列包括至少一个选自编码字元集的编码字元。解码装置230藉由第一通道耦合至键盘200使得由键盘200输入的输入序列可被解码器230接收。另外,解码器230包括一映射232使得其接收的输入序列可依据该映射232转换为输出序列。输出装置250藉由第二通道耦合至解码器230从而使得由映射232生成的输出序列可显示于其上。键盘200可为一个具有多个按键的输入装置,每个按键表示选自一个编码字元集的一个编码字元。为了减少按键的数量,需要于K〈N时将数量为K的键盘字母表(例如编码字元集)与数量为N的字母表(例如解码字元表)对应起来。为清楚说明,但应理解其并不限制本发明的范围,图2中所示的键盘200为当前行动电话中常用的普通键盘。键盘200包括分别表示数字0-9的按键202-220,以及分别表示特殊符号的按键222与224。本实施例中,编码字元集包括10个数字字元以及两个特殊字元。解码字元集包括26个英文字母。假定映射232可将由选自编码字元集的字元组成的多个编码序列中的每个对应于相应的由选自解码字元集的至少一个字元组成的解码序列,其中每个编码序列为一个字串,那么在每个字串对应于多个解码序列时则称此种情形为空间歧义(SpatiallyAmbiguous),而在每个用于产生字串的输入序列具有多个解释时则称此种情形为时序歧义(TemporallyAmbiguous)。空间歧义已经于
背景技术
部分进行讨论,而时序歧义则详细说明如下。对于固定长度编码,一个编码序列中每个固定长度为M的编码字元代表一个字串并对应于一个解码字元的解码序列。对于可变长度编码,经常使用无前缀编码从而使解码器能清楚识别每个字串。如果使用非无前缀编码,则需要使用一个预定的超时或超时消除记号(划界按键)以清楚地辩识出每个想要的字串。超时消除记号方法将导入额外的按键动作,因此并不实用。尽管超时法可避免额外的按键动作,惟,其因需要用户等待而降低效率。当一个输入序列对应于多个时序解释时则存在时序歧义。为向传统可变长度编码规则中导入时序歧义,可忽略超时与超时消除讯号的要求。如图3A、图3B所示,其中图3A所示为本发明实施例提供的部分编码规则,图3B演示输入"H0ME"时产生的时序歧义。例如,序列"38"320可被解释为代表'M'301的相连的字串"3_8"311或者两个分别表示'E'302与'B,303的字串"3"312以及"8"313。对于一个输入序列,可以根据时序歧义规则将其打断成几个片段以使两个片段中相邻的字元共同形成的字串(亦称为编码序列)在解码规则中没有对应的解码序列。如果一个片段的长度大于一则其具有多个时序解释。以图3B中的为例,输入序列308以虚线框为界被打断成具有多个片段的时序片段化序列309,每个片段中具有多个字元。而图3A所示的编码规则中没有对应于两个相邻字元317、318组成的字串"03"的解码序列。因此两个片段316、320能从时序上被区分开来。时序打断的具体过程可以逐个检查输入序列中的每个字元看其与下一个字元的组合在编码规则中是否具有对应的解码序列,如果有,则当前字元被累积起来,如果没有则把当前字元与先前累积的字元构成一个时序歧义片段。歧义编码的长度可定义为该时序歧义片段的长度。如果一个时序歧义片段长度为l则其不具有时序歧义。另外,部分输入序列可以仅根据编码规则而消除歧义。以图4所示的编码规则为例,由于字串"09"并没有对应的解码序列,因此输入序列"09"可识别为"0:9"。亦即根据该编码规则"09"直接对应于"OR"而无须语言学的手段去解决时序歧义,以下将详细进行说明。较佳的实施例中,该编码规则为可变长度编码从而解码字元可以为一个数字或两个数字进行编码。两位数字具有10*10种组合,在大多数情形下已经足够对所有解码字元进行编码。因此如果真需使用到三位数字,可以保持最少量使用并加以特殊处理。—个时序歧义片段的合法组合即代表一个可唯一解码的无歧义的输入序列。在编码规则中为了枚举一个时序歧义片段的所有合法组合,可以枚举所有的组合使得该时序歧义片段的歧义长度为N,且每个字元可与前一个或下一个字元相连但不为同时相连。两个相连的字元构成一个两位数字编码,而一个不与其他字元相连的字元构成一个一位编码。如果一个字元同时与前一个字元及后一个字元相连则其属于三位编码,则其为不合法组合且需要特殊处理。例如,假定"l"表示字元,"-"表示不相连,而"+"表示相连。则一个序列1111可列举出5种组合1-1-1-1、1-1-1+1、1-1+1-1、1+1-1-1、及1+1-1+1。对于长度为K的连接其所能列举的数目如下O:C(N,O)l:C(N-l,l)2:C(N-2,2)...K:C(N-K,K)N/2如果N二IO,则组合数目为C(10,0)+C(9,l)+C(8,2)+C(7,3)+C(6,4)+C(5,5)=1+9+28+35+15+1=89。相较于传统的空间歧义,对于长度为10的字串其组合数为3~10=59049,因此将其全部枚举明显不实际。对于一个给定的序列,如果其时序歧义长度为N(根据具有57,000个单词的字典计算N不太可能大于8,因此可设定允许最大时序歧义长度为8,而对很少的例外采用查字典的方式解决),可以在2'(8-1)种可能的组合中忽略具有两个连接的字元的非法组合而枚举出所有可能合法的组合。很明显相较于先前技术,从组合数量考量本发明所提出的时序歧义方法为更好的解决方案。在一个实施例中,时序歧义可以采用类似于传统方法中解决空间歧义时查字典的方法解决。时序歧义比传统的空间歧义更容易区分。本实施例中采用的字典包括约39000个单词,而仅有50个编码序列对应于两个单词,而且没有对应于两个以上单词的情况。换句话说,该字典中99.87%的单词可以被唯一识别。传统的空间歧义编码方法可提供有限的几个选择,而本发明只有一个可选项因此可大幅度降低考虑的脑力过程。例如,在传统的空间歧义编码方法中,想要输入"HOME"需要检查12个单词,然而采用本发明的编码方法则只有一个单词"HOME"符合该编码。即使在最坏的情形下,也只有一个可选单词。从此角度考量,用户可快速选择所想输入的单词。对于少数几个对应于两个可选单词的编码而需要用户去选择其中的一个以无歧义的时候,其中一个解决方法是使用一个特殊功能键,例如'*'在各个可选单词中进行滚动选择以让用户选择其中的一个。由于可选单词数量很少,另一种可行的方法是同时显示可选单词。而单词出现的顺序则基于词频统计或语言学权值计算。理论上可以采用语言学的方法去解决空间歧义问题,然而由于可能组合以幂级数增长因此无法实现。与之相反,语言学可顺利应用于时序歧义以减少检索字典的动作。如图5A与图5B所示,其中图5A为本发明一实例提供的采用语言学去解决时序歧义的流程图,图5B为本发明一实施例提供的采用二元统计模型(2-gramstatistics)计算语言学权值的流程图。而具体的过程将详细说明如下。参阅图5A,采用语言学解决时序歧义编码的方法包括取得一个时序歧义片段,并将该片段的前一个片段的最后一个字元作为"pre",将该片段后一个片段的第一个字元作为"post"(步骤511)。枚举所有对应于该时序歧义片段的所有可能组合,而每个列举项为一个无歧义的输入序列(步骤513)。然后初始化一个临时最大语言学分值SMAX及相应的无歧义的序列EnumMAX(步骤515)。每个列举项在步骤517中开始处理。对于每个列举项计算其语言学分值以得到一结果S0(步骤519)。如果S0>SMAX则值SMAX与E皿mMAX被更新(步骤521与523)。处理完所有的列举项后,最大语言学分值SMAX为实际的最大值并将E皿mMAX返回(步骤525)。图5B所示为采用语言学频率模块的语言学二元统计模型(2-gramstatistics)计算语言学分值的方法,其可用于计算接收的无歧义的输入序列SD的语言学分值。在步骤540中进行初始化。初始化完成后对输入序列进行解码得到包括解码字元的解码字元序列(步骤542)。依次处理所有的解码字元(步骤544与546)。对于每个解码字元,将当前字元与下一个字元组合成一个二元字串(步骤548)。查找该二元字串的分值S1并累积(accumulate)在语言学分值SO中(步骤550与552),其中所谓的累积可以为相加、相乘或者其他标准。例如,对于解码字元序列"H0ME",需要计算二元字串"H0"、"0M"及"ME"的分值。在该解码字元序列中的第个解码字元处理完成后返回累积的语言学分值SO(步骤554)。上述采用语言学解决时序歧义的方法返回的由编码字元组成的无歧义的输入序列E皿mMAX可以被解码成唯一的解码序列。要检测一个单词的预测(prediction)时,可以首先将其编码成编码字元序列然后进行语言时序歧义消除的相关操作。如果一个单词的预测为其单词本身,则称其为命中而无须再查字典。命中率被定义为一个单词集合中能直接命中的单词的比率。为减少检索字典的开销,那些可以采用语言学解决的单词可以从存储的字典中去除,如此可大幅减少字典的大小。在一个实施例里,仅保存约3100个单词的字典即可达到对一个具有57,000个单词的字典中的36,000个低频单词的命中率为81.3%,且对其余的单词命中率为100%的效果。进一步地,可通过目标语言知识去提高命中率。语言学分值可以用目标语言的知识去作补偿。例如,英语中,三个连续的辅音(除了以"S"结束的复数形式)很少见。在此种情形下可减少其语言学分值以避免匹配错误的单词。而具体减少多少分值则可以用心调整以提高总体的命中率。如果具有三个连续辅音的单词被这种调整机制错误地忽略掉,那么还可以通过在字典中检索的方式将其找寻回来。乐观时序歧义消解方法是采用启发式机制(heuristics)而不枚举所有的组合的语言时序歧义消解方法。本发明应用贪婪法则来提供乐观歧义消解,例如对于任何歧义情形可优选最长的匹配序列。如按照图4的编码规则"10"可以为对应于"I0"的"1:0"或者对应于"10"的D,此种情形下根据贪婪法则应选择"D"。当采用乐观时序歧义消解时,应当首先按照乐观歧义消解生成无歧义的输入序列。而该无歧义的输入序列的语言学分值则采用图5B所示的方法求得。当累积的分值符合某特定标准时,例如累积的分值大于最小可接受值,则其解码结果可输出给用户。一旦累积的语言学分值小于或等于最小可接受值,则启动上述语言时序歧义消解过程以得到最好的猜词结果。上述编码规则中可使用多种将编码字元集映射至解码字元集的映射。其中的一种可为基于形状的映射。很多先前技术,例如美国第4008793号、4877405号、5307267号、6837633号、6874960号、7098919号、4173753号、5305207号、5790055号、6362752号、6686907号、6766179号、5982303号、及6753794号专利均揭示基于形状的映射关系。本发明提供一种新的基于形状的映射方法。尽管对字元编码具有大量的研究,然而并未有人于编码规则中使用变形操作。根据本发明的一个实施例,一个编码序列可包括至少两个编码字元,而该编码序列中的一个正式字元的预定形状改变类型是利用在其后并与其相邻的字元表示。本发明提供的基于形状的映射的操作可分为无操作、变换操作、建构操作、破坏性操作以及变形操作。无操作于编码字元与解码字元基本相同时使用。变换操作包括旋转、镜像、縮小等等。建构操作包括基于笔划的操作或形状的组合。破坏性操作包括笔划移除、剪切(例如不按照笔划建构的分割动作)与开口(例如,打断封闭的区域)。变形操作于编码字元与对应的解码字元可以采用中间形状关联起来的情形时使用。图6示出本发明的一个较佳实施例。第一行为键盘字母表(编码字元集的一个实例)600。第二行为正常英文字母表(解码字元集的一个实例)601。第三行为英文字母(解码字元)与数字(编码字元)之间的中间形状602。第四行为包括数字或数字组合的映射关系603。第三行中指向箭头所指的'4'表示破坏性操作604。'C'列中的破坏性操作604为"剪切"操作而其余为"开口"动作。根据本发明提供的基于形状的映射关系,可以很容易将解码字元(第二行)翻译成中间形态(第三行),最后得到相对应的一或多个编码数字(第四行)。很容易看出还可进行相反的过程,即将一或多个编码数字翻译成解码字元。图4中所示的编码规则可从图6提供的基于形状的映射衍生出来,以下将详细说明。该编码规则(或映射关系)401包括多个解码字元402。而解码字元402可能对应于由按键403产生的单字元字串或者由按键404、405产生的二字元字串。应注意的是,尽管'G'可以根据形状的组合编码为"67",但其同样可以按照变形操作编码为"6"。图4中的结果编码为"6"。一般来说,生成更有意义的编码的规则是以包含更多形状资讯的编码为优先。如此可使人们更加容易通过形状来识别第一编码与第二编码。例如'Q'为'0'与'1'的组合,然而'0'包含更多的形状资讯,因此'Q'的编码应为"01"。根据本发明,用户无须再看着键盘去输入文字,而可以直接使用键盘上的数字按照记忆输入。而由于无须使用任何特殊的标记,因此动电话或键盘的制造厂商无须对现有设计作任何变更即可直接应用本发明。在输入时用户可直观地检查想要的铵钮是否真正的被选择了。以'Q'的解码为例,如果在输入第一个编码后不显示'Q'而显示相关的形状例如'0'用户即可意识到前一次按键是错误的需要更正。在正确的输入'0'与'l'后,可以预期会被解码成'Q',然而根据编码规则同样可能被解码成序列"01"。在两种情形下,显示结果均与输入序列"01"相关而不象传统的预测式输入法中的跳跃式选项。因此解码结构使得本发明的方法更加可靠并更具可预测性。对于每个解码字元,会生成被设计决策接受的所有可能编码序列(每个编码序列皆由编码字元所组成)。根据设计决策,每个选项具有一个相关的权重。一般来说,对于较佳的选项具有较高的权重。基于形状的字串枚举意指具有基于形状的设计决策的字串枚举。多级字串枚举意指不同设计决策的等级结构。在一个多级字串枚举的实施例中,每个解码字元对应的编码字元的所有可能编码序列都被生成。可能的编码序列可以分为几个逻辑解释,例如形状关联、文化关联或者其他任何可以接受的关联。在进行如上述的多级字串枚举的字串枚举之后,将做进一步分析以决定可以接受的分配。在一个实施例中,会从目标语言文献中生成一个一元(LinguisticUnigram)语言表以及一个二元(2-gram)语言表,其中高频字母根据该一元语言表指定单编码字元。如果较佳的形状分配的出现的频率较低则将其重新指定至一个双编码字元,而该单编码字元则可以被改为指定至另一个高频率解码字元。例如初始的分配中'Z'与'N'分别被指定为('Z',〃2〃)与('N',〃2@〃),但是由于'N'具有更高的频率,因此'Z'可被重新指定为('Z',〃22〃),而N则被指定为('N',〃2〃)。该二元语言表可用于防止这种分配动作导入更多的歧义。例如,在下列的表l中,"12"为编码"D"的一个选项。参考WilliamSoukoreffandScottMacKenzie,LinguisticDiagramFrequencyTables(http://dynamicnetservices.com/_wi11/academic/bit95.tables,html)中的bit95二元语言表,可以发现二元片段"IN"具有更高的频率,可能的情况下应当尽量避免。如果"12"是根据某种设计决策选定的,语言学分值补偿可用于减少此种指派所导入的歧义。如表1所示,编码字元与解码字元之间可能的映射关系可分成多种类别,其包括基本相同关系、变换关系、变形关系、组成关系与破坏性关系。进一步地,在下列表中"'"代表破坏性操作。符号"@"代表变换操作中的旋转,"%"代表变换操作中的镜象,'7"代表"0R",而被"_"包围则表示较不值得考虑的指派。表1<table>tableseeoriginaldocumentpage13</column></row><table><table>tableseeoriginaldocumentpage14</column></row><table>可采用上述两种映射方法来指派编码是很重要的一件事,这两种映射方法的其中一种是通过考量每个解码字元的频率而将编码序列指派给一个解码字元,而另一种映射方法则是通过考量由字串枚举提供的可能映射而将编码序列指派给一个解码字元。这两种映射方法可按任意顺序进行。例如,表2中给出了编码指派的结果以及由一阶统计(First-OrderStatistics)提供的基于一元语言统计的冲突解决方法。关于一阶统计可参考网址为http://www,data-compression,com/english.html的相关内容(StatisticalDistributionsofEnglishText)。在此可以看到一些高频率解码字元例如"A"、"E"、"I"、"0"、"R"、"S"、及"T"被指派一元(或单字元)编码序列。而一些基他字元,例如"B"与"G"由于其分别与编码字元"8"与"6"非常相似而被指派一元编码序列。解码字元"Z"首先被指派一元编码"2"。然而,由于一元编码字元"2"可以作为解码字元"N"的映射,而且根据语言学统计结果"N"的出现频率比"Z"高很多,因此一元编码字元"2"被重新指派给解码字元"N",而解码字元"Z"被重新指派成二元编码字元"22"。表2<table>tableseeoriginaldocumentpage14</column></row><table><table>tableseeoriginaldocumentpage15</column></row><table>另一种可能的映射同样可以考虑利用。在一个实施例中,指派按照基本相同、变换关系、变形关系、组成关系、及破坏性关系的顺序进行。结果显示在表3中。表3<table>tableseeoriginaldocumentpage16</column></row><table><table>tableseeoriginaldocumentpage17</column></row><table>由于解码字元"C"、"D"、"H","K",及"X"的可能映射关系,表3中的编码序列的组合提供72种选择。用于表示对正式编码字元进行的操作的操作符号可以任意选择。例如,代表镜象操作的操作符号可以选用8或O,代表旋转操作的操作符号可选用6或9,代表破坏性操作的操作符号可选用其他任意数字。在一个实施例中,数字"8"因为看起来像是两个互为镜象的"o"而被选为代表镜象操作的操作符号,数字"6"代表旋转操作是因为数字"6"像一个漩涡。数字"4"代表催毁操作是因为数字"4"像剌。相应地,最终的映射关系如表4所示。表4<table>tableseeoriginaldocumentpage17</column></row><table><table>tableseeoriginaldocumentpage18</column></row><table>可以理解,编码字元与解码字元之间的映射关系还可包括表4所示以外的指派。然而该指派可以由以下各项来决定枚举所有可接受的可能的映射、决定操作符号以及至少一种选自基于形状的映射分值、为消除输入序列歧义所需保存字典的大小、解码序列的歧义长度分布、乐观时序歧义消解的命中率、语言学时序歧义消解命中率、乐观时序歧义消解与语言学时序歧义消解共同使用的命中率、根据解码序列频率的命中率分布、从一阶统计计算得到的每字母所需要按键数、自然语言集的优化以及时序歧义测量的标准。对于所有枚举出的可接受组合,可以根据上述某个特定的标准计算得到权重分值以进行自动选择,或者,只要其能满足上述标准,亦可进行手动选择。基于形状的映射与时序歧义编码规则在文字输入系统中可独立工作,亦可共同工作。图7所示为本发明一实施例的时序歧义消解流程图。图8所示为本发明一实施例提供的文字输入系统结构方框图。参阅图7与图8,用户800通过启动键盘802输入一个输入序列。输入序列分割器803将输入序列分为文字输入820与控制输入822。控制输入822被输出至输入控制模块809,而文字输入820则被送往时序歧义片段化模块804。时序歧义消除操作从步骤701开始,此时文字输入820会被送往时序歧义片段化模块804。文字输入820经过时序歧义片段化模块804处理生成时序片段化序列821(步骤703)。在步骤705中,时序片段化序列821的每个片段利用"pre"字元(即前一个片段的最后一个字元)以及"post"字元(即后一个片段的第一个字元)来进行处理。步骤707中,如果还有片段需要处理,则利用保存于语言频率模块805中的统计结果,藉由乐观歧义消解模块806(步骤709)来处理当前片段。在步骤711中,如果根据步骤709的结果计算得到的语言学分值大于预定的值Q2,则无歧义的输入序列被接受并在步骤720中解码。否则,则启动语言学时序歧义消解模块807以选择最佳的无歧义的输入序列(步骤713)。所有从该时序歧义片段中生成的无歧义的输入序列于步骤722中链接起来以生成预测结果824,并通过输出控制模块809输出至显示装置801。如果所有的片段处理完成并且操作流程从步骤707分支到步骤715,则输入序列的语言学分值在步骤715中计算。如果步骤715的结果小于另一个预定值Q1,则假定预测是不可接受的而需要从输出控制模块809向字典模块808输出预测查询823进行字典检索以寻找更好的预测结果(步骤719)。否则,在步骤717中,检查用户是否请求某个可选项。如果没有这种请求,则暗示用户接受当前预测结果,否则即启动字典检索(步骤719)。在字典检索后,其中一个匹配结果被用来取代步骤724中的预测结果,而且用户在步骤726中可以利用一个特殊功能键例如"*"选择并确认所想要的单词。在另一个实施例中,输出控制模块809可直接耦合至输入序列分割器803甚至键盘802以直接接收文字输入820以及控制输入822。其接收的的文字输入820以及控制输入822可发送给字典模块808以检索匹配的编码序列以输出相应的解码序列。可以理解,本发明的组件可以设置成客户端-服务器(C/S)模式,即通过一通讯管道以进行上述耦合或连接,并以预定的通讯协定来传输讯息。根据这些资料作为输入的模块是否需要存在,时序歧义片段化模块可以同时被复制于客户端以及服务器上。时序歧义片段化模块的输出可如较佳的实施例中描述的那样被直接导引到消费模块中或者亦可以瀑布(waterfall)方式输出。本发明中采用的键盘包括多个响应于用户触动的按键。该按键响应于用户引起的光、听力、触觉、味觉以及气味中的一种物理量的变化。该键盘还可为任意键盘字元序列的输出。另外,该显示装置可选自视觉、听觉、触觉、味觉、或者嗅觉显示装置。如图7所示,尽管在较佳的实施例中所有的时序歧义消解方法都使用过,然而这些方法的各种组合同样可用。在一个极端的情形下,通过重定向"NO"分支707至结束状态可以完全忽略字典检索动作。参阅图gA-图9G,其所示为根据本发明一实施例中显示输入并用字典检索消除"WORK"的歧义的过程。本实施例中所使用的编码规则(编码序列与解码序列之间的映射关系)如图6所示。在图9A中,用户输入该输入序列的第一个编码字元"3",根据图6,输出装置显示"E"的中间形态。然后如图9B所示,用户输入该输入序列的第二个编码字元"6",而输出装置于原来显示"E"的中间形态的地方显示"W"的中间形态。根据图4的编码规则,输入序列"36"可能被解码成两个解码字元"EG"而不是"W"。然而本实施例中还进行乐观时序歧义消解,因此在具有歧义时将优先选择最长的编码序列。相应地,具有两字元编码序列"36"的解码字元"W"相比于每个字元具有一元编码序列的解码字元"EG"为更佳的选择。如图9C所示,当使用者继续输入该编码序列的第三个编码字元"0"时,编码字元"0"应为该输入序列的另一个片段,因为没有对应于输入序列"60"的编码序列。相应地,输出设置进一步显示"O"的中间形态。然后,用户进一步输入该输入序列的第四个编码字元"9",而因为没有对应于输入序列"09"的编码序列,所以此编码字元同样被认为是一个片段。相应地,如图9D所示,由于解码字元R对应于由编码字元"9"构成的编码序列,所以输出装置进一步显示解码字元"R"的中间形态。当使用者输入第五个编码字元"8",如图9E所示,由于二元编码序列"98"对应于解码字元"P",而根据乐观时序歧义消解,"P"是一个更好的选择,因此原来显示的"R"的中间形态变化为"P"的中间形态。然后,用户进一步输入第六个字元"4"时,如图9F所示,由于解码字元"R"先于输入编码字元"4"时决定的,因此编码序列"984"被分割成"98:4",输出设备进一步显示解码字元"A"的中间形态。此种情形下显示失败的预测结果"WOPA"。此时使用者可以通过输入一个编码字元"*"以调用字典检索来纠正错误。字典检索让输出装置显示对应于编码序列"360984"的匹配解码序列"WORK"的中间形态。连续输入"*"会接着枚举出其他所有匹配的结果。由于在此种情形下仅有一个可选单词可用,因此可以很快确认所想要的单词。然而,错误的预测结果还可用其他方式去纠正。例如,如图9E、图9H及图9I所示的划界控制。如上所述,输出装置于对使用者输入由编码字元组成的编码序列"36098"进行时序歧义消解后显示编码序列"WOP"的中间形态。—旦使用者发现错误的预测,可提供一特殊功能按键,例如"#"作为划界控制符。本实施例中,使用者可输入编码序列"##"以启动其作为划界控制编码序列。相应地,当用户于输入序列"36098"后输入编码序列"##"时,如图8所示,划界控制编码序列"##"被分割为控制输入。因此,输出控制模块809向乐观时序歧义消解模块806与/或语言学时序歧义消解模块807发送请求以改变编码片段"98"为新的解释"9:8"。如图9H所示,输出装置因此于显示解码字元"P"的中间形态的位置显示解码字元"R"的中间形态。编码字元"4"于编码字元"##"后输入,因此其与编码字元"8"组合到一起作为文字输入"84"并最终解码为"K"。因此如图91所示,最终显示的是解码字元"K"的中间形态。传统的预测式输入法中,对于可选项的确认需要使用者去选择,不然讯息具有多种歧义而难以阅读。另外,在输入过程中的打字错误不能回复并可能导致完全不可读的短讯。简言之,传统方法在无反馈状况下无法使用。本发明由于采用脑力记忆取代对照表,因此可以应用于无回馈打字。并且无须等待超时或者采用超时讯息去区分前后输入字串。另外,可选单词可通过视觉显示的方式加以校正,因此输入时可采用延迟回馈打字方式,使用者可先接受非预期的预测字词然后事后手动去校正它。在极端情形下,所有的输入并不需要预测以及后期确认的动作。虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明,任何熟习此技20艺者,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,因此本发明的保护范围当视后附的申请专利范围所界定为准。权利要求一种解码方法,其用于将多个编码序列映射至多个解码序列,每个编码序列包括至少一个选自编码字元集的字元,每个解码序列包括至少一个选自被非语标语言使用的解码字元集的解码字元,其特征在于该解码方法包括接收输入的编码字元;以及将该输入的编码字元组合至一输入序列的末尾,其中该输入序列为时序歧义的,从而该输入序列具有被解析成至少两个不同的编码序列组合的可能性,每个编码序列组合包括该编码序列中的至少一个。2.如权利要求1所述的解码方法,其特征在于其中解析该输入序列时是通过匹配一字典来进行,该字典包括该编码序列与该解码序列之间的可接受关联。3.如权利要求1所述的解码方法,其特征在于其中解析该输入序列时是采用语言学模型。4.如权利要求3所述的解码方法,其特征在于其中该语言学模型对该编码序列组合进行语言学分值计算。5.如权利要求1所述的解码方法,其特征在于其中解析该输入序列时采用启发式语言学模型,从而使得该语言学分值计算可仅应用于一部分编码序列。6.如权利要求5所述的解码方法,其特征在于其中该启发式语言学模型采用贪婪法则,以取该编码序列组合中最长的匹配作为该编码序列的映射。7.如权利要求1所述的解码方法,其特征在于进一步包括一决定步骤当该输入序列最后两个字元于该映射中不为任何编码序列的一部分时,将该输入序列中位于输入的编码字元之前的编码字元组成为一个片段序列。8.—种装置,其特征在于包括一键盘,用于输入包括选自一编码字元集的至少一个字元的一输入序列;一输出装置,用于选择性输出一输出序列,该输出序列包括选自一解码字元集的至少一解码字元,其中该输出序列是依据该输入序列生成;以及一解码装置,包括将多个编码序列映射至多个解码序列的一映射,每个编码序列包括选自该编码字元集的至少一个编码字元,每个解码序列包括选自该解码字元集的至少一个解码字元,该映射用于根据该输入序列的至少一部分将该输入序列映射至该输出序列,其中,当一个编码字元藉由该键盘输入时,该解码装置将该输入的编码字元组合至该输入序列的尾端,该输入序列为时序歧义而使该输入序列有被解析为至少两个不同的编码序列组合的可能性。9.如权利要求8所述的装置,其特征在于,其中,该解码装置进一步包括耦合至该键盘的一输入序列分割器,其用于接收该输入序列并将该输入序列分割成一个文字输入及一个控制输入。10.如权利要求9所述的装置,其特征在于,其中,该映射包括一时序歧义片段化模块,耦合至该输入序列分割器以接收该文字输入,并于该文字输入最后两个字元不构成任一编码序列的一部分时生成一时序片段化序列;一语言学频率模块,用以保存多个统计;以及一语言学时序歧义消解模块,耦合于该时序歧义片段化模块与该语言学频率模块,用于根据该些统计来计算该时序片段化序列中的每个片段的编码序列组合的分值,该分值用于决定该解码序列的预测结果。11.如权利要求io所述的装置,其特征在于,其中,该解码装置进一步包括一输出控制模块,其耦合至该语言学时序歧义消除模块以接收并向该输出装置输出解码序列,该输出控制模块更耦合至该时序歧义片段化模块以接收该时序片段化序列。12.如权利要求11所述的装置,其特征在于,其中,该映射进一包括一字典模块,其耦合于该输出控制模块,用于接收该时序片段化序列并从一字典中寻找与该时序片段化序列对应的解码序列。13.如权利要求IO所述的装置,其特征在于,其中,该映射进一步包括一乐观时序歧义消解模块,其耦合至该时序歧义片段化模块与该语言学频率模块,用于根据该些统计以计算该时序片段化序列中的每个片段的每个编码序列组合的分值,该分值计算仅适用于一部分编码序列组合。14.如权利要求9所述的装置,其特征在于,其中,该映射包括一时序歧义片段化模块,其耦合至该输入序列分割器以接收该文字输入,并当该输入序列最后两个字元不构成任何编码序列一部分时生成一时序片段化序列;一语言学模块,用于保存多个统计;以及一乐观时序歧义消解模块,其耦合至该时序歧义片段化模块及该语言学频率模块,用于计算该时序片段化序列中的每个片段的每个编码序列组合的分值,并且该分值计算仅适用于一部分编码序列组合。15.如权利要求9所述的装置,其特征在于,其中,该映射包括一输出装置,其耦合于该输入序列分割器,用于接收该文字输入与控制输入。16.如权利要求15所述的装置,其特征在于,其中,该映射进一步包括一字典模块,其耦合至该输出控制模块,用于接收该文字输入并从一字典中检索与该文字输入对应的解码序列。17.—种解码方法,其特征在于包括维持将多个编码序列映射至多个解码序列的一映射,每个编码序列包括选自一编码字元集的至少一个编码字元,每个解码序列包括选自被非语标语言使用的一解码字元集的至少一个解码字元;接收一或多个编码字元到一输入序列中;如果该输入序列长度大于一则生成多个编码序列组合;选择该编码序列组合中的一个;根据该映射将该选择的编码序列组合映射至一输出序列;以及输出该输出序列。18.如权利要求17所述的解码方法,其特征在于其中该映射的一部分作为一字典,其中该字曲包括该编码序列与该解码序列之间的可能关联。19.如权利要求17所述的解码方法,其特征在于,其中,选择该些编码序列组合中的一个的步骤重复进行以选择多个编码序列,使得被选择的该些编码序列组合根据该映射对应于多个输出序列。20.如权利要求19所述的解码方法,其特征在于其中该输出序列被选择性输出并按照从一给定文献中出现的频率顺序排列。21.如权利要求19所述的解码方法,其特征在于其中该输出序列被选择性输出并且按照语言学分值高低顺序排列。22.如权利要求17所述的解码方法,其特征在于其中选择其中一个编码序列是由语言学模型决定。23.如权利要求22所述的解码方法,其特征在于其中该语言学模型是对该编码序列组合进行语言学分值计算。24.如权利要求17所述的解码方法,其特征在于其中选择其中一个编码序列时由启发式语言学模型决定,以使该语言学分值计算可仅应用于一部分编码序列。25.如权利要求24所述的解码方法,其特征在于其中该启发式为语言学模型采用贪婪法则,以取该编码序列组合中最长的匹配作为该编码序列的映射。26.如权利要求17所述的解码方法,其特征在于其中该映射的一部分作为编码规则,该编码规则将该编码序列映射至该解码序列。27.如权利要求26所述的解码方法,其特征在于进一步包括于选择其中一个编码片段之前的一片段化步骤,该片段化步骤根据该编码规则从该输入序列生成至少一个片段化序列,且该些编码序列组合之一是根据该片段化序列来进行选择。28.如权利要求27所述的解码方法,其特征在于其中该片段化步骤包括a.从该输入序列的开头开始;b.形成由当前字元与当前字元的下一个字元组成的长度为2的一字串;c.验证该字串是否在该编码规则中;d.如果该字串在该编码规则中,累积当前字元并于下个字元上进行步骤b与c;以及e.如果该字串不存在于该编码规则中,用累积的字元与当前字元链接以生成该片段化序列,并从下一个字元开始重新进行该片段化步骤。全文摘要一种解码方法及解码装置,该解码方法用于将多个编码序列映射至多个被非语标语言使用的解码序列。该解码方法接收输入的编码字元并将其组合至一输入序列的末尾,其中该输入序列为时序歧义的,从而该输入序列可被解析成至少两个不同的编码序列组合,每个编码序列组合包括该编码序列中的至少一个。文档编号G06F3/023GK101720457SQ200880014020公开日2010年6月2日申请日期2008年4月30日优先权日2007年4月30日发明者陈仁德申请人:陈仁德
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1