一种汉字输入方法及其装置的制作方法

文档序号:6554672阅读:247来源:国知局
专利名称:一种汉字输入方法及其装置的制作方法
技术领域
本发明涉及一种汉字输入方法及装置,尤其涉及一种适用于利用数字键盘来输入汉字的方法和装置。
目前汉字输入技术正朝向面对普通使用者的方向发展,即可以让一般用户不经学习,或者稍加训练即能快速方便地输入汉字。然而,目前的各种汉字输入方法都存在着易学但不易用,或易用但不易学的问题。即,容易掌握的输入方法,一般都输入效率低,例如,五笔画(即利用笔画顺序进行输入的方法)和拼音输入法等,这些方法虽然易学(五笔画只要会写汉字,即可输入,拼音输入法只要会正确发音,即可输入),但输入效率低;而要提高输入效率,则其编码规则必将复杂,造成不易学习。
另一方面,随着电子技术的飞速发展,各类电子产品功能不断增加,而体积却不断缩小。例如,目前有些手机(移动电话机)或遥控器都具备了汉字输入功能。但是,由于它们的体积小巧,不可能把标准英文键盘上的所有键都制作在其上,往往只有10个数字键以及一些功能键。因此,其输入汉字的编码方法必会存在这样的问题由于数字键较少,所以一个汉字的码长会较长,造成输入速度减慢。如果缩短码长,则会造成重码率高,同样会使输入速度减慢。
因此,本发明的目的在于提供一种编码方法简单的汉字输入方法,这种方法能有效地提高汉字的输入效率,融合了易学易用的特点。
本发明的另一个目的在于提供一种汉字输入装置,该装置利用了上述的汉字输入方法,同样具有易学和易用兼具的特点。
本发明的汉字输入方法,包括下列步骤接收用户通过输入装置输入的汉字编码;根据输入的汉字编码,从编码-汉字映射库中查找出相应的汉字集;将所述汉字集显示在显示器上;在显示步骤中,以与一个汉字或汉字串相关的分数值的大小为顺序来显示所述汉字集,其中,所述汉字的分数值为Score(A1,A2,A3,...,AN)=λ1Σi=1NUni(Ai)+λ2Σi=2NBi(Ai/Ai-1)]]>
式中λ1和λ2为加权系数;Uni(Ai)为汉字Ai的使用频率;Bi(Ai/Ai-1)为汉字Ai-1后出现汉字Ai的概率。
本发明还提供了利用上述汉字输入方法的汉字输入装置,包含输入装置,用于输入汉字编码,编码-汉字映射库,用于存储编码与汉字的映射关系;查找装置,用于根据所述输入装置输入的汉字编码,从所述编码-汉字映射库中查找得到相应的汉字集;显示装置,用于显示所述汉字集;语言模型库,包含表示一个汉字的使用频率的使用频率库和表示一个汉字与其它汉字的组词概率的组词概率库;显示顺序运算装置,用于运算所述汉字集中每个汉字的分数值,并以所述汉字的分数值的大小为顺序向所述显示装置输出汉字,并在所述显示装置上以该顺序来显示汉字集,其中所述汉字的所述汉字的分数值为Score(A1,A2,A3,...,AN)=λ1Σi=1NUni(Ai)+λ2Σi=2NBi(Ai/Ai-1)]]>式中λ1和λ2为加权系数;Uni(Ai)为汉字Ai的使用频率;Bi(Ai/Ai-1)为汉字Ai-1后出现汉字Ai的概率。
本发明的其它目的、特征和优点,通过下面结合附图对实施例的描述将变得更加明显。
下面结合附图详细描述本发明的实施例。图中

图1是本发明的汉字输入方法的流程图;图2是本发明的汉字输入系统的结构框图;图3是显示装置显示内容的一个例子。
参见图1,图1示出了本发明的汉字输入方法的流程图。如图1所示,与传统的输入方法相同,首先是利用输入装置输入汉字的编码(S1)。然后,根据输入的汉字编码,从编码-汉字映射库中查找出相应的汉字集(S2)。对于这两步骤,基本上与传统的各类汉字输入方法相同。在步骤S1中采用的汉字编码方法可以利用各种已有的编码方法,例如,全拼音码、简拼音码、五笔画码等。步骤S2中的编码-汉字映射库随着使用不同的编码方式,其内容是不同的。本发明所作的改进点是在步骤S3,即在步骤S3,对在步骤S2中所找出的汉字集中的汉字进行排序,然后,在步骤S4,以在步骤S3所排的顺序进行显示汉字集中的汉字。步骤S3对汉字集进行排序的目的是把对应于输入的编码的汉字集中最常使用的(或者说最有可能的)汉字显示在前面,以方便用户选择要输入的汉字,从而减少码长,提高输入效率。
步骤S3中对汉字进行排序的原则是以与一汉字相关的分数值的大小为顺序对汉字集中的汉字进行排序,即分数值大的先显示,分数值小的后显示。与汉字相关的分数值的计算方式如下Score(A1,A2,A3,...,AN)=λ1Σi=1NUni(Ai)+λ2Σi=2NBi(Ai/Ai-1)]]>式中λ1和λ2为加权系数;Uni(Ai)为汉字Ai的使用频率;Bi(Ai/Ai-1)为汉字Ai-1后出现汉字Ai的概率。
下面以五笔画的汉字编码方法举一些例子来说明本发明。但是,应当理解,这只是一个例子,并不构成对本发明的限制,本发明同样可以采用其它的汉字编码方式。
先简要描述一下五笔画的编码方式。所谓五笔画的汉字编码,就是将组成汉字的笔画分类成5种笔画,即分类成横、竖、撇、点、折,然后,用五个数字键来分别表示这五种笔画。其对应关系如下表。 编码时,按汉字的书写顺序进行编码。例如,汉字“北”,利用五笔画的编码方式进行编码,其编码为“21154”。
假设,要输入汉字“北”,首先输入其第一个码“2”,表示其第一笔画“竖”。当输入了该码“2”后(步骤S1),在步骤S2,立即从编码-汉字映射集中查找出以该码“2”作为第一码的所有汉字,组成汉字集。即,将所有以“竖”为第一笔画的汉字都找出来,组成汉字集。例如“典”、“上”、“卜”、“旧”、“归”、“北”等等。传统的方式是将这些字以一定的规则进行排序,然后进行显示,例如按汉字的笔画数或者发音进行排序。但是,这种方式排序存在的缺点是,并不能把最常用的字排在前面,先显示出来。在上面的例子中,如按笔画数进行排序,则其显示的先后顺序为“卜”、“上”、“内”、“旧”、“归”、“北”、“典”。如果一屏显示的字数为5个汉字的话,则要输入的汉字“北”则要在第二屏上显示,这样每次输入该字都要翻屏。而该汉字“北”与显示在前的汉字“卜”、“内”、“旧”相比较,在汉语中更常用,使用频率较高。如果,能将使用频率较高的汉字显示在最前面,即按使用频率的高低来显示,则会大大减少翻屏次数。例如,如果在上例中,能按这几个汉字在汉语中的使用频率的高低来显示,则其显示顺序为“上”、“北”、“内”“旧”、“归”、“典”。这样,“北”字就可以在第一屏上显示,用户只要直接选择输入即可。从而降低汉字的输入码长,提高输入效率。
上面解释了以汉字的使用频率为依据对汉字进行排序显示的情况。另一方面,还能以该汉字与前一已输入的汉字的组合可能性(或者组合概率)的大小进行排序显示。
续上例,如果已输入了汉字“北”,用户要输入的后一汉字的第一个编码为“4”,则在传统的情况下,将从编码-汉字映射集中查找编码以“4”为第一编码的所有汉字组成汉字集,例如查找到的汉字集包括“为”、“亲”、“头”、“永”、“必”、“良”、“心”、“京”等汉字。然后,根据上面所述的笔画数或拼音进行排序显示,如根据其笔画数,则其排列顺序为“为”、“心”、“头”、“永”、“必”、“良”、“京”、“亲”等汉字。
这样的排列顺序的缺点在上面已经说明了。但是如果仅根据上面所述的汉字的使用频率来排序,在这里也有不足。就以上例为例,如果根据使用频率进行排序,则其排列结果为“为”、“新”、“京”、“头”、“心”、“良”、“亲”。显然,在前一个汉字已经输入的情况下,根据汉语规则,后一个出现的汉字与前一个汉字有很强的关联性。仅根据使用频率来确定显示顺序,在已输入了前一个汉字的情况下,仍然存在不足。因此,本发明在显示排序上还充分利用了汉字前后的相关性。即上面所述的Bi(Ai/Ai-1),用以表示汉字Ai-1后出现汉字Ai的概率。对于本例来说,汉字集中的每个汉字都还具有另一个参数,即Bi(Ai/Ai-1),例如,汉字“北”后面出现“为”的概率参数为Bi(为/北),汉字“北”后面出现“京”的概率参数为Bi(京/北)。显然,根据汉语规则,在“北”后面出现“京”的概率肯定大于“为”,所以Bi(京/北)的数值大于Bi(为/北),这样,在排序时,“京”字将会排列在“为”字之前,即使“为”字的使用频率高于“京”字。因此,根据本发明,对查找到的汉字集中的汉字的排序原则是综合考虑该汉字的使用频率和在前一汉字后面出现该汉字的概率这两个因素。这样,能更符合汉语的规则,大大地缩短了汉字的码长,提高了输入效率。
在上面的例子中,由于后一个要输入的汉字仅与前一个已输入的汉字有关联。因此,上面的公式可以简化为Score(A,B)=λ1(Uni(A)+Uni(B))+λ2Bi(B/A)根据实验结果,如果没有进行本发明的上述排序,用户必须平均键入7码以上才能输入一个汉字,即汉字的输入码长大于7。而利用本发明的上述排序,则用户平均键入3.19键就能输入一个汉字,即汉字的输入码长为3.19,远远小于7。因此,本发明的效果是显然的。
下面,对上面的运算式(公式1)作进一步的说明。
公式(1)中,Uni(Ai)为汉字Ai的使用频率。该使用频率的值可以通过统计和训练得到。一般的方法是,找几篇具有普遍意义的文集作为样版文集,统计出文集中汉字Ai出现的次数N(Ai),通过下列公式运算出Uni(Ai)Uni(Ai)=N(Ai)/N0公式(2)式中,N0为样版文集的总字数。
公式(1)中,Bi(Ai/Ai-1)为汉字Ai-1后出现汉字Ai的概率。该概率的值也可以通过统计和训练得到。一般的方法是,找几篇具有普遍意义的文集作为样版文集,统计出文集中汉字Ai-1后出现汉字Ai的次数N(Ai,Ai-1),通过下列公式运算出Bi(Ai/Ai-1):
Bi(Ai/Ai-1)=N(Ai,Ai-1)/N(Ai)公式(3)公式(1)中的λ1和λ2为加权系数,通过调节这两个系数,可以调整Uni(Ai)和Bi(Ai/Ai-1)在分数值中的权重,即可以调整使用频率和组词概率对该汉字的分数值的影响程度。一般情况下,λ1和λ2应满足λ1+λ2=1的关系。根据实验结果,λ1可取0.1~0.3,较佳值为0.2,λ2可取0.9~0.7,较佳值为0.8。
上面以五笔画的汉字编码方式为例解释了本发明的汉字输入方法,但是应当理解,其它汉字编码方式也可以应用于本发明中。例如也可以采用微软拼音输入法的汉字编码方式。微软拼音输入法是一种支持整句输入的输入法。这种输入法可以让用户连续输入多个汉字的编码。例如,用户连续输入拼音“woshiyigebing”。当输完拼音“wo”时,利用本发明,显示屏上将显示出以“wo”为编码的所有汉字。并且这些汉字是以使用频率的高低为顺序排列的。由于“我”字的使用频率,即Uni(我)最大,因此,“我”字将排在第一位,其它汉字例如“卧”、“蜗”、“握”等则排在其后。由于在“wo”之前没有已输入的汉字,因此,Bi(我/*)的值为0。
此时,根据整句输入法规则,用户可以不选择要输入的字,继续输入编码。例如,继续输入“shi”。编码为“shi”的汉字集有“是”、“室”、“市”、“实”、“时”等。根据本发明的公式(1),将计算“woshi”编码各种可能的组合情况。例如计算Score(我是)、Score(我室)、Score(我市)、Score(我市)、Score(卧是)、Score(卧室)、…、Score(蜗是)、…等的分数值,并根据分数值的大小显示供选择的汉字串集。如果计算结果为Score(卧室)>Score(我是)>……,则汉字串集的显示顺序为“1.卧室、2.我是……”。
此时,用户可以选择输入,也可以继续输入编码。如继续输入“yi”。对应于“Yi”编码的汉字集包括“一”、“以”、“已”等。此后,将根据本发明的公式(1)计算“woshiyi”编码的各种可能的组合情况。例如,计算Score(我是一)、Score(我室一)、……、Score(卧室一)、…等。并根据分数值大小进行显示。本例中,Score(我是一)>Score(卧室一)>……。因此,在屏幕上将显示“1.我是一、2.卧室一、3……”。
以上述方式将完成“woshiyigebing”,即“我是一个兵”的输入。
根据本发明的特点,本发明一般适用于重码多的编码方式。如果本发明使用了五笔画的汉字编码,则更适用于需要输入汉字但输入键又较少(例如,只具有10个数字键以及一些功能)的电子装置上,例如,遥控器、中文手机等。
下面描述利用上述的本发明的汉字输入方法的汉字输入装置。
图2示出了根据本发明的汉字输入装置的结构框图。如图2所示,本发明的汉字输入装置包括有
输入装置10,输入装置10一般为键盘,该键盘可以是标准的西文键盘,也可以是仅包括数字键以及一些功能键的键盘;编码-汉字映射库20,该映射库20存储了编码与汉字的映射关系;查找装置30,该装置用于实现图1的流程图中步骤S2的功能,它根据通过输入装置10输入的编码,从编码-汉字映射库20中查找得到相应的汉字集;语言模型库40,该模型库包含一个使用频率库41和一个组词概率库42,使用频率库41用于存储每个汉字的使用频率Uni(A),组词概率库42用于存储一汉字与其它汉字的组词概率Bi(Ai/Ai-1),即某一汉字后面出现该汉字的概率(或可能性);显示顺序运算装置50,用于运算汉字集中每个汉字的分数值,其运算方式根据上述的公式(1),然后,以所述汉字的分数值的大小为顺序进行排序,向后面的显示装置60输出;显示装置60,用于显示所述显示顺序运算装置50输出的汉字,显示装置60的显示方式的一个例子如图3所示。在该例子中,是以五笔画汉字编码作为本发明的汉字输入方法,即汉字编码采用数字1-5五个数字,分别对应于汉字的横、竖、摘、点、折五种笔画,用户输入的第一码表示汉字的第一笔笔画,第二码表示所述汉字的第二笔笔画,第三码表示汉字的第三笔笔画,以此类推。当用户通过输入装置10输入的汉字的第一个编码时,例如“2”时,显示装置的显示如图3所示,其排列顺序根据每个汉字的数值大小,每屏显示5个候选汉字。每个汉字前面的数字为选字数字,用于选择输入该汉字时使用。例如,如果用户要输入“北”字,则通过输入装置10键入“7”即可输入该汉字“北”。如果要输入的汉字没有出现在该屏显示中,有两种方式一种是通过翻屏功能键显示第二屏候选汉字,直到出现要输入的汉字;另一种是继续输入第二码,例如要输入“典”字,则继续键入“5”,表示“典”的第二个编码。然后输入第三个编码,直到出现该汉字。
上面详细和全面地描述了本发明的实施例,本技术领域的一般技术人员应当理解,上面描述的本发明的汉字输入方法和汉字输入装置可以利用软件、硬件或者硬件和硬件相结合的方式来实现。上面描述的实施例只是用于帮助理解本发明,并不是构成对本发明的保护范围的限制,根据本发明的构思对本发明的具体实施例所作的各种变化以及改变都应落在本发明的范围内,本发明的保护范围应由所附权利要求书来限定。
权利要求
1.一种汉字输入方法,包括下列步骤接收用户通过输入装置输入的汉字编码;根据输入的汉字编码,从编码-汉字映射库中查找出相应的汉字集;将所述汉字集显示在显示器上;其特征在于,在显示步骤中,以与一汉字或汉字串相关的分数值的大小为顺序来显示所述汉字集,其中,所述汉字的分数值为Score(A1,A2,A3,...,AN)=λ1Σi=1NUni(Ai)+λ2Σi=2NBi(Ai/Ai-1)]]>式中λ1和λ2为加权系数;Uni(Ai)为汉字Ai的使用频率;Bi(Ai/Ai-1)为汉字Ai-1后出现汉字Ai的概率。
2.如权利要求1所述的汉字输入方法,其特征在于,所述加权系数λ1与λ2之和为1。
3.如权利要求2所述的汉字输入方法,其特征在于,所述加权系数λ1为0.1至0.3,所述加权系数λ2为0.7至0.9。
4.如权利要求3所述的汉字输入方法,其特征在于,所述加权系数λ1为0.2,所述加权系数λ2为0.8。
5.如权利要求1所述的汉字输入方法,其特征在于,接收到的用户通过输入装置输入的汉字编码的第一码表示所述汉字的第一笔笔画,第二码表示所述汉字的第二笔笔画,第三码表示所述汉字的第三笔笔画,以此类推,所述汉字编码采用1-5五个数字,这五个数字分别对应于汉字的横、竖、撇、点、折五种笔画。
6.如权利要求5所述的汉字输入方法,其特征在于,所述汉字的分数值为Score(A,B)=λ1(Uni(A)+Uni(B))+λ2Bi(B/A)
7.如权利要求5所述的汉字输入方法,其特征在于,在所述显示器上每次显示所述汉字集中的五个汉字,用数字键6、7、8、9、0分别来选择相应的五个汉字。
8.如权利要求1所述的汉字输入方法,其特征在于,所述汉字编码采用微软拼音输入法。
9.如权利要求1所述的汉字输入方法,其特征在于,Uni(Ai)=N(Ai)/N0,Bi(Ai/Ai-1)=N(Ai,Ai-1)/N(Ai)式中,N(Ai)为一篇样版文集中汉字Ai出现的次数,N0为所述样版文集的总字数;N(Ai,Ai-1)为汉字Ai-1后出现汉字Ai的次数。
10.一种汉字输入装置,包含输入装置,用于输入汉字编码,编码-汉字映射库,用于存储编码与汉字的映射关系;查找装置,用于根据所述输入装置输入的汉字编码,从所述编码-汉字映射库中查找得到相应的汉字集;显示装置,用于显示所述汉字集;其特征在于,所述汉字输入装置还包含语言模型库,包含表示一汉字的使用频率的使用频率库和表示一汉字与其它汉字的组词概率的组词概率库;显示顺序运算装置,用于运算所述汉字集中每个汉字的分数值,并以所述汉字的分数值的大小为顺序向所述显示装置输出汉字,并在所述显示装置上以该顺序来显示汉字集,其中所述汉字的所述汉字的分数值为Score(A1,A2,A3,...,AN)=λ1Σi=1NUni(Ai)+λ2Σi=2NBi(Ai/Ai-1)]]>式中λ1和λ2为加权系数;Uni(Ai)为汉字Ai的使用频率;Bi(Ai/Ai-1)为汉字Ai-1后出现汉字Ai的概率。
11.如权利要求9所述的汉字输入装置,其特征在于,所述加权系数λ1与λ2之和为1。
12.如权利要求11所述的汉字输入装置,其特征在于,所述加权系数λ1为0.1至0.3,所述加权系数λ2为0.7至0.9。
13.如权利要求12所述的汉字输入装置,其特征在于,所述加权系数λ1为0.2,所述加权系数λ2为0.8。
14.如权利要求10所述的汉字输入装置,其特征在于,所述输入装置包含0-9十个数字键,所述输入装置输入的汉字编码的第一码表示所述汉字的第一笔笔画,第二码表示所述汉字的第二笔笔画,第三码表示所述汉字的第三笔笔画,以此类推,所述汉字编码采用1-5五个数字,这五个数字分别对应于汉字的横、竖、撇、点、折五种笔画。
15.如权利要求14所述的汉字输入装置,其特征在于,所述汉字的分数值为Score(A,B)=λ1(Uni(A)+Uni(B))+λ2Bi(B/A)
16.如权利要求14所述的汉字输入装置,其特征在于,在所述显示器上每次显示所述汉字集中的五个汉字,用数字键6、7、8、9、0分别来选择相应的五个汉字。
17.如权利要求10所述的汉字输入方法,其特征在于,所述汉字编码采用微软拼音输入法。
18.如权利要求10所述的汉字输入装置,其特征在于,Uni(Ai)=N(Ai)/N0,Bi(Ai/Ai-1)=N(Ai,Ai-1)/N(Ai)式中,N(Ai)为一篇样版文集中汉字Ai出现的次数,N0为所述样版文集的总字数;N(Ai,Ai-1)为汉字Ai-1后出现汉字Ai的次数。
全文摘要
本发明涉及一种汉字输入方法及其装置。本发明提供的汉字输入方法包括:接收用户通过输入装置输入的汉字编码;根据输入的汉字编码,从编码-汉字映射库中查找出相应的汉字集;将所述汉字集显示在显示器上;在显示步骤中,以与一个汉字或汉字串相关的分数值的大小为顺序来显示所述汉字集,其中,所述汉字的分数值为:
文档编号G06F3/023GK1322984SQ0010865
公开日2001年11月21日 申请日期2000年5月10日 优先权日2000年5月10日
发明者唐涤飞, 李 东, 张湘辉 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1