拇指手机汉字输入法的制作方法

文档序号:7848804阅读:418来源:国知局
专利名称:拇指手机汉字输入法的制作方法
本输入法属于汉字信息处理范畴。适用于手机、电话机等领域。
随着电子设备的小型化,中文输入也要随着电子设备的发展而发展,中文输入也要逐步从PC机过渡到掌上电脑、PDA、手机等手持式电子设备上来。由于中文输入法是从PC机上发展起来的,它们的编码多以PC机的键盘为输入设备进行编码的。在PC机上出现了很多优秀的编码方案,但对于像手机、电话机等这样的小设备,由于键盘的键数少,使得PC机上的很多优秀的快速输入方案无法实现。即使是像智能拼音这样易用的输入方案,也使输入速度大打折扣。由于可以使用手机收发电子邮件和发送短信息,使得人们对手机、PDA、掌上电脑等的汉字输入速度有了更高的要求。以前的那些输入法甚至是手写输入都满足不了要求。那么我们能不能找到一种方法在同类产品中输入速度既快.又是一种容易学的方案昵 这种方法经过短期学习后,再经过一段时间的练习,就会很容易记住,并且能达到非常理想的输入速度。这就是本输入方案的设计、并且已经达到的目标。决定输入速度最关键的因素是输入时的重码率,本方案已经实现了单字加词组42000条没有重码。
一、26个字根字及其键盘的布局拇指输入法之所以重码率低是因为它很科学地通过电脑统计的方法提取了那些能够引起重码的26个汉字偏旁部首作为一个整体的字根字,使之在汉字中不用去拆分。这样就有效地减少了编码中的无效码。那么如何能快速地记住这26个字根字,并合理地在手机键盘上安排这26个字,是提高易学性和减少重码的关键。下面是以口决的形式安排这26个字根字的(口决中下面带点的字为字根字)。
口诀 说明 键盘位置 高悬,“日月巾”高挂在最上面的1键上 1键 “王禾革耳田”在1键的下面的4键上 4键 相连,“石矢山”在4键的下面的7键上7键 (框) 分两边。“口”在7下面的*键上,“口”在9下面的#键上 *#键“白酉舟鱼”在*键上 *键
“黑虫大雨”在#键上#键 拼音去分组。“金木水火土”分别按拼音分布在5,6,7,4,8键上56748键二、汉字的组合特征及其与手机、电话机键盘的关系汉字是由笔划组合而成的。汉字中的笔划组合有两种状态不交叉和交叉。我们可以根据笔划的这种组合状态和该组合内的笔划的数量很容易地将这一组笔划对应到手机的数字键上。
我们将手机、电话机的键盘分为上下两部分。上半部分为上面两排(123456键)。每键分别对应于汉字中笔划数为1、2、3、4、5、6的不交叉的笔划组合。如“一,丨,丿等”在1上;“二,人,入,八,卜等”在2上;“三,川,上,下等”在3上;“不,六,今等”在4上等等。下半部分为下面两排(789*#键,0是空格除外)。每键分别对应汉字中笔划数为1,2,3,4,5的交叉的笔划组合。如“十,力,七,又等”在8上;“艹,丈,女,丸,也等”在9上;“卅,丰,井,车,韦等”在*上等等。这是一般性规定,也有极特殊的情况。如某一不交叉的组合中的笔划数为7,那它应该在哪个键上呢 我们规定以笔划数为准,也就是说应该在7键上,同理8划的不交叉组合在8键上等等。那笔划数为6的交叉组合怎么办呢?因为#的后面再没有键了!我们规定笔划数大于等于5的交叉组合都放在#字键上。由于上述特点,我们将1,2,3,4,5,6键分别称为“合1”,“合2”,“合3”,“合4”,“合5”,“合6”键;将7,8,9,*,#键称为“叉1”,“叉2”,“叉3”,“叉4”,“叉5”键。
三、汉字的分类及编码规则本方案中将汉字分为不可拆分的字和可拆分的字两类。不可拆分的字包括宇根字和笔划的组合只有一种状态(交叉或不交叉)的独体字。可拆分字指那些笔划的组合状态即有交叉又有不交叉的汉字或者包含字根字的汉字。
编码规则(1)不可拆分字基本键+笔划键+拼音键在对汉字进行编码时,我们是如下进行的对于不可拆分的字的编码方法为先打这个字所在的键------我们称其为“基本键”。如“日”的基本键是1,“王”的基本键是4,“人”的基本键是2,“不”的基本键是4,“十”的基本键是8,“丰”的基本键是*等等。然后按书写的笔划顺序输入。横(提),竖,撇(撇点),捺(捺点),折分别对应键盘上的1,2,3,4,5。最大码长是6,不足6键的可用拼音对应的数字键为识别码。多于6码的取前5笔和最后一笔。
(2)可拆分字拆分码+首笔补码+末笔补码+拼音补码对可拆分的字的编码方法是先对汉字进行拆分,在对汉字进行拆分时得到的码称为“拆分码”。在拆分时按书写顺序根据笔划的组合状态进行拆分,拆分时如果遇到字根字直接键入它对应的键,不能再对字根字进行拆分。最大码长为6键,如果“拆分码”长大于5,取前5键和最后一键。如果“拆分码”长小于6键,用“补码”进行识别,最大码长为6。
“补码”分为首笔补码,末笔补码,和拼音补码三种。输入补码时按首笔补码,末笔补码,拼音补码的顺序进行。输入首笔补码时要考虑汉字的结构,是左右结构时,横(提)、竖、撇(撇点)、捺(捺点)、折分别对应键盘上的1、2、3、4、5键;是上下或杂合结构时,它们分别对应7、8、9、*、#键。输入末笔补码时要考虑末笔的组合状态,不交叉时,横(提)、竖、撇(撇点)、捺(捺点)、折分别对应键盘上的1、2、3、4、5键;交叉时,它们分别对应7、8、9、*、#键。拼音补码就是拼音对应的数字键。
本方案不但考虑了汉字中的笔划数量和笔划的组合状态还要根据情况考虑首笔的笔划类型和汉字的结构、末笔的类型及其组合状态,还有该字的发音。正是因为输入码里包含了汉字中的这么多信息才使这种全息汉字输入法的重码率极低,达到42000条单字、词组没有重码。
汉字拆分细则在了解了拆分规则后,看到汉字就很容易地看出该汉字的“拆分码”。这是本输入法易学的重要原因。在国标GB2312中有近6367个汉字。这些汉字中笔划的组合各种各样。因此必须制定相应的原则才能减少汉字拆分时的歧异性。
字根字完整性规则在汉字中只有完整的字根字才能称为字根字。如果有笔划从“字根字”中穿过,这个字就不叫字根字,必须对它进行拆分。例如“老”字里面有“土”字,但由于有一撇穿过了这个土字,它就不是一个字根字,在拆分时就要对它进行拆分。因此它的“拆分码”是“叉2”,“叉2”,“合2”即882。如果没有笔划穿过字根字,则不能对字根字拆分。例如“吴”的“拆分码”是“口”,“合1”,“大”即#1#以首笔为准的笔顺规则在对汉字拆分时,是按笔划的书写顺序进行拆分的。如果一个汉字由几组笔划组合状态不同的部分组成。每组笔划以其首笔的书写顺序为准。如“必”的“拆分码”是“合1”,“叉2”,“合2”即182。
笔笔交规则在交叉的笔划组合里必须每笔都交在一起,有一笔没交在一起,它们也不能算在一组。例如“老”的前两笔交叉在一起,但第三笔和前两笔中的任何一笔都没有交叉,所以第三笔不能算在第一组,因此第一码为“叉2”。同理第二码也是“叉2”,第三码是“合2”。
直观性规则在进行汉字拆分时不能破坏汉字的直观性。在左右结构的汉字中,尽管左右两边都是没有交叉,也不要把两边的合在一组内,因为这样破坏了汉字的直观性。如“则”的“拆分码”是“合4”,“合2”即42。不应该把它的“拆分码”拆成“合6”。“两”的“拆分码”是“合1”,“合1”,“叉3”,“合2”。如果将前两笔拆成“合2”显然破坏了直观性。再如“笔”的“拆分码”是“合6”,“合1”,“叉3”。如果把前7笔做为“合7”显然破坏了“直观性”。
3)词组编码规则本方案的最大码长是6,参加编码的键位是11个。因此共有码空间为116=1771561个编码空间。这么大的编码空间出现重码的概率是很小的。因此本方案可以大量加入词组。本方案中词组的取码规则为两字词组取每字前三码;三字词组取每字的前二码;四字词组取前两字的首码和后两字的前两码;五字词组取前四个字的首码和最后一字的前两码;六字以上词组取前五字和最后一字首码的方案编码。如“我们”的编码是1#1233。
4)交叉输入码为了避免重码,本方案首次提出使用交叉输入码(简称“交叉码”)的做法。所谓的交叉输入码就是对词组进行编码时,不是按本编码方案进行的编码,而是按另一套方案进行的编码。尽管我们已经做到了42000条的单字和词组还没有出现重码,并且还有近一百七十万的编码空间没有使用。我们还是无法保证以后扩充的词组不会出现重码。为了避免重码的出现,我们提出使用交叉输入的概念。交叉码是针对词组的,因为本方案已经实现了单字无重码的目标。本方案交叉码的码长都为6。交叉码取码如下两字词依次取每字的拼音首码按顺序取每字编码的前两码。三字词依次取每字的拼音首码按顺序取每字编码的前一码。四字词依次取每字的拼音首码和第一个字及最后一字编码的前一码。五字词依次取每字的拼音首码和第一个字编码的前一码。六字以上词依次取前五字的拼音首码和最后一字拼音首码。
四、汉字拆分举例不可拆分汉字举例汉字基本键笔划输入键 拼音码完整编码日 日竖12
月 月 撇 13上 合3 竖,横,横 3211石 石 横,撇 713山 山 竖,折 725王 王 横,横,竖 4112革 革 横,竖,竖 4122分 合4 撇,捺,折 4345禾 禾 撇,横,竖,撇 43123田 田 竖,折,横 4251可拆分汉字举例汉字拆分码首笔补码 末笔补码 拼音补码 完整编码两 合1,合1,叉3,合2 1192字 合3,合1,叉2 下捺 叉横318#7词 合2,合2,口22*依 合2,合6 撇捺9 26349次 合2,合4 捺捺 2444取 耳,叉2 横叉捺481#每 合2,叉3,合2 下撇 2929字 合3,合1,叉2 下捺 叉横318#7的 白,合3 撇#33拼 叉3,合3,叉3 939音 合5,日 51首 合4,口,合24#2码 石,合3 横横 7311词组举例词组完整编码工作合3,横,竖,合2,合5,撇(312253)学习合5,合1,叉2,合3,折,捺(518354)文件合2,叉2,叉撩,合2,合1,叉3(28*219)共产党 叉3,合3,合6,捺,合5,口(93645#)黑龙江省黑,叉2,氵,合3,合4,口(#8734*)人民大会堂 合2,合3,大,合6,合5,口(23#65#)新疆维吾尔自治区合5,合3,合3,合1,合5,合2(533152)
权利要求
1.本方案通过电脑筛选将下面26个在汉字里作为部首出现频率最高的26个汉字提取出来作为不可拆分的字根字。分配在相应的手机数字键上。这26个字根被编成极赋诗意的口诀后很自然地分配在手机、电话机的键盘上。其口诀(口诀里下面带点的字是字根字)及键盘布局如下口诀 说明 键盘位置日月巾高悬, “日月巾”高挂在最上面的1键上 1键王禾革耳田。
“王禾革耳田”在1键的下面的4键上 4键石矢山相连, “石矢山”在4键的下面的7键上 7键口(框)口分两边。
“口”在7下面的*键上,“口”在9下面的#键上*#键白酉舟鱼*, “白酉舟鱼”在*键上*键黑虫大雨#。
“黑虫大雨”在#键上#键金木水火土,拼音去分组。“金木水火土”分别按拼音分布在5,6,7,4,8键上 56748键
2.根据笔划的组合状态和笔划数量确定该输入的键。汉字中的笔划组合有两种状态,不交叉和交叉,根据笔划的组合状态和该组合内的笔划的数量将该组合的输入键对应到手机的相应键上。
3.将手机、电话机的键盘分为上、下两部分。上部分(123456键)对应于汉字中不交叉的笔划组合。如“一,丨,丿等”在1上;“二,人,入,八,卜,刀等”在2上;“三,川,上,下,小等”在3上;“不,六,今等”在4上等等。下部分(789*#键,0是空格除外)对应汉字中交叉的笔划组合。如“十,力,七,又等”在8上;“艹,丈,女,丸,也等”在9上;“卅,丰,井,车,韦等”在*上等等。
4.将汉字分为不可拆分的字和可拆分的字两类。不可拆分的字包括字根字和笔划的组合只有一种状态(交叉或不交叉)的独体字。可拆分字指那些笔划的组合状态即有笔划交叉又有笔划不交叉的汉字或者包含字根字的汉字。
5.不可拆分的字输入方法为先打这个字所在的键(基本键)。然后按书写的笔划顺序输入。横(提)、竖、撇(撇点)、捺(捺点)、折分别对应键盘上的1、2、3、4、5键。最大码长是6,不足6键的可用拼音键为识别码,多于6码的取前5笔和最后一笔。
6.可拆分的字先对汉字进行拆分。在拆分时按书写顺序根据笔划的组合状态进行拆分,拆分时如果遇到字根字直接键入它对应的键,不能再对字根字进行拆分。最大码长为6键,如果拆分码长大于6键取前5键和最后一键。如果码长小于6键,用补码进行识别,最大码长为6。
7.基于六,补码分为首笔补码、末笔补码,和拼音补码三种。输入补码时按首笔补码、末笔补码、拼音补码的顺序进行取码。输入首笔补码时要考虑汉字的结构,是左右结构时,横(提)、竖、撇(撇点)、捺(捺点)、折分别对应键盘上的1、2、3、4、5是上下或杂合结构时它们分别对应7、8、9、*、#。输入末笔补码时要考虑末笔的组合状态,不交叉时,横(提)、竖、撇(撇点)、捺(捺点)、折分别对应键盘上的1、2、3、4、5;交叉时,它们分别对应7、8、9、*、#。拼音补码就是拼音对应的数字键。
8.本方案不但考虑了汉字中的笔划数量和笔划的组合状态还要根据情况考虑首笔的笔划类型和汉字的结构、末笔的类型及其组合状态,以及该字的发音。正是因为输入码里包含了汉字中的这么多信息才使这种全息汉字输入法的重码率极低。达到42000条单字、词组没有重码的效果。
9.本方案的词组输入的取码规则为两字词组取每字前三码三字词组取每字的前二码四字词组取前两字的首码和后两字的前两码五字词组取前四个字的首码和最后一字的前两码;六字以上词组取前五字和最后一字首码的方案编码。
10.词组的交叉输入码。为了避免重码,本方案首次提出使用交叉输入码的做法。尽管我们已经做到了42000条的单字和词组还没有出现重码,并且还有近一百七十万的编码空间没有使用,还是无法保证以后扩充的词组不会出现重码。为了避免重码的出现,提出使用交叉输入码的概念。交叉输入码是针对词组的,因为本方案已经实现了单字无重码的目标。本方案交叉码的码长都为6。交叉码取码如下两字词依次取每字的拼音首码,再按顺序取每字编码的前两码。三字词依次取每字的拼音首码,再按顺序取每字编码的首码。四字词依次取每字的拼音首码和第一个字及最后一字编码的前一码。五字词依次取每字的拼音首码和第一个字编码的首码。六字以上词依次取前五字和最后一字的拼音首码。
全文摘要
本发明是一种以手机、电话机为设计对象的汉字数字化编码方案。采用了以形为主,以首末笔划、字体结构和拼音为辅的全息汉字输入技术。其特点是简单、易学、零重码,减少了汉字拆分时的歧义性。其方法是为消除重码,设定26个字根字,并编成口诀,使之很快牢记。同时,将键盘分上下两区。上半部分为一区(123456键),下半部分为二区(789*#键),它们在不同的汉字拆字阶段作用不同。0为空格,用来表示编码输入结束。将汉字分为两类,一种是不可拆分字,包括字根字和笔划的组合只有一种状态的独体字。另一种是可拆分字,指那些笔划的组合状态不为一种的汉字或者包含字根字的汉字。然后根据它们的类别进行拆分。
文档编号H04M1/247GK1610358SQ200310101140
公开日2005年4月27日 申请日期2003年10月18日 优先权日2003年10月18日
发明者周刚强 申请人:周刚强
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1