音形分合编码计算机汉字输入方法

文档序号:6413748阅读:624来源:国知局
专利名称:音形分合编码计算机汉字输入方法
技术领域
本发明属于计算机汉字信息处理技术,是一种对汉字的计算机编码及输入的方法,也可用于字典、辞典等的编排。
目前的计算机汉字输入法,大致可分为形码、音码、音形结合码和流水码四种。这些编码输入方法存在如下不足音码如全拼、双拼等,易学但重码多,不能盲打;形码可盲打但规则多,记忆量大,拆字不符合汉字规范;流水码即电报码或区位码等,是纯专业性编码,普通操作人员几乎无法使用。
音形结合码中较好的是自然码,但自然码注重词组输入,对于单字输入,它规定第三码输入字的表义部首读音的声母或该字的首笔所在键,第四码从字的剩余部分中重复类似第三码的操作。我们知道,对于很多字,大多数使用者不可能迅速判断出其表义部首,何况有的字具有多于一个的表义部首,而有的字没有表义的部首。取完第三码后的剩余部分往往不是字,就更难判断其表义部首了;自然码使用了较多的部首作码元(160多个),而且大量部首没有读音,仍要记忆其键位,还有近40个部首为了避免过多重码特别安排了键位,也需硬记;自然码使用了30个键,占用了4个符号键,使这些符号在汉字输入状态下不便输入。(王国印等,《常用的汉字输入方法》,清华大学出版社,1994.12)本发明的目的就是克服现有技术的不足,利用音形分合的编码方法,研制一种规则严密而易拆分、记忆量小、规范、重码率低的音形结合码输入方法。
本发明是依靠下述技术方案来实现的,一种音形分合编码的计算机汉字输入方法,主要特点是(1)键盘安排a.按照能满足声韵双拼的方法将汉语拼音的声母、韵母定位在普通英文键盘的26个英文字母键位上;b.将“”、“月”、“氵”、“扌”、“木”、“讠”6个基本剖件分别硬性定位在“D”、“L”、“P”、“A”、“F”、“O”键位上;e.将汉字的笔画分为横、竖、撇、捺、折5种,5种笔画两两排列组合成5×5=25种笔画对,分配在M键以外的25个英文字母键上;(2)基本部件选取扌、艹
、刂、囗、
、钅、攵、、亻、彳、彡、犭、夊、饣、冫、疒、忄、氵、灬、宀、冖、讠、礻、衤、辶、卩、阝、廴、纟这32个部件作为不成字基本部件,选取日、气、木、火、土、山、石、王、女、子、贝、欠、歹、白、方、页、耳、目、口、齿、心、手、毛、骨,革、月、力、见、走、牛、马、鸟、虫、鱼、衣、巾、禾、米、酉、田、皿、门、户、瓦、穴、厂、广、舟、车、耒、矢、殳这52个部件作为成字基本部件;(3)利用上述键盘和基本部件,输入汉字的方法是每个汉字的最大码长是4码;第一码取该汉字的声母所在键;第二码取该汉字的韵母所在键;第三、四码的取法分以下五种情况a.若该字可剖分成两个成字部件,且其中只有一个是成字基本部件,则以该成字基本部件的声母所在键作第三码;b.若该字可剖分成两个成字部件,且二者均是成字基本部件或者二者均不是成字基本部件,则以与该汉字读音差异大的那个部件的声母所在键作第三码;c.若该字可剖分成两个部件,且其中至少有—个是不成字基本部件,则以该不成字基本部件的代表字的声母所在键作第三码;d.若该字可剖分成两个部件,且其中一个是成字基本部件,另一个不是成字也不是不成字基本部件,则以该成字基本部件的声母所在键作第三码;以上四种情况,均以另—部件的笔画对所在键作第四码,当第三码依据的部件是“”、“月”、“氵”、“扌”、“木”、“讠”之一时,则以该部件所在键作第三码;
e.其余情况,均以该汉字的笔画对所在键作第三码,并以空格键结束取码;以上五种情况的优先级是依次降低的,即当一个汉字能满足前面的情况时,就不按后面的情况处理。
(4)利用上述键盘和基本部件,输入词组的方法是词组输入的码长均为四码,两字词取每个字的前两码,三字词取前两字的第一码和后一字的前两码,四字词及四字词以上的多字词取前三字和最后一字的第一码。
△关于本发明的名词解释1.笔画在书写汉字时,一笔写成的连续的一个线条叫做笔画。这里的“写”是按照国家标准简化字楷书字形进行的写。
音形分合将汉字的笔画分为五类横、竖、撇、捺、折。并特别规定以下几点(1)所有的提笔均归作横笔,如“冲”的第二笔。
(2)所有从右上向左下运笔的笔画均归作撇笔,如“总”的第二笔。
(3)所有从左上向右下运笔的笔画均归作捺笔,包括所有的点笔(有些点笔虽然不完全是从左上向右下运笔,但仍然归作捺笔。点笔区别于撇笔的一个特征是其笔尾圆润)。如“点”、“心”的左边一点。
(4)所有带转折的笔画均归作折笔。
2.部件在某个汉字中,由至少两个笔画所组成的相对独立的任一部分,称为部件,如“汉”中的“氵”和“又”。另外,“艺”、“扎”等字中的“乙”、“ ”虽只有单笔,但也特别规定为部件。
注意本发明中部件的外延有所扩展,只要是某字的不少于两笔的部分,就可视作部件。如“严”字去掉下部的部件“厂”所剩余的部分就是“严”的另一个部件。
3.笔画对某字或某部件的首笔和次笔的组合,叫做笔画对。由于首笔和次笔均有横、竖、撇、捺、折五种可能,因此共有5×5=25种笔画对横横、横竖、横撇、横捺、横折、竖横、竖竖、竖撇、竖捺、竖折、撇横、撇竖、撇撇、撇捺、撇折、捺横、捺竖、捺撇、捺捺、捺折、折横、折竖、折撇、折捺、折折。
特别规定(1)如果某字或某部件的首笔是竖、次笔是折且有第三笔,则用首笔和第三笔组成笔画对,如“里”的笔画对是竖横,“见”的笔画对是竖撇;但是,如果首笔、次笔和第三笔共同组成一个“口”,则仍然用首次笔组成笔画对,如“保”的第四码对应的笔画对是竖折而不是竖横。
(2)如果某字或某部件只有一个笔画,则一律假想其次笔为竖。
4.成字部件如果一个部件与国家标准字符集中的具有读音的汉字(即不包括偏旁、字头、字底这些没有读音的字符)同形,则称之为成字部件,如“称”的左右两边均为成字部件。
如果一个部件与国家标准字符集中的某个具有读音的汉字相比,只有一个笔画变形但笔画数不多不少且笔画间的相对关系未变,则也称之为成字部件,如“有”的下半边可视为“月”字;但是总共只有两笔的部件,没有笔画变形才能称为成字部件,如“兵”的下半边可视为“八”,而“左”的上半边不能视为“十”。
注意同类笔画如横与提、捺与点等效,不视为笔画变形。
5.基本部件音形分合挑选了84个构字能力强、常在形声字中表义的部件作为基本部件。基本部件包括不成字基本部件(32个)和成字基本部件(52个)。基本部件不是音形分合码的码元或字根,只是在判断汉字的第三码、第四码根据什么取码时要用到基本部件。
下述的图1图2中,按照它们在构字时所代表的意义,将其分为5类1-8号为大自然类,其中“王”在构字时常表示玉石的意义,故将其分在大自然类;9-16号为社会意文化类;17-29号为躯体器官及相关动作现象类,其中“月”构字时常表示与肉体有关,“力”、“见”、“走”均是躯体器官的动作现象;30-34号为动物类;35-52号为衣食住行工具类,其中“酉”构字时常表示与食品酿造关,“田”是农田,“耒”是农具,“矢”、“殳”均是兵器。“日”和“日”作为部件时较难区分,故均作“日”处理。而“”作“心”处理。“彳”虽有同形的汉字,但构字时它是双人旁,故规定为不成字基本部件。
6.汉字的剖分汉字的剖分,是将具有上下结构(如“分”)、左右结构(如“结”)、左上右下结构(如“历”)、右上左下结构(如“载”)或内外结构(如“困”)的汉字,分别按照上下、左右、左上右下、右上左下或内外自然剖分出两个有对等地位的部件。注意既不能将任一笔画分断到两个部件里(如“果”不能分为“田”、“木”)或者将交叉的笔画分开,也不能将任一笔画遗漏在两个部件之外(如“意”不能分为“立”、“心”,而应分为“音”、“心”)。实际上,当一个汉字所剖分成的两个部件属于以下三种情况之一时,才需要将它剖分(a)均是成字部件,如“基”、“种”、“分”等。
(b)至少有一个是不成字基本部件(图1所列),如“件”、“钊”等。
(c)有一个是成字基本部件(图2所列),另一个不是成字,也不是不成字基本部件,如“载”、“合”等。
7.读音差异的大小按照音形分合的取码规则,有极少数由两个成字部件组成的字在取第三码对,要判断两个成字部件中哪一个与该字的读音差异更大。因此规定声母韵母均相同为读音差异最小,接下来依次为仅韵母相同-韵母不同但押韵-仅声母相同-完全不同以完全不同为读音差异最大。如“韵”中“音”比“匀”大,“码”中“石”比“马”大,“静”中“争”比“青”大。
△音形分合键盘设计如图3所示,音形分合键盘设计只涉及26个英文字母键(还需要数字键选重码字),包括以下三部分内容1.将汉语拼音的单字母声母、韵母分别定位在同形的英文字母键上,将复合声母、零声母、复合韵母和“ü”根据能形成声韵双拼的原则安排在26个字母键上。因为从理论上讲,能满足声韵双拼要求的键位安排有成百上千套,不可能在此——列举,所以本说明书以四通双拼键盘(唯一的不同是将韵母“ing”安排在“Q”键上)为例进行说明。用于输入字的第一、第二码以及需剖分字的第三码。
2.将“”、“月”、“氵”、“扌”、“木”、“讠”6个基本部件分别硬性定位在“D’’、“L”、“P”、“A”、“F”、“O”键位上,其中后四个基本部件是根据其笔画对定位的,但当所采用的双拼方法在“A”、“O”键上安排了复合声母时,“扌”、“讠”的键位需相应调整。用于输入小部分需剖分字的第三码。
3.25个笔画对——对应于“M”键以外的25个字母键“GFDSA”五键依次对应于首笔为横的五个笔画对,“HJKLN”五键依次对应于首笔为竖的五个笔画对,“TREWQ”五键依次对应于首笔为撤的五个笔画对,“YUIOP”五键依次对应于首笔为捺的五个笔画对,“BVCXZ”五键依次对应于首笔为折的五个笔画对;这种分布的规律为每组键上的五个笔画对的首笔均相同,从键盘中间向两边的每个键依次对应于次笔为“横、竖、撇、捺、折”笔画对。用于输入需剖分字的第四码和不需剖分字的第三码。“M”键用于少数特殊结构的字的第四码。
△单字的取码单字的最大码长是4码。
第一码取该汉字的声母(包括零声母)所在键。
第二码取该汉字的韵母所在键。
第三、四码的取法分以下五种情况(1)若该字可剖分成两个成字部件,且其中只有—个是成字基本部件(图2所列),则以该成字基本部件的声母所在键作第三码;(2)若该字可剖分成两个成字部件,且二者均是成字基本部件(图2所列)或者二者均不是成字基本部件,则以与该汉字读音差异大的那个部件的声母所在键作第三码;(3)若该字可剖分成两个部件,且其中至少有—个是不成字基本部件(图所列),则以该不成字基本部件的代表字的声母所在键作第三码;(4)若该字可剖分成两个部件,且其中—个是成字基本部件(图2所列),另一个不是成字也不是不成字基本部件,则以该成字基本部件的声母所在键作第三码;以上四种隋况,均以另—部件的笔画对所在键作第四码,当第三码依据的部件是“”、“月”、“氵”、“扌”、“木”、“讠”之一时,则以该部件所在键作第三码;(5)其余情况,均以该汉字的笔画对所在键作第三码,并以空格键结束取码。
以上五种情况的优先级是依次降低的,即当一个汉字能满足前面的情况时,就不按后面的情况处理。为了充分利用“M”键以及减少重码,少数特殊字也可按如下方法取第三、四码(1)完全由某部件重复两次或两次以上而构成的字如“炎”、“磊”等,其第三码由该部件确定,即该部件有读音或代表字则取对应的声母键,否则取该部件的笔画对键。第四码为“M”。
(2)由某部件对称重复并在中间夹有另一部件而构成的字,如“班”、“器”、“尜”等,其第三码由中间部件确定,即该部件有读音或代表字则取对应的声母键,否则取该部件的笔画对键。第四码为“M”。
(3)左边是一个“口”,右边的下部也是—个“口”的字,如“唔”、“唁”等,其第三、四码为“KM”。
(4)不成字基本部件的代表字和与成字基本部件同形的字,也可以在取完第一、二码后,以空格键结束取码。
(5)同等情况下,书写在先的部件作为第三码的取码依据。
△词组的取码词组的码长均为四码,两字词取每个字的前两码,三字词取前两字的声母码和后一字的前两码,四字及四字以上的词取前三字和最后一字的声母码。
△几点说明(1)读音和笔顺遵从国家语委的有关规定。
(2)多音字原则上按各个读音取码均可,但引起重码且又罕见使用的那个读音舍弃。
(3)对本发明的局部变动、调整,无关紧要,应在本发明的权利范围之内,例如满足声韵双拼的声母、零声母、韵母的键盘安排、笔画对的键盘安排、关于笔画对的特别规定、基本部件的少量调整、六个硬性定位的基本部件键位的调整、词组的取码、对上述五种特殊字第三、四码的处理以及对“南方音”的容错处理,等等。
音形分合输入法具有下述优点1.没有固定的形码码元集,只提出一套规则指出依据字的哪一部分的什么特征取第三码、第四码,避免了对码元集及码元键位的大量记忆,用久了,熟练后又相当于有一个码元集(不同的人涉字面不同,码元集就可能不一样)并记住了码元键位。
2.初学者易学。音形分合充分利用了人们普遍具有的汉字常识,顺应习惯,而且需要剖分的字仅仅一分为二,因此初学者易于理解规则和剖分汉字;记忆量极小,只需记忆3个复合声母和30个复合韵母以及6个特殊定位的基本部件的键位即可,另外对84个基本部件包括哪些只要有个大概印象就行。其实这些基本部件就是大家最熟悉的偏旁部首。
3.熟练者易快。人们在输入汉字时,最易在大脑中反应出的是字的读音,而音形分合的前三码大部分与读音相关,词组输入全部依据读音;要么一分为二要么不需拆分的特点利于快速取码;很多字输入第三码时便已唯一确定;采用首、次笔确定一码要比采用末笔或其他方法容易,四个手指固定对应于五类笔画,反应快。这些特点为获得高输入速度奠定了基础。实现时还可以加上简码输入、重码字变通处理、容错处理和其他一些软件方法的帮助,可以使输入速度很高。
4.实现了从普通输入到专业输入的自然过渡。
5.重码少。
6.规范。仅采用了26个英文字母键,不占用其他符号键;只有极少数汉字的拆分与汉字构字的本意无关;允许多音字输入;拼音及笔顺等遵从国家有关规定,考虑到不同习惯在编软件时可考虑容错处理;使用万能键“^”来输入不会读的字,查询其读音和编码。因此甚至可以在使用过程中加深对汉字的认识理解。
实现方式为编写计算机软件作为各种中文平台的输入法模块或者编制成万能悬挂软件,等等。
下面结合附图进一步说明实施例。


图一是不成字基本部件及其代表字的附图;图2是成字基本部件的附图;图3是音形分合键盘的布局附图,在图中,复合声母、零声母和复合韵母的定位以四通双拼键盘为例,采用其他双拼键盘时其定位要相应改变;图4是音形分合计算机汉字输入方法的流程方框图解。
实施例以图3所示键盘为例举几个汉字输入的实例汉字声母音母第三码第四码输入键第几种依 据依 据 情 况的 D IE 白(B) 勺(撇折) DI(E)BQ 1>幕 M U 巾(J) 莫(横竖) MUJF1>码 M A 石(I) 马(折折) MAIZ2>韵 Y UN 音(Y) 匀(撇折) YZYQ2>穷 Q 10NG 穴(X) 力(折撇) QYXC2>尖 J 1AN小(X) 大(横撇) JJXD2>件 J 1AN亻(R) 牛(撇横) JJRI3>钊 ZH AO 钅(J) (竖折)VDJN3>捌 B A 扌(A) 别(竖折) BAAN3>灰 H UI 火(H) 广(磺撇) HVHD1>载 Z AI 车(U) 戈(横竖) ZSFF4>必 B I 必(捺折)BIP 5>成 CH ENG成(横撇)UTD 5>所 S UO 所(撇撇)SOE 5>
权利要求
1.—种音形分合编码的计算机汉字输入方法,其特征在于(1)键盘安排a.按照能满足声韵双拼的方法将汉语拼音的声母、韵母定位在普通英文键盘的26个英文字母键位上;b.将“”、“月”、“氵”、“扌”、“木”、“讠”6个基本部件分别硬性定位在“D”、“L”、“P”、“A”、“F”、“O”键位上;c.将汉字的笔画分为横、竖、撇、捺、折5种,5种笔画两两排列组合成5×5=25种笔画对,分配在M键以外的25个英文字母键上;(2)基本部件选取扌、艹
、刂、囗、
、钅、攵、、亻、彳、彡、犭、夊、饣、冫、疒、忄、氵、灬、宀、冖、讠、礻、衤、辶、卩、阝、廴、纟这32个部件作为不成字基本部件,选取日、气、木、火、土、山、石、王、女、子、贝、欠、歹、白、方、页、耳、目、口、齿、心、手、毛、骨、革、月、力、见、走、牛、马、鸟、虫、鱼、衣、巾、禾、米、酉、田、皿、门、户、瓦、穴、厂、广、舟、车、耒、矢、殳这52个部件作为成字基本部件;(3)利用上述键盘和基本部件,输入汉字的方祛是每个汉字的最大码长是4码;第一码取该汉字的声母所在键;第二码取该汉字的韵母所在键;第三、四码的取法分以下五种情况a.若该字可剖分成两个成字部件,且其中只有一个是成字基本部件,则以该成字基本部件的声母所在键作第三码;b.若该字可剖分成两个成字部件,且二者均是成字基本部件或者二者均不是成字基本部件,则以与该汉字读音差异大的那个部件的声母所在键作第三码;c.若该字可剖分成两个部件,且其中至少有一个是不成字基本部件,则以该不成字基本部件的代表字的声母所在键作第三码;d.若该字可剖分成两个部件,且其中—个是成字基本部件,另—个不是成字也不是不成字基本部件,则以该成字基本部件的声母所在键作第三码;以上四种隋况,均以另一部件的笔画对所在键作第四码,当第三码依据的部件是“”、“月”、“氵”、“扌”、“木”、“讠”之一时,则以该部件所在键作第三码;e.其余情况,均以该汉字的笔画对所在键作第三码,并以空格键结束取码;以上五种情况的优先级是依次降低的,即当—个汉字能满足前面的情况时,就不按后面的情况处理。(4)利用上述键盘和基本部件,输入词组的方法是词组输入的码长均为四码,两字词取每个字的前两码,三字词取前两字的第一码和后一字的前两码,四字词及四字词以上的多字词取前三字和最后一字的第一码。
全文摘要
一种音形分合编码的计算机汉字输入方法,其目的是克服现有技术的不足,利用音形分合的编码方法,研制一种规则严密而易拆分、记忆量小、规范、重码率低的音形结合码输入方法。主要特征是:按声韵双拼方法将汉语拼音的声、韵母定位在26个英文字母键上,将五类笔画两两排列组合,形成25种笔画对,有规律地定位于M键以外的25个字母键上,规定84个部件为基本部件;每个汉字最多四键输入,每个词组输入的码长均为四码。本方法对初学者易学,记忆量少;对熟练者易提高速度,宜于普遍推广。
文档编号G06F3/023GK1208189SQ9810356
公开日1999年2月17日 申请日期1998年8月11日 优先权日1998年8月11日
发明者吴茂松, 朱淑华 申请人:吴茂松
网友询问留言 已有1条留言
  • 访客 来自[上海市电信] 2017年11月30日 16:08
    真是一个好的输入法,可惜发明晚了一些,让不太好的输入法先入为主了
    0
1