电脑汉字输入五韵五笔码的制作方法

文档序号:6598266阅读:274来源:国知局
专利名称:电脑汉字输入五韵五笔码的制作方法
目前,我国使用的汉字编码方法常见的主要有区位码、电报码、拼音码(及多种拼音代码法)、首尾字根码、五笔字型码等。其中区位码、电报码因无规律可循,难度极大,实用价值不高,操作使用此二种编码的人极少;拼音码使用较为普遍,优点是能够确切表音,识拼音就能识操作,但因重码太多和难以实现“字词兼容”而无法达到快速输入,这是它的致命弱点;首尾码因为字根无确定性和字根排列无规律,并且重码太多,将被淘汰;五笔字型是拼型法的最高成就者,用130个字根对汉字进行拆拼和使用“末笔字型识别码”的方法解决了汉语字、词、句的拼型编码输入问题,并实现重码少,达到了高速输入的目的,同时科学地划分了键盘区位码,键盘区位码的确立,为今后的汉字数字编码的研究提供了有力的杠杆,但也并不是十全十美、毫无不足,致少要熟记130个字根和学会字型识别方法(虽然并不十分困难),需经过一个阶段的训练或实际操作使用方可熟练掌握。此外,编码信息还不能确切表型。
能不能创造一种极为简捷、使用十分方便、输入快速的编码方法呢?“五韵五笔汉字码编码方案”就是一种尝试。
从八八年底开始,作者带着十足的好奇心和只有万分之一成功的希望,试图解决这个问题。在对现行的各种汉字编码方法作深入的研究探讨的同时,提出过数以百计的假设的猜想,于不同的角度设计过十几种方案,最后选择独立设计的《汉字音型快速码编码方案》作为主攻方向。“愚者千虑,必有一得”,经过二年的艰苦努力得以完成,定名为《五韵五笔汉字码编码方案》。
细加分析此方案不但解决了汉字的简易编码,而且解决了汉语的字、双音词、成语和三音词的编码的难题。实现了用拼音(五韵母分类法)和汉字的五种笔划以最简单的方法去解决汉语的编码问题,使汉语的单字、双音词编码信息能在一定的程度上表音且表形,三音节和四音节的词(词组)之编码信息实现以各音节拼音头字母表音;并达到字、词兼容,重码较少,输入方便;依照此方案的编码规则,略懂汉语拼音、会写汉字的人,人人都能学会使用、学会对汉语的编码,无需半点死记硬背,使汉语编码达到了“大众化”的浅显程度。
本方案汉语拼音字母对应键盘英文字母,把35个韵母汉语拼音划分为“a*”、“e*”、“o*”、“i*”和“u*”五大类作为韵母代码;采用了“五笔字型”的字母区位码;并以《辞海》的“笔划查字表说明”作为汉字五种笔划的划分依据,汉字首二笔笔划及笔顺的确定亦以《辞海》的“笔划查字表”作为规范,尾二笔划的确定依照一般的书写习惯,同时考虑有利于识别为原则(例如,“钱”字末二笔划取“乙丿”)。
6763个常用汉字采用的编码方法及其输入操作的实际作用过程用23个拼音声母(含Y、w)首先区分,次用5个韵母代码(“a*”、“e*”、“o*”“i*”和“u*”)去区分,再用25个汉字的首二笔笔划码去区分,最后用25个汉字的尾二笔笔划码去确认。(见编码规则)这样,汉语单字的编码最大容量约为24的3次方*5=7万多(个),给6763个单字编码的重码可能性是9%,不重码汉字的可能性占91%。
双音词的编码方法第一音节拼音头字母+第二音节头字母+第一音节汉字的首二笔笔划码+第二音节汉字的首二笔笔划码。
这样,双音节的词编码容量为24的四次方=33万多(个),若给3万3千个双音节的汉语词汇编码,其重码的可能性只占10%,并且达到绝大部分不与单字编码重码-因单字第二码只用(韵母代码)只有5个,而双音词的第二码是用(第二音节汉字的拼音头字母)有20多个,大大降低了单字与词汇编码重码的概率。
三音词的编码方法第一音节汉字拼音头字母+第二音节汉字拼音头字母+第三音节汉字拼音头字母+三音词键代码。
其编码的容量为23的三次方=1万多(个),因为使了三音词键码而绝不与其他单字、双音、四音节的词重码。
四音节的词汇编码方法依次取四个音节的拼音头4个字母。
其编码的容量为23的四次方=28万个。
(单字、双音词和四音节的编码容量小于33万,不含三音词的编码容量)。
四音节的词汇编码方法可扩展到语句的编码,见编码规则。
如上所述,方案把35个韵母划分为五大类,并用五个代码键代替韵母的方法,对于汉语单字的最大编码容量而言并不很大(仅有7万多个)重码的可能性占9%,汉语单字编码的重码问题还没有得到根本解决,但已经达到了为数不多的程度。事实上,汉字编码重码问题,在汉字的“定量、定型、定音”的改革工作完成之前,汉字编码重码问题是难以十全十美、白玉无瑕地得到解决的,只能做到尽量避免重码。
从另一方面来分析,采用了5个韵母代码,单字的可编码容量虽然不很大(7万个)却让出了极大的四键编码的容量给二、四音节的汉语词汇作编码空间(33万-7万个),大幅度地降低了单字与大量的二、四音节的汉语词汇重码的概率。这对大量编码存入占汉语词汇90%以上的双音节、四音节词汇供了极大的有利条件。五韵码的另一个好处是大大简化了汉字输入拼写。
此外,汉语的三音节词汇编码因为第四码采用了“三音词键”,而绝对不与其他音节的词汇重码。
由此可见,方案已在理论论上解决了汉语的字、词、句编码的问题,从理论的高度去分析验证是可行的、成功的。(同时,对字、词实行过抽样验证)具体的字、词编码的问题当你打开《汉语成语词典》,某成语依次取各字拼音字母的头字母,就是该成语的编码;当你打开《现代汉语小词典》,某双音词依次取2个单字拼音的头字母,再依次取2个单字首二笔笔划码,就是该双音词的编码;当你打开《新华字典》,某个单字先取拼音的头字母,次取这个字的韵母代码,再依次取这个单字的首二笔笔划码和尾二笔笔划码,就是该汉字编码。如果你是一位熟悉拼音的人,《五韵五笔汉字码编码方案表》就是你的汉语编码“小辞海”。
熟悉计算机或电子打字机键盘的人,读过一、二遍此编码方案表及其说明和“编码规则”后,就能够熟记5个韵母代码所对应的字母,并熟悉汉字的首、尾二笔笔划代码的区位,同时学会对汉语字、词编码和掌握输入操作。
综上所述,本方案有三大特点一、浅显简洁。除键盘的26个字母外,只有5个汉语拼音韵母代码和汉字的横(一)、竖(丨)、撇(丿)、捺(丶)、折(乙)等五个笔划有规律地组成的25个“笔划代码”。
二、字、词编码的兼容性强。单字的编码占用的编码容量适中,词汇占有编码的容量大;能够实现中文输入技术从过去的“以字为主,以词为辅”向“以词为主,以字为辅”方向发展。
三、字、词编码信息能用拼音头字母表音(或表音且在一定程度上表形),表音方式与社会习惯相同。
现行的编码方案各有其优点,亦必然会有其不足。“尺有所短,寸有所长”,《五韵五笔汉字码方案》亦然。
“这是祖国的春天,人民的春天,科学的春天”。八十年代汉字编码百花争艳,祝愿祖国能在九十年代迎来汉语编码技术的成熟。
三、说明一、汉语拼音字母的编码采用“五笔字型”区位码。汉语拼音的23个声母(包括Y、W)与键盘的英文字母一一对应,zh、ch、sh分别与z、c、s合拼,排列在各个键位的左上角。“a*”、“e*”、“o*”三类韵母独立为音节时,汉字的编码定义为“A+a*+首二笔码+尾二笔码”等。
二、韵母编码将35个韵母区分为“a*”、“e*”、“o*”“i*”和“u*”五大类,作为韵母代码,对应排列在键盘A、E、O、I、U键的右上角。
①、“a*”代替(a、ai、ao、an、ang)等5个韵母;
②、“e*”代替(e、ei、en、eng)等4个韵母;
③、“o*”代替(o、ou、ong)等3个韵母;
④、“i*”代替i行10个韵母(i、ia、ie、iao、iou、ian、in、iang、ing、iong);
⑤、“u*”代替u行和ü行韵母(u、ua、uo、uai、uei、uan、uen、uang、ueng和ü、üe、üan、ün)等13韵母。
三、汉字五种笔划的划分以《辞海》的“笔划查字表说明”作为汉字五种笔划的划分依据,依次分为横(一与
)、直(丨)、撇(丿)、点(丶与
)、折(乙,包括笔型带钩或曲折的)。汉字首二笔笔划及笔顺的确定亦以《辞海》的“笔划查字表”作为规范,尾二笔划的确定依照一般的书写习惯,同时考虑有利于识别为原则(例如,“钱”字末二笔划取“乙丿”)。
四、汉字的首二笔划和尾二笔划的编码一一、一丨、一丿、一丶、一乙;丨一、丨丨、丨丿、丨丶、丨乙;丿一、丿丨、丿丿、丿丶、丿乙;丶一、丶丨、丶丿、丶丶、丶乙;乙一、乙丨、乙丿、乙丶、乙乙。依次编入11、12、13、14、15;21、22、23、24、25;31、32、33、34、35;41、42、43、44、45;51、52、53、54、55区位(对应G、F、D、S、A、;H、J、K、L、M;T、R、E、W、Q;Y、U、I、O、P、;N、B、V、C、X键)。
四、编码规则一、单字的编码单字编码公式拼音头字母+韵母代码+汉字首二笔码+汉字尾二笔码。
五韵五笔码 字母码 区位码例如,部B u* 丶一 乙丨 BUYB 52424152中Z o* 丨乙 一丨 ZOMF 66442512壹Y I* 一丨 丶一 YIFY 41431241善S a* 丶丶 乙一 SAON 14154351注1、啊…(a)、埃…(ai)、安…(an)、肮…(ang)、凹…(ao);蛾…(e)、而…(ei);欧…(ou)等三种汉字的分别用(A+a*+汉字首二笔码+汉字尾二笔码),(E+e*+汉字首二笔码+汉字尾二笔码),(O+o*+汉字首二笔码+汉字尾二笔码)的方法编码。
2、不足四笔划的汉字笔划码作如下处理①一笔划的汉字只有“一”和“乙”2个,分别定义为“Y i* 一一 一一”和“Y i* 乙乙 乙乙”。
②二笔划的汉字,既是首二笔码又看作是尾二笔码。
五韵五笔码 字母码 区位码例如,儿E e* 丿乙 丿乙 EEQQ 33333535刁D i* 乙一 乙一 DINN 13435151③三笔划的汉字,中间的笔划既是首二笔码的第二笔划,又是尾二笔码的第一笔划。
五韵五笔码 字母码 区位码例如,工G o* 一丨 丨一 GOFH 11441221久j i* 丿乙 乙丶 JIQC 22433554二、双音词的编码双音词编码公式第一音节汉字拼音头字母+第二音节汉字拼音头字母+第一音节汉字首二笔划码+第二音节汉字首二笔划码。
五韵五笔码 字母码 区位码例如,人民R M 丿丶 乙一 RMWN 32253451中国Z G 丨乙 丨乙 ZGMM 66112525技术J S 一乙 一丨 JSAF 25141512。
三、三音词的编码第一音节汉字拼音头字母+第二音节汉字拼音头字母+第三音节汉字拼音头字母+三音词键(或空格键)。
五韵五笔码 字母码 区位码例如,计算机JSJ
22142200新时代XSD
55141300
大众化DZH
13662100四、四音词的编码第一音节汉字拼音头字母+第二音节汉字拼音头字母+第三音节汉字拼音头字母+第四音节汉字拼音头字母。
五韵五笔码 字母码 区位码例如,中华民族ZHMZ 66212566突飞猛进TFMJ 31122521精益求精JYQJ 22413522五、五音节以上词、句的编码采用“一、二、三、尾”头字母键。
五韵五笔码 字母码 区位码例如,中华人民共和国ZHRG 66213211中国人民解放军ZGRJ 66113222中国科学院ZGKY 66112341六、简码输入(供编程使用)1、空格键简码的输入①单字母键+空格,简码给26个高频字编码。
②二键(取汉字的首、尾二笔划代码)+空格,简码给500个常用字编码。
③三键+空格,码简(等价于第四码为任意字符的字、词码)
2、三音词键简码的输入①单字母键+三字词键,简码显示与头字母对应的字、词编码。
②双头母键+三字词键,简码给600个常用双音词编码。
3、根据以上的规则,汉语编码中的第一码中,U、V键都无机会用上,但大有用途例如,U+汉字拼音头字母+汉字首二笔码+汉字尾二笔码或U+双音词第一音节头字母+第一音节汉字首二笔码+第二音节汉字首二笔码(等价于第二码为任意字符的字、词简码)U、V还可以用来编写首、尾二笔划码字、词索引等。
例如,V+V+字(词)首二笔码+字尾(词首)二笔码(等价于头二码为任意字符的字、词简码)五、汉语的字、词编码(初稿)一1、6763个常用汉字的编码。
2、26个高频字的编码。
3、500个高频字的(首、尾二笔划简码)编码。
二1、4千个常用双音词的编码。
2、1千个常用三音词的编码。
3、5千个成语的编码。(见成语词典)
权利要求
1.将35个汉语拼音韵母区分为“a*”、“e*”、“o*”、“i*”和“u*”五大类,作为韵母代码,对应排列在键盘A、E、O、I、U键的右上角,与确定汉字的首二笔画和尾二笔画的编码一一、一丨、一丿、一丶、一乙;丨一、丨丨、丨丿、丨丶、丨乙;丿一、丿丨、丿丿、丿丶、丿乙;丶一、丶丨、丶丿、丶丶、丶乙;乙一、乙丨、乙丿、乙丶、乙乙。依次编入11、12、13、14、15;21、22、23、24、25;31、32、33、34、35;41、42、43、44、45;51、52、53、54、55区位(对应G、F、D、S、A、;H、J、K、L、M;T、R、E、W、Q;Y、U、I、O、P、;N、B、V、C、X键),去区分汉字为主要技术特征。
2.五韵五笔码编码方案采用了“五笔字型”的字母区位码,但本方案为音型(形)码(只用25个二笔画代码)无字根,与王码(拼型法)130字根本质的区别。
全文摘要
本方案汉语拼音字母对应键盘英文字母,把35个韵母汉语拼音划分为“a*”、“e*”、“o*”、“i*”和“u*”五大类;采用了“五笔字型”的字母区位码;并以《辞海》“笔画查字表说明”作为汉字五种笔画的划分依据。方案有三大特点一、浅显简洁,字词一体。二、字、词编码的兼容性极强,能够实现中文输入技术向“以词为主,以字为辅”方向发展。三、字、词编码信息能用拼音头字母表单(或表音且在一定程度上表形)。
文档编号G06F3/023GK1058853SQ9010880
公开日1992年2月19日 申请日期1990年10月29日 优先权日1990年10月29日
发明者汤建民 申请人:汤建民
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1