汉字自由码编码方法

文档序号:6601595阅读:727来源:国知局
专利名称:汉字自由码编码方法
技术领域
本发明是关于汉字的一种编码方法。
目前汉字编码方法很多,已经在计算机上使用的汉字编码方法有一百余种,其中包括常见的拼音码、首尾码、五笔字型码、大众码和表形码等。这些编码都未很好地同时解决汉字拆码的简易性、汉字输入的快速性和编码方法的易记易学三方面的矛盾。例如拼音码,虽然简单易学,但重码率高,输入速度慢。首尾码、五笔字型码、大众码和表形码等虽然能实现汉字的快速输入,但汉字拆码难,部件或字根难以记忆。最近出现的自然码,是在双拼法的基础上发展起来的,它采用以词为主导、字词混合的编码方法,其汉字输入速度更高。但是这种编码仍存在汉字不易拆码、部件多、难以记忆等缺点。
本发明的编码方法仍以双拼法为基础,但不另外引入部件、字根等,而是通过选择汉字中的子汉字(由汉字中的最大部分组成的汉字)作为一个部件,对汉字分类,并对汉字进行拆分。这样使汉字的拆分变得十分简单,没有额外需要记忆的部件、字根等,因此彻底克服了许多编码方法中存在的汉字难拆分和部件多、不易记忆等缺点,并且重码率低,能够实现汉字的更高速度输入。
下面详细地说明本发明的编码方法。
在本发明中,将汉字分为单部字、双部字和三部字。
1.单部字具有下列特征的汉字都称为单部字。
(1)笔画数在三画以下(包括三画)的汉字,例如乙、丁、入、又、小、大、士、土等。
(2)交式单体字,例东、乐、木、未、末、申、由、甲、电、中、串、央、丰、丸、臾、西、半、事、秉、禺、果和重等。
(3)无法分出子汉字的连式或散式单体字,例如心、瓦、见、不、业、立、爪、瓜、予、永、衣、亦、疋、雨、凸和凹等。
2.双部字具有下列特征的汉字都称为双部字。
(1)可以分出子汉字的连式或散式单体字,例如太、犬、夭、王、玉、朱、云、血、亚、矛、严、兔、象等。
(2)双体字,包括①两体均为汉字,a.左右型例从、明、够、孰、舒、赖、兢、粮、蠕、碗、动、幡、鼹等。
b.上下型例香、尘、量、巍、想、壁、碧、黛、森、多、岩、鲨、粟、墅、盟、露、霰、戆、嶷等。
c.内外型例囚、阔、厢、厦、题、魉、氚等。
②两体中仅一体为汉字(子汉字),a.左右型例江、语、海、沼、邵、郁、彰、劓、解、敉等。
b.上下型例竺、筑、苗、茄、藕、琵、监、雪、裔、畏、照、齐、爷、凿等。
c.内外型例过、氘、句、病、应、魃等。
③两体均非子汉字,a.左右型例卵、兆、印、扎、非、卸、挖、彭、能、疑等。
b.上下型例如苘、宏、定、官等。
c.内外型例如巡、网、区、延、匀等。
(3)部分三体字,其中第一体和第二体或者(和)第二体和第三体可构成汉字(子汉字),a.左右型例鸿、做、谢、膨、娜、概、湘、湖、树、卿、撇、淝、鹕、褓、癞等。
b.上下型例如箩、覃、霉、粪、崽、意、馨等。
c.内外型例如疯等。
如果在上述三体字中第一体和第二体以及第二体和第三体均可构成汉字,例如彬、渺、淅等,我们规定由第二体和第三体构成的汉字(子汉字)为第二部。
(4)具有下列特征的三体字和多体字,a.如赢、嘉,其第一体或前面两体构成汉字(子汉字),但不能与第二体或第三体构成汉字,则其第一部为"亡"或"吉",剩下部分为第二部。
b.如亭、寡、墓、幕、睿、蓋、毫、豪和富等,它们的第一体非汉字,而最后一体为汉字(子汉字),则这些字的第二部分别为"丁"、"分"、"土"、"巾"、"目"、"皿"、"毛"、"豕"和"田",其余部分为第一部。
(4)具有下列特征的多体字,a.如簧、簟、蔓和蒿,它们的子汉字分别为"黄"、"覃"、"曼"和"高",构成其第二部分。
b.如拿、膏、藁、翼和冀,它们分别由两个汉字构成,分别为其第一部分和第二部分。
3.三部字(1)三体字中,三体均非汉字,且相互不能构成子汉字。
a.左右型例如微、微等。
b.上下型例如襄、彝等。
(2)三体字或多体字中,仅第二体为汉字,例如葬、嚣和蓼等,则其第二体构成第二部,其前面和后面部分各构成第一部和第三部。
汉字的具体编码方法如下对所有汉字,第一、第二码均按双拼法编码原则,取汉字本身的声母和韵母,对单部字,只有三码,第三码为由该汉字的第一和第二笔画决定的形码("一"和"乙"由单笔画决定),对双部字或三部字,共有四码,第三、第四码分别对其第一和第二部取码,取码法有三种①都取形码,②声码优先法,即部件为汉字时,第三和第四码按双拼法编码原则,取第一和第二部的声母,否则取其形码,③形码和声码混合法,即第一部按声码优先法取码,第二部取形码,或第一部取形码,第二部按声码优先法取码。对汉字部件,既有形码,又有声码,而对不可读(非汉字)部件,只有形码。
形码的构成方法如下将汉字的笔画共分为横、竖、撇、捺和折五种,形码由部件或汉字本身的前两笔画或单一笔画(当部件或汉字由单一笔画构成时)种类决定。形码编码规则具体如下
当然,也可以规定其它取形码的方法。这样通过最佳形码方法的选择,可以使重码率进一步降低。
按照本发明的编码方法,除少数单部字外,绝大多数汉字都为双部字,三部字很少。
词组可采用不同的编码输入方式,例如双字词可采用声韵声韵、声韵形形、声形声形和声韵声声(声码优先方式),三字词可采用声声声韵、声韵声声,四字词可采用声声声声等。
本发明的汉字编码方法具有规律性强、易记易学、汉字拆分十分简单、重码率低和汉字输入速度快等优点。
权利要求
1.一种汉字编码方法,其特征在于通过选择汉字中的子汉字作为部件的方法,将汉字分为单部字、双部字和三部字,并对汉字进行拆分。
2.按照权利要求1所述的汉字编码方法,其特征在于对所有汉字,第一、第二码均按双拼法编码原则,取汉字本身的声母和韵母,对于单部字,只有三码,第三码为该汉字的形码,而对于双部字或三部字,共有四码,第三、第四码分别对其第一和第二部取码,取码法有三种①形码法,②声码优先法,即部件为汉字时,第三和第四码按双拼法编码原则,取第一和第二部的声母,否则取其形码,③形码和声码混合法,第一部按声码优先法取码,第二部取形码,或第一部取形码,第二部按声码优先法取码。
3.按照权利要求1和2所述的汉字编码方法,其特征在于作为汉字部件,既有形码,又有声码,作为非汉字的部件,只有形码。
4.按照权利要求1、2和3所述的汉字编码方法,其特征在于将汉字笔画共分为横、竖、撇、捺和折五种,形码由部件或汉字本身的前两笔画或单笔画(当部件或汉字由单一笔画构成时)的种类决定。
5.按照权利要求1和2所述的汉字编码方法,其特征在于词组可以采用不同的编码输入方式,例如双字词可以采用声韵声韵、声韵形形、声形声形和声韵声声(声码优先)方式,三字词可以采用声声声韵、声韵声声方式,四字词可以采用声声声声方式等。
全文摘要
一种汉字编码方法,其特点是通过选择汉字中的子汉字作为部件,将汉字分为单部字、双部字和三部字,并对汉字进行拆分。对所有汉字,第一和第二码均按双拼法原则,取汉字本身的声母和韵母。单部字仅有三码,第三码为形码。双部字和三部字,共有四码,第三和第四码取汉字第一和第二部的形码或声码。本发明的汉字编码方法具有规律性强、易记易学、汉字拆分十分简单、重码率低和汉字输入速度快等优点。
文档编号G06F3/023GK1150668SQ95118070
公开日1997年5月28日 申请日期1995年10月26日 优先权日1995年10月26日
发明者邱行中 申请人:邱励楠
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1