一种汉字数字化编码表达方法

文档序号:6341836阅读:656来源:国知局
专利名称:一种汉字数字化编码表达方法
技术领域
本发明属于汉字信息处理技术领域,具体是一种利用0-9十个阿拉伯数字来表述汉字的方法。此方法可应用于计算机汉字检索和汉字输入系统。
背景技术
目前用于汉字信息处理的编码方法有1000余种,但利用数字对汉字进行编码的却寥寥无几。王永民先生发明的″五笔数码″分别采用了6键6码和9键6码两种编码方法对汉字进行表述。其6键6码编码方法较为简单,但重码较多,应用价值不高;9键6码没有对单笔和复笔进行明确分类,将几种特定的汉字部件规定在几个数字上,且对汉字编码采用了不定码长的编码方案,增加了记忆量,加大了使用难度、不利于学习和普及。广西肖水清先生发明的″无理序号″采用″声韵调序″的程式输入,拼音输入本来重码就很多,其编码又用10个数字代替了21个声母和5个零声统一母,再用10个数字代替35个韵母,其重码就可想而知了,其编码的另一缺点是只有记住每一屏显示的那些序号,才能掌握这种输入法。栗兴民先生发明的″四笔号码″看似简单,但其汉字拆分方法比较复杂,也难于掌握和记忆,而且有些规则定义不严格,易产生歧义,难于推广和应用。

发明内容
本发明的目的是提供一种汉字数字化表达方法<或及其键盘>,该方法将汉字数字化,具有规则简单、定义明确、容易记忆、易于掌握和普及的优点。
本发明是这样实现的一种汉字数字化表达方法<或及其键盘>,其特征在于a、五类基本单笔笔画(或笔形)横、竖、撇、点、折依序采用阿拉伯数字1、2、3、4、5作代码;其他笔形代码及其描述为代码″6″表示呈方框形的部件;代码″7″表示包含有横或竖的相交部件;代码″8″表示由两笔撇开构成″八″字形或″八″字变形的部件;代码″9″表示″小″字形或″小″字变形的部件;代码″0″表示由撇和捺构成的交叉部件;b、按照上述笔划及笔形代码,将每个汉字用4个阿拉伯数字作代码,并遵循笔画组合优先原则、笔画不复取原则和不足的用″0″补齐原则取码。
可以将计算机键盘上的数字键作数字代码,计算机操作时,启动程序进入应用状态,即用数字键盘检索录入。
上述的汉字取码方法可以是将汉字划分为独体字和合体字两类,对于独体字,按汉字书写顺序取其前四笔代码,不足四笔者,末位用″0″补齐四位;对于合体字,依次取汉字首部件的首码和末(或尾)码,次部件的首码和末部件的尾码;部件的首笔画(形)或首笔画(形)与其他笔形的结合为首码;部件的末笔形或末笔形与其他笔形的结合为末(或尾)码;独体字定义为当一汉字符合下述三种情况时,则该汉字为独体字(1)、该汉字无法按左右、左中右、上下、上中下以及全包围、半包围等六种汉字结构划分;(2)、该汉字按部件拆分后,任何一个部件均非独立汉字;(3)、若一汉字由一独体字加上一单笔组成,且符合上述第一种情况,则也将其视为独体字;合体字的取码原则(1)、确定首部件原则本编码方案将汉字归纳为左右、左中右、上下、上中下、及全包围、半包围等六种结构,依据这六种结构对汉字进行拆分,将含有首笔画的部分确定为首部件;(2)、复笔优先原则
在取码时,应尽可能的将部件的首末单笔结合成复笔取码;(3)、笔画不复取原则在取码时,同一笔画不得重复被首尾码使用;(4)、补″0″原则①当要从一个不足两码或只有一种复笔的部件取首尾码时,首码不变,尾码用″0″补齐;②当部件的末笔画已在首码中使用时,则尾码用″0″补齐;上述的笔画笔形代码方法可以为五类基本笔画横(含提)、竖(含竖钩)、撇、点(含捺)、折依序采用阿拉伯数字1、2、3、4、5作代码;笔画组合的代码及其描述为代码″6″表示呈框形的部件;代码″7″表示包含有横或竖的相交部件;代码″8″表示由两笔撇开构成″八″字形或″八″字变形的部件;代码″9″表示″小″字形或″小″字变形的部件;代码″0″表示由撇捺相交构成的部件及部件″又″;其取码方法也可以是(或较佳为)对于每个汉字依次取汉字首部件的首码和末码,余部件的首码和末码;汉字或部件的首笔画或首笔画与其他笔画的结合为首码;汉字或部件的末笔画或末笔画与其他笔画的结合为末码;汉字的取码规则(1)确定首部件原则本编码方案将汉字归纳为上下结构、左右结构、上中下结构、左中右结构、全包围和半包围结构(包括向下包围结构、向上包围结构、向右包围结构、向右下包围结构、向左下包围结构和向右上包围结构)等六种结构,依据汉字书写顺序及这六种结构对汉字进行拆分,将含有首笔画的部分确定为首部件;对于不属于上述结构的汉字,将其首笔画或首笔画与其他笔画的结合作为首部件;(2)笔画组合优先原则在取码时应将″基本笔画″结合成″笔画组合″取码;(3)笔画不复取原则
在取码时,同一笔画不得重复被首、末码使用;(4)补″0″原则①当从一个只有″基本笔画″或″笔画组合″构成的部件取首、末两码时,首码不变,末码用″0″补齐。
②当部件的末笔画已在首码中使用时,末码用″0″代替。
也可以用与其他的取码方法等。
本发明的技术效果是显著的它克服了已有技术的许多不足之处,把汉字进行数字化表达,具有规则简单、定义明确、容易记忆、易于学习、掌握和普及的突出优点。尤其符合当今飞速发展的信息技术和″数字化地球″这一概念。当前,汉字正在逐步地或迅速地走向世界,如果能采用一个极其简单明了的表达方法来实现对汉字的数字化描述,从而方便快速准确地实现VCD、DVD、移动电话、电话机、传真机及其它带有数字按键的信息家电上的汉字输入,无疑符合汉字输入法的发展方向,并成为解决问题的技术关键及最佳途径。故本发明为汉字数字化和汉字信息处理开辟了新路,并为其推广普及打下了基础。
具体实施例方式
实施例一将汉字笔画概括为5类单笔和5类复笔,分别用1-5和6-0十个数字作代码;将汉字划分为独体字及合体字两类,分别采用不同的规则编码。
五类单笔的笔形代码及其描述为代码″1″表示由左向右运笔的横;代码″2″表示由上向下运笔的竖及竖钩;代码″3″表示由右上向左下运笔的撇;代码″4″表示由左上向右下运笔的点及捺;代码″5″表示所有的折笔。
五类复笔的笔形代码及其描述为代码″6″表示呈方框形的部件;代码″7″表示包含有横或竖的相交部件;代码″8″表示由两笔撇开构成″八″字形或″八″字变形的部件;代码″9″表示″小″字形或″小″字变形的部件;代码″0″表示由撇和捺构成的交叉部件。
汉字笔画分类和代码一览表

对于独体字,按汉字书写顺序取其前四笔代码,不足四笔者,末位用″0″补齐四位例如(1)一画字一=1000 乙=5000(2)二画字二=1100 十=1200 卜=2400(3)三画字三=1110 干=1120 才=1230(4)四画字丰=1112 中=2512 夫=1134(5)多画字史=2513 乖=3122 我=3121对于合体字,依次取汉字首部件的首码和尾码,次部件的首码和末部件的尾码,当一个汉字只有两个部件时,则次部件也取首码和尾码。
例如教=7730 冰=8028 壁=6771 崔=2631弼=5515 湖=4171 赢=4564 暴=6178
固=6076 囫=6033 边=5344 句=3560合体字的取码原则是1、确定首部件原则本编码方案将汉字归纳为左右、左中右、上下、上中下及全包围、半包围等六种结构,依据这六种结构对汉字进行拆分,将含有首笔画的部分确定为首部件。例如″治″(左右结构)的代码为4156;″做″(左中右结构)的代码为3270;″志″(上下结构)的代码为7144;″高″(上中下结构)的代码为4166;″国″(全包围结构)的代码为6014;″逐″(半包围结构)的代码为1844。
2、复笔优先原则在取码时,应尽可能的将部件的首末单笔结合成复笔取码;例如″将″的代码为8234,″党″的代码为9565,″冰″的代码为8028。
3、笔画不复取原则在取码时,同一笔画不得重复被首尾码使用;例如″因″的代码为6078,″肤″的代码为6174。
4、补″0″原则(1)当要从一个不足两码或只有一种复笔的部件取首尾码时,首码不变,尾码用″0″补齐;例如″博″的代码为7074,″怀″的代码为901 4,″艾″的代码为7200,″凶″的代码为0060。
(2)当部件的末笔画已在首码中使用时,则尾码用″0″补齐;例如″伟″的代码为3270;″纯″的代码为5170。
实施例二将汉字笔画概括为五类基本笔画和五类笔画组合,分别用1-5和6-0十个数字作代码;对于所有汉字,采用统一的规则编码。
五类基本笔画的笔画代码及其描述为代码“1”表示由左向右运笔的横及提;代码“2”表示由上向下运笔的竖及竖钩;代码“3”表示由右上向左下运笔的撇;代码“4”表示由左上向右下运笔的点及捺;代码“5”表示所有的折笔。
五类笔画组合的笔画代码及其描述为
代码“6”表示呈框形的部件;代码“7”表示含有横或竖的相交部件;代码“8”表示由两笔撇开构成的“八”字或“八”字变形的部件;代码“9”表示“小”字形或“小”字变形的部件;代码“0”表示由撇和捺相交构成的部件和部件“又”。
汉字笔画分类和代码一览表

对于每个汉字,依次取汉字首部件的首码和末码,余部件的首码和末码。
例如教=7730 冰=8028 壁=6771 崔=2631弼=6515 湖=4171 赢=4564 暴=6178固=6076 囫=6033 边=5344 句=3560汉字的取码规则是1、确定首部件原则本编码方案将汉字归纳为上下结构、左右结构、上中下结构、左中右结构、全包围和半包围结构(包括向下包围结构、向上包围结构、向右包围结构、向右下包围结构、向左下包围结构和向右上包围结构)等六种结构,依据汉字书写顺序及这六种结构对汉字进行拆分,将含有首笔画的部分确定为首部件。例如“志”(上下结构)的首部件为“士”代码为71;“村”(左右结构)的首部件为“木”代码为78;“赢”(上中下结构)的首部件为“亡”代码为45;“国”(全包围结构)的首部件为“口”,代码为60;“逐”(半包围结构)的首部件为“豕”,代码为18。
对于不属于上述结构的汉字,可将其首笔画或首笔画与其他笔画的结合作为首部件。例如“下”的首部件为“一”,代码为10。
2、笔画组合优先原则在取码时应将“基本笔画”结合成“笔画组合”取码;例如“将”字的首部件代码为82;“党”字的首部件代码为95;“奈”的余部件代码为19;3、笔画不复取原则在取码时,同一笔画不得重复被首、末码使用;“因”的余部件为“大”,代码为74;“肤”的余部件为“夫”,代码为74。
4、补“0”原则(1)当从一个只有“基本笔画”或“笔画组合”构成的部件取首、末两码时,首码不变,末码用“0”补齐。例如“博”的首部件为“十”代码为70;“艾”的首部件代码为72;“凶”的代码为0060。
(2)当部件的末笔画已在首码中使用时,末码用“0”代替。例如“伟”的余部件为“韦”,代码为70;“邦”的代码为7052。
本发明方法一或二,无需掌握多级简码输入技术,同时由于编码科学合理,因此在短时间内容易学习和掌握,易于推广普及应用。而且计算机检索录入速度快。
以本编码方案一或二作为检字法拟被中华书局收入最新编辑出版的中华字典电子版中,并作为中华字典纸本版的补辑出版发行,为汉字数字化和汉字信息计算机处理开辟了新路,并为其推广普及打下基础。
权利要求
1.一种汉字数字化编码表达方法,其特征在于a、五类基本单笔笔画横、竖、撇、点、折依序采用阿拉伯数字1、2、3、4、5作代码;其他笔形代码及其描述为代码″6″表示呈方框形的部件;代码″7″表示包含有横或竖的相交部件;代码″8″表示由两笔撇开构成″八″字形或″八″字变形的部件;代码″9″表示″小″字形或″小″字变形的部件;代码″0″表示由撇和捺构成的交叉部件;b、按照上述笔划及笔形代码,将每个汉字用4个阿拉伯数字作代码,并遵循笔画组合优先原则、笔画不复取原则和不足的用″0″补齐原则取码。
2.根据权利要求1所述的汉字数字化编码表达方法,其特征在于所述的汉字取码方法为将汉字划分为独体字和合体字两类,对于独体字,按汉字书写顺序取其前四笔代码,不足四笔者,末位用″0″补齐四位;对于合体字,依次取汉字首部件的首码和末码,次部件的首码和末部件的末码;部件的首笔画或首笔画与其他笔画的结合为首码;部件的末笔形或末笔形与其他笔形的结合为末码;独体字定义为当一汉字符合下述三种情况时,则该汉字为独体字(1)该汉字无法按左右、左中右、上下、上中下以及全包围、半包围等六种汉字结构划分;(2)该汉字按部件拆分后,任何一个部件均非独立汉字;(3)若一汉字由一独体字加上一单笔组成,且符合上述第一种情况,则也将其视为独体字;合体字的取码原则(1)确定首部件原则本编码方案将汉字归纳为左右、左中右、上下、上中下及全包围、半包围等六种结构,依据这六种结构对汉字进行拆分,将含有首笔画的部分确定为首部件;(2)复笔优先原则在取码时,应尽可能的将部件的首末单笔结合成复笔取码;(3)笔画不复取原则在取码时,同一笔画不得重复被首尾码使用;(4)补″0″原则①当要从一个不足两码或只有一种复笔的部件取首尾码时,首码不变,尾码用″0″补齐;②当部件的末笔画已在首码中使用时,则尾码用″0″补齐。
3.根据权利要求1所述的汉字数字化编码表达方法,其特征在于所述的笔画笔形代码方法为五类基本笔画横(含提)、竖(含竖钩)、撇、点(含捺)、折依序采用阿拉伯数字1、2、3、4、5作代码;笔画组合的代码及其描述为代码“6”表示呈框形的部件;代码“7”表示包含有横或竖的相交部件;代码“8”表示由两笔撇开构成“八”字形或“八”字变形的部件;代码“9”表示“小”字形或“小”字变形的部件;代码“0”表示由撇捺构成的交叉部件和部件“又”;其取码方法为对于每个汉字依次取汉字首部件的首码和末码,余部件的首码和末码;汉字或部件的首笔画或首笔画与其他笔画的结合为首码;汉字或部件的末笔画或末笔画与其他笔画的结合为末码;汉字的取码规则(1)确定首部件原则本编码方案将汉字归纳为上下结构、左右结构、上中下结构、左中右结构、全包围和半包围结构(包括向下包围结构、向上包围结构、向右包围结构、向右下包围结构、向左下包围结构和向右上包围结构)等六种结构,依据汉字书写顺序及这六种结构对汉字进行拆分,将含有首笔画的部分确定为首部件;对于不属于上述结构的汉字,将其首笔画或首笔画与其他笔画的结合作为首部件;(2)笔画组合优先原则在取码时应将“基本笔画”结合成“笔画组合”取码;(3)笔画不复取原则在取码时,同一笔画不得重复被首、末码使用;(4)补“0”原则①当从一个只有“基本笔画”或“笔画组合”构成的部件取首、末两码时,首码不变,末码用“0”补齐。②当部件的末笔画已在首码中使用时,末码用“0”代替。
全文摘要
本发明涉及一种汉字数字化编码表达方法,属于汉字信息处理技术领域,采用0-9十个数字分别表示横、竖、撇、点、折五类基本单笔笔画和框形、含横或竖的相交形、"八"字形"小"字形和撇捺交叉形五类笔画组合,进而实现对汉字的数字化描述;按照上述笔画及笔形代码,将每个汉字用4个阿拉伯数字作代码,并遵循笔画组合优先原则、笔画不复取原则和不足的用"0"补齐原则取码。本发明克服了已有技术的许多不足之处,将汉字数字化,具有规则简单、定义明确、容易记忆、易于学习、掌握和普及的突出优点;为汉字数字化和汉字信息处理开辟了新路,并为其推广普及打下了基础。
文档编号G06F3/023GK1521611SQ20041000619
公开日2004年8月18日 申请日期2004年3月8日 优先权日2003年5月3日
发明者孙亚国 申请人:孙亚国
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1