一种汉字数字化表达方法及其键盘的制作方法

文档序号:6330673阅读:259来源:国知局
专利名称:一种汉字数字化表达方法及其键盘的制作方法
技术领域
本发明属于汉字信息处理技术领域,具体是一种利用0-9十个阿拉伯数字来表述汉字的方法。此方法可应用于汉字检索和汉字输入系统。
本发明的技术要点是
一种汉字数字化表达方法及其键盘,其五类基本单笔笔形横、竖、撇、点、折依序采用阿拉伯数字1、2、3、4、5作代码,其特征在于复笔的笔形代码及其描述为代码“6”表示呈方框形的部件;代码“7”表示包含有横或竖的相交部件;代码“8”表示由两笔撇开构成“八”字形或“八”字变形的部件;代码“9”表示“小”字形或“小”字变形的部件;代码“0”表示由撇和捺构成的交叉部件;将汉字划分为独体字和合体字两类,对于独体字,按汉字书写顺序取其前四笔代码,不足四笔者,末位用“0”补齐四位;对于合体字,依次取汉字首部件的首码和尾码,次部件的首码和末部件的尾码;部件的首笔形或首笔形与其他笔形的结合为首码;部件的末笔形或末笔形与其他笔形的结合为尾码;独体字定义为当一汉字符合下述三种情况时,则该汉字为独体字1、该汉字无法按左右、左中右、上下、上中下以及全包围、半包围等六种汉字结构划分;2、该汉字按部件拆分后,任何一个部件均非独立汉字。
3、若一汉字由一独体字加上一单笔组成,且符合上述第一种情况,则也将其视为独体字;合体字的取码原则1、确定首部件原则本编码方案将汉字归纳为左右、左中右、上下、上中下及全包围、半包围等六种结构,依据这六种结构对汉字进行拆分,将含有首笔画的部分确定为首部件;2、复笔优先原则在取码时,应尽可能的将部件的首末单笔结合成复笔取码;3、笔画不复取原则在取码时,同一笔画不得重复被首尾码使用;
4、补“0”原则①当要从一个不足两码或只有一种复笔的部件取首尾码时,首码不变,尾码用“0”补齐;②当部件的末笔画已在首码中使用时,则尾码用“0”补齐;键盘上的数字键作数字代码,操作时,启动程序进入应用状态,用数字键盘检索录入。
本发明的技术效果是规则简单、定义明确、容易记忆、易于掌握和普及。符合当今飞速发展的信息技术和“数字化地球“这一概念。汉字正在逐步走向世界,如何采用一个简单明了的表达方法实现对汉字的数字化描述,来实现VCD、DVD、移动电话、电话机、传真机及其它带有数字按键的信息家电上的汉字输入,是目前的发展方向和应解决的技术关键。
五类单笔的笔形代码及其描述为代码“1”表示由左向右运笔的横;代码“2”表示由上向下运笔的竖及竖钩;代码“3”表示由右上向左下运笔的撇;代码“4”表示由左上向右下运笔的点及捺;代码“5”表示所有的折笔。
五类复笔的笔形代码及其描述为代码“6”表示呈方框形的部件;代码“7”表示包含有横或竖的相交部件;代码“8”表示由两笔撇开构成“八”字形或“八”字变形的部件;代码“9”表示“小”字形或“小”字变形的部件;代码“0”表示由撇和捺构成的交叉部件。
汉字笔形分类和代码一览表 对于独体字,按汉字书写顺序取其前四笔代码,不足四笔者,末位用“0”补齐四位;例如1、一画字一=1000乙=50002、二画字二=1100十=1200卜=24003、三画字三=1110干=1120才=12304、四画字丰=1112中=2512夫=11345、多画字史=2513乖=3122我=3121对于合体字,依次取汉字首部件的首码和尾码,次部件的首码和末部件的尾码,当一个汉字只有两个部件时,则次部件也取首码和尾码。
例如教=7730 冰=8028壁=6771崔=2631弼=5515 湖=4171赢=4564暴=6178固=6076 囫=6033边=5344句=3560合体字的取码原则是
1、确定首部件原则本编码方案将汉字归纳为左右、左中右、上下、上中下及全包围、半包围等六种结构,依据这六种结构对汉字进行拆分,将含有首笔画的部分确定为首部件。例如“治”(左右结构)的代码为4156;“做”(左中右结构)的代码为3270;“志”(上下结构)的代码为7144;“高”(上中下结构)的代码为4166;“国”(全包围结构)的代码为6014;“逐”(半包围结构)的代码为1844。
2、复笔优先原则在取码时,应尽可能的将部件的首末单笔结合成复笔取码。例如“将”的代码为8234,“党”的代码为9565,“冰”的代码为8028。
3、笔画不复取原则在取码时,同一笔画不得重复被首尾码使用;例如“因”的代码为6078,“肤”的代码为6174。
4、补“0”原则①当要从一个不足两码或只有一种复笔的部件取首尾码时,首码不变,尾码用“0”补齐;例如“博”的代码为7074,“怀”的代码为9014,“艾”的代码为7200,“凶”的代码为0060。
②当部件的末笔画已在首码中使用时,则尾码用“0”补齐;例如“伟”的代码为3270,“伟”的代码为3270,“纯”的代码为5170。
本方法无需掌握词组编码规则和多级简码输入技术,同时由于编码科学合理,因此在短时间内容易学习和掌握,易于推广普及应用,而且检索录入速度快。
以本编码方案作为检字法拟被中华书局收入最新编辑出版的中华字典电子版中,并作为中华字典纸本版的补辑出版发行,为汉字数字化和汉字信息处理开辟了新路,并为其推广普及打下基础。
权利要求
1.一种汉字数字化表达方法及其键盘,其五类基本单笔笔形横、竖、撇、点、折依序采用阿拉伯数字1、2、3、4、5作代码,其特征在于复笔的笔形代码及其描述为代码“6”表示呈方框形的部件;代码“7”表示包含有横或竖的相交部件;代码“8”表示由两笔撇开构成“八”字形或“八”字变形的部件;代码“9”表示“小”字形或“小”字变形的部件;代码“0”表示由撇和捺构成的交叉部件;将汉字划分为独体字和合体字两类,对于独体字,按汉字书写顺序取其前四笔代码,不足四笔者,末位用“0”补齐四位;对于合体字,依次取汉字首部件的首码和尾码,次部件的首码和末部件的尾码;部件的首笔形或首笔形与其他笔形的结合为首码;部件的末笔形或末笔形与其他笔形的结合为尾码;独体字定义为当一汉字符合下述三种情况时,则该汉字为独体字(1)该汉字无法按左右、左中右、上下、上中下以及全包围、半包围等六种汉字结构划分;(2)该汉字按部件拆分后,任何一个部件均非独立汉字。(3)若一汉字由一独体字加上一单笔组成,且符合上述第一种情况,则也将其视为独体字;合体字的取码原则(1)确定首部件原则本编码方案将汉字归纳为左右、左中右、上下、上中下及全包围、半包围等六种结构,依据这六种结构对汉字进行拆分,将含有首笔画的部分确定为首部件;(2)复笔优先原则在取码时,应尽可能的将部件的首末单笔结合成复笔取码;(3)笔画不复取原则在取码时,同一笔画不得重复被首尾码使用;(4)补“0”原则①当要从一个不足两码或只有一种复笔的部件取首尾码时,首码不变,尾码用“0”补齐;②当部件的末笔画已在首码中使用时,则尾码用“0”补齐;键盘上的数字键作数字代码,操作时,启动程序进入应用状态,用数字键盘检索录入。
全文摘要
本发明涉及一种汉字数字化表达方法及其键盘,属于汉字信息处理技术领域,采用0-9十个数字分别表示横、竖、撇、点、折五类单笔,和方框形、含横或竖的相交形、“八”字形、“小”字形和撇捺交叉形五类复笔,进而实现对汉字的数字化描述;对于独体字,按汉字书写顺序取其前四笔代码,不足四笔者,末位用“0”补齐四位;对于合体字,依次取汉字首部件的首码和尾码,次部件的首码和末部件的尾码;用确定首部件原则、复笔优先原则、笔画不复取原则及补“0”原则作为合体字的取码原则。本发明具有规则简单、定义明确、容易记忆、易于掌握和普及的优点。为汉字数字化和汉字信息处理开辟了新路,并为其推广普及打下基础。
文档编号G06F3/023GK1445644SQ03130659
公开日2003年10月1日 申请日期2003年5月3日 优先权日2003年5月3日
发明者孙亚国 申请人:孙亚国
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1