汉字数码的制作方法

文档序号:6330409阅读:710来源:国知局
专利名称:汉字数码的制作方法
技术领域
本发明是一种汉字及词语的编码方法,属于汉字信息处理技术领域。
现有的汉字编码对汉字的分解有三种方法一、将汉字分解为笔画;二、将汉字分解为部件;三、将汉字分解为笔画和为数不多的部件。
方法一的制约因素是汉字平均笔画数较多和各种笔画分布极不均匀;方法二的制约因素是汉字部件种类较多、汉字构成部件较少及部件转化为符号困难;方法三虽然较前两种方法优越,但仍未摆脱上述因素的制约,同样存在编码规则不规范、随意性强、记忆点多等缺陷。
本专利发明人通过研究汉字的结构规律,发现了汉字字母。这一汉字字母集具有以下特性一、字母集能拼出大汉字集的全部汉字;二、字母集只需很少的记忆量;三、字母集有利于识字教育;四、字母集为优化汉字编码提供了条件。
在此基础上,本专利发明人发明了将汉字字母转化为数码的方法,从而构建成了汉字字母符号系统。这一字母符号集具有以下特性一、符号集只用十个数字就能表示出全部汉字字母;二、符号集利用数字的有序性实现了字母的有序性。
上述发明虽然实现了汉字的字母化和数字化,但仍存在以下两个问题一、汉字分解为字母不具有唯一性;二、汉字的字母及数码序列长度分布极不均匀,短至一位,长至一二十位。
为解决上述问题,本专利发明人将字母的固定组合定义为字块,提出了字块笔画构成字母的方法,从而保证了汉字分解为字母的唯一性。根据构成汉字的字块数目,将汉字分为独体字和合体字,再将合体字分为字首和字身,并从中提取出能代表汉字主要特征的数码,从而将汉字数码及二三字词组控制在六位数字以内,并保证了重码率不因数码的缩短而明显地上升。
本专利发明人还提出了加码和减码方法,彻底解决了汉字编码的重码问题,并实现了汉字和词语混合编码不重码。
经过对国家标准《信息交换用汉字编码字符集基本集》(GB2312-80)6763个汉字、《汉字键盘输入通用词语集》(GB/T 15732-1995)43540个词语、《信息处理用现代汉语常用词表》36410个词语以及《现代汉语词典》中大部分词语的不重码编码统计,编码数字在汉字及词语数码首位和其他各位的分布是比较均匀的,最长数码不超过八位,其中有近98%的汉字及词语数码长度不超过六位(与上述汉字及词语集相应的英语词语,不超过六个字母的不到30%左右,最长的达十几个)。因此本汉字编码在各种汉字编码方案中居于领先水平。
本汉字数码方案具体说明如下本方案的基本思路是词语由汉字组成,汉字由字块组成,字块由字母组成,字母由笔画组成。从笔画的形状位置特征入手,通过一种简单的形数转换方法,将字母转换成字母数码,再由字母数码组合成汉字数码和词语数码。
本方案提出了汉字分解与组合的方法、字母转换为数码的方法和汉字及词语与数码相互转换的方法。
一、汉字字母汉字字母主要由一个笔画或两个笔画构成,如字母“丶、匚、刂、亻、勹、廴、冫、讠”。首尾连接的笔画整体构成字母,其笔画数不受限制,如字母“人、几、弓、已、尸、凸、凹”。
(一)笔画构成汉字字母的笔画有横笔(一)、竖笔(丨)、撇笔(丿)、捺笔()、点笔(丶)、提笔( )和折笔(乙 ㄋ……)。
(二)笔形指笔画的形状。
1、笔形笔画按方向归类为横、竖、撇、捺四种笔形,按长短分为长笔形和短笔形。
(1)横笔形较长的横笔是长横,较短的横笔和提笔是短横。
(2)竖笔形较长的竖笔是长竖,较短的竖笔是短竖。
(3)撇笔形较长的撇笔是长撇,较短的撇笔是短撇。
(4)捺笔形较长的捺笔是长捺,较短的捺笔和点笔是短捺。
钩笔是横、竖、撇、捺四种笔画的附加笔形。横笔附加钩笔构成横钩( ),定义为短横;竖笔附加钩笔构成竖钩(),定义为短竖;撇笔附加钩笔构成撇钩( ),定义为短撇;捺笔附加钩笔构成捺钩( ),定义为短捺。折笔不是笔形,它是由上述笔形组合成的,如“乙”是由横笔、捺笔和钩笔构成。
2、特殊笔形由若干笔画构成的形如“又、口、尸、巳、凸、凹”的封口图形,定义为口笔形。横长竖短的口笔形是长口,如汉字“昌、色、户、每、贯”中的口笔形;横短竖长的囗笔形是短口,如汉字“梅、如、辟、抱”中的口笔形,“又”定义为短口。
3、笔形数用数字来表示上述各种笔形,即0表示短横,1表示短竖,2表示短撇,3表示短捺,4表示长横,5表示长竖,6表示长撇,7表示长捺,8表示短口,9表示长口。
(三)笔位指连续书写的两个笔形之间的位置关系。
1、笔位种类(1)单笔指单独的笔形,如一、丿。
(2)相接指笔形与笔形之间在其端点处连接在一起,如厂、乙。
(3)相离指笔形与笔形之间存在着间隔,如二、八。
(4)相连指一笔形端点与另一笔形中部连接在一起,如卜、亠。
(5)相交指笔形与笔形之间在其中部交叉,如十。
2、笔位数用数字来表示上述各种笔位,即0表示单笔,1表示相接,2表示相离,3表示相连,4表示相交。
(四)字母数码规则1、笔画、相接笔画、两笔笔形笔画构成的字母数码是字母笔形数与字母笔位数之和。其中字母笔形数是取字母最后一个笔形的笔形数。除口笔形外,其它字母数码都需转化为八进制数字0~7。例如横笔(一)数码4=笔形数4(长横)+笔位数0(单笔)口笔(凹)数码9=笔形数9(长口)+笔位数0(单笔)折笔(乙)数码4=笔形数3(短捺)+笔位数1(相接)字母(弓)数码2=笔形数1(短竖)+笔位数1(相接)字母(二)数码6=笔形数4(长横)+笔位数2(相离)字母(八)数码1=笔形数7(长捺)+笔位数2(相离)字母(亻)数码0=笔形数5(长竖)+笔位数3(相连)字母(亠)数码7=笔形数4(长横)+笔位数3(相连)字母(十)数码1=笔形数5(长竖)+笔位数4(相交)2、含折笔的不相接笔画构成的字母数码是字母的首笔笔画数码。例如字母(儿)数码6=首笔画数码是6(长撇)字母(讠)数码3=首笔画数码是3(短捺)字母(刂)数码1=首笔画数码是1(短竖)字母(力)数码2=首笔画数码是2(短竖折)字母(廴)数码7=首笔画数码是7(长撇折)二、汉字字块(一)字块构成1、由单独的笔画(单独的短笔形除外)构成。例如汉字“云”中的单独横笔[一]是字块汉字“亿”中的单独折笔[乙]是字块汉字“红”中的单独提笔[ ]是字块
2、由不分离笔画构成(含单独的短笔形)。例如汉字“傅”中的[亻][甫][寸]分别是字块汉字“迹”中的[亦][辶]分别是字块汉字“掴”中的[扌][口][玉]分别是字块3、由上下分离或左右分离的笔画构成。例如汉字“江”中的上下分离笔画[氵]是字块汉字“热”中的左右分离笔画[灬]是字块汉字“圳”中的左右分离笔画[川]是字块(二)字块分解首先将相接笔画组合成字母,再将连续书写的两个笔画组合成字母,余下的笔画单独成为字母,最后按笔顺关系排列成字母序列。例如字块[白]只能分解为字母(丿)(口)(一)字块[主]只能分解为字母(亠)(十)(一)字块[早]只能分解为字母(口)(一)(十)(三)字块数码将上述字母序列中的字母代换成字母数码,就构成字块数码。例如字块[白]的数码是694,其中(丿)→6(口)→9(一)→4字块[主]的数码是314,其中(亠)→3(十)→1(一)→4字块[早]的数码是901,其中(口)→9(一)→0(十)→1三、汉字数码汉字分为独体字和合体字。独体字由一个字块构成,合体字由字首和字身构成。
(一)合体字构成合体字是左右结构的,左部是字首,右部是字身;是上下结构的,上部是字首,右部是字身;是包围结构的,包围部分是字首,被包围部分是字身。例如“途”(包围结构)的字首是‘辶’,字身是‘余’“恩”(上下结构)的字首是‘因’,字身是‘心’
“钢”(左右结构)的字首是‘钅’,字身是‘冈’(二)字首数码字首是单个字块的,取其前两位数码;是多个字块的,取前两个字块的首位数码;是繁体的,取第一个字块的首位数码前加9。例如字首‘阝’数码6=[阝]前两位数码6字首‘革’数码01=[革]前两位数码01字首‘钅’数码76=[]首位数码7+[ ]首位数码6字首‘多’数码94=9+[ ]首位数码4(三)字身数码取前面字块的首位数码和最后字块的全部数码。例如字身‘兼’数码401107=[兼]全部数码401107字身‘覃’数码4901=[西]首位数码4+[早]全部数码901字身‘感’数码74935=[戊]首位数码7+[一]首位数码4+[口]首位 数码9+[心]全部数码35(四)汉字数码独体字数码取其前六位字块数码;合体字数码取前两位字首数码和前四位字身数码。例如差→42200搬→42208(扌→42般→208)遇→902330(辶→30禺→9023)坠→6014(队→60土→14)(五)组词数码1、组词数码构成独体字组词数码取独体字数码的前三位,合体字组词数码取字首首位数码和字身前两位数码。例如“来”的组词数码575=‘来’前三位数码575“搞”的组词数码479=‘扌’首位数码4+‘高’前两位数码79“海”的组词数码578=‘氵’首位数码5+‘每’前两位数码782、组词数码补码组词数码不足三位时,构词汉字末笔形是长笔形的,用数字8补足;是短笔形的,用数字9补足。例如“力”的组词数码288=‘力’数码2+补码88(末笔形是长撇)“加”的组词数码289=‘力’数码2+‘口’数码8+补码9(六)词语数码二字词语数码取每个字的全部组词数码;三字、四字词语数码取每个字的前两位组词数码;四字以上词语数码取每个字的第一位组词数码并在前面加上数字8。例如安全→344027(安→344全→027)地方→123728(地→123方→728)电视机→943614(电→943视→366机→149)高瞻远瞩→79824189(高→792瞻→827远→413瞩→896)更上一层楼→843491数风流人物还看今朝→8445071205(七)加减数码1、加码规则汉字、词语的末笔形是长笔形的,可在数码后面加8;是短笔形的,可在数码后面加9。例如人(末笔形是长捺)数码2→28刊(末笔形是短竖)数码651→651999机工(末笔形是长横) 数码149048→149048882、减码规则只取汉字、词语数码的前面部分。例如地数码1023→1很数码05907→059汉字 数码588324→588大多数数码272242→2722科学技术 数码65524110→6552权利要求
1.本发明提出了一种将汉字数字化的方法。其特征是将汉字分解为字块,将字块分解为字母,并用数字来表示字母的笔画形状位置特征,从而将汉字字母转换为字母数码,再由字母数码组成汉字数码或词语数码,还可以采用加码和减码的方法使汉字数码和词语数码都不重码。
2.如权利要求1所述的汉字字块,其特征是由单独的笔画、左右分离或上下分离的笔画以及不分离的笔画构成。
3.如权利要求1所述的汉字字母,其特征是由一个笔画、两个笔画和相接的多个笔画构成。
4.如权利要求1所述的汉字笔画形状,其特征是将汉字笔画根据其方向和长短分为短横、短竖、短撇、短捺、长横、长竖、长撇、长捺,定义相接笔画封口为短口、长口,分别用数字0~9来表示,并称这些数字为笔形数。
5.如权利要求1所述的汉字笔形位置,其特征是将汉字笔形根据其相互关系分为单笔形、相接、相离、相连、相交,分别用数字0~4来表示,并称这些数字为笔位数。
6.如权利要求1所述的将汉字字母转换为汉字数码的方法,其特征是由权利要求4所述的笔形数与权利要求5所述的笔位数相加得到。
7.如权利要求1所述的字母数码组成汉字数码的方法,其特征是将汉字分为独体字和合体字,合体字又分为字首和字身。独体字取其字块的前六位数码构成汉字数码,合体字取前两位字首数码和前四位字身数码构成汉字数码。
8.如权利要求1所述的字母数码组成词语数码的方法,其特征是从构成词语的汉字中提取三位组词数码,再提取各汉字的所有组词数码构成两字词语数码,提取各汉字的前两位组词数码构成三字或四字词语数码,由数字8和各汉字的前一位组词数码构成四字以上词语数码。
9.如权利要求1所述的汉字数码或词语数码的加码减码方法,其特征是可以只取汉字数码或词语数码的前几位或可以视其末笔形的长短,在其数码后面增加数字8或数字9。
全文摘要
本发明公开了一种用数字作为符号来表示汉字的方法,属于汉字信息处理领域,其特征是将汉字分解为字母,并根据汉字字母的笔画形状位置特征,将汉字字母转换成字母数码,再由字母数码按一定规则组合成汉字数码。该方法具有编码规则规范、记忆量小、简单易学等特点,可用于汉字检索、汉字输入、汉字数码操作和汉字数码控制等方面。
文档编号G06F3/023GK1313546SQ01107250
公开日2001年9月19日 申请日期2001年3月15日 优先权日2001年3月15日
发明者钟林 申请人:钟林
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1