改进的丨丨丨汉字编码方法

文档序号:6408254阅读:282来源:国知局
专利名称:改进的丨丨丨汉字编码方法
技术领域
本发明属于计算机汉字编码领域,是对|||汉字编码的补充和完善,它采用了音形结合的编码方法,包涵了汉字音、形、义三大特点,克服了以形为主字根难记的不足,由于利用了重码再分原则,避免了以音为主重码多的缺点,为汉字编码提供了一种简易、规则、迅速、准确的方法。
本发明的任务通过以下方式完成。
1、采用汉字、部首、笔画、近似字、部位字汉语发音的第一个字母所对应的拉丁字母,分别为A、B、C、D、E、F、G、H、J、K、L、M、N、O、P、Q、R、S、T、W、X、Y、Z。
2、采用汉字起笔的五种基本笔画横(一、-)、竖(|、 )、撇(丿、 )、点(丶、 )、折( 等)。分别用键盘符号对应,如U、I、O、V、A做为起笔笔画的代码,因为在汉语发音的第一个字母中没有U、I、V,而O、A在汉语拼音中的第二位出现的频率较小,也可用1、2、3、4、5键或U、I、V、<丶>等键代替。
3、将汉字按左右、上下、外内、其它四种结构,并据此将汉字拆分成两部分,汉字的四种结构可与键盘的键符对应,如用U、I、V、<或1、2、3、4等。
4、笔画及笔画发音|||码在笔画分类上参照了小学生规范字典基本笔画一(横)、丨(竖)、丿(撇)、、(点)、 (折)变形笔画,将折、钩、弯合并为一类。
表1 笔画及笔画发音的第一个字母 4、|||码的字根代码|||码在形义的编码上,以义部分类为主,参照《现代汉语规范字典)》、《小学生规范字典)》的偏旁部首所代表意义的字的读音的第一个字母作代码,对个别偏旁、部首为避免重码做了个别调整。
表二 偏旁、部首的代码
6、字的编码方法(1)第一码取该字汉语拼音的第一个字母,如,我,取W。
(2)第二码将汉字按左右、上下、外内、其它四种结构进行划分,尽可能将汉字拆分成两部分,然后取左右结构中的左部,上下结构中的上部,外内结构中的外部,其它结构中的第一笔笔画的发音的第一个字母。如我,取第一笔笔画丿撇的第一个字母P。如果第二码与第一码重复或不发音,如凤,第一码为F,第二码为外内结构“几”的风字头,F与第一码相同,则将几再按左右、上下、外内、其它结构划分,可取其中任意一个部位部首、偏旁、笔画的发音的第一个字母,如果有特征字或部位字,则取该特征字和部位字,如果各部位都没明显特征,则取第一部位第一笔笔画的发音,如几第一笔笔画为撇,取P,即重码再分原则,重码再分时,再分至基本笔画时为止,有时也可省略重码再分原则。
(3)第三码将汉字按结构划分后,取左右结构中的右部,上下结构中的下部,外内结构中的内部,其它结构中的第二笔笔画的发音,如我为其它结构,第二笔笔笔画为(横)取H,凤为外内结构,内部为又发音的第一个字母为Y,第三码如果与第一码重复或不发音则采用重码再分原则,重码再分时,第二、三码与第一码重复时再分,第二、三码重复时不需再分,如博,第一码为B,第二码为S,第三码不发音,则将 再分为上下结构,下部结构中存在特征字寸字,则取寸发音的第一个字母C,博的编码可为PSC。特征字,只要含有该字的形状即视为存在该特征字,如芭,下部巴与第一码B相同,但含有日,其代码为R,芭的编码为BCR,也可以将巴视为其它结构,第一笔笔画的代码为Z,芭的编码可为BCZ,增加容错码。允许个别字第二、三码与第一码相同。
(4)插入码规则1,在第二码或第三码后增加插入码,取结构的代码,第一部分起笔笔画的代码,第二部分起笔笔画的代码,将第一部分再次拆分后取第二码中未取的部位所对应的汉字、偏旁、部首、笔画发音的代码,取第三码中未取部位所对应的汉字、偏旁、部首、笔画发音的代码,采取特殊方式等处理。在插入码中,以第三码或第二码未取的部位所对应的近似字、偏旁、部首、笔画发音的代码或特征部位按结构划分未取的部分所对应的近似字、偏旁、部首、笔画发音的第一个字母。如在第二码加入插入码,富与匐在|||码中的编码为FBT,在第二码后插入富字起笔笔画的代码,如<键或富字第一笔笔画发音的所对应的代码D,富的编码为FBT<或FBTD,在匐的第二码后加入匐字起笔笔画的代码V或加入匐字第一笔笔画发音所对应的代码P,匐字的编码为FBTP,或在第三码后插入富或匐的结构代码。
插入规则2,依次取码规则。在第二码中,将汉字拆分成两部分后,如第二码不再拆分,则取第一部分所对应的字、近似字、偏旁、部首、笔画发音的第一个字母。如果将第一部分再次拆分成两部分,则取再次拆分后第一部分所对应的汉字、近似字、偏旁、部首、笔画发音的每个字母。第三码,如果第一部分再次拆分则以第一部分再次拆分后的第二部分所对应的汉字、近似字、偏旁、部首、笔画发音的第一个字母,如果第一部分不再拆分,第二部分也不再拆分,则取第二部分所对应的汉字、近似字、偏旁、部首、笔画发音的第一个字母。如果第二部分再次拆分,则取第二部分再次拆分后的第一部分所对应的汉字、近似字、偏旁、部首、笔画发音的第一个字母,再取第二部分再次拆分后的第二部分所对应的汉字、近似字、偏旁、部首、笔画发音的第一个字母做为插入码。即依次取码规则。
(5)在编码中为避免重码,可采用一些特别处理。
(6)在结构划分中,尽可能将汉字划分两部分,并且两部分都有意义,如捌为左右结构,左部最大为拐,盒为上下结构,上部最大为合,鏖为外内结构,外部最大为鹿,如两部位都成字,如捌,左部拐和右部别都成宇,则以特征字为主,或增加容错码。其中左中右结构和上中下结构,其它结构也可划分为外内结构如办、亘、内等。
(7)一级简码字,为第一码加空格键。
(8)二级简码字为第一码加该字起笔笔画的代码加该字第二码,或加空格键。
(9)当不知道汉字发音或某一部位不发音时,可用V或?等键代替。
(10)字和字的重码处理。
a、高频先见和数字标记处理b、简码处理对一级重码字进行了简码处理。
c、词组转入d、增加常用字、少用字、罕用字,功能键切换。
6、词的编码a、二字词的编码(1)第一码取该词第一个字汉语发音的第一个字母的代码。
第二码取该词第一个字起笔笔画的代码。
第三码取该词第二个字汉语发音的第一个字母的代码。
第四码取该词第二个字起笔笔画的代码。
(2)第一码取该词第一个字分成两部分后第一部分所对应的近似字、偏旁、笔画发音的第一个字母,第二码取该词第一个字第二部分所对应的近似字、偏旁、笔画发音的第一字母。第三码取该词第二个字分成二部分后第一部分所对应的近似字、偏旁、笔画发音的第一字母。第四码取该词第二个字分成二部分后第二部分所对应的近似字、偏旁、笔画发音的第一字母。
(3)两字词一级简码的编码取该词每个字的第一码加空格键(4)两字二级简码词的编码取该词每个字的第一码加第二个字第的起笔笔画的代码加空格键。
b、三字词的编码(1)取三字词键也可省略此键加该词每个字的第一码,加最后一个字拆分后第一部分对应的近似字、偏旁、部首、笔画发音的第一个字母。
(2)或取该词前两个字的第一码加最后一个字的起笔笔画的代码。
c、四字词的编码(1)取该词前三个字的第一码加最后一个字的第一码。
(2)或取第一个字的起笔笔画的代码加第二、第三个字和第四个字的第一码。
d、多字词的编码(1)取多字词键,也可省略此键加前三个字的第一码,加最后一个字的第一码。
(2)或取多字词键,也可省略此键加第一个字起笔笔画的代码,加后几个字的第一码。
e、对词组的重码词也可做特殊规定。
f、可增加自定义词和自造词的编码。
g、对字和词、词和词的重码,可采用高频先见,标记提示,联想功能,常用词、少用词功能键切换。
h、对容错码的处理采用字词多码方式进行处理,对个别重码较多的字词可做特别处理。
实施例1、捌字的编码第一码为捌字发音的第一个字母B,第二码将捌字分为左右结构,左部成字最大为拐,拐发音的第一个字母为G,右部为刂,立刀旁代码为D,捌的编码为BGD,或加入插入码,第一部分特征字拐字,并将拐字再拆分成扌和另,取另发音的第一个字母L,捌字的编码为BGDI。
2、摸字的编码,第一码为摸字发音的第一个字母M,第二码将摸分为左右结构,左部扌,提手旁的代码为F,第三码摸字右部有特征字日和大,取日对应的R,摸的编码为MFR,或增加依次取码,取特征部分剩余大对应的D,摸的编码为MFRD。
3、摩字的编码,第一码为摩字发音的第一个字母M,第二码将摩分为外内结构,外部最大为麻与第一码相同,将麻醉再分为广和林,第三码为摩下部手发音的第一个字母S,摩的编码为MGS或MLS,也要在第二码对麻再分成广和林时依次取码,则摩的编码为MGLS。
4、一字的编码第一码为一字发音的第一个字母Y,第二码为一字起笔笔画的代码H。
5、二字词“我们”的编码第一码为我字发音的第一个字母W,第二码为我字起笔笔画撇的代码V,第三码为们字发音的第一个字母M,第四码为们字起笔撇的代码V,或用简码词编码即W+M+空格键。
6、三字词“计算机”的编码,第一码为计字的第一码丁,第二码为算字的第一码S,第三码为机字起笔笔画横的代码U,计算机的编码为JSU。也可用计算机和三个字发音的第一个字母JSJ,加最后一个字拆分后第一部分相对应的M的代码。
7、四字词“恭喜发财”的编码,第一码为恭字起笔笔画横的代码U,第二、三、四码为喜、发、财的发音的第一个字母X、F、C,恭喜发财的编码为UXFC。
8、四字以上词的编码。“中华人民共和国”第一码为第一个字中字起笔竖的代码I,第二、三码为第二、三个字华、人发音的第一个字母H、R,最后一码为最后一个字母发音的第一个字母G,中华人民共和国的代码为IHRG。或采用前三个字的第一码加最后一个字的第一码即ZHRG。
权利要求
1.一种汉字编码方法,其特征在于(1)以26个拉丁字母A、B、C、D、E、F、G、H、I、J、K、L、M、N、O、P、Q、R、S、T、U、V、W、X、Y、Z做为汉字编码的码元。其中A、B、C、D、E、F、G、H、J、K、L、M、N、O、P、Q、R、S、T、W、X、Y、Z为汉字的部位字、近似字、部首、偏旁、笔画发音的代码。(2)将汉字起笔的五种基本笔画横、竖、撇点、折与相应的键盘符号对应,如U、I、V、<、>或1、2、3、4、5等。
2.根据权利要求1的汉字编码方法,其特征在于(1)字的编码方法a、第一码取该字汉语拼音的第一个字母。b、第二码将汉字按左右、上下、外内、其它四种结构进行划分,然后取左右结构中的左部、上下结构中的上部、外内结构中外部,其它结构中的第一笔画的发音代码,如果在左右、上下、外内三种结构中该码元与第一码元相同或不发音则按此方法再次划分结构,并再次取码,至基本笔画为止,再取码时可取任意部位的码元,但以第一部分成字最大,相对复杂或整部位成字或偏旁为原则,简称重码再分原则,特殊情况下可省略重码再分原则。c、第三码,取该字左右结构中的右部,上下结构中的下部,外内结构中的内部位部字,部首、偏旁、笔画、近似字发音的第一个字母,其它结构中的第二笔笔画发音的第一个字母,在左右、上下、外内三种结构中如果第三码码元与第一码相同或不发音则采用重码再分原则。特殊情况下,在第三码中可省略重码再分原则。d、可增加插入码或依次取码规则,取结构的代码,首部起笔笔画的代码,次部起笔笔画的代码,将首部再次分解后取第二码中未取的部位所对应的汉字、偏旁、部首、笔画发音的代码,取第三码中未取部位所对应的汉字、偏旁、部首、笔画发音的代码,采取特殊方式等处理。在第四码中以第三码或第二码未取的部位所对应的近似字、偏旁、部首、笔画发音的代码或特征部位按结构划分未取的部分所对应的近似字、偏旁、部首、笔画发音的第一个字母为主。或按结构再次划分后依次取码。e、对不会发音的汉字可用指定键盘上的键作为代替,如?键、V键等。
3.词的编码a、两字词的编码(1)第一码取该词第一个字汉语发音的第一个字母的代码。第二码取该词第一个字起笔笔画的代码。第三码取该词第二个字汉语发音的第一个字母的代码。第四码取该词第二个字起笔笔画的代码。(2)第一码取该词第一个字分成两部分后第一部分所对应的近似字、偏旁、笔画发音的第一个字母,第二码取该词第一个字第二部分所对应的近似字、偏旁、笔画发音的第一字母。第三码取该词第二个字分成二部分后第一部分所对应的近似字、偏旁、笔画发音的第一字母。第四码取该词第二个字分成二部分后第二部分所对应的近似字、偏旁、笔画发音的第一字母。(3)两字词一级简码的编码取该词每个字的第一码加空格键(4)两字二级简码词的编码取该词每个字的第一码加第二个字第一笔起笔笔画的代码或加第二个字第一部分所对应的近似字、偏旁、部首、笔画发音的第一个字母或加空格键。b、三字词的编码(1)取三字词键也可省略此键加该词每个字的第一码,加最后一个字拆分后第一部分对应的近似字、偏旁、部首、笔画发音的第一个字母。(2)或取该词前两个字的第一码加第一个字起笔笔画的代码加后几个字的第一码。(3)取第一个字起笔笔画的代码加第三个字的第一码。c、四字词的编码(1)取该词前三个字的第一码加最后一个字的第一码。(2)或取第一个字的起笔笔画的代码加第二、第三个字和第四个字的第一码。d、多字词的编码(1)取多字词键,也可省略此键加前三个字的第一码,加最后一个字的第一码。(2)或取多字词键,也可省略此键加第一个字起笔笔画的代码,或加每个字的第一码。e、(1)对词组的重码词也可做特殊规定。(2)可增加自定义词组规则。f、在词的编码中可省略重码再分原则。
4.根据权利1、3、4对字字重码、词词重码、字词重码,可采用多码处理或自定义词组,或采用联想功能处理,高频先见等方式处理。
5.根据权利1、2、3、4对容错码处理可采用字词多码共同存在的形式,也可做一些特别处理。
6.本方法同样适用于繁体汉字或其它非拼音类文字的编码方法。
全文摘要
一种汉字编码方法,它采用了汉字部首、笔画发音的第一个字母和汉字书写的第一笔笔画的代码,结合汉字结构进行编码。是对“|||”汉字编码方法补充和完善,它包涵了汉字音、形、义三大特征,并采用了重码再分原则,有效地实现了人机共同编码,字、词自动识别,具有规则、迅速、准确的特点。
文档编号G06F3/023GK1409191SQ0113325
公开日2003年4月9日 申请日期2001年9月16日 优先权日2001年9月16日
发明者刘瑞林 申请人:刘瑞林
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1