一种输入部件和表形部件一致的汉字编码法的制作方法

文档序号:6602691阅读:226来源:国知局
专利名称:一种输入部件和表形部件一致的汉字编码法的制作方法
技术领域
本发明涉及计算机中文信息处理,特别是计算机汉字输入技术中的汉字编码。目前,关于汉字编码的方案已研制出数百种,共分三类,即形码、音码和音形码。其中形码最多,形码共具的优点是输入速度快,不足之处是难学易忘,很难实现中小学识字教育与电脑教育相结合,或多或少存在不规范的问题。1996年第2期中文信息杂志的本刊专讯--《规范码及规范化大纲面世》一文指出‘一些不规范的方案对祖国语言文字形成了或多或少的“污染”,对中小学识字教育产生一定地干扰。......中文信息学会意识到这一问题的严重性,希望开展规范化的汉字编码及计算机汉字输入系统的研究’。目前,已推广使用的形码(含音形码)方案没有一种能适合中小学识字教育与电脑教育相结合的根本原因在于只取汉字的一部分表形部件(一般为200个左右)作为编码部件。这种做法的最大缺点在于那些含表形部件不是编码部件的汉字(如五笔字型中含非基本字根的汉字),机写字和规范字的差别大且其差别无确定规律可循,使用者很难用规范字书写知识去把握机写字写法,因此,难使识字、查字、写字、打字四者结合,即难实现中小学识字教育与电脑教育相结合。此外,用机写字和规范字差别大的编码方案解决计算机汉字处理问题不利于中文信息处理中的语言文字规范化、标准化。只用一部分表形部件给汉字编码存在的另一较大缺点是,这种做法要求使用者必须死死记准哪些部件能参加编码,哪些不能,不能的如何处理,否则拆字编码就不能顺利进行。这么做不仅增加了拆字编码的思维难度,也增大了掌握编码方法所花的记忆量,是现有行码方案难学易忘的主要原因之一。另外,现有形码方案还不同程度存在着拆字不规范,编码部件键位安排规律性不强、记忆方法不够合理等不足之处。
本发明的目的在于改变上述现有技术中的不足之处而提供一种易于实现中小学识字教育与电脑教育相结合的、拆字编码规范的计算机汉字输入方法。
本发明能提供一种拆字编码思维难度和记忆量都能减小的易实现中小学识字教育与电脑教育结合的形码(含音形码)方案的研制办法。这种编码研制办法的编码产生步骤是
(1)把限定每字最多只拆四个部件的指定拆分规则拆规范汉字所得的全部表形部件按某确定字形信息或字音信息归类。
(2)把具有同一确定字形或字音信息的部件放在同一键上(一个键上可以放一种或数种各具相同信息的部件)并配以适当的识别码给汉字编码,找出产生重码数量多累计使用频度高的部件。
(3)将步骤(2)中找出的产生重码数量多累计使用频度高的部件调到产生重码数量少、累计使用频度低的键上。得到重码数量少累计使用频度低的编码。
没有调动键位的部件叫一般部件,这种部件数量很多,其键位能用部件具有的某字形信息或字音信息确定,调动健位的部件叫定位部件,这种部件不多,其键位用部件所在键位的坐标确定。
本编码法改变了现行形码(含音形码)只取汉字的一部分表形部件给汉字编码的传统做法,改变了现行形码不限定每个汉字最多能拆几个部件的惯用做法及输入部件的键位安排和记忆办法,使按指定拆分规则拆每个规范汉字所得表形部件个个都能一笔不变就可参加编码。和现行形码相比,在以下六个方面有不同。
一、拆字编码思维难度小,易使中小学识字教育与汉字输入电脑教育结合。用本办法给汉字编码,除识别码外每个汉字的输入部件都和表形部件相同,机写字和规范字的差别仅在不足四个部件者只要按编码规则加识别码即可。使用者容易用规范汉字书写规律把握各机写汉字的写法,易实现识字、查字、写字、打字四者融合。
二、花记忆量小且有利于规范汉字的推广使用。因按指定拆分规则拆规范汉字所得表形部件个个都能一笔不变就可参加编码且部件选取按规范字书写规律进行,使用者掌握本法和掌握规范字写法能紧密联系,所以这么做有利于规范汉字的推广使用。掌握本法,使用者不须记哪些部件能参加编码、哪些不能,不能的怎么办。所用部件的键位绝大多数能用部件所具字形信息或字音信息确定,不须死记,须死记键位的定位部件量少常用易记。因此掌握本法花的记忆量能减小。
三、简码字和规范字的差别也小,取简码后的机写字只有须加二识别码的汉字、须加一识别码的汉字、输入部件和表形部件相同的汉字、输入部件少于表形部件的汉字等四类且输入部件少于表形部件的汉字少了的部件一律在最后。使用者容易记住自己常用汉字的简码字。
四、本编码法拆字规范,按拆分规则拆得的汉字只有单部件字、二部件字、三部件字、四部件字共四种。给每种汉字设一个结束码(一共用四个结束码),能增加简码空间,使一级简码字和二级简码字的数量大量增加(参见附表一)、使
附表一用附表三的定位部件和笔画识别码时的简码字数分类统计表。说明表内单部件字和二部件字的四级码字数实际是单部件字和二部件字的重码字数,
三部件字和四部件字的重码字含于它们的四级码字中。取简码后的重码字数量和累计频度减少(参见附表一),使须加识别码的字数减少(参见附表二),有利于输入速度的提高。
五、本编码法的汉字部件结构库是天然的汉字结构信息库,能让计算机解决汉字部件构字信息的提供问题,用本编码法建立的汉字输入系统有让计算机提供汉字部件构字信息的功能,能给使用者了解汉字部件构字情况提供方便。
六、本编码法的汉字部件结构库是天然的汉字结构信息库,可开发出能让计算机快速准确提供汉字部件构字信息、拼音信息和常用字使用频度的编码研制软件,反应编码质量的统计数据能用计算机提供,编码质量评测能用计算机进行。
用输入部件和表形部件一致的汉字编码方法给汉字编码,方法灵活。具体表现在用键数量可多可少,25--40键都行(少用键就得多用定位部件);确定一般部件的信息可以是字形信息也可以音形混合使用(有名称者用部件的音信息、无名称者用部件的字形信息或规定的音信息)。识别码的选用可用笔画信息,也可用字音信息;定位部件的用量可多也可少,在所用键位相同的情况下,多用定位部件可使重码字数量和重码字的累计使用频度减小。运用本发明得到的相应编码软件,每一方案设计者都容易根据汉字结构实际和应用实际的需要对方案中的做法作调整,下边对取30键用起笔笔形和笔画数确定一般部件的键位办法进行说明。
用30键给汉字编码时,取计算机主键盘上的以下三十个字符键给汉字编码。它们是Q、W、E、R、T;I、O、P、{、};A、S、D、F、G;J、K、L、、″;Z、X、C、V、B;N、M、<、>、?。此30键分六行十列,自左至右,左五列的列码依次为4、3、2、1、0;右五列的列码依次记为0、1、2、3、4;自下而上,左三行的行码依次记为3、1、5;右三行的行码依次记为4、2、6。列码为M行码为N的键记为MN键。如B、N、G、J、T、I六键的列码都为0,它们所在之行的行码依次为3、4、1、2、5、6,因此它们的键位码依次为03、04、01、02、05、06。其余各字符键的键位码见附表三(作此安排时,Y、U、H三键用作结束码)。下边依次对用30键给汉字编码时所用的汉字拆分原则、部件键位码确定办法、识别码确定办法及编码规则进行说明。
一、汉字拆分原则
在正式叙述汉字拆分原则前,先对本文所用几个术语的含义进行说明。
附表二用附表三中的定位部件和识别码时,取简码后各类汉字字数、频度统计表。
附表三用30键编码取笔画识别码时的定位部件键位、笔画识别码键位及一般部件键位安排情况表。
说明
用30字给汉字编码,取本表所列58个定位部件并单以空格键作结束时16-55区一级字有重码61对(频度4.5005)全部国标汉字有重码231组(频度6.4802)、一级简码30字(频度19.2464)、二级简码875字(频度51.1030)、三级简码4684字(频度25.3878)、四级码字1174字(频度1.7994)。
部件汉字中可通过不拆相交笔画得到的有一定搭配关系的笔画结构叫汉字的部件。同含于两个或两个以上汉字的部件叫公部件(简称部件),只含于一个汉字的部件叫孤立部件。
最大公部件能按书写顺序从两个或两个以上规范汉字中通过不拆相交笔画得到的最大笔画集合叫该两个或两个以上汉字的最大公部件,如幸和南都能拆出“”,是幸和南的最大公部件;又如亮、亭、毫、膏、豪、亳等六字中通过不拆相交笔画能得到的最大笔画集合是
就是以上各字的最大公部件。又如诸、著、暑、署、堵、睹、赌等字中的“者”是以上各字的最大公部件。
自然块在有明显相离关系的笔画结构构成的汉字中,每一与其他笔画结构有相离关系的笔画结构都叫该汉字的一个自然块。为简化问题的解决,汉字中的最大成字只算一个自然块。如苟、敬、警三字都是二自然块字。在苟字中,艹和句各为一个自然块。敬字中,苟和女各为一个自然块,警字中敬和言各为一个自然块。又如亮、亭、毫、豪、亳五字是四自然块字,膏是五自然块字。
用30键给汉字编码时的汉字拆分原则主要有以下三条
1、用规范字拆、按自然块分、拆分不拆交。不足四个者,有满足条件的连也可拆,达到或超过四个自然块的汉字要按满足拆四个部件的基本条件进行拆并,使其得到3--4个部件。无论“拆”还是“并”都要注意,不要使字体显得零乱,能不拆孤立部件者应不拆孤立部件。
如曹只拆
日,不拆一冂
日; 张只拆弓长,不拆弓丿
;
攀拆木爻木
,不拆林爻大手; 亥只拆
人,不拆亠∠丿人;
拆衤
大手,不拆衤

;兆只拆
,不拆
儿;
2、拆四部件的汉字必须满足的条件是如果前三个部件中没有相同部件,则前三个部件不能构成该汉字的最大公部件,即任一汉字为首的最大公部件不能拆出相同部件时,为首的最大公部件最多只能拆两个部件;当为首的最大公部件能拆出相同部件且最大公部件后又只有一个自然块时,为首的最大公部件才可拆为三个部件。
如警只拆苟攵言,不拆艹句攵言;磨拆广木木石,不拆广林丆口;
亮只拆
冖几,不拆亠口冖几; 毫拆冖丿
,不拆亠口冖毛。
3、对有2-3个可拆自然块的汉字,一般按成字优先、定位优先、拆后优先(拆在后的自然块优先)、拆同码部件优先、取大优先的原则考虑拆分。
如禁拆木木二小,不拆木木一
;潮拆氵十早月,不拆氵
十月;
程拆禾口一土,不拆禾口干一; 搭拆扌艹人
,不拆扌艹
口;
翠拆习习
十,不拆习习亠
; 嘉拆吉艹力口,不拆士口艹加;
矫拆矢夭丿|,不拆大夭
;魔拆广木木鬼,不拆广林
厶;
淡拆氵火火,不拆氵火丷人。
4、任一规范汉字拆为几个部件后,不仅总笔画数不变,各笔画的笔形也不变,原字的整体框架得到完整保留。如槽有15画,拆为木
日后所得三部件的笔画数之和仍然是15画;埔有10画,拆为土甫后所得二部件的笔画和还是10画。
二、部件键位码的确定办法
1、定位部件键位码的确定办法
定位部件的键位码等于该定位部件所定键位的键位码,附表三给出用30键给汉字编码取笔画信息作识别码时使用的58个定位部件,从表上可以看出点起笔的定位部件最少,一共有九个,其中部件“氵”定在A键,键位码是41;部件“亠”在定Z键,键位码是43;部件“心”和“忄”定在Q键,键位码是45;部件“讠”和“辶”定在}键,键位码是46;部件“宀”和“疒”定在“″”键,键位码是42;部件“衤”定在“?”键,键位码是44,其余定位部件所在键位及键位码详见附表三(说明只取空格键作结束码用附表三中给出的58个定位部件给国标汉字编码,常用字有61组(123字)重码,全部国标字有重码231组,比96年第一期《中文信息》杂志中的《“认知码”规范性探讨》(上海周选)一文中介绍的几种著名形码的重码数都少。
2、一般部件键位码的确定办法
一般部件的列码由部件起笔笔形定。具体为横1;横折2、竖2、竖折2;撇3、撇折3;点4。一般部件的行码由部件的笔画数定。具体规定是五画和不足五画的一般部件,键位码的行码数等于部件的笔画数。六画与六画以上的一般部件,键位码的行码一律为6。
如于、工、大、丈、万、才等部件都是横起笔(列码都为1),都有3画(行码都为3),它们的键位码都是13;弓、卫、也、飞、习等部件都是横折起笔(列码都为2),都有3画(行码都为3),它们的键位码都为23;凸、电、央、目、皿、凹等部件都是竖起笔(列码都为2),都有五画(行码都为5),它们的键位码都是25;小、屮两部件是竖折起笔(列码为2)有3画(行码为3),它们的部件键位码是23;长、毛、升、氏、手、勿、爪等部件都是撇起笔(列码都为3),都有4画(行码都为4),它们的键位码都是34;乡、女、幺等部件都是撇折起笔(列码都为3),都有3画(行码都为3),它们的键位码都是33;广、丬、之、丫等部件都是点起笔(列码都为4),都有3画(行码都为3),它们的键位码为43;我、身、舟、鱼、臼、垂、禹、重、鬼等部件都是撇起笔(列码都为3)其笔画数都在六画与六画以上(它们的行码都为6),它们的键位码都为36。
三、识别码的确定办法
给不足四个部件的汉字编码时,要根据编码规则,增加识别码。本编码的识别码,可以用汉字的字音信息,也可以用指定部件的笔画信息。这里先就取笔画信息作识别码时,笔画键位码的确定办法进行说明。笔画键位码也由列码和行码组成,笔画键位码的列码由所取笔画的笔形定,具体规定是横1、提1、竖2、撇3、点4、捺4、折0;笔画键位码的行码除部件首笔的行码规定一律取为1外,首笔以外的笔画,其行码由所取笔画与其它笔画的关系定。具体规定是分笔为3,交笔为5,单连笔为2,双连笔为4,多连笔为6,点无双连笔和多连笔,规定位于框和半框内的点笔行码为4。交笔指与其它笔画有明显相交关系的笔画,如车、丰、开、甲等部件的末笔都是竖(列码为2)都与其它笔画有相交关系(行码为5),它们的键位码是25。分笔指部件中与其它笔画有明显相离关系的笔画。如戈、心、必、小等部件的末笔都是点(列码为4)与其它笔画都有明显相离关系(行码为3),其键位码为43;单连笔指与部件中的其它笔画只在某一点处有不为交的接触点的笔画,如刀、才、犭、乡、勿等部件的末笔都是撇(列码为3),与部件中的其它笔画都只在一个点处有不为交的接触(行码为2),其键位码都是32;双连笔指部件中与其它笔画在两个不同点处有不为交的接触的笔画,如部件囗、日、目、且的末笔都是横(列码都为1)与部件中的其它笔画都在两个不同点处有不为交的接触(行码都为4),键位码是14;多连笔指部件中与其它笔画在三个或三个以上不同点处有不为交的接触的笔画,如日、田、甲、且、目等部件的第二笔都是フ(列码都为0),与其它笔画都在三个或三个以上不同点处有不为交的接触(行码为6),键位码为06。部件勺、夕、瓦、母、舟、雨等的末笔都是点(列码为4),都在框和半框内(行码都为4),键位码是44。为便于检查识别,在下边叙述笔画识别码的编码规则时,用
表示笔画识别码是起笔;用
表示表示笔画识别码是分笔;用
表示笔画识别码是交笔;用
表示笔画识别码是单连笔;用
表示笔画识别码是双连笔;用
表示笔画识别码是框和半框内的点;用
表示笔画识别码是多连笔。用△表示单部件字的结束码;用☆表示二部件字的结束码。
四、编码规则
用指定部件的指定笔画信息作识别码的编码规则
(一)单部件字的编码规则
1、一笔部件字部件码+首笔画码+首笔画码+结束码
如乙-乙
△ 21010100
2、二笔单部件字部件码+末笔码+首笔码+结束码
如刀-刀
△ 21320100
匕-匕
△ 32023100
力-力
△ 22350100
3、三笔及三笔以上单部件字的编码规则
部件码+末笔码+第二笔码+结束码
如才-才
△ 13320500
身-身
△ 36352600
曳-曳
△ 26350500(二)二部件字的编码规则
首部件码+尾部件码+尾部件末笔码+结束码 如纯-纟屯
33140500 典-

26034300 坍-土丹
02341500(三)三部件字的编码规则
首部件码+中部码+尾部件码+尾部件末笔码 如穿-宀ハ牙
42031432 概-木

06251402 槽-木

06162114(四)四部件字的编码规则
首部件码+次部件码+第三部件码+尾部件码 如编-纟丶尸
33412625 渤-氵
孑力 41142122 橱-木厂豆寸 06121612
说明为减少重码,在二部件字和三部件字的编码过程中,当尾部件末笔是点或捺时,笔画识别码改取部件的第二笔笔画,当尾部件是口、辶、心、卩、阝时,笔画识别码改从前一部件取。
如每-母
36250500 躲-身几木
36330625 咕-口十口
04120425 违-韦辶
☆ 02462500 惠-

☆ 16452600 那-

☆ 24223500 即-

☆ 25221400
用30键给汉字编码的识别码也可用汉字的字音信息,附表四给出用30键给汉字编码取字音信息为识别码,安排45个定位部件时的定位部件安排情况。此时产生的重码情况、简码情况、各类机写字的情况、取简码后的重码情况等均能用计算机自动给出,这些情况(包括字数和累计使用频度)将在进入实质性审查时具体进行汇报。
本发明还有以下有益效果
1、本发明输入部件键位分布整齐有序,输入汉字部件时的手指分工明确,击键情况易掌握。用30字给汉字编码时一般部件的击键情况是食指击列码为1 (起笔笔形为横)的键;中指击列码为2(起笔笔形为竖、竖折、横折)的键;无名
附表四取30键用字音识别码时的定位部件表。指击列码为3(起笔笔形为撇、撇折)的键;小指击列码为4(起笔笔形为点)的键。左手手指击行码为1、3、5的键,行码为1(部件笔画数为1)的键是基准键。输行码为3(笔画数为3)的部件时,左手击键手指下移一个键位,输行码为5(笔画数为5)的部件时,左手击键手指上移一个键位。右手手指负责击行码为2、4、6的键,其中行码为2(部件笔画数为2)的键是基准键,输行码为4(笔画数为4)的部件时,右手击键手指下移一个键位,输行码为6(笔画数为6画与6画以上)的部件时,右手击键手指上移一个键位。取笔画码为识别码时,输识别码的手指分工也有同样的考虑。
2、上方案中,每一键上的每一部件的用量及累计使用频度都能用计算机自动给出,方案中的部件安排,已根据美国Dvorak提出的键盘字母布局原则作了考虑(附表五给出用附表三中的定位部件和笔画识别码时,各键所含部件的数量、用量、累计使用频度)。
3、本编码法还可用于给繁体字编码,为考古工作者、港台和海外人员使用繁体字带来方便,有利于扩大汉字规范字输入计算机的使用范围。
使用本编码法给汉字编码,开始时数笔画因为不熟悉速度会慢点,多用几次后四画和四画以下部件容易看出,到能区分五画部件与六画及六画以上部件时,速度就能加快。
补充说明(1)本发明将由云南省发明协会组团参加96年9月12日至18日在北京举行的国际发明展览会展出。
(2)本人曾于94年9月12日呈交一专利申请,名称为一种规范汉字编码方法。申请号为“94109249.6”,当时是用手工搞的,对汉字部件构字情况的了解极不清楚。接到受理通知书后,为争取时间提高质量,改用计算机进行。使用计算机后认识深化,方案有变动。原专利申请请云南省高校专利事务所的朱智华老师代理,由于本人所在学校离昆明(云南省高校专利事务所所在地)很远,与专利代理员很难找到接触机会,为此本专利申请改由本人自己呈交。
(3)用本发明的汉字拆分原则开发的汉字编码研制软件已向"中国软件登记中心"呈交版权申请,软件内库存的3500字频度取自山东教育出版社出版高更生等主编的《现代汉语知识大词典》。
(4)编码在计算机上的情况已经清楚,希望能早点进入实质性审查。
附表五用表三中的定位部件和笔画识别时,各键所含部件的数量、用量、累计使用频度表。说明(1)表内“部件数”含用到的笔画识别码数。(2)表内“用量”指部件出现在汉字中的次数。
权利要求
1、一种输入部件和表形部件一致的汉字编码法,其特征在于
(1)用限定每个汉字最多只拆四个部件的汉字拆分原则拆规范汉字,将拆分所得的全部表形部件都作为汉字编码部件;
(2)将拆分所得规范汉字的全部表形部件分为一般部件和与输入键盘键位相结合的定位部件;
(3)一般部件的键位用各部件所具有的字形信息或字音信息确定,定位部件的键位由部件所定键位的坐标确定;
(4)输入键盘可用通用标准键盘,也可用特制中文输入键盘,用标准键盘时,取主键盘上的25个-40个键进行编码输入都行。
2、根据权利要求1所述的一种输入部件和表形部件一致的汉字编码法,其特征在于
(1)汉字拆分的原则是用规范字拆,按自然块分,拆分不拆交,每个汉字最多只折四个部件,不足者有满足条件的相连(即相接)关系也可拆;达到或超过四个者,要按满足拆四部件字的基本条件进行拆并,使其得到3-4个部件。
(2)折四部件的基本条件是当为首的最大公部件不含相同部件时,为首的最大公部件最多只能拆两个部件;当为首的最大公部件能拆相同部件且最大公部件之后又只有一个部件时,为首的最大公部件能拆三个部件。
(3)限定每字最多只拆四个部件的汉字拆分原则拆规范汉字所得汉字部件结构库是天然的汉字结构信息库。
全文摘要
本发明属计算机汉字输入技术领域,本编码法通过对原形码方案惯用的汉字拆分办法、输入部件用量、输入部件键位安排与记忆方式的改革,提出了一种除识别码外,每个汉字的输入部件都和表形部件相同的,便于识字查字写字打字四者结合的、拆字编码难度和记忆量都有减小的汉字形码和音形码的研制办法。所用汉字拆分规定能开发出相应编码研制软件,除使编码方案的研制难度降低外,还使编码方案的质量评测能用计算机进行。
文档编号G06F3/023GK1175723SQ96116499
公开日1998年3月11日 申请日期1996年9月5日 优先权日1996年9月5日
发明者徐祖华 申请人:徐祖华
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1