音形相通码汉字编码方案的制作方法

文档序号:6573040阅读:205来源:国知局

专利名称::音形相通码汉字编码方案的制作方法
技术领域
:本发明涉及中文信息处理领域,特别是涉及如何对汉字进行编码及其在汉字排序(编码)与检索(查字词)、汉语键盘输入(汉语键盘输入系统)、汉字认知与规范书写教育及后续汉语教育等方面的应用,用一种汉字编码解决汉字的"检""用""学"问题。
背景技术
:在中国,对汉字进行编码可谓由来已久。从1900多年前许慎的《说文解字》到今天的《新华字典》都在这方面进行着探究,其目的是寻找一个好的方法对汉字进行排序,实现检索功能,然而这一探索过程直至今日依然没有结束。人们通常以拼音、部首和笔画这三种方式对汉字进行排序,然而无论哪一种都有其致命的弊端。拼音排序必须知道汉字的读音,部首排序必须准确找出惟一的部首,笔画排序又必须按书写顺序数清笔画,无论掌握上述哪一种方式都极其困难,也不切实际。排序是为了方便检字,检字难以进行,排序也就极大地丧失了其价值,这也是汉字直到目前都无法统一排序的重要原因。上世纪七八十年代,随着计算机技术的快速发展,中文信息化处理成为当务之急。从1978年支秉彝公布中国大陆第一个小键盘汉字输入方案"见字识码"起,汉字输入方案曾如雨后春笋般涌现,并一度形成"万码奔腾"局面。近三十年来,汉字输入编码方案无法实现统一,其原因似乎是它们各有优缺点而难以相互结合。形码采取的是汉字字形(字根、码元等〉取码输入方式,最大优点是输入速度快,而最大弱点是难学,汉字难拆分,"块"的取码难记忆;音码采取的是拼音(全拼、双拼等)取码方式,最大优点是易学易用,只要能拼出读音,就能输入汉字,而最大弱点是输入速度慢;音形码试图集两者的优点于一身,然而在本质上是吸取了拼音元素而对形码作出的改良,无法解决汉字拆分难的问题。汉字认知和规范书写,无论是对推行民族普通话,还是对外进行汉语教育,都是一个巨大的难题。汉语拼音方案虽然方便了汉字的拼读,但并不能也决不能代替汉字的书写。如何正确书写,不仅难倒了无数的外国人,经常写错字也大有国人在,而"万码奔腾"更是乱上加乱。不尊重汉字结构的形码和音形码使汉字书写变得越来越不规范,写出的字不知对错,纯音码又导致"提笔忘字",让人啼笑皆非。所谓"万码奔腾"的"码",只是汉字输入编码,而绝不是汉字编码。因此,汉字编码必须辩证地处理好"尊重汉字结构"与"实现经济编码"之间的关系,一味追求输入编码而破坏汉字结构,无疑于饮鸩止渴。要解决汉字排序(编码)与检索(査字词)、汉语键盘输入(汉语键盘输入系统)、汉字认知与规范书写教育等方面的问题,其出路在于编码层次。汉字编码首先是一个汉字研究问题,其次才是一个软件问题。汉字编码方案应能解决这三个方面的问题,将它们统一于其中,一并解决,毫无例外。
发明内容本发明所要解决的技术问题是提供一种汉字编码方案,以解决汉字排序与检索难以统一的问题,利用一种方式可迅速査找任何一个汉字;以制作一种汉语键盘输入方法和系统,使汉语键盘输入软件易学易用且输入速度快;以解决汉字认知与规范书写教育难的问题。并就这些问题的解决给出了具体方案。一、汉字部件拆分与汉字编码的关系对汉字进行编码必须综合考虑汉字结构和汉字编码两个方面的问题。古今中外绝大部分汉字都是合成字,这使得汉字部件间相离和相接(特别是相离)的关系占据了绝对优势,客观上要求对汉字尽可能从部件相离和相接处拆分。另一方面,汉字编码最直接的功能是排序和检索,要求尽量用最少的码数反映汉字的全貌,这就要求使汉字拆分出的部件尽量少。尽量从相离和相接处拆分部件是尊重汉字结构的本质要求,使汉字拆分出的部件尽量少则是汉字经济编码的客观要求,后者必须以前者为前提。因jt匕,在汉字部件拆分过程中,首先必须尽量从汉字相离和相接处拆分。依汉字的上(中)下、左(中)右、(半/全)包围结构对汉字进行每一级部件拆分叫汉字部件的不相交有理拆分,依汉字平面结构以其他结构从笔画不相交处进行部件拆分叫汉字部件的不相交无理拆分,两者可概述为不相交拆分。极少数不影响结构和笔数的笔画搭挂视为相接,按笔画相接拆分。然而,若对所有汉字都进行不相交拆分,则必然导致汉字部件总量的增加,这就产生了一对矛盾一方面,要始终尊重汉字结构,就必然增加部件总数,而另一方面,增加部件总数并无实际之必要,因为占现代汉语使用量约99.99%的汉字占有全部汉字的比重却不足10%。要解决这个问题,就必须有目的性地选择从笔画相交处拆分部件。,依又字平面结构从笔画相交处进行部件拆分叫汉字部件的相交无理拆分或相交拆分,其目的主g^是经济编码,方便汉字排序与检索,它是对现代汉语通用字以外的部分汉字进行部件拆分的一个行之有效的辅助手段。现代汉语通用字之外的汉字分为两种,一种利用现代汉语通用字共有的部件能对其进行不相交拆分,另一种则利用这些部件不能对其进行不相交拆分。.后一种在全部汉字中所占比重较小,因而对其进行相交拆分不会影响"尊重结构"的大局,较之增加部件总数也来得经济。这样,在现代汉语通用字中不出现相交无理拆分既能尊重占现代汉语绝对使用量的汉字的结构,也能降低对它们进行部件拆分的难度,而另一方面,利用它们共有的部件,稍稍改变一下部件拆分方式(即增加相交无理拆分方式),就能对它们之外的部分无f去进行不相交拆分的汉字进行编码,这将有利亍所有汉字的编码和使用,有利于汉字词学习与使用的连贯性和拓展性,有利于不规范汉字对规范汉字的认同和归属,有利于使用不规范、汉字向使用规范汉字的过渡,从而最终有利于规范汉字在华人领域乃至在全世界范围内的推广。二、汉字部件拆分的原则与方法辩证地分析了汉字部件拆分与汉字编码的关系,可得出汉字部件拆分的两条原则与方法。第一条尊重结构少部件,先离后接大优先。此条适用于现代汉语通用字和现代汉语通用字之外可以不相交拆分的汉字。^尊重结构少部件"即尊重汉字结构,依据汉字结构拆分部件,使拆分出来的部件尽量少。尊重汉字结构要从四个方面理解,一是单笔不拆,二是相交不拆,三是四大结构,四是就近组合。依据汉字结构拆分部件,使拆分出来的部件尽量少,并不是说要使先拆分出来的部件最大(即笔画数最多)。"先离后接大优先"即"先离后接"和"大优先"。"先离后,"指从笔画相离和相接处拆分部件,如果几种拆分都使汉字部件最少,则能从部件相离处拆分的不从相接处拆分;"大优先"指如果几种拆分都使^^字部件最少,并且都只从相离处拆分或都只从相接处拆分,则使先拆分出的部件笔画尽量多。第二条依照结构难拆分,相交强拆大优先。此条适用于现代汉语通用字之外需要相交拆分的汉字。"依照结构难拆分"指明拆分的对象是现代汉语通用字之外无法进行不相交拆分的汉字,它们无法按照尊重汉字的结构的方式进行拆分。换句话说,能按照"荨重结构"拆分的就是现代汉语通用字,否则就不是,这也是辨别现代汉语通用字的最简单的方法。"相交强拆大优先"即"相交强拆"和"大优先"。"相交强拆"指,对按照现代汉语通用字共有的部件进行不相交拆分但不能完成拆分的汉字,只考虑经济编码因素使该汉字部件最少而强行对其从笔画相交处拆分,并使相邻的笔画组合成部件;"大优先"指在保持该汉字部件最少的情况下,使先拆分出的部件笔画尽量多。另外,汉字中可构成部件的几个部分有时会被其他笔画隔离,拆分时要将其组合还原成一个部件,汉字部件排列顺序由部件的第一笔画的先后顺序决定。三、汉字部件的定量、取码与归并部件拆分原则与方法的提出虽然为部件作了定量处理要求,但并不足以构成优秀汉字编码方案的充分条件,还必须就部件的取码方式作进一步探讨,使部件'具有易用性。部件的易用性体现在其应用方面,即是部件的取码必须便于汉字的认知和书写,便于汉字编码与检索,便于汉字词及语句的键盘输入。部件的取码通常有三种作法,一是硬性Wl将部件主要分布在25或26个字母上,二是依照部件与字母的形似性将部件归并到字母,三是赋予部件一个读音,.按部件读音首字母对部件进行取码与归并。硬性分布决定了部件和取码对应的无规律性,导致对部〈牛取码记忆的困难。形似归并虽有一定的逻辑依据,但相似的部件间经常出现取码"客串"5见象,且相似性并没有必然性,只是人为赋予一种想象而将字母和部件联系在一起,时间久了,联系链也会断裂。按部件读音首字母对部件进行取码与归并则不同,这些部件具有字的i荬音而在本质上成为了或本就是构成其他汉字的基础汉字,其音和形早己融为一体。只要学会这些基础汉字,又有谁能轻易地将它们的音和形分开呢?由此,我们就可以对汉字基本部件的选择、取码与归并作如下安排。单笔根据汉字部件拆分的实际需要可成为单笔部件。利用大写字母AEIOU的书写首笔与汉字笔画"撇横竖点折"的形近联系,将"横竖撇点折"等单笔部件的取码相应定为EIAOU,对多笔部件(包括部件变体)则取部件读音首字母为码并按取码归并。四、汉字编码与汉字(词)排序检索我们的汉语辞书通常以拼音、部首和笔画这三种方式对汉字进行排序,然而无论哪一种都有其致命的弊端。拼音排序必须知道汉字的读音,部首排序必须准确找出惟一的部首,笔画排序又必须按书写顺序数清笔画,无论掌握上述哪一种方式都极其困难,也不切实际。排序是为了方便检字,检字难以进行,排序也就极大地丧失了其价值,这也是汉字直到目前都无法统一排序的重要原因。要根本解决这一J句题,就必须寻找一种新的方法,而这一重任最终也会历史性地落到部件的头上。采用部件排序与检索,无须认识汉字,也无须寻找部首,更不必数笔画,只要按一个简单的部件拆分与取码方案,将汉字进行部件拆分并以拆分顺序取码,每个汉字就都能对应惟一的编码,这就使得统一的汉字排序与检索方式成为可能。五、汉字编码与汉语键盘输入按上述汉字部件拆分的原则和方法对汉字进行拆分最大限度地降低了拆分的难度,对部件实行读音首字母取码与归并则使人们对部件取码的记忆有根深蒂固的汉语拼音知识依据,使它们具有不易被忘却的本质,两者结合就将汉字部件的易学易用性提升到了更高水平,从而为顺利进行汉语键盘输入打下坚实的基础。除此之外,一个优秀的汉语键盘输入法还必须具备一个优秀的输入方式。形码采取的是汉字字形(字根、码元等)取码输入方式,最大优点是输入速度快,而最大弱点是难学,汉字难拆分,"块"的取码难记忆;音码采取的是拼音(全拼、双拼等)取码方式,最大优点是易学易用,只要能拼出读音,就能输入汉字,而最大弱点是输入速度慢;音形码则是试图集两者的优点于一身。我们的音形码在这方面做出了努力,然而由于以往的音形码在本质上是吸取了拼音元素而对形码作出的改良,虽然在取码上有所进步,但必须遵循原有的汉字拆分规则而无法从根本上解决汉字拆分难的问题,从而终难以完成使命。"输入法要有根本性的突破,关键在编码层次。"因此,要集两者的优点于一身就必须从根本上解决汉字的拆分问题,这样,问题的焦点就又回到了汉字编码方案上。现在,我们即便是有了易学易用的汉字编码方案,也该重新审视形码的输入形式了。形码自产生P来虽然在三字的词或短语的输入方式上大同小异,但单字几乎均采用"前三部件+末部件"方式,两字均采用"P1I+P12+P21+P22"方式,这一现象并非偶然,因为对每个字至少取两码能基本确定争字、两字的词或短语,对其输入具有合理性。然而,将对单字的输入方式扩展到对四字及以上的词或短语的输入上,形成"P11+P21+31+N11"方式,却有失偏颇。所有的形码几乎都存在这样的现象本想输入一个不常用到的词或一个较长的短语,根据编码方式击键4次,却发现输入法中根本没有这个词或短语,于是重新击键以求其次,甚至于不得不一字一字地输入。承认形码存在重码是必要的,但不能因此就想方设法甚至"不择手段"地减少重码。所谓的低重码率,基本上是优选出来的结果,ft"么词什么结构该收入语料库中,由制作者说了算。将四字以上的词或短语的输入方式改为"P11+P21+31+P41",则可看到"人民民主"和"人民民主专政"重码。但是,利用现有形码的输入技术完全可以输入"人民民主"后再按空格键来完成"人民民主专政"的输入,从而自然地规避了重码的危害。这样,我们似乎就会有一种全新的认识重码虽不可避免但也并不像人们想象的那样可怕J人们不应该机械地把重码率高与输入速度低等同起来,甚至于将它当成评判一个输入法好坏的标准。从中也可看出,这种方式更符合思维习惯,可减少不断往返的思维过程。事实上,如果就此简单地采用这一方案制作汉语键盘输入法,那么它充其量只是在原有音形码基础上的改良,也无法解决四码取码方式所带来的自然重码问题,算不得是什么重大的突破。因为在音码、音形码少有建树的同时,音码却硕果累累,建树不断,先有紫光拼音、'微软拼音输入法出现,后有搜狗拼音输入法问世,其重码问题解决的能力越来越强,重码对键盘输入已经够不成威胁了。"汉字键盘输入法包括编码和软件两个层次。……,在软件层次己经可以为输入法提供比'足够'还要多的支持,只要是符合'逻辑'的功能要求,软件似乎都能实现。"这是对目前拼音输入法越来越强现象的根本解释。音码能有如此建树,关键在于它们采用了语料库方法和统计语言模型等中文信息处理技术,使输入法软件具有了"智能"。因此,音形i马也必须走"高科技化"道路,必须"鸟枪换炮",使汉字编码方案和中文搜索引擎技术相结合。六、汉字编码与汉语教学及汉语使用汉字由笔画构成,笔画是构成汉字形体的最小单位,笔画之间千差万别的组合构成了所有汉字的集合,而汉字之间存有共同部分的事实自1900多年前许慎的《说文角率字》到今天的《新华字典》都在不断地证明。沿着这条思路,我们有理由也已经将汉字的相同部分从部首、偏旁扩展到汉字的其他部分。搞清汉字部件拆分和汉字编码的关系,有了清Wf的汉字部件拆分的原则和方法,也有了完整的汉字基础部件表,就可以用它们对汉字进行排序与检索,制作优秀的汉语键盘输入法。而在汉语的教学和使用上,它们也将发挥重要的作用。我们已无须一字一字地教小学生一笔一画地书写汉字,告诉他们这个字的笔画形状是这样的,那个字的笔画顺序是那样的,我们只要告诉他们如何依照笔顺正确书写400个左右的部件的形体,然后再告诉他们这些部件是如何组成其他汉字的,那么所有的纟又字他们就几乎都可以正确书写了;我们只要告诉小学生这些部件的读音,告诉他们取汉字部件的首字母并按汉字部件顺序排列,依这个字母串在汉语辞典就能很快找到想要查找的字词,那么他们就能很快^fe'在辞书中找到这些字词并学习它们的音、义等方面的知识了;我们只要告诉小学生这些部件的读音,告诉他们只要按汉字的书写顺序排列部件,按照汉字词键盘输入方式取部件的首字母,就可以在屯脑或其他同类产品上输入任何一个想要输入的汉字词,'那么他们就能立刻在电脑上输入这些字词了。等到他们开始学写语句、学写文章的时候,他们只要知道了用同样的方式还可以对短语、语句进行输入,就可以利用电脑或其他同类产品学写文章。从此刻起,他们就己经掌握了一生中都将运用到的重要技能了,无论电脑、手机,还是其他同类产品,只要装有基于优秀的汉字编码方案制作的键盘输入软件,他们就能快速地运用汉语。而凝结民族优秀文化和智慧于其中的熟语、著名散文诗词句等,必将对他们将来的为人处事产生强大的潜移默化的引导作用。只要以同样的方式进行对外汉语教学,外国学生也就能很快地学写汉字,查找并学习汉字词,以及在电脑或同类产品上快速地输入汉语,理解中国的优秀传统文化了。与现有技术相比,本发明具有如下优点本发明对现代汉语通用字实行不相交拆分,对部件作了定量处理,尊重了占现代汉语使用量约99.99%的汉字的结构,使对它们的部件拆分变得空前简单。利用部件的形与音之间的必然联系,对部件实行读音首字母取码与归并,使人们对部件取码的记忆有根深蒂固的汉语拼音知识依据,使它们具有不易被忘却的本质。本发明以现代汉语通用字部件为参照对非通用汉字进行拆分,能相交拆分的就进行相交拆分,不能相交拆分的就进行不相交拆分,最终使70000多汉字中要进行不相交拆分的汉字的比重降到极小,从而既维护了"尊重结构"的大局,也实现了对这些汉字的经济编码。本发明尊重了绝大部分汉字的结构,使汉字部件拆分变得空前简单,并对部件作了定量处理,又对部件实行读音首字母取码与归并,使它们具有不易被忘却的本质,两者结合就将汉字部件的易学易用性提升到了更高水平,从而能实现汉字的排序与检索。本发明尊重了绝大部分汉字的结构,使汉字部件拆分变得空前简单,并对部件作了定量处理,又对部件实行读音首字母取码与归并,使它们具有不易被忘却的本质,两者结合就将汉字部件的易学易用性提升到了更高水平,并采用中文搜索引擎技术,最终完成音码、形码的优点结合,从而将汉语的输入速度提升到更高的层次。本发明绝对尊重现代汉语通用字的结构,给部件定量,形成了"现代汉^"通用字都由固定的'汉字'平面拼合而成"的局面,从而便于进行汉字认知和规范书写教育。站在民族利益和文化发展的战略高度观之,合理的汉字编码方案不仅能解决汉字的排序与检索问题、汉语的快速输入问题,更能解决汉语学习问题,从而培养青少年一代使用汉语的能力,令汉语发挥出巨大的威力。总而言之,成熟的汉字编码方案必将在汉语键盘输入、汉语规范化进程、华夏民族优秀文化的传承等各个方面产生积极而深远的影响,也将展现出汉语的无限优越性,让全世界重新认识人类的汉语。附图为汉字部件拆分原则与方法示意图具体实施例方式一、对汉字进行部件拆分对汉字进行编码涉及汉字结构和汉字编码两个方面的问题,以"尊重汉字结构,实现经济编码"为原则对汉字进行部件拆分。尽量从相离和相接处拆分部件是尊重汉字结构的本质要求,使汉字拆分出的部件尽量少则是汉字经济编码的客观要求,后者须以前者为前提。"相交"指笔画相互交叉有交点;"相接"指一笔画的首或尾与另一笔画首、腰、尾接触,反之亦然;"相离"指笔画不相交且不相接。依汉字的上(中)下、左(中)右、(半/全)包围结构对汉字进行每一级部件拆分叫汉字部件的不相交有理拆分,依汉字平面结构以其他结构从笔画不相交处进行部件拆分叫汉字部件的不相交无理拆分,两者概述为不相交拆分。极少数不影响结构和笔数的笔画搭挂视为相接,按笔画相接拆分,如"孝"拆为",子","存"拆为"大I子","在"拆为"大I土"等。依汉字平面结f勾从笔画相交处进行部件拆分叫汉字部件的相交无理拆分或相交拆分,^目的主要是经济编码,方便汉字排序与检索,它是对现代汉语通用字以外的部分汉字进行^件拆分的一个行之有效的辅助手段。辩证地分析了汉字部件拆分与汉字编码的关系,可得出汉字部件拆分的两条原则与方法第一条尊重结构少部件,先离后接大优先。此条适用于现代汉语通用字和现代汉语通用字之外可以不相交拆分的汉字。"尊重结构少部件"即尊重汉字结构,依据汉字结构拆分部件,使拆分出来的部件尽量少。尊重汉字结构要从如下四个方面理解。一是单笔不拆,即单一笔画不拆分成两个或多个笔画,如"串"不拆分为"中中"、"我"不拆分为"J净戈";二是相交不拆,即不从笔画相互交叉有交点的地方拆分部件,如"甩"不拆分为"月L"、"豕"不拆分为"豕、";三是四大结构,即尽量依照汉字的上(中)下、左(中)右、(半/全)包围结构对汉字进行每一级部件拆分,如"照"拆分为"日刀口"、、",其次依照汉字的其他结构从笔画不相交处进行部件拆分,如"奈"拆为"大、/日小";四是就近组合,即尽量使笔顺相邻的笔画组合成部件,如"鳏"拆为"鱼^I夕;"而非"鱼^卜-、"。依据汉字结构拆分部件,使拆分出来的部件尽量少,并不是说要使先拆分出来的部件最大(即笔画数最多),如"鼓"拆分为"十豆十又"而非"士口"十又",是因为前者使整个汉字的部件最少,后者首部件"士"的笔画虽比前者首部件"十"的笔画多,但并未使整个汉字的部件最少。"先离后接大优先"即"先离后接"和"大优先"。"先离后接"指从笔画相离和相接处拆分部件,如果几种拆分都使汉字部件最少,则能从部件相离处拆分的不从相接处拆分,如"余"拆为"人于八"而非"人一木","主"拆为"、王"而非"工土";"大优先"指如果几种拆分都使汉字部件最少,并且都只从相离处拆分或都只从相接处拆分,则使先拆分出的部件笔画尽量多,如"午"拆为"—十"而非"j干"。第二条依照结构难拆分,相交强拆大优先。此条适用于现代汉语通用字之外需要相交拆分的汉字。"依照结构难拆分"指明拆分的对象是现代汉语通用字之外无法进行不相交拆分的汉字,它们无法按照尊重汉字的结构的方式进行拆分。换句话说,能按照"尊重结构"拆分的就是现代汉语通用字,否则就不是,这也是辨别现代汉语通用字的最简单的方法。"相交强拆大优先"即"相交强拆"和"大优先"。"相交强拆"指,对按照现代汉语通用字共有的部件进行不相交拆分但不能完成拆分的汉字,只考虑经济编码因素使该汉字部件最少而强行对其从笔画相交处拆分,并使相邻的笔画组合成部件,如"單"拆分为"口口日十"而非"口口甲一";"大优先"指在保持该汉字部件最少的情况下,使先拆分出的部件笔画尽量多,如"匁"拆为"刀、"而非"L乂"。另外,汉字中可构成部件的几个部分有时会被其他笔画隔离,拆分时要将其组合还原成一个部件,汉字部件排列顺序由部件的第一笔画的先后顺序决定。如,"奈"拆为"大v日小","兆"拆为"儿""',"来"拆为"未、,"。上述原则与方法换言之就是在A汉字进行拆分时,首先判断用部件表中的部件能否将它按照四大结构拆分。能拆分则遵照"尊重结构少部件,先离后接大优先"的原则和方法对其进行部件拆分,以达到在尊重汉字结构的基础上实现经济编码的目的;不能按照四大结构拆分则遵照"依照结构难拆分,相交强拆大优先"的原则和方法对其进行部fW斥分,以达到在无法尊重汉字结构的情况下实现经济编码的目的。如附图l所示。二、对汉字部件进行定量、取码与归并汉字笔画指在汉字楷体书写过程中不间断的直线或曲线。汉字部件指构成汉字的单元或笔画块,既可以是单一笔画,也可以是多个笔画的组合。由一个笔画构成的部^f牛叫单笔部件,单笔部件除汉字"一""乙"外都为非成字部件(即不能单独作为现代汉字使用的部件)。由至少两个笔画组成的部件叫多笔部件,多笔部件可分为成字部件(能单独作为现代汉字使用的部件)和非成字部件。单笔根据汉字部件拆分的实际需要可成为单笔部件。利用大写字母AEIOU的书写首笔与汉字笔画"撇横竖点折"的形近联系,将"横竖撇点折"等单笔部件的取码相应定为EIAOU,其中"一""乙"两个部件的取码须具体对待。对多笔部件则取部件读音首字母为码并按取码归并为25类(字母V不参与编码,用作查询键),其中"长""车(車)""单""乐""'龟(龜)""鸟""石"等部件的取码也须具体对待。另外,作为汉字部件使用的"子"在汉字书写中常受其他笔画或部件的影响而写成"孑",与汉字"孑孓"的"孑"同形,故"孑"作为汉字的部件使用时取码为Z,而作为汉字"孑(jiO"单独使用时取码为J。如表l和2所示。在汉字书写过程中,鉴于形体美观等因素,汉字的"竖钩""竖折钩"受下方部件或笔画的影响演变为"竖",如"哥"的第五笔和"雀"的第一笔、"園"的第十笔;部件如"i土工王堇生正车鱼马立止业豆耳且"等中的"横"受右边部件的影响演变成"提";部件如"木禾耒米束朿夫乂夂"等中的"捺"受右边部件的影响演变成"点";部件如"L九几儿七毛Q己"等中带有"弯钩"的笔画受右边部件的影响演变成"竖提",如汉字"鸡鸩釗顾"等;"十"受下方部件或笔画的影响其中"I"的上方会稍稍向右倾,如"直鄙南"等。另夂卜,"月""用"受上方部件的影响首笔通常变为竖,如"肖肓育肩肾肯背胃冑散"和"甬涌俑蝈踊"等。这些部件变体仍按变化前的部件取码及归并。表1<table>tableseeoriginaldocumentpage13</column></row><table>非成字多笔部件的读音与取码A!-=两撇;向=奥字头;乡=三撇B3=北字旁;少=步字底;亦=变字头;1=扁字底尚=敝字旁、^=倒八;—=宝盖^=秃宝盖與=卑字头广=病字框C处=赤字底;齒=曹字头目=曾字腰;屮=蚩字头*=春字头;*=草字头;乂=叉子D"'=当字头;^=朵字头^=登字头;夂=冬字头朴=带字头;血=典字头^=帝字头;]1=商字框1=段字旁;弔=弟省;〔:=兜左角;;)=刀中;>立刀E![5=双耳;耳=耳省F:几=凤字框;厂=反字框;々=负字头;力=方字底;幸=丰旁G目=官字底;臾=庚字心;豆=寡字腰;风=骨字头;戈=戈省;巧-gua;A-告字头;小、=恭字底;毋gudm;龜=龟H爪=荒字底;並=寒字腰;七=化字边;度=惠字头;二=侯上角;崔=鹤字边;-少=鹤字角;互=互省;5=号字底;产=虎字头;U-画字框.1!1|=一短一长两竖Ji牛=举字底;且-具字头;牛=降字底;^=祭右角;艮=即字旁;无=既字边;8=巻字底;M=将字旁;P-节字底;乙=建之;勺=句字框〕=巨字心;4=jiii;孑-j";孓=化6K■尹=看字头G^留左角;东=练字边*=鹿字心;少=老字头=临下角;&=临右角;3=录字头;^=罗字头;1=立字头;内=离字底M曰=冒字头;尸=眉字框5=卯字旁;木=木底N.3=那字旁;£=虐字底*=囊字头;升=弄字底;^^=鸟鳥省0■;7=两点;?"'=三点"、、=四点P!爿pi6nQi"=前字头;7=轻右角t4页字旁;」|=乔字底;lt-其字头;$=妻字头;匚=区字框;曳=钱字边;3=反犬旁R!夕=然左角—=卧人;4=单立人;《=双立人s卩=师字旁豕=豕省;疋=是字底;"=率字腰;*=叟字头;眠=鼠字底;"^=衰字腰;纟乡=丝旁;亇f=食旁;才=提手;才、=示旁;厶二si;巳二siT'^=套字腰;申=唐字腰;门=同字框u〈〈=两折;〈《=三折WLt二吳字底±=五省;夂=反文;口=围字框冊=舞字心X、、e学字头定=卸字旁规=羲字底^=昔字头3=雪字底;叚sidY1^'=以字旁'卑=衣补;正=延字心;-梨=庸字心ft舆字腰6=颐字旁;S-耰字角;一《=勇字头;1=或字框Z/1=周字框;卜=贞字头;力=姊字边.大=左字框;[=走之;^=竹头;希=制字旁;^豕=啄字边;^-责字头;足=足旁;^=爪头;豸zhi;隹zhul表2'同样,汉字在造形上偶尔也存在着笔画长短区别的现象,如"幸"拆为"土v干","逹"的第四横虽比第三横短,但半包围的部分明显是一个"幸",故该字拆为"土、/干L"。类似的映射在汉字集中吋有发生,如"欐"拆为"木王口口口口","噩"虽三横等长,但参照"欐",仍拆为"王口口口";"鳘""繁"参照"敏"分别拆为"尸母夂鱼"和,""母夂白水","潔"参照"敏""繁"拆分为"?卜母夂幺小";同理,"園""遠"参照"袁"、"還"参照"袁""寰"进行部件拆分。像"乗"这样的字也存在上述情况,"^"的第二横虽写得较短,但并不影响它与部件表中其他部件的区分,故该字拆为"禾^"。然而,部件并不应存在形似而神非的替代,要求严格区分有笔画长短区别或笔画出头、不出头区别的部件,不存在相似性替代,如不用"夕"替代"义",不用"七"替代"匕"或"七(化字边)",不用"日"替代"曰"或"曰"("曰"与两横相离,如"冒、帽、冕")等。其中"口k5u"和"口w6i"的区别在于,"口wd"中间含有不与之相交的多个笔画。三、对汉字(词)进行排序与检索采用部件排序与检索,无须认识汉字,也无须寻找部首,更不必数笔画,只要将汉字进行部件拆分并以拆分顺序取码,每个汉字就都能对应惟一的编码。本发明在汉字(包括汉字词)本身的排序(编码)与检索(査字词)和查阅学习类的排序(编码)与检索(查字词)上分别采用如下方法-(一)汉字词通用排序与检索1.部件以汉字的形式出现构成单音节词时,编码为其读音首字母加笔画;2.部件作为某一汉字的非惟一构成部分时,编码为其读音首字母;3.部件以汉字形式出现在非单音节词中时,编码为其读音首字母。单音节词和非单音节词均以编码后的字母排列顺序进行排序;若几个非单音节词的编码完全相同,则依次以各自部件的排序决定它们的排序。检索时,先拆分单音节词,或非单咅节词的前一或几个字,依拆分部件的取码顺序查找即可很快找到所查的字或词。举例如表3所示。(二)查阅学习类辞书排序与检索1.部件以汉字形式出现构成单音节词时,编码为其读音首字母加笔画;2.部件作为某一汉字的非惟一构成部分时,编码为其读音首字母;3.部件以汉字形式出现在非单音节词中时,编码为其读音首字母。辞书以汉字(单音节词)编码后的字母排列顺序对汉字进行排序,对非单音节词则按其首字归为一类,并以首字后的汉字的编码顺序排序;若几个非单音节词的编码完全相同,则依次以各自部件的排序决定它们的排序。检索时,先拆分单音节词,依拆分部件的取码顺序查找即可找到所査的字,或先拆分非单i节词的首字,依拆分部件的取码顺序找到首学,再拆分该词首字后的字,依拆分部件的取码顺序即可在首字所属词条内很快找到所查的词。举例如表4所示'。四、制作键盘输入系统按上述汉字部件拆分的原则和方法对汉字进行拆分最大限度地降低了拆分的难度,对部件实行读音首字母取码与归并则使人们对部件取码的记忆有根深蒂固的汉语拼者知识依据,使它们具有不易被忘却的本质,两者结合就将汉字部件的易学易用性提升到了更高水平,从<table>tableseeoriginaldocumentpage15</column></row><table>而为顺利进行汉语键盘输入打下坚实的基础。制作键盘输入系统采取如下输入取码方式.单音字词中的部件字(指可整体作基础部件的汉字).的输入取码方式为部件字加其前三笔,少于三笔时取实际笔画数,单音字词中的非部件字的输入取码方式为前三部件加末部件(不足三部件时依次取前两部件首笔凑码);双音节词或短语的输入取码方式为两字前两部件(部件字取其首笔凑码);三音节词或短语的输入取码,式为前字前两部件加后两字首部件(部件字取首笔凑码);四及以上音节词或短语的输入取i马方式为前四字首部件。如表5所示。单音节字或词部件字部件字+其前三笔少于三笔时^:又实际笔画数木木一1JMEIA々FAU非部件字前三部'件+末部件不足三部件依次取前两部件首笔凑码魏未女口厶鹏S'亲立本、一LM0E双音节词或短语两字前两部件部件字取其首笔凑码便利4更禾iJRGHD豆腐豆一广4DEGR三音节词或短语前字前两部件+后两字首部件部件字取首笔凑码四季豆四1禾豆SIHD灰蒙蒙丈火廿廿ZHCC四及以上音节词或短语前四字首部件南辕北辙十车口车SCBC人民民主人民民、R,人民民主专政人民民、R鹏中华人民共和国中<人民ZRMER丁YU10p起为而人他要你我有片XcBM在些次不能民ASDGHK匕这是的一三个禾口就可了表5键盘输入系统采用语料库方法和统计语言模型等中文信息处理技术,使输入法软件具有"智能"。只要键入Warra-zlrm-d-yjzk-s-yeeb,中文搜索引擎技术的前后匹配功能就会使屏幕上出现"我们在这个问题上的观点是一致的"的语句,其中重码词语被自动取舍,这样就不必输入全拼Women-zaizhegewentishang-de-guandian-shi-yizhide或双拼形式下的30个字母。此外,新的输入系统将汉语通用字和非通用字分别建库,以减少单音字词键盘输入的重码率。同吋允许存在-一三键简码,一键简码字可按汉字部件拆分的原则和方式拆分、按汉字词的输入取码方式取码,而不影响由其构成的汉字词或短语的正常输入。如表6所示。五、进行汉字认知与规范书写教育及后续汉语教育搞清汉字部件拆分和汉字编码的关系,有了清晰的汉字部件拆分的原则和方法,也有了完整的汉字基础部件表,不仅可以用它们对汉字进行排序与检索,用它们制作汉语键盘输入系统,还可以用来进行汉语教学。1.教会学生认读基础部件,掌握笔顺规则正确书写基础部件,掌握汉字的结构,让他们认识汉字是怎样由这些基本部件构成的,采取"以部件为纲"的识字、写字方法,从简单到复杂地循序渐进地进行汉字认知。表62.把上述l的方式反过来,让学生掌握汉字拆分成部件的原则和方法,教会他们取汉字部件的首字母并按汉字部件顺序排列,依这个字母串在汉语辞书中查找字词,实现汉字词的检索,学习它们的音、义等方面的知识。3.让学生掌握汉字拆分成部件的原则和方法,教会他们按照汉字词键盘输入取码方式取汉字词各字所规定的部件的首字母,在电脑、手机或其他同类产品上快速输入汉字词、查阅凝结民族优秀文化和智慧于其中的熟语、著名散文诗词句等,并教会他们以同样的方式对短语、语句进行输入,让系统强大的语料功能帮助他们纠正汉语词f及语法错误,规范其汉语言的使用。4.以上述13的方法进行对外汉语教学,外国学生也能很快地学写汉字,查找并学习汉字词,以及在电脑或同类产品上快速地输入汉语,学习汉语,理解中国的优秀传统文化。权利要求1.古今中外绝大部分汉字是合成字,这使得汉字部件间相离和相接(特别是相离)的关系占据了绝对优势,客观上要求对汉字尽可能从部件相离和相接处拆分。另一方面,汉字编码最直接的功能是排序和检索,要求尽量用最少的码数反映汉字的全貌,这就要求使汉字拆分出的部件尽量少。尽量从相离和相接处拆分部件是尊重汉字结构的本质要求,使汉字拆分出的部件尽量少则是汉字经济编码的客观要求,后者必须以前者为前提。2.按权利要求l,在汉字部件拆分过程中,首先必须尽量从汉字相离和相接处拆分。依汉字的上(中)下、左(中)右、(半/全)包围结构对汉字进行每一级部件拆分叫汉字部件的不相交有理拆分,依汉字平面结构以其他结构从笔画不相交处进行部件拆分叫汉字部件的不相交无理拆分,两者可概述为不相交拆分,依汉字平面结构从笔画相交处进行部件拆分叫汉字部件的相交无理拆分或相交拆分。'3.按权利要求1和2,汉字部件拆分的原则与方法之一是尊重结构少部件,先离后接大优先。它适用于现代汉语通用字和现代汉语通用字之外可以不相交拆分的汉字。"尊重结构少部件"即尊重汉字结构,依据汉字结构拆分部件,使拆分出来的部件尽量少。"先离后接大优先"即"先离后接"和"大优先"。"先离后接"指从笔画相离和相妾处拆分部件,如果几种拆分都使汉字部件最少,则能从部件相离处拆分的不从相接处拆分;"大优先"指如果几种拆分都使汉字部件最少,并且都只从相离处拆分或都只从相接处拆分,则使先拆分出的部件笔画尽量多。4.按权利要求1和2,汉字部件拆分的原则与方法之一是依照结构难拆分,相交强拆大优先。它适用于现代汉语通用字之外需要相交拆分的汉字。"依照结构难拆分"指明拆分的对象是现代汉语通用字之外无法进行不相交拆分的汉字,它们无法按照尊重汉字的结构的方式进行拆分。"相交强拆大优先"即"相交强拆"和"大优先"。"相交强拆"指,对按照现代汉语通用字共有的部件进行不相交拆分但不能完成拆分的汉字,只考虑经济编码因素使该汉字部件最少而强行对其从笔画相交处拆分,并使相邻的笔画组合成部件;"大优先"指在保持该汉字部件最少的情况下,使先拆分出的部件笔画尽量多。5.单笔根据汉字部件拆分的实际需要可成为单笔部件,利用大写字母AEIOU的书写首笔与汉字笔画"撇横竖点折"的形近联系,将"横竖撇点折"等单笔部件的取码相应定为EIAOU,对多笔部件则取部件读音首字母为码并按取码归并为25类,其中多笔部件的选择、取码及归并是-A撇-囱多凹Bj少亦冊》衝八(、/)—d半(,)广卜匕白贝巴不必本秉C处w^出(屮)秀w乂川虫厂寸才串匆朿斥臣册垂承丑车(車r长'D、"A*j&f宋〔"夂A(f])刀(jij)丁大东歹豆电丹单'E横二耳(P斗)儿而F几厂々方(力)丰W)飞非夫弗发甫市G口臾旦&(巧)戈(戈)&小、丐工干弓广革瓜甘更果毋央龟(龜)4H瓜在乜茧二崔(少)A万产U未火户乎亥奂黑I竖II6.按权利要求1、2和5,汉字词通用排序与检索方式为部件以汉字的形式出现构成单音节词时,编码为其读音首字母加笔画;作为某一汉字的非惟一构成部分时,编码为其读音首字母;以汉字形式出现在非单音节词中时,编码为其读音首字母。单音节词和非单音节词均以编码后的字母排列顺序进行排序,若几个非单音节词的编码完全相同,则依次以各自部件的排序决定它们的排序;检索时,先拆分单音节词,或非单音节词的前一或几个字,依拆分部件的取码顺序査找即可很快找到所査的字或词。7.按权利要求1、2和5,查阅学习类辞书排序与检索方式为部件以汉字形式出现构成单音节词吋,编码为其读音首字母加笔画;作为某一汉字的非惟一构成部分时,编码为其读音首字母;以汉字形式出现在非单音节词中时,编码为其读音首字母。辞书以汉字(单音节词)编码后的字母排列顺序对汉字进行排序,对非单音节词则按其首字归为一类,并以首字后的汉字的编码顺序排序,若几个非单音节词的编码完全相同,则依次以各自部件的排序决定它们的排序;检索时,先拆分单音节词,依拆分部件的取码顺序査找即可找到所査的字,或先拆分非单音节词的首字,依拆分部件的取码顺序找到首字,再拆分该词首字后的字,依拆分部件的取码顺序即可在首字所属词条内很快找到所査的词。8.按权利要求l、2、3、4和5制作成音形王码汉语输入法,单音字词中的部件字的输入取码方式为部件字加其前三笔,少于三笔时取实际笔画数,单音字词中的非部件字的输入取码方式为前三部件加末部件(不足三部件时依次取前两部件首笔凑码);双音节词或短语的输入取码方式为两字前两部件(部件字取其首笔凑码);三音节词或短语的输入取码方式为前字前两部件加后两字首部件(部件字取首笔凑码);四及以上音节词或短语的输入取码方式为前四字首部件。9.按权利要求8,输入法采用语料库方法和统计语言模型等中文信息处理技术,使其与中文搜索引擎技术相结合。如输入语句"我们在这个问题上的观点是一致的",只要键入Warm-zlrm-d-yjzk-s-yeeb就可以,不必像音码夷卩样输入全拼Women陽zaizhegewentishang-de-guandian-shi-yizhide或双拼形式下的30个字母。10.按权利要求8和9,输入法将汉语通用字和非通用字分别建库,以减少单音字词键盘输入的重码率,同时允许存在一三键简码,一键简码字可按汉字部件拆分的原则和方式拆分、按汉字词的输入取码方式取码,而不影响由其构成的汉字词或短语的正常i入。全文摘要音形王码汉字编码方案,涉及汉字编码方案的设计及其在汉字排序与检索、汉语键盘输入、汉字认知与书写教育及汉语后续教育等方面的应用。对通用字不相交拆分,实现部件定量,再用它们对非通用字进行相交或不相交拆分。对绝大多数汉字不相交拆分尊重了汉字结构也使拆分简单,对少数非通用字相交拆分则能实现经济编码。对部件取其读音首字母为码并归并,使部件易学易用。将汉字进行部件拆分并依次取码能实现汉字排序与检索,再对词或短语中的汉字进行选码能实现汉语键盘输入,采用中文搜索引擎技术可将普通速度提高到每分钟150~200个汉字。部件与汉字关系紧密而清晰,能正确书写部件,就能正确书写汉字并用键盘输入汉语,利于汉语基础教育和后续教育。文档编号G06F17/28GK101295297SQ20071005197公开日2008年10月29日申请日期2007年4月26日优先权日2007年4月26日发明者王道平申请人:王道平
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1