简化五笔形音码的编码技术的制作方法

文档序号:6552654阅读:215来源:国知局
专利名称:简化五笔形音码的编码技术的制作方法
技术领域
本发明属于汉字键盘输入技术。
二.
背景技术
我国汉字输入技术由70年代末起,经过国内外计算机工作者和汉字编码工作者长期的努力,已从无到有,从低到高,不断取得进展,研究出了900多种汉字输入方案,包括形码、音码和音形码三类。上述各种输入方案,经过实践检验,择优汰劣,目前已有一定影响面、成熟或比较成熟的汉字输入方案近20种。其中,最引人注目的是王永民先生发明的五笔字型输入法,对解决上世纪80年代初汉字输入的“瓶颈”问题起到了决定性作用,受到了很高的赞誉。自1986年五笔字型问世以来,中国汉字输入开始步入信息时代,五笔字型以其重码率低、输入速度快、不受地方方言限制的特点,成为专业人员广泛应用的汉字输入法,对促进我国文化教育、科学技术的发展起到了十分重大的作用。
但是,对于中小学生和一般初学者,五笔字型存在字根偏多(226)、编码规则复杂、字根分布规律性欠佳以及汉字拆分编码多有不符合传统习惯和中小学汉字教学规范化等“好用不好学”的问题。创建一个适应当前中小学汉字教学规范化需要的五笔字型输入法,这对改变中小学《计算机教程》只讲智能ABC输入法和全国90%以上的非专业人员采用音码输入法的现况具有重要意义。
三.

发明内容
本发明的研究目标是1.基本字根<150,其中部首字根>70%,非部首字根为常见的偏旁(如青字头)或一些字的组字单元/部件(如黄字头、遘字头),无“自作”字根。除囗和匚外,码序与笔顺高度一致。
2.按统一规则拆分编码,编码规则简明,符合中小学生汉字教学规范。
3.根据汉字具有“形、音、义”统一的特性,创建简化五笔形音码,为中小学生和不谙拼音人员提供通用的五笔字型普及方案。
4.阐明编制码表原文件的方法,为用户创建个性化五笔输入和修改码表原文件创造条件。
经过7年的努力,本发明较好地实现了上述研究目的。现分别说明如下(一)基本字根分类如何把基本字根控制在150个以内,并做到好学、好用,这是本项研究的首要问题。经过比较研究,确定简化五笔字根以字根首、末笔定键位,与以字根首、二笔定键位相比较,字根分布规律性提高20%。简化五笔形音码字根149,较已知形码低34.0%以上,其中部首字根占73.8%。
按照基本字根“选择特性Selected properties)”的共同性用逻辑方法对字根进行分类排列,经5次续分,首创一个基本字根分类表(表1)。其逐级分类单元为宏控字根,有序字根,首、末笔字根,形似字根和不规则字根,使众多无序字根有序化,为有效记忆字根提供了科学方法。
本发明首先提出了宏控字根的概念,其界定有二一是指5个基本笔划,它们对键盘5个区起控制或标志作用;二是指整个二区的框形字根,含目(H)日(J)口(K)L口,和整个四区的点形字根,含丶(Y)冫(U)氵(I)灬(O),使一批汉字先从总体中区分开来,由无序状态变为有序状态,奠定了简化五笔输入法键盘设置的宏观布局。
本发明认为,剖析基本字根表,理解此表的构思,按字根续分顺序,综合记忆各个字根(含例字),这是最有效、且不易忘却的记忆方法。现示意如下
上述示意图说明,按照“选择特性“是—否”的逻辑方法,连续进行5次续分,使本来无序的个体转变为一个有序和无序类别共存的多级分类系统,其中宏控字根是一维有序字根组合,不规则字根则是不再续分的无序字根组合。汉字是十分复杂、难以穷尽的文字系统,在分类上,必然存在不规则字根组合。理想的分类应当是经多次续分后,规则字根应当尽可能多,不规则字根应当尽可能少。表1不规则字根数量不多,只占22.8%,说明它是一个有序的分类系统,这在汉字字根分类上是难得的例子。
在上述分类系统中,字的“首、末笔”是系统续分的另一“选择特性”,根据二维区位规则定键位。所以这个分类系统同时又是一个一维有序和二维有序类别共存的分类系统。首、末字根组合占62.4%,加上宏控字根和有序字根,共占77.2%。所以说,这一基本字根分类系统是一维有序和二维有序结合的分类系统,为记忆字根打下牢固的科学基础。
从科学体系看,分类系统的出现,标志学科发展由经验形态进入科学形态。所以,本发明创建的基本字根分类表,是对汉字编码学的重要贡献,同时也为记忆基本字根提出了有效记忆方法。这就是以系统记忆为主,系统记忆与分区结合的有序记忆法,有别于现行系统“助记词”的方法。现说明系统记忆方法如下1.宏控字根13,包括(1)五个基本笔划,即一、丨、丿、丶、乙,自然好记;(2)二区四个键位,即目(H)、
表1简化五笔形音码基本字根分类表
*黑体部首为键首字根。上表将乙分为单乙型和双乙型,单乙型指乙不分为两笔,双乙型指乙分为两笔,且多首、末笔相连。带括号字根,表示其前已出现,不参加计数,如(阝)/耳。同源字根按1计数日(J)、口(K)、囗(L),它们的差别是内部横笔由多到无,好记;(3)四区四个键位,即丶(Y)、冫(U)、氵(I)、灬(O),它们的特点是丶数循序增加,自然好记。
2.数序字根15,减去五个基本笔划,实际为10,十分好记。
3.首、末笔字根93,包括二笔字根(43)和多笔字根(50),它们是表1的主要字根。按字根的首、末笔定键位,属于规律性字根。二笔字根按区位规则记忆,首、末多笔字根大部分是常用部首字根,好记。要按首、末笔取码规则和例字重点记(青字头)、丬(北字旁)、 (具字头)、 (隹字旁)、巴等非部首字根。
4.多笔形似字根不多,大部分是约定俗成的偏旁,如手/扌/,牛/牜,水/氵/ ,耳/阝,好记。只要记住川与III和 和尸具有相同的外形就可以了。
5.不规则字根34,记住它们有一定难度。但可(1)按首、二笔取区位码,如大、虍、山、贝、禾、乡、骨等(2)按形取码,如十字形、双十形、方框形、双乙形等。其他不规则字根多数为常用部首字根,如月/ 、疒、小、忄/ ,记住它们,并不太困难。此外,对于 (未字身)、乂(义字身)、(兰字头)等三个字根,只有按例字强记了。
由此可见,本发明字根虽多至149,但按字根“选择特性”分类排列后,记住它们就非难事了。
(二)统一编码规则针对五笔字型编码规则复杂和汉字拆分困惑的问题,本发明从统一取码、减少字根和简化规则着眼,拟定了简化五笔形音码的取码规则,其显著特点(1)不分键名字、键盘字和非键盘字,一律按通称的两类汉字——独体字和合体字统一编码。(2)把笔划关系和偏旁类型作为编码的基本依据,取码规则简明,好用,对减少字根和解决汉字拆分困惑起到重要作用。(3)只取一个编码,无容错码。
按照五笔字型编码的的理论,汉字是由基本字根按照一定字形组合而成的。为了指导正确拆分,《王码》提出了“书写顺序、取大优先、能散不连、能连不交、兼顾直观”汉字拆分的五项原则,值得学习和应用。然而,对于中小学生或非专业初学者,往往不能深入理解、应用“能散不连”、“能连不交”等原则,对一些汉字拆分存在困惑。
针对现有技术存在的问题,为了指导汉字的拆分和编码,本发明提出“按笔顺取码、序数优先、取大优先、字根不拆分、按笔划关系取码”的五项基本原则。
1.“按笔顺取码”在149个字根中,除囗、匚外,余均按笔顺取码。并规定凡组字的部首或部件输入时与该字笔顺不符,不将其选作字根,如把“戈”作为字根,则“或”字编码不是GKY,而是AKY,不符合笔顺规范,故不将其选为字根。
2.“序数优先”例如“勿”字内偏旁首、二笔关系为散“ ”,按序数优先的规则,取码QR。“所”字首、二笔关系为连,故取码ENR,正好与“勿”区分开了。
3.“取大优先”,是指在拆分汉字时,拆分出来的字根笔划数最多,而拆分的字根数最少。例如“牛”字,第一组字单元由第一和二笔划组成,它们是连的关系,应取T(取大优先);如将“牛”字的前三笔划视为组字单元,则是不规范的“自作”字根,不宜提倡。“牛”字第二组字单元是两笔部首(即十),应取F(不拆分字根)而不应取H。所以,“牛”字规范取码应为TF,而非RH。
4.“不拆分字根”例如,“首”作UDH,不作UTH(拆分字根);“天”字作GD,不作FW(拆分字根)。
5.“按笔划关系取码”,是指导拆分编码的重要原则,适用于独体字,也适用于合体字。例如“夫”字,可以拆分成“二、人”,也可以拆分成“一、大”。这两种拆分方法都是允许的,都是相容的。不能说那是正确的,那是不正确的。但是,汉字编码应保持“一义性”。为此,必须分析相邻组字单元之间的笔划关系,才能规定正确的取码方法。以“夫”而言,第一个组字单元两笔划是散的关系,而第三笔划虽与第一笔划相交,但它们不能成为组字单元,因为,“一笔不二用”,第一和二笔划已先组成“夫”的第一组字单元。由此可见,“夫”字的编码只能是FW,而不能是GD,从而保持了编码的“一义性”。同理,“于”字,第一笔划和第二笔划是散的关系,它们组成序数“二”,第三笔不能与第一笔构成组字单元,故“于”字的编码只能是FH,不能是GF。又如把“束”字拆分为“木、口”不符合书法笔顺,规范取码应为GKI;“比”字两个字根的首笔不同,前者为横起笔,后者为撇起笔,将两者键位均定为X、X,不符合中小学汉字教学规范化的要求。可见,《王码》字根系统存在多有不符部颁汉字笔顺规范的不足,有待改正和完善。
根据上述五项基本原则,本发明从统一编码方法着眼,对两大类汉字提出了相应的编码规则1.独体字按笔划关系取码,如首、二笔为“散”的关系,取单笔划,例如“重”字首、二笔为散的关系,取TGF;如首、二笔为连的关系,取区位码。例如“失”字首、二笔为连的关系,取TD,不取TFW(拆分字根)。可见,只要掌握第二笔不拆分其后多笔字根的要领,就会解决汉字拆分的困惑,作到直观、快捷取码。
2.合体字按偏旁类型取码,如偏旁为基本字根,按根取一码,例如“提”字左偏旁为字根,取一码即R,故其编码为RJW;如偏旁为非字根,取其首、末码。如“朝”字左偏旁为上下型非字根部件,首、末码均为部首字根(十),故其编码为FFE。“肆”字左偏旁为上下型非字根部件,其首、二笔为连的关系,故“肆”的编码为FCH。又如“鬓”字上部为非字根,取首、末码,故其编码为FEW;又如“氢”、“毯”二字的外偏旁为非字根部件,取其首、末码,故“氢”编码为TNA,“毯“字编码为TAO等。以上5字的偏旁均为非字根部件,虽同为部首部件,但均不作字根。所以,对于合体字,规定“偏旁为非字根,取其首、末码”的编码规则,对减少字根具有重要意义,是本发明对五笔输入法的重要贡献。
如何做到字型判别的一义性,既符合汉字编码学的规定,也符合汉字文字学的规定,这是本发明十分注意的问题。例如,一些研究者从编码学出发,规定多笔字的首码为单笔划(如自),按独体字取码;如为二笔字根(如酋、单)则按二型字(即上下型字)取码。前者符合汉字编码学的规定,也符合汉字文字学的规定;后者符合汉字编码学的规定,但不符合汉字文字学的规定,因为酋、单两字是独体字,而非上下型字。为了解决这一矛盾,本发明规定当见到字的首、两笔或多笔字根而难以分辨该字的构型或确定其上下分界时,则按根取首码,然后按笔顺取第二、末码,如“酋”字-UMF,“单”字-UJF,如此取码,既符合上下结构的取码方法,也符合独体结构的取码方法。
(三)创建简化五笔形音码输入法形、音是汉字素质的两个不可分割的组成部分。实行形音结合,把字的声母作为离散码,是一个可取的汉字编码学的研究方向。《王码》和《郑码》之所以字根多,编码规则复杂,是为了解决重码问题。本发明所创的形音码的首、二、末码为字的形码,当以字的声母为后辍码时,它具有强大的离散功能,重码率仅为3.50%,有助于实现盲打。当键入字的首、二、末码后,声母(离散码)自动显示在屏幕数字键中,因而不用强记记末笔字型识别码,大大减轻了编码规则的记忆量;特别是为不谙拼音的用户,如我国南方诸省人员和国外留学生录入带来很大的方便。另一重要特点是字根分布和编码规则符合中小学语文教学规范化的要求。由此可见,简化五笔形音码好学、好用、快捷,适用面广,既适用于中小学生和非专业人员,也适用于会拼音人员和不谙拼音人员,有望成为普及五笔字型的首选方案。
(四)阐明创建输入法和制定码表原文件的方法掌握制定码表原文件的方法是创建个性化的五笔输入法的重要环节。但是,如何制定码表原文件,许多五笔字型专著并无明确而系统的阐述,或语焉不详,或处于隐藏状态。有鉴于此,本发明从普及五笔字型出发,阐述了制定码表原文件的方法,对用户创建个性化的五笔输入法和修改已有的码表原文件有重要参考价值。
综上所述,简化五笔承传了五笔字型的优点,同时也做到了有所创新,有所前进。本发明较之现行方案的显著优点在于1.按字根的首、末笔定键位,并按基本字根的“选择特性”创建5级基本字根分类表,标志汉字编码学由经验形态上升为科学形态。
2.首创统一编码规则,在汉字形成“笔划一部首一字”理论的基础上,提出了新的编码模式,是对汉字编码理论的重要补充 3.创建以形为主,形音结合的简化五笔形音码输入法,这是一个全新的简化五笔输入法,与已知的同名方案有本质的区别。
4.简化五笔形音码部首字根占73.8%,组字单元和拆分、编码规则符合汉字规范的要求,有助于提高中小学汉分、编码规则符合汉字规范的要求,有助于提高中小学汉语教学质量和学生汉字规范化意识。
汉字规范化是当前文化教育的重要工作,引导学生和社会各阶层学习简化五笔输入法,促进汉字规范化,正是今天文化教育的急迫需要。显然,简化五笔的这一功能是音码或《二笔输入法》所不能替代的。因此,简化五笔形音码有望直接成为中小学生应用的五笔字型普及方案,有别于现行方案的C、B、A三级步进式。
一旦本发明得到应用,表明五笔字型由专业人员应用阶段进入以中小学生为主的非专业人员广泛参与的普及阶段。简化五笔与五笔字型服务对象不同,两者相互配合,将使中国汉字输入技术进入新的发展阶段,适应当前信息化发展的新形势。
具体实施方式
一旦本专利获准,申请人将隨带多年研究成果和专利批准书无偿献给国家语言文字工作委员会和国家教育部,请求组织有关知名专家学者从承传与发展汉文化和提高中小学生汉字规范化意识的高度着眼,研究是否将简化五笔形音码与智能ABC一起作为初中生“计算机教程”的必修内容;同时把它作为中专生和大专生计算机课的必修内容。
向国家自然科学基金委员会申请出版基金,以出版专著《简化五笔形音码教程》,为用户学习、应用创造条件。
建立网页,向网民广泛宣传简化五笔形音码的内容,学习意义和目的,方法和步骤等有关内容。
此外,向国家出版局登记,请求允许出版教学光盘,通过网页和图书出版集会,进行宣传销售,达到推广简化五笔形音码输入技术的目的。
权利要求
1.一种简化五笔形音码输入法,其重要特徵在于以字根的首、末笔定键位,以提高字根分布的规律性。
2.如权利要求1所指的简化五笔形音码输入法,其特徵在于按字根外形的共性-选择特性,用逻辑方法对149个字根进行分类和排列,经5次续分而创建一个基本字根分类表(表1),其逐级分类单元为宏控字根,有序字根,首、末笔字根,形似字根和不规则字根,使众多无序字根有序化,为有效记忆字根提供了科学方法。
3.如权利要求1所指的简化五笔形音码输入系统,其特徵在于字根记忆方法采用系统记忆和分区记忆相结合的有序记忆方法,有别于现行系统所用的助记词的方法。
4.一种新的简化五笔形音码输入系统,其特徵在于把两大类汉字一独体字和合体字,用统一规则进行拆分编码,不分“键名字”、“键盘字”、和“非键盘字”。
5.如权利要求4所指的简化五笔形音码输入系统,其特徵在于汉字拆分编码遵从“按笔顺取码、序数优先、取大优先、不拆分字根、按笔划关系取码”五项规则,它们是适用于独体字也适用于合体字拆分和编码的重要规则,按照这五项规则进行拆分编码,可以做到既符合汉字编码学的要求,也符合汉字文字学的规定。
6.如权利要求4所指的简化五笔形音码输入系统,其特徵在于独体字按笔划关系取码如首、二笔为“散”的关系,按单笔划取码;如它们为“连、交”的关系,取区位码,合体字按偏旁组成取码如偏旁为基本字根,取一码;如偏旁为非字根部件,取其首、末码。
7.一种新的简化五笔形音码输入系统,其特徵在于字根的编码模式为首、二、末码或首、二、末码为字形字根,其后辍(离散)码为声母。
8.一种新的简化五笔形音码输入系统,其特徵在于阐明制定码表原文件的方法,对用户创建个性化的五笔输入法和修改已有的码表原文件有重要参考价值。
全文摘要
简化五笔形音码输入法是在五笔字型输入法基础上的一项以形为主、形音结合的汉字输入法。其主要特征是以字根的首、末笔定键位,并按字根“选择特性”对字根进行分类和排列,使众多无序字根有序化;按统一规则取码,规定独体字按笔划关系取码,合体字按偏旁特征取码,对减少字根起到重要作用;创建以形为主、以声母为后辍的简化五笔形音码,其基本字根149,重码率3.50%,输入速度>150字/分钟,为中小学生和不谙拼音人员提供了好学、好记、快捷的五笔字型普及方案。
文档编号G06F3/023GK101078954SQ200710129858
公开日2007年11月28日 申请日期2007年7月30日 优先权日2007年7月30日
发明者刘兆荣 申请人:刘兆荣
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1