汉字编码新技术的制作方法

文档序号:6405564阅读:180来源:国知局
专利名称:汉字编码新技术的制作方法
技术领域
本发明属于中文信息处理技术领域,涉及汉字编码输入中联想字、重码字及重码短语的处理方法,中文短语及简码的分区取码方法。
目前重码字及联想字的选取方法,如CN85100837,CN85100277等,是按汉字的统计频度,在屏幕上显示出来,然后用一数字键来选取。用这种方法,用户必须通过观察屏幕来确定,有时甚至需要多次屏幕显示才能找到所需的字。
现行的所有汉字编码方法中,对取码相同的几个汉字或短语,无论它们在使用频度上有多大的差别,每次都让它们全部出现在重码字或重码短语的被选行列中,从而使得要么出现大量的重码字及重码短语选择次数,要么使系统能编码的汉字较少或取码长度较长,目前仅对6763个汉字进行编码,其取码长度就是四个码元了。
在中文短语(或汉字词)的编码方面,目前世界上无非有两种方法来指定短语取码区的方法,其一是将短语与汉字共用一个编码区,使汉字取码优先,即一个字与一个短语,若对应的编码相同,则把该码分配给汉字,而把短语去掉;其二是在汉字取码区外,还为短语定义一个取码区。对于方法一,存在着大量用短语码取不出短语的现象;方法二虽不存在上述现象,但由于中文短语数量之多,就连比较常用的也有数万条之多,远远超过一二级汉字的6763这个数。由汉字编码的情况可知,要对这么多的中文短语进行编码,不可避免地要采用较长的码长,否则重码便会大量出现。
此外在快速汉字输入方法中,简码的使用是很重要的,而目前的各种方案中,由于短语未分区取码,所能定义的简码短语少,在字词混合编码时,甚至不能定义简码词。
本发明的目的就是要改进上述联想字和重码字的选取方法,中文短语及简码的取码方法,并最终实现以词为单位的中文输入。
本发明中提出了汉字重码字和联想字的汉字属性识别法,其中的汉字属性是指汉字的音、形、义。其中的形包括字形、笔型、角型、笔划及字根;音包括汉字及其汉字的构字部件的读音。其方法是这样实现的将汉字的一种或几种属性进行编码,所得到的码称为汉字属性码,当需要选择汉字重码字或联想字时,输入一个所选字的属性码来确定所需的重码字或联想字。将所使用的属性码称为被选字的识别码。
在输入一个汉字后,若要输入它的联想字,则输入一个相应识别码,再从键盘输入一个联想字定义键来得到。可以用空格键或其它键来充当联想字定义键。
在重码字选定状态下,即可通过输入一个识别码又可根据屏幕显示,通过输入一个数字键来确定所需的重码字。
在上述方法的基础上,设计了下列三种优选的汉字属性码取码方法方法一,取字根属性码,也就是将汉字的某字根作为属性码,当遇到要选择重码字或联想字时,从键盘输入相应的字根属性码作为识别码。
方法二,取首音属性码,将汉字或构字部件名之拼音的首字母取作首音字母,考虑到发音不准的人常常把首音L和首音N搞混,码,这样一共可得到25个“前后笔型属性码”,将它们分别安排到二十五个字母键上,每一个字母键代表一个二维笔型码,当需要确定重码字或联想字时,输入一相应的字母键来识别。
本发明中,中文短语和简码短语分区取码的方法,是指按中文短语的属性进行分区取码的方法。其中的短语属性包括组成短语的各汉字的属性,短语的长度(即短语中所含汉字的个数),短语中的标点符号,短语所属的专业领域。这里所说的短语包括单个的汉语词。本方法是这样实现的,根据中文短语的一种或几种属性,将短语分成几个不同的类别,为每一类短语指定一个不同的编码区间。在这种方法的基础上设计了两种优选的短语的划分方法,两种中文短语三元编码法和一种以词为单位的中文输入方法。
短语划分方法一按短语的长度,即短语中所含汉字的个数来划分,分为长度等于2,3,4和长度等于或大于5的四类短语,通过四个分区定义键分配到四个不同的编码区。或者将短语分为长度等于1,2,3,4,和长度等于或大于5的短语(长度为一的短语表示单字词),通过五个分区定义键分配到五个不同的编码区。
短语划分方法二按笔划划分,根据短语中第一个汉字的首笔或末笔来划分,可分为横,竖,撇,点,折五类短语,用五个定义键来指定五个相应的分区。
短语编码方法一三元首音编码法,其方法是按长度划分短语,短语的码长定为三。对长度为二的短语,分别取第一二字的首音和第一字的第二码元为短语的三个码元,取第二字的第二码元作为重码短语识别码;对长度为三的短语,依次取第一二三字的首音作为三个码元,取第三字的第二码元作为重码短语识别码;对长度等于或大于四的短语,取第一,二末字的首音作为三个码元,取第三字的首音作为重码短语的识别码。
短语编码方法二三元首字根编码法,方法是按长度划分短语,短语的长度定为三。对长度等于二的短语,依次取第一字的第一二码元和第二字的首字根作为三个码元,取第二字的第二码元作为重码短语识别码;对长度为三的短语,依次取第一,二,三字的首字根为三个码元,取第三字的第二码元为重码短语识别码;对长度等于或大于四的短语,取第一,二,末字的首字根作为三个码元,取第三字的首字根为重码短语识别码。
中文以词为单位的输入方法,这是一种通用的方法,无论是对音码,型码,或是音型码均是适用的。本方法是这样实现的按长度将短语划分为长度等于一、二、三、四和长度等于或大于五的五类短语,用五个定义键来定义这五类短语,在输入短语时,无论是按简码或是全码,均以定义键作为短语码结束键,当输入了一个全码而未键定义键便接着输入下个短语码时,系统将所输入的码默认为单字词的码。
本发明中按频度分级隔离重码字和重码短语的方法,是指按统计频度(统计频度可以是综合统计频度,也可以是某专业的统计频度)把重码字或重码短语分为高频级和低频级两个不同的级别,对于一个重码,系统是否进入重码字或重码短语选择状态,由高频级重码字或重码短语是否唯一来决定,若不唯一,则进入重码字或重码短语选择状态,此时无论是哪一级的重码字或重码短语,均可由所输入的识别码或数字键来确定;若高频重码字或重码短因此把首音N合并到首音L中,共得到22个首音字母A、B、C、D、E、F、G、H、J、K、L、M、O、P、Q、R、S、T、W、X、Y、Z,把这22个首音字母称为基本首音字母,将基本首音字母中频度最高的一部份,例如B、C、J、L、S、X、Y、Z每一个分离成两个首音字母,以使汉字分布更均匀。其分离方法是把分布在这些音区的汉字,按其拼音韵母中是否含某一拼音字母(例如N)来区分,对拼音韵母中含有该拼音字母的汉字,其首音定义为一个新的首音,对应的首音字母用上述韵母中的拼音字母符号附加在原首音字母的右下角来表示(例如JN等)。将这些有角标的首音称为复首音,对应的首音字母称为复首音字母。
按所取高频首音字的多少,可得到数量不同的复首音,按前面给出的8个高频首音,就可取出8个复首音。将部分复首音安排到4个低频首音字母键A、E、O、R键上,另外的复首音安排到基本首音字母未用到的I、N、U、V和符号键上。
分离首音的优选方法有两种,其一是根据高频首音汉字的拼音韵母中是否含N来分离,由此得到的首音字母总表由

图1给出。其二是按高频首音汉字的拼音韵母是否含A来分离,由此得到的首音字母总表由图2给出。图1中的首音字母在标准键盘上的分布由图3给出,图3中的每个方格表示一个键,左上角的字母表示首音字母。
方法三,取笔型属性码。将汉字的五种基本笔划归为横(一),竖(丨),撇(丿),点(丶),折(乙),依次取代号为1,2,3,4,5,取汉字的某个笔划作为前笔,取另一笔划作后笔,把与这个笔划对中两笔划的代号相对应的一个二维数字码,称为前后笔型语唯一,则系统直接输入高频重码字或重码短语,而把低频字或短语在屏幕提示区显示出来。如果此时输入的不是所需要的汉字或短语,则按一下“降频键”,例如“/”键来删除所输入的汉字或短语,并使系统检索低频级的重码字或短语,若此时低频级的汉字或短语唯一,则输入低频级的汉字或短语,否则进入重码字或重码短语选择状态。
本发明的意义在于,利用汉字属性识别码可以使重码字和联想字的确定象输入一个普通编码键一样简单快速,并能使平均码长缩短;利用按短语属性将短语分区编码的方法,使得可以在码长不变的情况下,增加短语编码量和降低重码率,并最终实现以词为单位的中文输入;简码短语分区取码的方法,可以为用户提供较多的简码短语使用机会,从而使汉字输入的平均码长进一步缩短。重码字和重码短语按统计频度分级隔离的方法,使得汉字编码空间的取码率上升,并可容纳大量的汉字和短语,而选择重码字和重码短语的平均次数却不增加或增加较少。
本发明中的若干方法,其最佳的实现方式就是用来设计大容量的,以词输入为主的联想汉字操作系统。本发明中的技术,也可用来改进现有的各种汉字输入方法,例如五笔字型的设计者可以利用本发明中的方法,来开发带联想识别和短语及简码短语分区取码的汉字操作系统,或者开发以词为单位的中文输入系统。
权利要求
1.汉字编码新技术,特征是根据汉字的属性,用属性识别码来识别汉字重码字和联想字,根据中文短语的属性,将中文短语和简码短语分区取码,重码字和重码短语按频度分级隔离。
2.权利要求1中所指的汉字属性包括汉字的发音、字义、字型、角型、笔型、笔划、字根、以及笔划和字根的读音;短语的属性包括短语中每个汉字的属性、短语的长度、所含标点及短语所属专业领域,其中的短语包括汉语词。
3.按权利要求1取得的首音识别码,特征是将汉字拼音的首字母取作基本首音,并将基本首音中的N合并到L中,对基本首音中的几个高频首音,若其相应音区内汉字的韵母中含有某个指定的字母,则把该汉字的首音定义为一个新的首音,称为复首音,按韵母中是否含N或是否含A所得到的两种首音总表由图1和图2给出,按图1的首音总表得到的首音键盘由图3给出,本识别码首音也可作汉字编码的首音码元。
4.权利要求1中的短语和简码短语分区取码的方法是按短语的一种或几种属性将短语分成几个不同的类别,把不同类别的短语安排到不同的编码区,每个分区的短语码或短语简码用一个特定的分区定义键来区别。
5.权利要求1中划分短语的两种优选方法其一是按长度划分;其二是按短语第一个字的首笔划划分。
6.按权利要求1的方法,实现按长度分区取码的方式有两种,其一是以短语定义键作为短语(不包括单字词)全码的第一个码元键,当取简码时则以定义键作为短语简码的末码元键;其二是,将字作为长度为一的短语,无论是全码或是简码,均以定义键作为结束键,当取单字词的全码时,若不键入定义键便接着输入下个短语码,则系统将所输入的码作为单字词码。
7.权利要求1中按频度分级隔离的方法是根据汉字和短语的统计频度或使用频度,把重码字或重码短语划分成不同的级别,对于一个重码,若高频重码字或重码短语不唯一,则进入重码字或重码短语选择状态,此时可输入重码识别码或数字键来确定任意一个重码字或重码短语;若唯一,则系统直接输入高频重码字或重码短语,如果所输入的不是所需要的字或短语,则按一下降频键来删除它,并使系统进入低频重码字或重码短语的选择状态。
全文摘要
发明的目的是要解决重码字和联想字的盲打输入,使中文输入实现以词为主,以减少重码字或重码短语的选择次数。其技术是将汉字的一种或几种属性进行编码,当需要选择汉字的重码字或联想字时,输入所需字的属性识别码来确定相应的汉字;将中文短语及简码短语按其属性划分为不同的类别,为每一类短语指定一个取码区;将重码字和重码短语按其频度分级隔离,当高频重码字或重码短语唯一时,直接选中高频字或高频短语。
文档编号G06F3/023GK1049416SQ8910616
公开日1991年2月20日 申请日期1989年8月9日 优先权日1989年8月9日
发明者陈燎原 申请人:核工业西南物理研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1