声形递进汉字编码输入法的制作方法

文档序号:6600508阅读:211来源:国知局
专利名称:声形递进汉字编码输入法的制作方法
技术领域
本发明为一种将汉字经编码用普通小键盘输入电子计算机地方法,属中文信息处理领域。
如何将汉字快速高效地输入计算机是中文信息处理的关键之一,用编码方法输入汉字为最常用途径。至今已知的数百种编码输入法可分成四大类(1)纯拼音输入法,只利用汉字拼音(声、韵、调等)构成编码;(2)纯字形输入法,只利用字形信息(笔划、部件等)编码;(3)以音为主、辅之以形的方法,用整字的声母或声、韵以至声韵调信息,辅以一些字形信息进行编码;(4)字根首母拼形输入法,以字根、笔划的读音首字母构成其代码,由此拼合成整字的代码。一些方案则兼有多种类型的特点。这四类方案各有优缺点。拼音类方案较易学,但同音字多导致大量重码,输入效率较低。纯形类方案重码虽不多,但无理性记忆内容较多,学习、记忆难度大。第3类方案比拼音方案重码少,但增加了取字形或字义信息的复杂规则。此外,在全部约6万汉字中一般人只能准确读出其中四五千常用字的读音,故凡需用全字读音的编码法难以解决难读字的取码,其应用范围受到限制。相比之下,第4类方案的综合性能较好。因其只用到较少的字根读音首母,难读字也较易取码;同时字根的代码不需死记,可利用对字根读音的已有知识,因而总体上学习、记忆的难度较低。要实现汉字编码易学易记、快速高效且适用面广的目标,字根首母类编码方法应是优化的方向。目前已公开的此类方案不到20种,均未能突出地显示易学高效的优点。存在的问题是,许多常用字根具有相同的读音首母(如“木”与“目”、“马”等),造成较多重码。一些方案未采取有效办法减少这部分重码,使输入的效率降低,与其它类方法相比无明显优点;另一些方案则用增加很多附加规则的方法来减少重码,却使其学习、记忆难度加大,也体现不出优越性。
本发明的目的是提出一种易学易记、快速易用的中文输入法,这种方法适合具初等以上文化程度的人经少量学习后用普通带英文小键盘的计算机高速输入全部汉字(包括日本、韩国使用的汉字)。
为实现这一目的,本发明采用了字根首母拼形输入的总体方案,用普通英文小键盘上的26个英文字母键进行编码,击2—4键输入一个汉字。为实现本方法的综合优点,并采用了多层递进编码原理、汉字笔形结构辅助定码、常用部首与一般部件码长不等等措施,在保持规则简单的基础上大大降低了重码率。详述如下
汉字可分为独体字和合体字两大类,后者占大多数。组成合体字的各个“体”(一般称之为字根或部件)有几种类型独体字(或成字部件);偏旁部首;非字部件(既非字也未定为部首,如“段”中的
)。独体字的判定基本依据汉字构字规律及认字习惯;考虑到多数人对次要部首不熟悉,本方法只确定了51个较常见的偏旁部首;凡既非独体字又非部首的孤立笔划群均定为非字部件。首先确定三种类型部件的代码,则合体字的代码可依各部件而确定。为对二部、三部及四部以上的合体字均能按统一的规则取足四位代码,提出一种多层递进编码规则对各类部件按一定规则(详见后文)先确定一至三位代码(其中成字部件、非字部件可有三位代码,部首有一至二位代码),则合体字的四位代码按下表的递进程序确定用文字叙述为首部件有第二位码时,先取首部的第一、二位作为合体字的第一、二位码,然后依笔顺取次部和末部第一位作合体字的第三、四位码;如不足四位,则可取末部第二位补足。如首部只有一位码时,可用到末部的第三位码来补足四位。附加规则为如第一、二部件为相同的成字部件,则第一部件仅提供其第一位作为全字的第一位码。(如“婴”代码为BBNP(拆成贝/B,贝/B,女/NP)而“财”代码为BUCI(拆成贝/BU,才/CI))。
独体字及非字部件的取码规则为本方法的核心内容。独体字的取码同样采用分层递进原理,首先以字的拼音首母作第一位码,然后从字的结构信息中取第二、三位码。对拼音首母的特殊规定为凡拼音以yu开头的字,其拼音首母均定为U而非Y。独体字中的结构信息有三种(1)字中包含的更简单的字,称为包含字(如“白”中包含“日”字);(2)笔形结构,为特定的若干形状特征明显、易辨认的笔划或笔划群;(3)基本笔划,相对较不易辨认。本方法规定了11种笔形结构及其一位代码为
(1)人(八,ハ,
“入”不属此类),代码A;
(2)匚(),代码C;
(3)二(连续书写的相邻二横笔),代码E;
(4)十(横、竖笔垂直交叉,但方框形结构的边框与横、竖笔相交不属此类),代码I;
(5)
(
ㄋ,左弯钩),代码J;
(6)乚(
乙,
即右弯钩及竖提,代码L;
(7)口(凸,凹等各笔末端相连的框形),代码O;
(8)
尸,
等边框笔划延伸至框外的框形,但C、U、O等笔形结构被其它笔划分割而形成的四边形不属此类),代码Q;
(9)
(山,
等倒T形,其横笔下方不与其它笔划相连),代码T;
(10)凵(冂,
等U形或倒U形),代码U;
(11)丷(
)代码V。这些笔形结构的代码均用与其形状相似的英文大写字母以助记忆。另规定五种基本笔划及其二位代码为横笔(“一”及“乛”),代码HB;竖笔(“丨”及“”),代码SB;撇笔(丿),代码PB;点笔(丶),代码DB;捺笔(),代码NB。包含字的代码只有一位,为其拼音首字母。字中包含的部首则按表3规定的代码取码。
确定了三种结构信息及其代码后,可按一定取码顺序得到独体字的第二、三位码。包含字(包含部首)及笔形结构均较易辨认,故将这两种信息同列在优先取码的地位。也即如一独体字中有包含字、部首或笔形结构时,应先由其取得第二、三位码。若由这些信息取不足三位,则再由基本笔划取得第三位码。在同一优先层次内(同是字、部首、笔形或同是笔划),则按书写笔顺分别取笔顺最先和最末的包含字、笔形或笔划为独体字第二、三位码。具体规则为
(1)独体字中判定的包含字或部首不应被其它笔划穿插,只能与其余部分粘连。而笔形结构即使被其它笔划穿插也仍可判定。如“白”中可分出“日”字而“申”则不能,但“申”中可判定有O和I笔形结构。“小”中也不能分出“八”字而只能判定A形结构。
(2)仅有一个包含字或笔形结构时,第三位取自余下部分的笔划。如全字首笔划未取过,则第三位取自全字首笔(如万/WJH);如全字首笔已取过,则第三位取自余下部分的末笔(如步/BZP),巴/BSS(巳,1))。
(3)若可按不同分法取出多个包含字时,优先取笔划数最多、空间范围最大的。如“鸟”应分为“乌”和“丶”而不是“勺”与
(4)允许分出的两个包含字或部首共用某一笔划。如“卞”分为“亠”(部首)和“下”而不是“亠”和“卜”。
(5)少数独体字即是一个笔形结构,第二位码已包含全部结构信息,则第三位码用字母O补足(如口/KOO;人/RAO)。
(6)由一个A、I或O形结构组成的字(“口”字除外)仅当不与其它笔划粘连时可视为字,否则只视为笔形结构。如“古”中的“十”不视为(shí)字而为I形结构。
(7)为避免二义性,规定仅有独体字“一”
中的单一横笔可视为字,其余场合孤立的“一”均视为一个横笔(非字部件),代码为HB。
(8)独体字取码时将折笔(,,∠等)视为两个笔划的组合。
表1列出了部分独体字及其代码。GB2312—80的6763字中共有355个独体字,均严格符合表1中的8种类型。其中h类本是合体字,因是常见部首,构字频度较高,特设为独体字以利相应合体字的取码。全部独体字的确定均有规则可循,比一般字典中的划分法更为严密、合理。在355个独体字的代码中仅有2组重码,其中国标一级字的独体字间无重码出现。
部分独体字当位于合体字中某些位置时,一些笔划发生变形。这些变形的字仍作为成字部件,取码规则与独体字相同,但其二、三位代码应依变形后的实际结构确定(见表2)。
偏旁部首也是构成合体字的重要部件。常用部首虽非字,但有人人熟知、大体一致的名称,可用其名称的读音首母确定代码。本方法选定30个常用部首为“单码部首”(其中部分为变形字),即这些部首处于偏旁部首的部位时只有一位代码可用于构成合体字代码。单码部首有二类左偏旁,位于左右型结构左边;字头,位于上下型结构的上部。其代码大多按原有习用名称首母确定,十分易记。需注意的是,属变形字的单码部首以正常字形式出现于合体字中非部首位置时,仍为普通成字部件,可提取其1—3位代码。如“呗”中“口”为部首,仅有一位代码K,而“员”中的“口”为字,有三位代码KOO。另选定21个构字频度稍低的部首为“双码部首”,其代码也大多按名称的拼音首母确定。全部51个部首的代码列于表3。
相当一部分合体字中有非字部件。本方法定义的非字部件为不与其它部件粘连、与相邻部件无笔顺连带关系的笔划群。具体规则为字或部首与其它笔划粘连而成的非字部件不能再进一步拆分,应视为一个整体。只有纯粹的两个独体字或部首相粘连时,才可拆分为两个部件。由于非字部件无读音,其代码仅依其结构信息确定,规则为按独体字第二、三位码的取法确定非字部件的第一、二位码,当需用到第三位码时用字母O补足。绝大多数情况下只需用到非字部件的第一、二位代码。表4列出常见的非字部件及其代码。全部非字部件的结构类型有6类,与独体字的主要类型相对应,即这两类字区的判定标准是一致的。
为避免二义性,确定的独体字仅限于GB2312—80字范围,故一些未收入国标基本集的罕用字仍视为非字部件(如“乂”)。
按照前述合体字顺序递进取码规则,用独体字、部首及非字部件的代码即可得到各种类型汉字的三至四位代码。这种编码方法主要利用了少量汉字的拼音首母(主要是声母),及一些笔形结构信息,用多层、顺序递进的规则取码,因而称为声形递进编码输入法。以下为一些编码实例
“们”(亻门/P MJD)
“炼”(火
/H JAO)
“待”(彳土寸/S T CI)
“落”(卄氵夂口/O V Z K)
“钆”(钅乚/J LO)(少数部件只提供两位代码,取完仍不足4位以空格键结束。)
“码”(石马/SK MQ)
“青”(月/ET UU)
“鞋”(革土土/GN T T)
“壁”(尸口辛土/SQ K T)
(括号内“/”前为各部件,“/”后为代码,不同部件的代码间以空格隔开以便理解。)
用此方法对GB2312—80的6763个汉字编码的结果表明,在一级字(3755字)范围内仅出现23对重码。按实用频度统计,前3000高频字内仅出现6对重码。6763字内全部重码字的键选率(或称重码出现率)小于0.05%。重码字的输入可采用数字键选择、高频字直接上屏的方法;也可利用智能化软件自动选字,使手工键选率降低到极低水平。
为进一步提高输入速率,本方法并提出了按词输入的方法。所有词均用四位代码输入,具体的规则为
(1)双字词代码首字首部件第一位码+首字次部件第一位码(或独体字第二位码)+次字首部件第一位码+次字次部件第一位码。如“安全”ANRW;“人民”RAMQ。
(2)三字词代码首字首部第一位+首字次部第一位(或独体字第二位)+次字首部首位+末字首部首位。如“普通话”BRLY。
(3)四字及四字以上词由前三字和末字的首部首位码组成。如“电子计算机”DZYM。
与以往公开的字根拼形类编码方法相比,本方法在设计思想上有以下不同(1)以往的方法大多对部件作人为限定,一般是通过减少部件数来减少记忆量,而本方法只给出各类部件的定义,凡符合定义的均属部件。虽然部件总数较大,由于可按统一规则定码,记忆负担反而较轻;(2)以往的方法均对处于合体字中和以独体字形式出现的同一成字部件按不同规则取码,而独体字大多是常用字,因而这种不一致大大加重了使用者的思维负担。本方法克服了这一问题,主要规则实现高度统一。这些改进使得本编码输入法有如下特点
(1)便于学习。编码原理和主要规则与规范的汉字知识基本无冲突,且已有知识还可帮助本方法的学习和使用。(2)记忆负担小,且可利用大量助记因素。除个别部首名外,所有部件的代码均可按简单明确的规则,利用已知的字、部首和笔划的读音首母及笔形结构与英文字母的形似关系得到。本方法的特殊规定及非常规代码也很少。(3)输入速率及编码效率较高。本方法在不用简码、识别码等条件下的重码出现率低于绝大多数已公开的编码方法,易实现高速盲打输入。采用词码、高频字简码等措施后可将动态平均码长降低到2.5键/字以下。(4)适用范围广。可供不同方言区、不同文化程度和职业的人使用,包括专职电脑操作员和非专职使用者。可编码字集有很大的扩展余地,因而也可用于古汉语的输入等领域。对于国标基本集的汉字,初等文化程度的人只需对少数不常用但能构字的独体字(如廿,尢,兀等)的拼音首母加以熟记,即可对任一字进行编码输入。确定一些繁体的独体字(如“東”、“車”)及繁体部首后,也可对所有繁体字进行编码而无须改变规则。由于本方法的总编码空间大于4.5×105,因而可实现对国标基本集和第一至五辅助集的汉字及ISO/IEC10646标准中全部汉字(包括日本、韩国使用的汉字)进行编码,进而对全部约6万汉字进行编码。
表1部分独体字及其代码说明
1)各类型独体字的结构特征为a类(整体型),所有笔划均交叉或粘连,但至少有一个笔划不属于包含字;b类(多笔离散型),多笔连体的非字部件与其近旁的单笔划组成字,或几个互不相连的单笔划组成字;c类,(对称附笔型),一个整体型字或非字部件正上方有“丶”或“丷”,或两边有对称笔划群
、”丷”、
,或侧旁有
等;d类(对称双体型),由呈镜面对称、不相连的两个笔划群组成字;e类(包围型),一个二笔以下的非字笔划群被包围在另一非字部件内组成字;f类(单点嵌入型),一个点笔嵌入另一独体字的凹陷空缺或围成的空间组成字;g类(多字粘连型),一个二笔的独体字或部首(除“力”、“九”外)与另一独体字粘连组成字;h类,部首型独体字。
2)点笔与另一笔相交视为粘连,故“斥、丸”中“斤、九”为包含字。
3)增列的异体字。
4)右下方不与其它笔划相连的“”(竖折横)也属L形结构。
5)“叟”中“支”横笔两端均连其它笔划,故不能作包含字分出。
6)I型结构的交叉点位于C、O、Q、U结构上方时,虽按笔顺此交叉点晚于下方结构写出,仍应优先取I结构以减轻判断笔顺的困难;此外,同时存在C、O、U型结构及被包围在其中的其它笔形结构时,应优先取前者(外框),仅当外框已被取过时才可取被包围的结构。
表2常见变形独体字
说明1)因“厂”位于合体字字首时为单码部首,相应地
也为单码部首,代码为C。
表3部首名称及代码
说明
1)字或字母下“.”表示代码为此字首母或此字母。
2)名称为改动习用名或另定名。
3)助记因素“水”字中有V形结构。
4)按非字部件的规则取码。
表4常见非字部件及其代码
说明O为补位时用到的第三(或第二)位代码,注于括号内。多数部件的第三位码用不到,故未注出。
权利要求
1、一种声形递进汉字编码输入法,用计算机通用小键盘的26个英文字母对汉字进行编码和输入计算机,其特征是所有成字部件的代码为三位字母;所有非字部件的代码有一至三位字母,其第一、二位按与成字部件第二、三位代码相同的规则取得,第三位代码为O;确定的50—55个偏旁部首的代码为一位或二位字母,多数按其名称的读音首字母确定。所有独体字的输入码为按成字部件取码规则确定的三位字母加一位空格键;所有合体字的代码为按书写笔顺先后提取的各部件部分代码的集合,最多四位,具体规则为二部件字的代码由首部件第一、二位代码与末部件第一、二位代码组成;三部件以上字的代码为首部件第一、二位码加次、末部件的首位码。如首部件为只有一位代码的部首,则二部件字代码由首部件代码与末部件的三位代码组成,三部件字代码由其首、次部件首位码与末部件的首、次位码组成,四部件以上字的代码由其首、次、第三和末部件的首位码组成。
2、一种如权利要求1所说的声形递进汉字编码输入法,其特征是独体字(包括成字部件)的第一位代码为其读音的拼音首字母。独体字的第二、三位代码(或非字部件的第一、二位代码)由其中的包含字或包含部首(即属于部件但不被部件中其它笔划穿插的字或部首)的读音首字母、或由其中的笔形结构的一位代码、或由其中的五种基本笔划名称的读音首字母组成,其中包含字(部首)和笔形结构的取码顺序先于笔划,即仅当从包含字、笔形结构取不足所需代码位数或不存在包含字及笔形结构时才可按书写顺序从构成独体字的笔划取得其代码。具体规则为(1)分别从笔顺最先和最末的包含字或笔形结构取得独体字第二和第三位码;(2)如只有一个包含字或笔形结构,则按(1)取得第二位码后,从全字首笔划或未取过码部分的末笔划取得第三位码;(3)如无包含字和笔形结构,从独体字首、末笔划取得其第二、三位代码。
3、一种如权利要求1和2所说的声形递进汉字编码输入法,其特征是用以构成部分部件代码的汉字笔形结构为十一种具有特定形状的笔划或笔划群,具体笔形结构及其一位代码(括号内字母)为人,八(A);匚,(C);二(E);十(I);
ㄋ(J);乚,
乙,
(L);口,凸,凹,(O);
尸等(不规则四边形)(Q);
山,
(T);凵,冂,
冂,(U);丷,
(V)。其它笔划与这些笔形结构相交叉不影响笔形结构的判定及据此确定部件的代码。
4、一种如权利要求1所说的声形递进汉字编码输入法,其特征还在于,按汉语词编码输入的规则为所有词的输入代码为四位英文字母,其中二字词的代码由首字第一、二部件的首位码和次字第一、二部件的首位码组成,三字词的代码由首字第一、二部件的首位码和次、末字首位码组成,四字以上词的代码由前三字和末字的首位码组成。
全文摘要
一种声形递进汉字编码输入法,用26个字母键将汉字输入计算机,每字最多4键。独体字(成字部件)有3位代码,首位为拼音首字母,第二、三位取自字形。非字部件代码第一、第二位按独体字二、三位码的规则确定。常见部首的1-2位代码取自名称的拼音首母。合体字的代码由各部件代码按递进规则组合而成。本方法简单易学,国标基本集汉字的重码出现率低于0.05%,并可用词码输入。不更改规则即可对全部汉字进行编码,属通用型汉字输入法。
文档编号G06F3/023GK1119762SQ95100489
公开日1996年4月3日 申请日期1995年3月1日 优先权日1995年3月1日
发明者范志强 申请人:范志强
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1