中文编码输入法的制作方法

文档序号:6555124阅读:218来源:国知局
专利名称:中文编码输入法的制作方法
技术领域
本发明涉及形码输入法,特别是利用字、词、句及其成分的特征对其编码输入的一种形码输入法。
背景技术
形码输入法选择码元,定义使用键盘,遵守编码输入规则,根据输入软件,对字、词编码输入,用于计算机中文信息处理。
太极码和郑码选择字根、字元作为汉字的码元,用笔画、笔数、笔顺和组合形式描述、限定码元及其形体,描述的内容作为码元分类的规则和码元归位的判断方法。
定义使用键盘包括定义控制键和功能键,设置中文输入环境及字词输入状态,供字词输入及其输入法使用;定义字符键并划区分位,每类码元定义在一个字符键上,确定取码和代码所采用的符号及其数量,供取码和击键录入代码输出字、词使用。还定义选择键、翻页键、通配键,选择输出提示框或提示行的字、词。
编码输入规则有取码个数、取码顺序和拆分原则,五笔字型的还包括取码的机制和方式。码元用符号替代的机制是从形取码,即据形体取码。取码方式是加号连接一、二、三末四个字根码的公式。输入的全过程有拆分、取码、键入等环节。
输入软件有字、词输入软件,还用来变换汉字的繁简和字号、字体。字输入软件由字库和算法组成,字库由点阵汉字及其内码形成,字符集汉字及其区位码是其外部表现形式。词输入软件由词库和算法组成,词库由点阵词及其内码形成,点阵词及其内码由点阵汉字及其内码生成。算法又叫键盘处理软件或输入码转换模块,由输入软件设计确定。
现有形码输入法认为定义在字符键上的是码元不是具体的编码输入规则,因而没有作为编码输入规则的一部分。决定码长的依据没有,人为指定码长且字码略长。取码顺序只有字的依据,且涵盖的内容较多从规定一个字的几个码元谁先谁后拆分和取码来看,应当是编码的程序;接着确定符号在代码中编排的次序与位置来看,才是一条规则;在此基础上输入一个字、词时决定击键次序来看,应当是输入的程序。拆分原则实质是对码元的形体大小所作的原则性规定,首先属于选择码元的原则,其次才是拆分方法。综上所述,现有编码输入规则不够完善。
选择码元其实是设计码元。仅为汉字设计码元且人为因素多,加之把码元定义在字符键上和从形取码,因而码元的数量有限、形体固定;造成使用者其实都在设计汉字的码元而脑力负担重,以致不规范拆字存在,致使词语一律套用字码编码,制约了形码输入法在语句阶段的发展。

发明内容
本发明所要解决的技术问题是提供中文编码输入法,以便明确形码输入法的体系,革新其原理和字符键上定义的内容,改进其规则和方式,完善编码输入材料,从而用键盘向计算机输入字、词、句元素。
本发明解决其技术问题所采用的技术方案是中文编码输入法的体系由原理设计、转换操作、输入操作三个方面构成,遵循编码输入法则,遵守转换规则和特征转换机制,定义使用键盘,根据输入软件,对字、词、句元素编码输入。
字、词、句元素统简称元素,是编码输入的对象,包括从笔画到语句的个体。编码输入法则有级别确定码长、结构控制编次、码元转换代符。级别、结构、码元为编码输入材料,码长、编次、代符为代码的要素。全部元素的所有成分都作为码元,分为主码元和附码元。元素按照分配原则和方法分配主码元。缺码元素补码和分离同码元素选取附码元。码元具有特征,同划分为各样类型归并为三十二种类别。一条转换规则定义于一个字符键适用于一种码元及其特征转换相应的一个代符,码元与代符转换的机制是特征转换机制。编码输入过程包括环节和程序,依次的环节有辨级定长、配选码元、取征换符、排符制码和录入输出,程序受结构控制。编码过程通过码元与代符的转换实现元素到代码的转换;输入过程通过录入代码输出元素实现代码到元素的转换。编码输入方式统一为Zs=M1+M2+M3+…+Mi=D1D2D3…Df,在相应的环节为分配模式、转换程式、编排格式及代码形式、输入方式,i和f从1到s的相同取值表明程序。
与现有技术相比,本发明原理科学,机制合理,规则完善,码元规范,分配得法。把元素看做由码长个数的码元及其特征组成的个体,建立特征转换机制,通过部分与部分转换的手段达到个体与个体转换的目的,即利用计算机通过码元与代符的转换实现元素与代码的相互转换,是本发明的指导思想和原理,较之拼形的理念和从形取码的机制有质的突破与进步。编码输入法则规范并指出了代码的要素和元素的编码输入材料,指明其内在联系,从而揭示了中文编码输入的规律和遵循的基本原则。各条转换规则一一定义于字符键,各种码元及其每样、每个码元以其特征按照特定转换规则与相应代符一一转换,改变了把码元定义于字符键和据形体取码的传统作法。明确提出编码输入材料设计的思想,设计的编码输入材料尤其是主码元完备、规范、科学、通用,使汉字编码输入的规范性程度显著提高,更使形码输入法规范、健康地发展到词、句阶段。码元及其特征分类较为科学,形近元素的编码及代码关联性强,同码元素的绝对数低,静态字平均码长少一码。在深入认识拆分原则的实质和作用后提出的分配原则与方法,其作用更明确、单一,分配主码元容易。此外,环节更分明、祥尽;程序清晰,其依据更充分、合理;编码输入方式统一、完整、适用。总之,本发明是从感性认识阶段进入理性认识阶段的编码输入方法,能用键盘科学、规范、便捷地向计算机输入字、词、句元素。


图1是中文编码输入原理图,该图表示本发明要点知识的联系并体现其原理;图2是中文编码输入体系图,该图表明本发明的体系和知识结构;图3是特征和转换规则定义表;图4是键位图,它是表示各字符键被各条转换规则定义使用及分布的示意图;图5是标点转换规则定义图,它定义了各条标点转换规则,还是表示各字符键被各条标点转换规则定义使用及分布的示意图,其中键符、元符未标。
具体实施例方式
下面参考附图结合实施例对本发明作进一步说明。
如图1、图2所示,本发明的体系由原理设计、转换操作、输入操作三个方面构成,各完成一定的任务,实现相应的目的。原理设计对中文编码输入法的内容进行设计,包括制订编码输入法则并设计编码输入材料,建立特征转换机制,制定转换规则并定义使用字符键,规定转换操作的环节、程序和方式,设计字、词、句输入软件。转换操作即编码输入操作,包括编码输入的过程和方式,为实现元素与代码的相互转换,按照规定的环节、程序、方式进行具体操作。输入操作即键盘操作,包括定义控制键和功能键,设置中文输入环境及字、词、句输入状态,简称定义、设置;在定义使用的字符键中,击键录入代码,计算机根据输入软件将代码转换成内码,再检索、输出代码相应的元素。
编码输入法则有级别确定码长、结构控制编次、码元转换代符。码长、编次、代符为代码的要素。代符是编码输入方法选定用于同码元一一转换的和构成代码的一套符号,每个代符有三种不同的表示形式并指明所击的字符键。码长是元素的代码所含代符的个数以及决定其代符的码元的个数,同时是输入一个元素的击键次数。编次是构成一个代码的几个代符一一从前到后、由左至右编排的次序与位置,同时是输入一个元素的击键顺序。级别、结构、码元为编码输入材料,分别与码长、编次、代符相互对应,由元素分别提供。由于元素本身条件不能完全符合和满足其代码三个要素的需要,因此首先必须进行编码输入材料设计。编码输入材料设计有级别设计、结构设计、码元设计。
级别设计区分出元素的级别,进而限定各级别所含元素的概数和适当的码长,明确特定级别的每个元素需要几个决定代符的码元和其代码由几个代符构成,保证有足够的代码和码位与特定级别的元素对应和容纳,使在特定输入状态下同级别元素输入时击键次数基本相同。级别是元素据功能和成分的不同形成的档次区别,有字、词、句三个层次,每个层次分为四个等级。字层次有笔画、偏旁、独体字、合体字四个等级。词层次有双基词、三基词、四基词、多基词四个等级。句层次有缺基句、五基句、六基句、多基句四个等级。每个层次、每个等级各包含一定数量的元素,字、词、句层次的元素简称字、词、句元素。元素的级别相同其代码的码长大体一致,同层次的元素的数量z、一套代符中同一种形式代符的数量d、码长s三者之间存在z≤ds的数量关系,s是z和d的函数s≥f(z,d)。所以,字、词、句元素相应码长为三、四、六码,分别对应字、词、句输入状态。所确定的码长只是适应一般的需要,可采用不等长技术对字、词、句元素编制不等长代码。
字元素包括基本集元素,还收入辅助集元素,未收的笔画、通用的偏旁和非字部首也应当收入。笔画等级的元素有点、挑、横、竖、撇、捺六种平笔和各种折笔。挑与捺不特殊使用时并入横与点,各种折笔并为折,共归并成点、横、竖、撇、折五种基本笔画。偏旁指字元素中由多个笔画或笔画组合构成的成分个体,一般使用稳定且结合较紧相对完整,作为编码输入对象不包括形体未发生改变的字偏旁。如冷、热、辨、攻的形旁,赳、鸡、常、恙的声旁;又如半、因、节、化中界限分明的两部分和有、予、匆、东中较稳定完整的两部分;再如氵、刂、凵、阝和髟、钅自身及其两部分;它们都属于偏旁等级的元素。独体字等级的元素是基本由若干笔画或笔画组合构成一体的汉字,如一、乃、又、干、目、占、允、夷、重、成、母、主、义、马、川、心。合体字等级的元素是由两个或几个独立完整的成分构成的汉字,其中形声字由形旁和声旁所构成,非形声的合体字也认为由形旁和声旁所构成。形旁、声旁难辨别的和非形声的合体字,以部首或起笔所在的成分为形旁,其余为声旁。例如锦、旗、腾、疆,采、伐、益、困,高、网、桑、鹿,亦、刃和祁、扎。合体字要是由三个独立完整的部分按左中右、上中下或品字形结构成,除可分为形旁和声旁外,还以三部分为三个一级成分,如狱、抛、树、带、岸、曼、荣,又如森、轰、荻,散、肄、期,陪、懿、躲,契、坠、驾。
词元素包括汉语中形式稳固使用广泛的词和词组,据一级成分的个数定等级。含非中文字符构成的词语也属于词元素。双基词有由两个字构成的单纯词和合成词,如烂漫、咖啡、选择、花儿、刚刚、武昌;还有由两个词构成且多于四字的词组,如摄氏温度计、诺贝尔奖金、攀枝花钢铁厂。三基词有由三个字构成的词和词组,如巧克力、电动机、地中海、念奴娇、三K党、想一想,其前两字或后两字多结合较紧,如解放军、现代化、三角尺、凤尾竹、湖北省、牡丹江和超时代、吨公里、李部长、放空炮;还有由三个词构成的,如中国人民解放军、时间就是生命、相信不相信。四基词由四个字或四个词构成,如春夏秋冬、兢兢业业、千方百计、深入浅出、有条有理和中华全国学生联合会;也有字数等于四个由两、三个词构成的,如浪漫主义、调查研究、被子植物、半殖民地、拖拉机手、哈尔滨市、诺贝尔奖、牡丹Ш型。多基词如布尔什维克、珠穆朗玛峰、失败是成功之母、广西壮族自治区人民政府办公室、不管三七二十一。
句元素指以点号为界的语句,所含标点符号和少数非中文符号算在其内,据一级成分的个数定等级。缺基句有一、二、三、四个一级成分,如“好!”、“但是,”、“来得及。”、“人类的产生,”、“什么是意识呢?”为缺基句。五基句由五个、六基句由六个一级成分构成,例如,“声不能传于异地、异时,”和“于是乎书之为文字。”多于六个一级成分的语句是多基句,如“同学们在歌舞厅唱卡拉OK和跳舞。”元素区分级别是为了对元素编码时使用定量、经济的码元,输入时用尽量少的击键次数录入。但从兼容的角度和元素的构成规律来看,元素的级别和形体大小又是相对的。元素之间可通过分割和结合进行级别的转变和大小的改变,以变化后的元素定码长和输入状态。较高层次或等级的一个元素可分割成若干个不高于该层次或等级的形体相对小的元素,汉字是下限;较低层次或等级的连续若干个元素可结合成一个不低于该层次或等级的形体相对大的元素,最大其码长不超过计算机的字长。兼容即不同级别的元素共处一种特定输入状态输入,达此目的采取的手段称作兼容技术。较低层次的元素直接当做较高层次的缺码元素,一般通过补码增加码长而升级;字元素升级使字、词兼容,字、词元素升级多为缺基句或五基句,使字、词、句兼容。同层次中等级低的元素通过二级分配或补码达到码长但不升级,使不同等级元素在一定码长和特定输入状态内兼容。
结构是元素的成分之间的搭配、安排及其次序,包括结构方式和结构顺序。结构方式指一个元素的成分与成分之间搭配、安排的方法和形式。结构顺序指一个元素的几个成分参与搭配、安排的次序。词、句元素的结构方式一般为线性排列,其成分参与线性排列的次序为结构顺序。字元素结构设计采用层次分析法中的粗分法,有左右、上下、内外、穿插和独体五种结构方式,其中独体结构又分为单、间、接、会、交、串、联七样组合形式。字元素的结构顺序就是笔顺,笔顺即一个字元素的成分以及笔画的书写顺序,由笔顺规则表明。结构以及结构方式、结构顺序表明元素的结构规律。
字元素具有五种结构方式及组合形式。左右结构如髟、顶、河、树;上下结构如钅、花、盆、曼;内外结构如起、凶、压、习、匡、同、回;穿插结构是一个成分从另一个成分或双数个位置对称形体近似部分的空间贯穿的结合形式,如忄、办、半、坐、东、肃、爽、水、班、街、兆、平、巫、噩、哀、栽、武。独体结构的七样组合形式如下单独笔画自成元素是单,如丨、乙;笔画相互间隔的形态是间,如氵、刂、彡、心、川、刁;笔端与笔端连接的形态是接,如匚、卩、几、己、口;笔端与笔中相接的形态是会,如亻、勹、厶、匕、人、久、正;笔中与笔中相会的形态是交,如乂、艹、扌、九、丰、井、车;接、会、交中至少含两样的形态是串,如彐、犭、攵、巾、山、巳、五、重;含间至少两样组合的形态是联,如纟、礻、彳、广、义、户、酉、戋、必。
笔顺规则有十条,表明字元素的结构顺序。从左到右,从上到下,内外有别,主次分明,高低相让;先平后垂,先顺后逆;单画头尾,多点不断,点撇相随。平包括横和带横的折,垂包括竖与撇以及前部带竖或撇的折。从左到右如朋、礼、川,从上到下如兰、画、手。一个成分只要上方被包围或左、下两方被汉字成分包围(旭、爬、匙)的先外后内,否则先内后外。占据主体范围(册、事、肃)、中心位置(业、幽、燕)和起骨架作用(母、舟、贯、巫)的形体一般先写全部或部分,后写附带形体和剩余部分。横向排列不交叉的形体上部相对高出的(承、办、兜)先写,低的后写,不高出时一般从左到右写;下笔、收笔或相交点的位置靠上的笔画(卫、女、非、及、车、里)一般先写,否则后写(忄、卩、火、母、叟)。非间组合的笔画,平的(十、厂、才、力、发、皮)、呈顺向的(入、九、匕)、主要部分位置靠左的(冂、女)先写,否则后写。单独笔画在字的或成分的上、左、左上三个部位时在其开头写;其它情况多数在其最后写,如丹、乒、成、术的单笔,丽各部分的点;少数按顺序写不最后写,如候、隆的单笔和鸟、卵在先的点。连续的点、对称隔开的点连写。左点右撇不论是否呈对称隔开按点撇、其它情况按撇点或撇捺连写。
少数字笔顺不统一择优定其笔顺,使其结构和相关主码元的特征统一。如丹、母的点后写,车、里下面的横在竖后写,万、乃、及的折在撇先写,肃的后两笔是撇和竖。内外、穿插和独体结构的字,每部分有的连续写完成,有的不连续写完成,其成分和结构顺序规定如下每部分连续写完成的以各部分为成分,结构顺序与笔顺一致,如坐的是人、人、土,像班、辩、厢、造以及做、州、莫、曼、品等也类似。起笔开始不连续写完成的,多数把起笔所在的成分定先后为第一,如巨、区、式、戒、可、幽、巫、团;少数按笔顺,成分用逗号分开,如成的是横、撇,折,折、撇、点;平的是横、点、撇,横、竖。中途开始不连续写完成的成分不变,但以多数笔画的形体定结构顺序和提取特征。如武、载的弋、戈,其次序在止、车后,其特征是折点和折撇,不是横逆折。
成分就是充当构成单位的元素。元素的构成规律是较低层次的元素是较高层次元素的成分;同层次中较高等级元素的成分是不高于该等级的元素。元素和成分的层次或等级越高其形体越大,反之亦然。元素的大小与成分的大小、个数之间的构成规律是成分的个数一定,其大小随元素的大小而正变;成分的大小一定,其个数随元素的大小而正变;元素的大小一定,其成分的大小随成分的个数多少而反变。构成规律反映了元素与成分的关系和元素的大小与成分的大小、个数之间的关系。成分有一级成分和二级成分,从元素中分析出的成分是一级成分,从一级成分中再分析出的成分是二级成分。笔数在特征描述、界定的一级成分又称基本成分,通常再不分析出二级成分。元素分析成分按构成规律和语言文字规范进行。平笔不论作元素或成分只一个基本成分。折笔作元素可从折点处分开分析出两个成分,作成分只一个基本成分。基本成分构成的偏旁、独体字通常只一个成分,取材少时特征描述、界定附带的笔画可另分作一个成分,共两个一级成分。非基本成分构成的偏旁、独体字一般有两个一级成分,其中构字能力差使用频度低或笔数多的独体字有三个一级成分。所有合体字都有形旁、声旁两个一级成分,其中规定形旁只作一个一级成分,声旁是基本成分时只有一个一级成分,否则就有两个二级成分。要是合体字由三部分结构成的认为有三个一级成分。词、句元素的一级成分又称基,其形体最小是汉字,最大是词组,一般同语言文字规范的基本一致,其个数尽量匹配码长。词、句元素中如果基是字的要分析二级成分就照独体字或合体字分析一级成分样进行。多基词、多基句分析成分原则上将多余的次要成分或附带成分与所属主要成分合并,最好类似于略语、缩句样舍弃,以减少成分个数使之符合码长。四基词分析出四个一级成分,六基句分析出六个一级成分,均不分析二级成分。三基词在一个、双基词在两个一级成分中再各分析出两个和四个二级成分,使成分数符合码长。五基句分析出五个一级成分,一般不分析二级成分。格律诗句多是五基句且末字必作一级成分。至多含四个一级成分的语句都是缺基句,可在其中一、二个一级成分中分析出二级成分,使一、二级成分的个数至多等于四个。
码元是元素因编码输入的需要而设计并提供的与代符一一转换的成分性质的转换单位,全部元素的所有成分都作为码元,分为主码元和附码元。用来提取形属性特征的码元叫主码元,主码元有一级码元和二级码元。每个元素一、二级码元的大小和个数与其分析出的一、二级成分的大小和个数吻合、同步。用来提取频度特征和结构特征的码元叫附码元。字、词元素本身以及句元素的末字为频度的附码元。字元素本身、造成词元素缺码或同码的字成分和句元素的末字为结构的附码元。附码元用于缺码元素、同码元素进行补码和分离。补码是缺码元素补充附码元以及代码补充代符的意思。分离就是每组同码元素利用各具个性的主码元或附码元使其分别对应不同的代码。
码元具有特征,特征为码元的标志与代表。特征是元素及其码元从形的角度呈现的有区别功能的形态及特点和字、词使用频率的高低。特征概括、划分为各样类型,归并为三十二种类别,主码元有二十七种,附码元有五种,每种特征包含一样或几样特征。主码元的特征通常在其前几笔范围内,其各样特征分别用不同的笔画、笔数、笔顺和组合形式及特点描述、界定。频度特征和结构特征均在附码元中,其各样特征各用一种结构方式或一样组合形式或五级频度中的每一级描述、界定。各样特征的描述、界定是各样特征的定义与内容。一种特征包含的一样或几样特征的定义与内容就是该种特征的定义与内容。主码元或附码元不论其形体大小,只要特征相同都为同一样类型。同时,码元根据特征分为同样数的类型和同种数的类别,每种码元包含相应一样或几样码元。同一样类型的所有码元共有同一样的特征,同一种类别的所有码元具有相应一样或几样特征。
码元与代符转换的机制是特征转换机制。一种特征的定义与内容,为某种及其每样、每个码元用一个特定的代符转换应具备的规格,同时还为某个代符对与之转换的特定一种及其每样、每个码元提出的标准。所以码元转换代符实质是其特征转换代符。
码元与代符进行转换相互遵守的标准与规格就是转换规则,是为码元转换代符这条法则服务的具体的编码输入规则。一条转换规则就是一种标准与规格并包含一样或几样标准与规格,一种或一样标准与规格用一种或一样特征的定义与内容进行规定。转换规则的条数跟特征的种数、码元的种数、同一种形式的代符的数量相等。转换规则定义于字符键,使各条转换规则与各特定字符键及其代符相结合,使各种码元同各特定字符键及其代符相联系,赋予被定义使用的字符键具有进行码元与代符转换的功能,码元以其特征按照转换规则与代符一一进行转换。一条转换规则定义于一个字符键,以适用于一种码元及其特征。每种码元及其每样、每个码元以其特征适应于一条转换规则转换相应的一个代符。每个码元及其特征一次转换一个代符,并只要符合一条转换规则中一样标准与规格即可。
特征和转换规则定义表简称定义表,如图3所示。该表竖向分为两栏,横向再分为三十二行。右边一栏介绍特征和转换规则及其定义与内容,左边一栏介绍代符的情况。每一行介绍说明一种特征和一条转换规则及其定义与内容,以及相应的一个代符。主码元的一种特征含几样的则各样特征以分号为界,其中仅组合形式或特点不同的各样特征,有的用“或”区分。附码元的一种特征含的各样特征用间隔或分号加以区分。同时,一条转换规则包括的几样标准与规格也相应区分开。主码元的各样特征和各样标准与规格的定义中,描述的笔画名称及其顺序、个数分别表示相应的笔画、笔顺、笔数或至少笔数,注明组合形式或特点的必须符合,未注明的不论。笔画一般指五种基本笔画,特殊注明的例外。另外,折据运笔方向改变的顺、逆趋势分为顺折和逆折。描述中,相连的几个笔画以顿号或“与”字区分。用字表笔数时,单是一笔,双是二笔,多是二或三笔,起笔一横或连续横属横起。描述中采用的特点的含义及相应形体如下“十”是横与竖的交,“木”是横、竖、撇、捺(点)的串。双折指两顺折或顺折、逆折各一。任何笔画穿头必交,交必穿头。开口指竖与折的形体一端或两端间隔开;开口和穿头仅在上方或上下都有属上开口、上穿头的特征,仅在下方的是下开口、下穿头。竖与折被封口的形态叫框;用横封口的口字旁又叫口字框;实框指框内至少有笔画成分或框的左右穿头,实框上下都穿头也属此;下盖口指竖与折封口的笔画宽出的特征。框下另带非字偏旁是竖与折的下相连的特征。同一个代符有序号、键符、元符三种形式,代码相应有数码、键码、元码三种记法。各三种的效果等同并可调换,一般选用一种以求一致。键符即所在键符号,是码元同字符键及其符号、乃至其二进制代码相联系的标志,键符和键码便于在键盘上定键和击键。元符是具有该种码元典型特征的汉字,在键位图中代表相应的转换规则。元符和元码便于学记和称说,利于编码和击键。序号从00-31,指明代符和行在定义表中的次序,还表明代符、被定义的字符键和各条转换规则在键盘上的键位与顺序。数码便于元素定序。
各字符键被各条转换规则定义使用及分布的示意图简称键位图,如图4所示。该键位图表明各条转换规则在各字符键的定义与对应关系、安排与使用情况以及在键盘上的区位布局和条理。三排共二十七个字母键(含M键右边的<键)按左右手分工分作六排,从右上排起逆时针方向按排划为点、竖、撇、折、横五个笔画区,各笔画区依次分别占据5、5、6、4、7个键,B键属撇区,N、M和<键并入横区。各笔画区从中间向两边地由前到后分笔画位,一般每笔画位使用一个键。为调剂主码元涉及元素的数量,各笔画区有的笔画位略有细分或合并,有每笔画位使用多个键,还有几个笔画位共用一个键。点、撇、折、横四区基本依次为横、折、撇、竖、点笔画位。竖区的折笔画位使用前四键,其余共用Q键。主码元的各条转换规则据代表的元符的起笔笔画定笔画区,基本按次笔笔画定笔画位,对应00-26号键。字母键下排右边的>、?键和上排右边的[、]键为附加区的27-30号键,依次分为折、撇、竖、横笔画位,附码元的四条转换规则据代表的元符的起笔笔画与其对应,其中27、28号键的代符还分别定为笔画、偏旁的首代符。附码元的高频的转换规则定义于附加区的31号键(空格键),指定的键符为0(读líng),其代符用在代码的非首位都是结束符,用在首位作为首码符时是“的”字的代码,只单击空格键输入。
编码输入过程是每个元素完成与其代码相互转换的操作流程,包括环节和程序。依次的环节有分辨级别判定码长,审定成分看准结构并分配主码元选取附码元,提取特征转换代符,编排代符编制代码,以及录入代码输出元素;概述为辨级定长、配选码元、取征换符、排符制码和录入输出。程序包括编码程序和输入程序。每个元素的各个码元依次一一完成配选码元、取征换符、排符制码这一组环节的次序是编码程序。每个元素录入输出时,击其代码依次各个代符的相应键的次序是输入程序。元素的结构相同则程序相同,输入程序与编码程序一致,均受其结构顺序及结构方式控制。
编码输入方式集中体现编码输入法则、具体表现编码输入过程的环节和程序,以公式Zs=M1+M2+M3+…+Mi=D1D2D3…Df表现。其在相应的环节为分配模式、转换程式、编排格式及代码形式、输入方式。式中,Zs表示元素及其代码,s还表示码长并区分元素的层次,s等于3、4、6时Zs分别为字、词、句元素及其代码。Mi表示每个元素的任一个码元及其特征,i≤s,i从1到s的依次取值表示一个元素的Mi的顺序号与个数。M1+M2+M3+…+Mi表示一个元素依次分配和选取并待转换的几个码元及其特征,同时表明分配模式和转换程式。Df表示与Mi相应的一个代符,f=i,D1D2D3…Df表示与M1+M2+M3+…+Mi相应的一个元素的代码,同时表明编排格式、代码形式以及输入方式。i和f依次从1到s的相同取值表明程序。
编码输入方式在字、词元素中各有三个具体公式,在句元素中有两个具体公式。具体公式中的Mi用编号表示,编号由中文数字和括号数字组成。字元素编码输入中,声旁后写的合体字用Z3=一(1)+二(1)+二(2),声旁先写的合体字用Z3=一(1)+一(2)+二(1),笔画、偏旁、独体字和由三部分结构成的合体字用Z3=一(1)+二(1)+三(1)。词元素编码输入中,双基词用Z4=一(1)+一(2)+二(1)+二(2);三基词用Z4=一(1)+二(1)+三(1)+x(2),x(2)是任一成分中分配的第二个二级码元或选取的附码元,三字词的X(2)一律移至最后,其余的就随该成分的第一个二级码元后;四基词和多基词用Z4=一(1)+二(1)+三(1)+末(1),四基词的四(1)就是末(1)。字、词元素的具体公式中,中文数字表示一级码元及其特征的顺序号与个数,括号数字表示分配的级次和特定一级成分分配的二级码元及其特征的顺序号与个数,(2)还表示附码元及其特征。句元素大致分为前、中、后三部分或前、后两部分,每部分一般分出两个或三个码元,一般分别用公式Z6=一(1)+一(2)+二(1)+二(2)+三(1)+三(2)和Z6=一(1)+一(2)+一(3)+二(1)+二(2)+二(3)。中文数字代表各部分,括号数字表示每部分码元及其特征的顺序号与个数。语句结构特殊成分数不均,各部分码元的个数可个别调剂。
元素编码输入按照编码输入方式及其具体公式进行。在设置输入状态后,每个元素实施编码输入的操作,都必须经过配选码元、取征换符、排符制码和录入输出的环节,也就是按照分配模式、转换程式、编排格式和输入方式进行;每个元素的几个码元一一每次完成上述四环节的先后次序必须符合程序,也就是依照该元素的结构顺序及结构方式进行。
元素为决定其代码及其代符据自身条件分出个数尽量匹配码长、大小尽可能符合成分的主码元叫做分配。分配有一级分配和二级分配,分配出一、二级码元,其作用实质是划定、指明每个元素提取各个特征的开始位置以及大小范围。依照元素的结构规律和构成规律进行分配,是元素分配主码元的分配原则。分配方法有字元素的分配方法和词、句元素的分配方法。具体说来,一个元素的几个主码元谁先谁后分配要按照结构顺序进行,部分内外结构和穿插结构的合体字还要考虑结构方式;多从结构相对薄弱处分开,功能相同或结构紧密稳定的成分尽可能分在一起。各层次、各等级元素分配的主码元的大小与其成分的大小基本保持一致,个数尽量匹配码长,不可为够码长越过基本成分或特征规定笔数的下限;以一级分配为主,当一级码元的个数不够码长时,可在指定的一级成分中二级分配。一个元素至多在两个一级成分中二级分配,被二级分配的一级成分再不作一级码元而作为两个二级码元。二级分配的具体方法是一级成分是词的再选末字,是字的再取除第一个码元外的余下形体,简称词选末字,字取余形。
配选码元环节按照分配原则和分配方法准确地对元素分配主码元、选取附码元,并将结果用分配模式表明,是正确编码、快捷输入的前提与关键。用分配模式表明结果时,主码元只写其提取特征的部分,界线不明或不便写出时可将依次主码元的笔数用加号连接。词、句元素的主码元可在提取特征的部分下面标点或横线,标横线的要二级分配。附码元及特征用带括号或引号的代符标明,方括号指结构的,圆括号指频度的。
字元素的分配方法是量体裁衣,一分为二;“义”不容辞,“音”地制宜。意思是说平笔和由一个基本成分构成的偏旁、独体字只有一个一级码元;折笔从折点处分开分配两个一级码元;非基本成分构成的偏旁、独体字和合体字每次都一级分配出两个一级码元。合体字中,形旁不论形体大小必作且只作一个一级码元;声旁是一个基本成分则不再分只作一个一级码元,否则再一分为二,二级分配出两个二级码元。其中少数独体字和由三部分结构成的合体字可一分为三个一级码元。字元素分配主码元还要注意把握以下细则。尽量满足特征和转换规则规定的笔数,照顾前、后主码元的完整性,连带的笔画或部分分在一起;比如,礻、云(2+2),闩(3+1),衤、示、乐、弗(3+2),在(3+3),空(5+3),重(2+5+2),懈(3+7+6),堡(亻+呆+土)。形式相对集中稳定的笔画组合尽可能分在一起,多从结构相对薄弱处分开;比如,攵、心、开、井、天、夫、午(2+2),玍、矢、冉(2+3),疒、正、史、生、失(3+2),夷(4+2)。为满足笔数破坏了以下部分的完整性时,通过下部分的笔画重复加以补救,保证同一形体或同样结构分配的完整性、一致性和特征的统一性;例如,宀、彳、亏、亡(2+2),注、往(3+2+4),公共笔画同样,如串(4+4)。特定组合形式、特点附带的笔画取材少时另用,如干、于(2+1),甲、由(3+2),汪、狂(3+3+1);多时不另用,如皿(3+2)、里(5+2)。一般不以单笔作主码元,除非余笔、末笔是单笔,例如,犭、乞、寸、门(2+1),屯、引、牛、毛、手(3+1),世、术(4+1),成(2+1+3)、鱼(2+5+1);或者构字能力差且单起笔后的主码元完整,这样元素的单起笔(不含点)也可作主码元,如旧、画、么、买、习、飞。
能指示简化字一、二级码元大概部位与个数的“品”和“目”两个三框字称为分码框,通过不同方向放置覆盖汉字进行一、二级分配。“品”字框以上面的口为准有正、倒、左、右四种放置方向,“目”字框有横、竖两种放置方向。一、二级分配同时进行,将汉字按放置方向设想为三块或两块,对应三个框,被框覆盖的形体大抵指示主码元及其个数。“品”正置和右置按逆时针方向、“品”倒置和左置按顺时针方向能提示一般汉字采用主码元的顺序。例如,“品”正置花、前、琵、阔、爽;“品”右置别、散、勉、武、欣;“品”倒置坐、望、微、愁、型;“品”左置海、料、昨、送、酿。“目”横置沿左中右、“目”竖置沿上中下提示一般汉字采用主码元的起止与先后。例如,“目”横置健、世、衡、准、机、游、抛、趣;“目”竖置常、见、金、界、凤、赢、燕、康。
词、句元素的分配方法是看菜吃饭,大小适当,多弃少分,各取所需。就是说,根据词、句元素的形体大小及其成分的形体大小和个数多少,确定一级码元的大小和个数,一般成分要作一级码元,特殊成分(对义或形区别作用大)必作一级码元;成分的个数多于码长时要舍弃或合并,少于码长时区别作用大或主要的成分只要不是基本成分还要二级分配,使一级或一、二级码元的个数尽量符合码长。
词元素主要有一级分配,双基词、三基词还要二级分配,其中缺码元素按实际个数的主码元分配。四基词如看菜吃饭、因势利导、中华全国妇女联合会、中国共产党中央委员会。双基词的两个一级成分只要不是基本成分都还要二级分配,如中国、解放、人民解放军、马克思主义、密克罗尼西亚;缺码的分配如人员、投入、工厂。三基词一级分配后还要对其义区别作用大的一个一级成分二级分配,如中国人民解放军、中国共产主义青年团、中国文字学会、联合国教科文组织;其中三字词在结合紧密两字外或区别作用大的一个字成分二级分配,分出的第二个二级码元都移至第四个,如解放军、农副业、含羞草、超导体、吹牛皮、没来由、蝶恋花、绿油油、电影机、电视机、不得不;二级分配的字成分不好确定就在末字分配,如白兰地、念奴娇。缺码的分配如劳动力、三合土、土皇帝、人贩子。多基词分配把次要成分与所属主要成分合并,或类似于略语样舍弃,如新疆维吾尔族自治区人民政府办公室、全国信息及文献标准化技术委员会、失败是成功之母;多基词不好合并或舍弃就按前三末一分配,如英特纳雄耐尔、不管三七二十一。
专有名词依照词元素分配。地名如周庄、后湾、喻家畈、吴家畈、吕家墩、长安街、牡丹江、黑龙江省、阿拉伯半岛。人名如牛顿、欧阳修、司马相如、才旦卓玛、爱新觉罗·溥仪、西萨·班·达依尔;三字汉族人名同姓在姓和辈分以外的字中再分配,如毛泽建、毛泽民和严顺开、严伟开,辈分不便判断多在中间字再分配,如刘艳梅、刘春梅;异姓多在姓中再分配,如章顺梅、刘顺梅、席修梅。
歇后语一般作一个词元素,前后两部分各分配两个主码元。例如,飞蛾扑火——自取灭亡、老牛追兔子——有劲使不上、大路上的电杆——靠边站、下雨出太阳——假晴、孔夫子搬家——尽是书。有的前后部分主码元的个数略有调剂,如没有骨架的伞——支撑不开。歇后语往往只说出一部分,则该部分按一个词元素分配。例如,哑巴吃黄连、快刀切豆腐、诸葛亮皱眉头、石碑上钉钉子、窗户口吹嗽叭和独照、高水平、两面光。
大写中文数量词的字、词元素作如下规定并分配。每个字都是一个字元素,按照汉字分配主码元。每个词元素均以大写数字(零除外)开头,后面带一个计数单位或计量单位,如叁仟、陆拾、捌百万、肆元、玖担;或各带有一个,如柒万元、捌拾吨;不可计数单位、计量单位开头,不可连续两个大写数字(零除外),同一种类的单位连续两个尽量避免。每个词元素至多含四个字,如壹佰零贰、壹佰贰拾、伍仟叁佰、伍角陆分、玖拾陆吨、柒拾万元。小写中文数量词的字、词元素类似规定并分配。
句元素一般按成分分配主码元,成分的大小随元素的大小相应变化,以求其个数符合码长。注意选用主要成分、特殊成分作主码元。诗句分配注意意义节奏兼顾音调节奏,且末字必作主码元。六基句如“刘胡兰献出了年青的生命。”、“我们机械厂超额完成上半年任务。”、“于是乎书之为文字。”、“前进,各民族英雄的人民!”。五基句如“声不能传于异地、异时,”、“留取丹心照汗青。”、“我们圆满完成抢修任务。”缺基句仿照汉字和相应等级词元素分配,如“但是,”、“好极了!”、“语言是什么呢?”。多基句分配把次要成分与所属主要成分合并,或像缩句样舍弃;合并或舍弃的次要成分,就词性来说多为虚词及量词、形容词等,就语法成分来说多为补语、状语等连带、附加成分。例如“共产党员刘胡兰英勇地献出了年青的生命。”、“他替我送了一本书给吴老师看。”、“把陈景润选调到数学研究所来当实习研究员。”、“特别是破坏群众路线和实事求是的优良传统。”、“许多遭到林彪、江青打击诬陷的同志,”、“火热鲜红的心搏动在热血沸腾的胸膛里,”。连续缺基句可结合为一个句元素并分配,例如“东风恶,欢情薄,”、“一怀愁绪,几年离索。”、“错!错!错!”。含成分较多形体较大的一个语句可分割成二、三个句元素,例如“每个青年都希望自己将来成为”“一个对于社会主义事业有贡献的人。”。
分配后一级码元的个数或一、二级码元的个数少于码长的元素是缺码元素。补码方法有哪缺哪补;前补结构尾补频度;同补频度缺补结构。就是说,哪个一级成分造成缺码的就在哪个一级成分的第一个二级码元后补附码元,三字词的例外。选取哪种性质的附码元要看补在什么位置与次序,在末尾补的一般用频度的,补在除末尾外的一般用结构的;还要看用于什么元素与起什么作用,分离同码元素时多用频度的,缺码元素补码时多用结构的。笔画和偏旁除指定27、28号的代符补其代码的首代符外,平笔、部分单折笔和一个基本成分构成的偏旁还要用其频度或结构的附码元补其代码的第三代符,如阝、卩和凵据频度分别补“的”、“小”、“和”。由一个基本成分构成的独体字依次用其组合形式和频度补其代码的第二、三代符,另外元符字只补空格;例如力、刀、乃主码元特征相同,力补“的”,刀补“是”与“的”,乃补“是”与“小”;又如丁、卜只缺码补结构的“是”后再补“的”。声旁先写的两码合体字一般用其结构方式补其代码的第二代符,如召、攻、顶的第二码分别补“是”、“和”、“和”。两码独体字和声旁后写的两码合体字一般优先用其频度的附码元补其代码的第三代符,如干、于、红、灯、钉只缺码都补“的”,又如右与石、叫与叩、贝与冈、叶与呆各组两字缺码又同码,每组前一字补“的”第二字补“小”,已、己、巳和化、仇、仉每组各依次补“的”、“小”、“和”。两字词的两个字成分有几个基本成分就缺几码,哪个字成分造成缺码的就在哪个字成分后补该成分结构的附码元,也就是补其代码的第二代符或第四代符或第二、四代符。如八成的第二码、幼儿的第四码都补“小”,木厂的第二、四码分别补“有”与“和”;马刀和马力用末字结构的附码元“是”和“有”既补码又分离。三字词只可能缺一码,不论哪一个字成分造成缺码的,该成分结构的附码元一律移至最后,也就是补其代码的第四代符,如人贩子补“是”、劳动力补“有”。两字词、三字词补结构的附码元要是同码就用该词的相对频度补其代码的第四代符,如人手和入手补结构仍同码则第四码用频度的附码元分别补“的”、补“小”。缺基句、五基句常用的只补空格及结束符,如“春风不度玉门关。”和“科学技术是第一生产力。”。一般缺基句在后面依次补末字的结构和频度的附码元以及代符,如“我们干什么呢?”的“呢”作一个主码元及两个附码元“和”与“的”。一般五基句在末尾补末字的结构的附码元以及代符,如“象乎事物而构成之者也;”补也的结构的附码元“有”。缺码元素其代码用空格结束的是简码,简码对应的缺码元素是简码元素。充当元符的汉字是一码简码字,两码的字元素中频度高的是两码简码字,缺码词、句中频度高的是简码词、句。
同一输入状态中,至少两个元素对应同一个代码的现象是同码,这样的几个元素为一组同码元素。同码是由于码长相同、码元及其特征的类别相同和元素的结构相同共同造成的。分离方法有改用、改取和换补、加补。改用是一组同码元素中的某个或几个元素选择各特殊个性的主码元及其代符分离。不缺码且取材丰富的同码元素,优先考虑改用特殊成分分离,改用码元时按改用的分配。比如,湖、潮中湖频度高照常,潮第二个主码元改用日不是十;又如微、徽、徵改用几、糸、王不是山;再如湖北省、河北省的第四主码元改用胡、可,组织部、纺织部和快快地、悄悄地、慢慢地类似。改取是一组同码元素中的某个或几个元素调用原主码元非起笔开始的各具个性的特征及其代符分离。比如今和令中,令第二个主码元的特征改取折点不取点折;又如第一次国内革命战争、第二次国内革命战争、第三次国内革命战争的第一个主码元改取单横、双横、三横,不取第的左撇右单横。换补是同码元素中频度低的元素不用二级码元而用附码元及其代符分离。改用、改取不能分离酌情换补,如晴与睛、苕与茄中频度相对低的睛、茄换补其结构方式的“和”与“是”;又如浦江与汀江中,汀江换补江的左右结构的“和”。加补是既缺码又同码的元素利用附码元及其代符既补码又分离。字元素的如久、夕、勺久的第二代符是“没”,第三代符补“的”;夕、勺的第二代符都是“学”,第三代符据频度分别补“的”、“小”。词元素的如施工与放工、竣工与变工,每组前一个补“的”,第二个补“小”。使用附码元假如又同码,就再据频度分离。比如叫、叩、骂、吧、邑中,叩与骂都补“小”而又同码,则叩变为补“有”;又如咙、吠、呔、噘依次分别补“小”、“和”、“是”、“有”。四种方法处理后要是还有同码或超过五个的就在提示行选择。
配选码元后,取征换符环节顺次对配选的码元提取特征,依次码元提取的特征顺次转换代符,形成转换程式。转换程式去掉加号依次排列代符就是排符制码环节,编排的结果就是编排格式和代码形式以及代码。编排格式和代码形式同时又是录入输出环节的输入方式。主码元除改取不从起笔开始外,每个每次从起笔开始提取一个特征。每个附码元每次提取同一性质的一个特征,元素缺码多每个附码元可分别提取不同性质的各一个共两个特征。像冫、亠、丬、疒、广、文、方、立、衣、言、辛、音、麻、市、主、席、交、玄、亩、产、亦、旁、高、商等和冷风、壮汉、病人、妄想、就是、章程、辩证法、弃旧图新和辩证唯物主义等,作为元素是代码以“文”为首码符的字、词元素,作为主码元是用转换规则“点横、点挑”与代符“文”转换的同一种类别的主码元,余此类推。频度的三级、结构方式的上下结构、组合形式的会为与代符“是”转换的同一类别的各样附码元的各样特征。别的转换规则适应的元素和码元,其它元素和码元适用的转换规则,如此类推。
编码输入过程划分环节和用编码输入方式表示,是为了明确各环节的操作和具体细节。例如,照的一(1)=日(昭)、一(2)=刀(召)、二(1)=灬,Z3=一(1)+一(2)+二(1)=日+刀+灬=国+力+学=国力学=RXO=061803;又如照明,Z4=一(1)+一(2)+二(1)+二(2)=日+灬+日+月=国+学+国+用=国学国用=RORF=06030611;再如照明弹的一(1)=日(照)、二(1)=日(明)、三(1)=弓、X(2)=三(2)=单,Z4=一(1)+二(1)+三(1)+三(2)=日+日+弓+单=国+国+民+为=国国民为=RRVI=06061602;超时代的一(1)=走、X(2)=一(2)=召,Z4=一(1)+二(1)+三(1)+一(2)=走+日+亻+召=工+国+他+力=工国他力=MRAX=25061418。四基词如一清二楚的Z4=一(1)+二(1)+三(1)+四(1)=一+氵+二+木=一+没+工+十=一没工十=HPMN=20042524。具体公式后的是码元组成的分配模式,其后是代符组成的转换程式,再以后三个式子同是编排格式、代码形式及输入方式,因记法不同相应称为元码、键码、数码。熟悉后,具体细节和有的操作可以忽略。除特殊需要外,三种代符和三种记法只选用其中一种。句元素如“我们工厂超额完成全年任务。”的Z6=一(1)+一(2)+二(1)+二(2)+三(1)+三(2)=我+工+工+学+人+他=我工工学人他,又如“好极了!”的Z6=力十了了的。元素编码举例如下,其中字元素和双基词列出具体公式。
字元素编码


双基词编码


一个或二个同部位的成分相同的双字词是联基词,按一(1)+二(1)+一(2)+二(2)编码输入便于击键。如芙蓉(共共到学)、葡萄(共共可生)、拥护(可可用心)、逍遥(上人心心)、刚刚(同同中中)、说话(心心为我)、忐忑(上一心心)、乒乓(他他我学),其中像门闩(为为小一)、骨骼(同同是多)、鲤鱼(多多同是)、魔鬼(文有他他)为缺码的联基词。
三基词编码中,X(2)的位置不变的如拖拉机(可可十用)、氧化铝(生他生只)、加速器(力可只不)、知识就是力量(生文国力)、中国共产主义青年团(中共到国),相信不相信(十不上十);X(2)移至末尾的如加速度(力可文只)、亮晶晶(文国国用)、组织部(民民文同)、纺织部(民民文文),电视机(国心十同)、电话机(国心十我)、说没说(心没心用)。缺码的如人贩子(人同了是)、生产力(生文力有)。同码的如说一说(心一心的)、谈一谈(心一心小)、议一议(心一心和)。
四基词编码如,推陈出新(可了了文)、雪中送炭(不中为中)、拖拉机手(可可十我)、中华全国妇女联合会(中人力一)、众人拾柴火焰高(人可为文);多基词编码如失败是成功之母(生国不了)、广西壮族自治区人民政府办公室(文文人力)、珠穆朗玛峰(一我心中)。
下面一段文章的语句编码,竖线隔开的是一个句元素及其代码创新是一个民族进步的灵魂,(人国一民共民)|是一个国家兴旺发达的不竭动力。(国国学力不工)|没有科技创新,总是步人后尘,(没我人为上上)|经济就只能永远受制于人,(民文只心人人)|更不可能缩短差距。(可不可民为和)词、句元素中的英文字符可当作主码元看待编码输入。少时当作一个主码元,取首个或首末两个字符与键面符转换,比如,三K党(<KQE)、卡拉OK(QKOK)、UCDOS汉字系统(USPV);多时各作主码元,比如,Windows(WINS)、CTRL+ALT+DEL实现热启动(CADOKM)。字符造成缺码时仿照独体字补组合形式,如A股(A]FF)、B超(B]MX)、CT(C?T[)。
词、句中作成分的数字、数词输入时可作为主码元以序号为准转换,下横线包括的数字或数词为一个主码元。比如,9·11事件(09112214)、五·卅运动(05302525)、二·二八起义(02282502),十六届一中全会已经召开。(161601151618);年月日数作一个句元素,年数有三个或两个主码元,三个时如2002年11月20日,(200002112006)、1893年12月26日(180903122606),两个时末字用两次如1921年7月1日(192107010606)。
字元素升级时,简码字的简码保持不变,不同码的和同码中频度高的补空格及结束符,如上(上的)、已(民以的)、经(民以工的)、晴(国到同的);其余补结构的附码元,其中换补的要重新编码,如睛(国到同和)。字、词元素升级代码末尾是结束符的保持不变,不同码的和同码中频度高的补空格,其余依次补末字结构与频度的两码。
将[Caps Lock]键控制在关闭态,设置中文输入环境;接着用[Ctrl]键分别与F3、F4、F6键配合设置字、词、句输入状态,供各层次元素使用。每层次元素的输入软件设计及建立该层次元素库、录入代码输出元素,都在同样的输入状态中进行。每设置一个新的输入状态同时退出当前输入状态。将[Caps Lock]键控制在开启态,则由中文输入环境返回到英文输入环境。为建立字库,即产生字输入状态的编码输入的对象,必须装载基本集及第二、四辅助集元素,同时用区位码输入这些元素;为此,用[Ctrl]与F1配合设置区位码输入状态。在中文输入环境中输入特定层次的元素,要经过以下操作按相应输入状态设置的控制键和功能键后,击元素代码的依次代符的相应键录入代码,计算机据代码输出该代码相应的元素,简称击键输出。每进入一个输入状态后,可连续输入该层次的元素,再不按设置键。根据元素的相对性和构成规律,语句能分割成词,字能结合成词和字词兼容,还因为词元素输入效率较高,所以词输入状态是最佳的元素输入状态。字、词库尤其是句库中没有的元素,录入其代码后,往往没有元素输出或输出别的元素。这时录入人员就要按本发明的原理、规则、方式对该元素编码并设计其输入软件,将该元素(未设计点阵字模的字元素除外)收入库中,以后再输入时用其代码输入。
下排字符键右端的字符键及其字符“\”用作通配键及通配符,通配键又叫学习键、帮助键。每个通配符可替代元素代码中任何一个代符,输入时击通配键替代击该代符的相应键。一个元素代码的代符可用一个或几个直至码长个数的通配符替代。用通配符替代时,被替代的代符不同的、未被替代的代符不变的代码相应元素全部显示供序号选择键选择输出;元素代码被替代的代符越多,显示供选择的元素越多,可用翻页键一页页显示。因此,通配键有检索、查询元素及代码的作用,并借助序号选择键与翻页键输出所需元素。序号相应键为序号选择键。-、+号字符键为前、后翻页键。1-0数字键为数字选择键。未重新定义的功能键和字符键,在英文和中文输入环境其功能、作用相似一致。
字输入状态输入字元素。如民(民的)击“民”键与“的”键(V键与空格键)输出民字,众(人人人)连击“人”键(B键)三次输出众字;笔画丨(小上的)、偏旁钅(和生一)、金(人一为)击括号内元符相应键输出;今(人心的)、令(人以的)只击第二键不同,已(民以的)、己(民以小)、巳(民以和)只击第三键不同,微(我用生)、徽(我民生)、徵(我一生)只击第二键不同;鑫换补后代码为(人人是),与众输入只有第三键不同。
词输入状态输入字、词元素。如请君入瓮(心民人人)击“心、民、人、人”四键输出该词;民众(民到人人)、中华全国青年联合会(中人到一)、B超(B]MX)、二·二八起义(02282502)击括号内代符相应键输出各词;马刀(了一力是)与马力(了一力有)、人手(人我力的)与入手(人我力小)、主人公(文人人以)与主人翁(文人人力)各组只击第四键不同,劳动力(共工力有)、生产力(生文力有)第三、四键击键相同。在词输入状态输入单字时,简码字与字输入状态击键相同,如民、已、今、令;不同码的和同码元素中频度高的汉字还要加击空格键,如钅、金、己和众;同码元素中频度低的据补码后的代码输入,如鑫(人人人是)与众(人人人的)、睛(国到同和)与晴(国到同的)输入只第四键不同。
句输入状态输入字、词、句元素。如“虚心使人进步,骄傲使人落后。”(上他共了他共)、“春风杨柳万千条,”(到十可多的)、“十六届四中全会已经召开!”(161604151618),击括号内代符相应键输出该语句。在句输入状态输入字、词元素,原先在词输入状态空格键结束的不变至多击键四次,不是空格键结束的多还要加击空格键一般击键五次。如民、已、晴和睛(国到同和的);又如人手(人我力的)和入手(人我力小的),中华全国妇女联合会(中人力一的),独联体(用一他同的),浦江(没可没工的)和汀江(没可没工和的)。还为没有输入软件的语句提供一种编码方法,并进行句输入软件设计和存盘,以后就可用其代码录入输出。这种情况采用不等长技术在句不等长码输入状态项进行编码、设计软件、输入较好。在句输入状态中用30号键设置句不等长码输入状态项,每个语句多于码长的成分也作主码元,必要时还选取附码元,输入时一律空格结束。
中文输入除了输入元素外,还要输入中文标点符号、基本集1-9区的字符和繁体字等各种字符元素。在字、词、句各输入状态中设置输入状态项,输入各种字符元素。一种字符元素使用一个未被用作首码符的字符键设置该输入状态项,使在各输入状态中进入特定输入状态项的方式一样,供特定一种字符元素输入。每一种的同一个字符元素在各输入状态中输入时击键都相一致。因字符元素的代码中都带有各输入状态项的设置键,输入时不再加按设置键。设置输入状态项的字符键也在键位图中标示。
用29号键设置繁体字输入状态项,按此键一次再击对应简化字的代码相应键输入一个繁体字,然后自动返回到该输入状态项所在的输入状态。繁体字编码输入方式为Zf=29+Z3,输入时一定要清楚繁、简对应关系以及简化字的代码。一个简化字对应多个繁体字的在提示行选择。如乃的Z3=力是小=X[>,乃的繁体字的Zf=是力是小=[X[>。在字、词、句各输入状态中击[、X、[、>四键都输出迺字。还用[Ctrl]+F3+F3设置繁体字输入状态对其编码输入,繁体字编码输入方式有四个具体公式,用于不同构成的繁体字,分界明显的形旁同声旁一样可二级分配。Zf=一(1)+二(1)+二(2)+二(3)如蹝、癒,Zf=一(1)+一(2)+二(1)+二(2)如鬆、餻,Zf=一(1)+一(2)+一(3)+二(1)如運丶歡,Zf=一(1)+二(1)+二(2)+三(1)如俲、徹。输入蹝(同我上人、WSQB)击W、S、Q、B键输出蹝字。如有缺码、同码就仿效字元素的处理,像迺的Zf=一(1)+一(2)+一(3)+二(1)=可+用+[有]+心=可用有心,其中第三码补内外结构的[有],击“可、用、有、心”四键输出迺字。
用[]键设置中文标点输入状态项,标点符号(含四声调号)作为标点转换规则定义在键盘式样的定义表和键位图中,对应00-28号键,称为标点转换规则定义图,如图5所示。在字、词、句各输入状态中,按[]键两次再击相应键输入在前或在上的一个标点符号,按[]键一次击相应键再按[]键输入在后或在下的一个标点符号。如某键只定义一条标点转换规则就都输入同一个。每输入一个标点符号后自动返回到中文标点输入状态项所在的输入状态。
用[″]键设置键面符输入状态项,每输入一个键面符后返回。在字、词、句输入状态中,按[″]键两次再击相应字符键输入下档符和小写字母,按[″]键一次击相应字符键再按[″]键输入上档符和大写字母。键面符还能在中文和英文输入环境中一个一个地连续输入。在中文输入环境击一个字符键(如在特定输入状态还要再按回车键),输出相应一个小写字母或下档符;按[Shift]键再加击一个字符键,输出相应一个大写字母或上档符。在英文输入环境击一个字符键输出相应一个大写字母或上档符;按[Shift]键再加击一个字符键,输出相应一个小写字母或下档符。
用1-9数字键设置基本集1至9区字符输入状态项,用序号选择键选择输出提示框的各区字符并返回,或用鼠标点击选择。每个提示框至多32个字符供选择,一个提示框显示不完用翻页键前、后翻页。
逗号在中文标点、键面符、区字符输入状态项中输入如下逗号的转换规则定义在J键且专用,按[]键两次再击该键或按[]键一次击该键再按[]键都输出一个逗号。逗号作为键面符定义在[<,]键并作为下档符,按[″]键两次再击[<,]键输出一个逗号;如按[″]键一次击[<,]键再按[″]输出上档符<;其余的中文标点、键面符仿效输入。逗号是基本集第3区第12位号的字符,按3的数字键后击序号12键输出一个逗号。1-9区的前32个字符(00-31)类似输入,其后的字符要翻页。字母A和a在第3区的第33位号和第65位号,33-32=1,65-32×2=1;输入时,按3的数字键后,再按后翻页键一次,击序号01键输出A;接着又按后翻页键一次(共2次),击序号01键输出a。各区需要翻页选择的字符(32-94)类似输入。
在特定输入状态的条件下编制不等长代码输入的手段是不等长技术。设置各输入状态项为不等长技术;宽泛地讲,凡空格结束和选择输出也属于不等长技术。选择输出是输出、显示的元素不唯一时从中选出所需元素的办法。
重码又称容错码,是特定输入状态以及特定码长时一个元素对应至少两个不同代码的现象,像联基词的编码输入。一般元素主要因为分配和提取特征不当而重码。如珠穆朗玛峰和秀(3+2+2)则重码;丹按(3+1)分配,示、元分配为(3+2)、(2+2),如按别样分配则重码。这样产生重码的元素应按正确途径重新编码输入。选择使用附码元因情况复杂容易造成重码,只有熟练掌握分离方法和补码方法,才能对同码元素和缺码元素正确编码以便准确输入。对分离方法和补码方法不熟悉的人员,可以用通配键替代附码元的相应键选择输出,待熟悉后就可对同码元素和缺码元素进行盲打。在提示框选择,击序号选择键或用鼠标点击提示框相应元素的序号,超过32个要翻页。在提示行选择,击数字选择键或用鼠标点击提示行相应元素的数字,超过10个要翻页。
输入软件是指元素及其代码(输入码)与元素库相应的点阵元素及其内码(区位码和国标码、机内码、字形码等)两个数据单元之间的确定对应关系,并把这种确定对应关系用数字形式有序存储在计算机中的数据集。输入软件有字输入软件、词输入软件和句输入软件。输入软件设计就是建立两个数据单元之间对等或对应的算法,这样的算法再由计算机认定并计算。特定码元通过定义于字符键上的转换规则转换成特定代符,特定代符用相应键的字符表示进而用该字符的二进制代码表示,即特定码元转换成特定二进制代码,为输入软件设计提供数据单元。并且,计算机通过识别特定二进制代码从而识别特定码元,以至识别元素。码元以及元素转换成二进制代码是输入软件及其设计的基础和前提。现有技术中,输入软件设计称作强制记忆或自学习、自定义、自造词组等。
字、词、句元素设计其输入软件并建立字、词、句库,以及自造的词、句设计其输入软件并扩充词、句库,按照如下步骤操作。
1、编制、录入、存放该元素代码。据元素或自造词、句按照本发明编制其代码,在相应输入状态击其代码的代符相应键录入代码后(假如没有元素输出)再按回车键,该元素的代码录入完毕并存放。比如,“存”的代码是(不了一、LCH),击L、C、H三键录入该三个小写字母再按回车键,其代码录入完毕并存放在随机存储器。又如“内存”(中人不了、TBLC),击T、B、L、C四键再按回车键,存放该代码。再如“编制、录入、存放该元素代码。”(民民不心工他、VVLUMA),击相应六个键再按回车键存放该代码。
2、生成并输入、存放该元素。生成并输入、存放一个元素在存放该元素代码后接着进行,也存放在随机存储器。字元素必须由字符集元素(或其他输入法字库元素)一个一个生成。由此可知,每个字元素及其代码的数据单元与字符集中相同元素及其内码的数据单元之间建立起确定对应关系;计算机通过认定某种算法计算,使一个字元素的两个数据单元对等或对应。一个个生成的字元素形成本输入系统的字库;一对对相互对等或对应的数据单元就是每个字元素的输入软件。这样的数据单元形成的数据集就是本输入系统的字元素的输入软件。从区位码到字形码的数据单元的对等或对应,按国家规定的算法由计算机自动完成。例如设计“汉”的输入软件先在字输入状态录入“汉”的代码(没以的、PZO)并按回车键存放该代码,后在区位码输入状态用“2626”生成并输入“汉”,按回车键存放本字库的该元素。整个过程是汉→没以的=PZO=01110000 0111101000000000=>2626(00011010 00011010)=>00111010 00111010=>10111010 10111010→汉。简略表示如伧→ABC=01100001 01100010 01100011=>5687(0011100001010111)→伧。其中,单箭头前、后为转换关系,双箭头表示定义算法后其前、后对等或对应,等号前、后为对等关系。繁体字输入软件设计跟字元素的同理、一致。
词库元素和自造词语的生成由字库元素繁殖,或由字、词库元素繁殖。词输入软件设计跟字元素类似,码长不同要在词输入状态进行。比如,设计“内存”的输入软件先录入存放“内存”的代码TBLC,再输入内(中人的、TBO)和存(不了一、LCH)后按回车键生成并存放“内存”这个词元素。即内存→TBLC=01110100 01100010 0110110001100011=>3658 2070(00100100 00111010 00010100 01000110)→内存。又如特征转换录入、存放其代码GSTK;该词语可由特、征、转、换四个字元素生成,也可由特征、转换两个词元素生成,输入后存放。则特征转换及其代码GSJK与特、征、转、换四个字元素及其内码(如区位码)对等或对应,或与特征、转换两个词元素及其内码(如区位码)对等或对应。再如中文特征转换编码输入法录入、存放其代码TGVJ;该词语可由其依次11个字元素生成;也可由中文、特征、转换、编码、输入和法六个字、词元素生成;还可由中文、特征转换、编码、输入法四个词元素生成。因此,该词语及其代码与其生成过程中的元素及其内码(如区位码)对等或对应。
句元素和自造语句的生成由字、词元素(还包括标点符号和非中文字符)繁殖,其所生成的字、词元素一定要是字、词库中已有的。句输入软件设计跟词元素的类似,码长不同要在句输入状态或句不等长码输入状态项中进行。
录入代码后假如有元素输出,则生成的元素与输出的元素同码。要对录入的代码编辑修改或参照分离方法重新编码重新录入,按回车键存放新代码;代码按照分离方法确实不便改变时,录入原代码,并据频度加击一个数字键,按回车键对加有数字选择键的代码予以存放。再对输出的元素编辑修改使之与要生成的元素相符,然后按回车键存放,或删除后重新生成、输入、存放。编辑修改用非文书编辑软件进行。
3、存盘。存放在随机存储器(内存)上的输入软件只能暂时使用,一旦关机或停机就将失去,必须存储到磁盘上,才能长期保存和使用。存盘时,可一个一个地存盘,也可若干个一次性地存盘。存盘的输入软件能长期使用,还能在计算机之间移植、安装。定型的输入软件也可固化常驻于内存而长期使用。
权利要求
1.中文编码输入法的体系由原理设计、转换操作、输入操作三个方面构成,遵循编码输入法则,遵守转换规则和特征转换机制,定义使用键盘,根据输入软件,对字、词、句元素编码输入。
2.根据权利要求1所述的中文编码输入法,其特征在于输入软件有字输入软件、词输入软件和句输入软件。
3.根据权利要求1所述的中文编码输入法,其特征在于编码输入法则有级别确定码长、结构控制编次、码元转换代符,级别、结构、码元为编码输入材料,码长、编次、代符为代码的要素。
4.根据权利要求3所述的中文编码输入法,其特征在于编码输入材料设计有级别设计、结构设计、码元设计,级别有字、词、句三个层次,每个层次分为四个等级,元素的级别相同其代码的码长大体一致,同层次的元素的数量z、一套代符中同一种形式代符的数量d、码长s三者之间存在z≤ds的数量关系,s是z和d的函数s≥f(z,d),结构包括结构方式和结构顺序,字元素中的独体结构分为单、间、接、会、交、串、联七样组合形式,笔顺规则有十条,表明字元素的结构顺序,成分就是充当构成单位的元素,有一级成分和二级成分,词、句元素的一级成分又称基,元素分析成分按构成规律和语言文字规范进行,全部元素的所有成分都作为码元,分为主码元和附码元,主码元有一级码元和二级码元,每个元素一、二级码元的大小和个数与该元素分析出的一、二级成分的大小和个数吻合、同步,用来提取频度特征和结构特征的码元叫附码元,码元具有特征,特征为码元的标志与代表,特征概括、划分为各样类型,归并为三十二种类别,主码元有二十七种特征,附码元有五种特征,每种特征包含一样或几样特征,各样特征的描述、界定是各样特征的定义与内容,一种特征包含的一样或几样特征的定义与内容就是该种特征的定义与内容,码元根据特征分为同样数的类型和同种数的类别,同一样类型的所有码元共有同一样的特征,同一种类别的所有码元具有相应一样或几样特征。
5.根据权利要求1或3所述的中文编码输入法,其特征在于码元与代符转换的机制是特征转换机制。
6.根据权利要求1所述的中文编码输入法,其特征在于转换规则是为码元转换代符这条法则服务的具体的编码输入规则,一条转换规则就是一种标准与规格并包含一样或几样标准与规格,一种或一样标准与规格用一种或一样特征的定义与内容进行规定,转换规则的条数跟特征的种数、码元的种数、同一种形式的代符的数量相等,转换规则定义于字符键,一条转换规则定义于一个字符键,以适用于一种码元及其特征,每种码元及其每样、每个码元以其特征适应于一条转换规则转换相应的一个代符,每个码元及其特征一次转换一个代符,并只要符合一条转换规则中一样标准与规格即可,特征和转换规则定义表的每一行介绍说明一种特征和一条转换规则及其定义与内容,以及一个代符,元符在键位图中代表相应的转换规则,主码元的27条转换规则对应00-26号键,附码元的5条转换规则对应27-31号键,标点符号作为标点转换规则定义在标点转换规则定义图中,对应00-28号键。
7.根据权利要求1所述的中文编码输入法,其特征在于编码输入过程包括环节和程序,依次的环节有辨级定长、配选码元、取征换符、排符制码和录入输出,程序包括编码程序和输入程序,元素的结构相同则程序相同,输入程序与编码程序一致,均受该元素的结构顺序及结构方式控制。
8.根据权利要求7所述的中文编码输入法,其特征在于编码输入过程以公式Zs=M1+M2+M3+…+Mi=D1D2D3…Df表现,其在配选码元、取征换符、排符制码、录入输出的环节中分别为分配模式、转换程式、编排格式及代码形式、输入方式,公式中的i和f依次从1到s的相同取值表明程序,编码输入方式在字、词元素中各有三个具体公式,在句元素中有两个具体公式,繁体字编码输入方式有Zf=29+Z3和四个具体公式,联基词按一(1)+二(1)+一(2)+二(2)编码输入。
9.根据权利要求7所述的中文编码输入法,其特征在于配选码元环节中的分配,是元素为决定其代码及其代符据自身条件分出个数尽量匹配码长、大小尽可能符合成分的主码元,分配有一级分配和二级分配,分配原则是依照元素的结构规律和构成规律进行分配,分配方法有字元素的分配方法和词、句元素的分配方法,分码框通过不同方向放置覆盖汉字进行一、二级分配,补码方法有哪缺哪补、前补结构尾补频度、同补频度缺补结构,分离方法有改用、改取和换补、加补。
10.根据权利要求1所述的中文编码输入法,其特征在于输入状态有字、词、句输入状态和繁体字输入状态,在字、词、句输入状态中设置输入状态项,输入状态项有中文标点输入状态项、繁体字输入状态项、键面符输入状态项、1至9区字符输入状态项和句不等长码输入状态项。
全文摘要
中文编码输入法是由原理设计、转换操作和输入操作构成体系,遵循级别确定码长、结构控制编次、码元转换代符的法则,遵守转换规则和特征转换机制,定义使用键盘,按照编码输入方式Zs=M
文档编号G06F17/28GK1904811SQ20061001994
公开日2007年1月31日 申请日期2006年8月8日 优先权日2006年8月8日
发明者余国桥 申请人:余国桥
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1