双拼汉语编码法及其键盘的制作方法

文档序号:6406646阅读:581来源:国知局
专利名称:双拼汉语编码法及其键盘的制作方法
技术领域
本发明属于汉语信息处理技术领域。
计算机在汉语世界的广泛应用,必须解决汉语人机对话这个技术关键,包括汉语的语音键盘录入,语音识别,语音合成和文字的键盘录入,字型识别和字型打印等汉语信息处理技术的几个方面。这些都要涉及汉语编码,至今未能统一解决。汉字的编码方案虽比较完善,也没有一种方案可接受为国家标准而广泛推行。
目前,已有近千种汉字编码方案相继问世,大致可分为字形码、语音码和字形语音混和码三种类型。字形码以汉字的形体特征为编码依据,以“优化五笔字型编码法及其键盘(发明专利CN85100837)”最为典型。但由于汉字结构比较复杂,导致形码的编码法也很复杂,操作者必须学会拆字组码,增加学习负担和大脑的工作量,使计算机的应用也避免不了汉字繁难复杂这一固有缺憾,不利于汉字的改革和汉语的现代化。事实上,五笔字型汉字编码法只在打字、印刷和统计等专业领域得到应用,一般人员难以学习和掌握,甚至计算机专业的技术人员也望而生畏。
字型语音混和码有以字形为主的,也有以语音码为主的,采用交叉特征作为编码依据,多少带有字形繁难这一因素,也不尽理想。
语音码应该是最理想的,因为只有语音码才是语言的本质特征码,才与人们以语音为基础的思维方式相吻合。口头语言和书面语言的共同点也仅在语音相同这一点上;同时,书面语言不过是口头语言的记载符号,文字有变更的余地,而语音却比较稳定。就汉语的自身优势而言,汉语口语是比较简单的,应该加以利用。从编码规则上看,只有语音码的取码依据是自有的,取码方法也是简单易学的。此外,还有汉语拼音多年普及这一社会基础。
字形编码不能用于语音编码,而语音编码却可以扩展为文字编码。因此,只有建立在语音基础上的编码法才能成为统一的汉语编码法。
现有语音编码法主要是针对汉字的,一般没有把汉语语音作为一个编码目标,只是用作汉字编码的依据和中介。以《汉语拼音方案》为直接编码依据的各种编码法,获得一个完整语音音节的编码均不少于3次,还要浪费近一半的主要编码空间。如“汉语拼音电脑键盘(CN85102628)”必须逐次输入声、韵、调才构成一个完整音节。为了减少编码次数、缩短码长,大多数方案舍弃了声调而直接进入下一个编码层次,即所谓“声韵双拼”,与实际的语音相偏离,并造成同音码的增加,为进一步的分离增加了难度。被广泛采用的拼音编码“双音编码输入体系”,也未能解决这一问题。
“两位半全信息汉语拼音编码法(CN86106542)”把声调的信息并入形码信息之中,也没有明显的优势。而“双程键中文小键盘和双程键双拼四声汉字输入(CN88104949.2)”改变了现有的击键方式,把键位分成轻、重2档,虽可击2次键输入一个完整音节,但增加了系统费用和键盘操作的难度,难以推广应用。
总之,还没有一种方案能够在标准键盘上击键2次即输入一个完整音节,即实现真正的汉语双拼。
本发明的目的在于解决汉语信息处理技术领域的统一编码问题,实现汉语语音编码的真正双拼,提供一种高效、简易且实用的双拼汉语编码法,进而扩展为汉字编码法,使汉语的信息处理更加方便。
汉语语音由声、韵、调三个要素构成,对应汉语拼音的声母、韵母和声调。有23个声母(无声母的合并视为“零声母”)、35个韵母和5个声调,组成近1300个汉语语音音节。如何获得这1300个音节的编码,是语音编码的关键所在。
把1300个音节直接分布在一个大键盘上,即可获得一键定音的效果。若按正方形排列,至少需要36行×36列。为了便于检索,必须使每个音节与其所在键位的行和列相关,最好是实现行和列的双拼,这和通用小键盘上的双拼要求是相近的。
在通用小键盘上实现双拼,也就是在小键盘上把大键盘上的行和列分2次对应出来。通用小键盘的主要键位一般为4行10列,实现这种对应从数量上是不成问题的,毕竟有1600个组合,比1300还要多。关键问题是要使这种对应具有较强的规律性,便于记忆和应用。
本发明首先确立了双拼的目标,通过分析汉语语音节表,才找出一定的规律,从而实现双拼。
不区分声调的汉语语音节表共有415个无调音节,而23个声母和1个“零声母”可与35个韵母有840种声韵组合,无效组合达425个。这些无效组合在音节表内形成空位,并且大多成方成块很有规律,如j、q、x和g、k、h,两者的空位正好互补。说明声母和韵母是有选择而相拼的。由此,可把声母按是否能与相同的韵母相拼而分组,一般可分成b、p、m;d、t;n、l;g、k、h;j、q、x、y;zh、ch、sh;z、c、s;f、r、w和零声母。除n、l几个特例外,每个声母至多可拼成20个无调音节,而r、f、w和零声母只能拼出10个左右。j、q、x与ü为首韵母相拼,正好可以填补Z、C、S相应的空位。根据这些规律,可以把汉语语音带调音节分解为双拼母音,再合并为一组双拼声母码元和一组双拼韵母码元,并得到一个声韵双拼无调音节表,见图1至图4。具体规则如下所述把能与i和u为首韵母相拼的声母分离出来,加一个“′”号区分,再把能与ü为首韵母相拼的声母并入前述声母中,jü与Z′合并记为z′j,qü与c′合并记为c′q,xü与s′合并记为s′x,能与ü和üe相拼的声母y与f合并记为fy,能与üan和üen相拼的声母y与ch′合并记为ch′y;r′与p′合并记为p′r′,fu即f′只有一个,可直接并入f中。从而组成40个左右的双拼声母码元。
一般不能与双拼声母码元同时相拼的韵母合为一组,即ang、iang、uan;an、üan、ian、ua;ai、ia、u;a、iu、ui;ong、o、iong、uo;e、ei、i;en、in、un;eng、er、ün、ing、üeng和ou、üe、ie、uang共10组。每组再按阴平、阳平、上声、去声各分为4个,轻声则并入阴平(也可并入其它声调之中)。这就组成40个双拼韵母码元。
双拼声母码元和双拼韵母码元组成双拼母音码元,可以拼出绝大部分汉语语音的带调音节。有几个叠加的音节因使用概率较小而且字数也不多,可以直接合并,必要时还可以安排在双拼的空码位置上特殊记忆。在GB2312-80的全部汉语带调音节中,双拼时出现重叠音节的有diǎ-dǔ、gě-gěi、hē-hēi、liáng-luáng、liǎng-luǎn、liàng-luàn,lao-lü、lǒu-lüě、lòu-luè、nè-nèi、nǎo-nǔ、nào-nù、nóu-nùè、shé-shéi、yō-yōng、zé-zéi、zhè-zhèi、pì-rì,pìn-rùn,总计22个,是由于声母或韵母的合并产生的,占双拼音节总数1271个的1.7%,对于一般的应用来说不必再进行分离或特殊记忆。如果需要的话,可以既保留合并的音节组,又把其中一个音节安排在另一个空码位上,如把gei编入g′ei,hei编入h′ei,lü编入len、luan编入b′uan,nuan编入m′uan等等,与所在空码位上的声母或者韵母相对应,尽可能的方便记忆。
当然,双拼码元的确定并不是唯一的,还可以有其它的方法;对拼码元的数量也可以稍加增减;增可简化分类便于记忆,减可缩小码元空间提高码元利用率。总的原则是,既要实现双拼,又要便于归类和记忆,还要便于在通用小键盘上应用。例如,对于南方人就可以根据发音差别,把不易区分的母音合并,使双拼码元进一步减少。
双拼码元确定之后,双拼的目的也就达到了。双拼是汉语语音音节的双拼,也就是汉语语音音节的一种两元分解和两元拼合形式,特点是只有一个层次的分合,应用起来十分方便。双拼编码空间有1600个,有效音节占用至少是1271个,利用率为79.4%,是语音编码中最高的。多余的空间可供扩充,使常用的数字、字母、标点等符号也编入双拼编码范围。
在汉语信息处理技术领域,双拼编码可以用作计算机的内部代码统一使用。语音和拼音类文字的键盘输入可以直接采用双拼编码;语音识别可按双拼原则分解语音,反之按双拼原则合成语音;拼音文字的识别和打印输出可按双拼原则分级处理;汉字的信息处理则可看作语音信息的更深层次。更重要的在于,双拼编码可以用作这些技术的通用编码,以便相互适应和相互转换,为汉语计算机的协调发展和各项技术的综合应用创造统一的编码条件。
此外,双拼编码还可用于其它领域,如汉语速记、汉语盲文、汉语手指语等等。汉语双拼还是汉字改革的一个方向,至少可以在计算机上首先应用,使计算机的汉语人机对话更为方便。
汉语双拼编码的主要优点,还是体现在汉语信息的键盘输入上,包括汉语语音、汉语拼音及其它书写形式的汉语拼音类文字和汉字的键盘录入。在此,我们把它们包含的语言信息中,语音音节的公有特征作为唯一的探讨对象,而把各自独有的特征放在下一步分别对待。这些语音音节的统计资料,全部来自书面汉语,由汉字的统计资料转换过来。我们把GB2312-80的汉字语音作为编码对象,把《现代汉语常用词词频词典(音序部分)》(宇航出版社,1990年6月第一版)作为主要的统计依据。
我们现在确定的双拼码元总计80个,恰好可以安排在通用小键盘的主键位即4行10列的键位上。每个键位既要代表一个双拼声母码元,又要代表一个双拼韵母码元,按每个音节输入时的先后顺序区分。4行10列的键位设置,是人手十指操作键盘的界限,超过这个数量,就进入了大键盘的操作方式,不利于快速键入和盲打。现有编码技术的键盘设计,虽有26或36键等各种布局,本质上还是4行10列的模式。最上一行数字键虽未直接采用,但在屏幕提示选择时还是经常用到的。为了便于盲打,尽量少用数字键,这是设计时应该注意的。
双拼码元需要安排在键位上。由于人手十指击键速度不同,一般由快至慢的顺序是食指、中指、无名指、小指和拇指,而一般人右手又快于左手;汉语信息处理时每个码元的使用概率也有差别,这就要求把高频码元安排在击键速度快的键位上。图1至图4给出了各个音节不分声调时的使用概率。相同声母码元的音节使用概率之和就是该声母码元的使用概率;同样,相同韵母码元的音节使用概率之和就是该韵母码元的使用概率。这是设计键位的主要依据。
双拼韵母码元的规律性很强,应该首先安排键位。双拼韵母码元共有10组不带调码元,它们又各有阴平、阳平、上声和去声4个主要声调,正好与键位的4行10列相对应。因此,韵母码元应该同列同韵母、同行同声调,这样便于记忆。我们按每组不带调韵母码元的概率分布和它们之间的相似关系确定横向布局;按每个声调的概率分布及相互关系确定竖向排列方式。图5中键盘图的上侧和左侧用虚线框给出了这种排列。
双拼声母码元的键位安排要难一些。可以单纯按它们的使用概率和分组关系及它们在汉语拼音字母表或声母表的顺序排列,这样便于记忆。然而,为了便于国际通用并享用现有的英文软件成果,还是兼顾通用小键盘的键位布局更为必要。
通用小键盘的26个字母键中,与声母码元同字母且使用概率次序相近的,大部分可以保留,其余的就可另行设置了。图5是我们优选的一个方案,每个键位图的中心是原有符号,其左上方为双拼声母码元,其左下角给出相应声母码元的使用概率。10个数字键被占用后,输入数字可在扩展型通用小键盘的右侧专用数字键上进行。中文数字因使用频率较高,可安排在S键入后的最上一排数字键上,除数字0对应“十”外,其余按数字的意义对应。
由于前40个高频音节的使用概率之和高达24.5%,所以定义一级简码是必要的。这些高频音节需与一个高频单音节词相对应,一级简码就是一级简码词。为了便于相互对应和简化记忆,选取含有声母码元的高频一字词为一级简码。图5中每个键位图的右下角即是。一级简码只需键入该键再加一个空格即可。
由于双拼声母码元是与双拼韵母码元相配合键入的,除一级简码外,要考虑这种搭配是否使左右手相继操作的次数更多一些。把双拼韵母码元按左右手分开,减掉一级简码的使用概率,分别算出与之相拼声母码元的使用概率,经比较发现,有的声母码元适合左手键位,有的则适合右手键位。为了沿用通用小键盘的键位布局,采用了图5所示的韵母码元的横向顺序而不是相反。
双拼编码键盘在本发明中的地位是举足轻重的,这里只能给出图5这一参考方案,其最终的布局需要许多人多年的实际应用和大量的数据统计才能确定。如必须考虑汉语口语的有关统计资料,才能适合广泛的需要。因为汉语口语的语音键盘输入对输入速度的要求最高,而有关的统计资料却很少。
利用双拼汉语键盘,可以输入汉语的多种语言信息,概括地说,就是语音、拼音和汉字的键盘输入。
汉语语音的键盘输入,是与语音识别相联系及相补充的一种输入方式。语音是由音节串构成的,只要逐个地输入音节,就可以把语音记录下来。双拼编码是音节的编码,只要使编码和音节一一对应,消除个别的重叠码,避免编码的二义性,就可以用双拼键盘直接输入。由于音节的双拼码是等长二码,音节之间可以消除间隔符,由计算机自动划分音节,所以能达到很高的输入速度。一般专职打字员的击键速度为400键/分,则语音的输入速度可达200音节/分,和汉语口语的表达速度相接近,这就可以用在汉语口语的实时记录上,实现汉语口语速记的电脑化。输入后的音节可以用汉语拼音的单个音节串显示、存储和打印,也可以用语音输出。如果配有语音自动分词系统,可以转化为汉语拼音词语;还可以用人工分词,直至转化为汉字文件。
汉语拼音及其它书写形式的汉语拼音类文字,可以用双拼编码及双拼键盘直接输入。所说的其它书写形式,是指汉语速记、汉语盲文、汉语的国际音标书写形式等拼音类文字。它们大多数都分词断空,码长不等,需要用空格区分。如果把双音词的4个编码定为常规码,不足4码的一律补一个空格,多余4码的一律只取4码,也可以减少击键次数。这类输入可以统称为拼音输入,主要用于不同文字形式的相互翻译,汉语语音教学,汉语程序设计等领域。如果把双拼汉语编码发展为双拼文字,那么这种拼音输入就要成为主要的汉语输入形式了。拼音输入是语音输入的更深层次,增加了音节的组词属性,包含了更丰富的语言信息。
双拼编码的最广泛应用,则是汉字的编码及其键盘录入。汉字是汉语的书面表达形式,既有久远的历史,又有众多的使用者,是世界上使用人数最多的文字。汉字键盘输入的速度对全世界都有影响,很小的一点儿进步都会节约大量的人力和物料消耗。因此,双拼汉字输入法也是本发明的重点。
国标GB2312-80中的6763个汉字,共有音节1302个,其中轻声音节为36个,带调音节1266个。把轻声与阴平合并后还有1250个音节,平均每个音节5.3个字,按音节分布的字数很不平衡,但区分声调之后总比不区分声调的“声韵双拼”好一些,重音码的数量明显减少。可以把汉字按双拼编码分组后,再加一个序号区别同音字。这些字可按高频先见的原则排列,在屏幕上按序号提示,用数字键选择,不选择时则自动输入最高频字。这是最基本的按字编码输入方式。
双拼编码允许设定40个一级简码字,如果按汉字的字频顺序选取,前40个汉字的累计使用频率为24.5%;若再和双拼声母码元相对应按音选择,40个一级简码字的累计使用频率可达21%。一级简码只击一次主键位,再加一个空格即可,码长为2。也可按双拼韵母码元选取一级简码。
双拼编码允许设定至少1250个单音节的二级简码,若取每个音节的最高频字为简码,则累计字频可达60%,只需按该字双拼音节编码输入2键,再加一空格即可输入该字,码长为3;若设定码长为2,也可自动区分。
由于每个双拼音节超过10个字的不多,即使超过10个字,其字频也很低,所以,一般的应用条件下,只需再加一个序号就可输入绝大部分汉字。个别超过10个字的音节,可增设翻页键继续选择,或者把每个字和40个键位一一对应,击键一次即可选定,码长为3;若设定码长为2,则要增加进入选择状态的标志键,码长变为4。
这种编码法的最低平均动态码长为一级简码0.42,二级简码1.2,其余汉字0.76,总计2.38,是一般编码法难以达到的。
双拼编码还可设计成联想汉字输入方式,把汉字做为语句中的一个构成单元,按照语句的构成规律来缩小接续字的选择范围。这和人们的思维方式相接近,使计算机具有词语输入的预先判定能力。这种双拼联想汉字输入法的设计原则是,按照词频高低的顺序把一、二级简码设定为高频1字词,并尽量使同音高频字区分为不同的简码,再把其余的字按照组合使用的频率安排在简码输入后出现的选择项目之内。
更为理想的联想输入方式是,把双拼键盘的输入和联想提示结合起来,每完成一个汉字的输入,其后续字的字频就要受到前一汉字的限定,由全部汉字的空间变为部分汉字的空间,字频的排序就要发生变化,选择范围缩小。此时再输入一个音节,出现的选择项目就大为减少。如果能按前面输入的所有语句信息引出联想,则选择的范围在输入一个音节之后甚至可以缩小为1个,使汉字的输入和双拼音节的输入相等同。这是一种智能化的双拼输入法,虽占用大量的计算机内存空间,却很有意义。
还可以采用其它的编码方法,实现汉字音节编码基础上的进一步区分,如按同音字的字形信息相互区分。原则上,任何一个在拼音基础上形成的编码法,都可以用于双拼方式,并且总会收到更好的编码效果。
现有技术方案中,采用词汇编码已经成为一种发展趋势,双拼编码也不例外。区分声调之后,同音词的数量明显减少,特别是2字及2字以上的词,其同音的数量及其使用频率,小到可以忽略的程度。
现代汉语中,1字词的词频为57.53%,字数占总字数的39.07%;2字词的词频为39.25%,字数占总字数的53.33%;多字词的词频为3.22%,字数占总字数的7.6%。而前1848个高频词的词频累计达75%,其中1字词863个,2字词16个,4字词7个。可见,同音较多的1字词,使用频率也高,比较难于处理,是词汇编码的难点。
词汇编码的另一个难点是,词的音节数不等,码长也不等,难以共容。
我们可以沿用前述的汉字编码法给1字词编码,但不能限定码长,即一级简码为2码,二级简码为3码,其余的为4码,均加空格作为结尾标志。2字词的编码只输入2个字的各个双拼音节编码即可,不加空格键自动结束。多字词可直接输入前4个字的双拼声母码元,不足的再补第3个字的韵母码元。当出现重码时,再加一个序号结束。
1字词的编码也可以通过2字词的编码来实现。如《双音编码输入体系》就是一种。缺点是1字词通常需要4码或5码,但可以实现盲打。此外,双拼编码还可以实现另一种快速输入的方案,是前所未有的把一级和二级简码均设计成高频词的简码,其中一级简码主要是高频1字词;二级简码主要是高频2字词,并尽可能多地包含高频1字词,还要把高频同音字分配在不同的简码之中。所有简码都按高频词的词首字双拼音节而选定。只要输入2键,就显示一个高频双字词及其所包含的2个高频字,还可同时显示首字音节相同的另外一些2字词,并按高频先见的原则排序和选择。可以选择所提示词的全词、首字、尾字或逆序2字词。这种选择可以在键盘上一次完成,即,把所选择的词按主键位的列对应,而把主键位的行对应不同的选择方式,如第3行对应全词,其余行分别对应首字、尾字和逆序的选择方式。由于高频1字词的组词能力很强,为了减少选择次数,可把一级简码也对应首音节相同词的选择。如果要求盲打,可以放弃选择,而把简码之外的词,用2字词的双音节方式引出,再进进行选字。这就需要把二级简码补加空格键结束;或者区分单音和双音两种不同的状态;也可设定等长2码,而双音输入时,中间加一空格键以便区别,这可从整体上减小平均动态码长。和双音体系相比,增加了简码的双音工作状态,两者可以共容。这种单音体现双音的工作方式,也可以用到其它的编码方法之中。
对于双音及多音词编码,可以只取双拼音节的部分码元进行编码,例如只取双拼声母码元的多音词的编码。有时,双音词也可只取首音的双拼声母码元和尾音的双拼声母码元,必要时再补加尾音的双拼韵母码元。
总之,双拼编码是一种全新的语音输入方法,使原来需要3个码元(声、韵、调)确定的语音简化为只需2个码元即可确定,可以节省一组码元;或者使语音的区分更加精确;使拼音编码法上升到一个新的台阶,确立了拼音编码法的新地位。与现有技术相比,双拼编码法的优点可概括如下1、两键输入一个语音音节,减少了击键次数;或者,在同是两键输入的情况下,减少了同音选择的数量。
2、一级简码40个,二级简码1250个,占全部国标汉字使用频率的80%,可以缩短汉字编码的平均动态码长,提高输入速度。
3、如果按词编码,一般只需4键即可输入一个双音词或者一个词中的2个字,需要进一步选择的很少。
4、如果二级简码按双音词编码,则可以容纳绝大部分常用词和常用字,累计词频达75%,可以缩短汉字词的平均动态码长,提高输入速度。
5、编码规则简单,不需要拆字组码,便于学习和记忆。
6、具有良好的编码兼容性,可通用于汉语信息处理技术领域的各个方面。
7、既适合专业应用,节约人力和物料的大量消耗;又可全面普及,使一般人员也可获得较快的输入速度。
8、可以用于汉语语音的键盘输入,专业化的输入速度可与汉语口语的表达速度相接近,可使汉语速记电脑化。
9、为汉语的语音识别和语音合成,找到了一条与键盘输入相兼容的途径,有利于这些技术的协调发展和综合应用。
10、适应汉字改革的时代要求,为汉字拼音化找到了一个与信息时代相适应的出路。
11、经过不断的改进和完善,可以做为国家标准强制推行,达到了汉语编码的最高境界。
本发明的最佳实施例如下1、采用图5所示的双拼汉语编码键盘、双拼声母码元和双拼韵母码元。
2、把双拼声母码元和双拼韵母码元用作计算机的内部代码,安排在GB2312-80的第10区,通用于汉语信息处理技术的各个方面;必要时,可把全部的汉语语音音节安排在这些空位上,以便节省内存空间。
3、汉语语音音节的编码为等长2码,由一个双拼声母码元和一个双拼韵母码元拼合而成,可直接用于汉语语音的键盘输入。
4、汉语拼音采用双拼汉语编码,按其书写格式用空格键分词输入。
5、建立双拼汉字编码输入系统,外设区位码、电报码等常规汉字输入系统。
6、汉字按词编码,区分为普通和快速两种输入状态,并与语音和拼音的输入相兼容。
7、普通的双拼汉字编码法包括在快速汉字编码法之中,是后者的特殊应用形式。两者结合构成双拼汉字编码输入法。
8、一级简码为高频1字词,如图5所示,只需键入相应键位和一个空格即可输入。
9、二级简码为高频2字词,取首字的双拼音节编码与二级简码音节对应,尾字则尽可能多的包含高频1字词,并使同音高频1字词分配在不同的二级简码之内。当进入普通输入状态时,则只输入首字。
10、等长2码,自动区分和识别。
11、简码之外的字和词,安排在简码对应的窗口内,如果输入一个简码之后,再输入一个主键位,则自动输入这个简码;否则,若输入一个空格,即进入选择状态。
12、选择状态下,若处于普通输入状态,则屏幕上提示与简码同音的单个汉字,按高频先见的选择排序,用对应的主键位输入;若处于快速输入状态,则可再输入一个双拼音节,屏幕提示由这两个音节确定的双字词,只有一个时则自动输入;否则,用音响告警,并按高频先见的原则排序,用专用数字键选择输入。
13、多字词拆成1字词和2字词分别输入。也可另设多字词状态取每个字的双拼声母码元输入,不足4码的取尾字的双拼韵母码元补足4码。
14、语音音节,拼音和汉字可以相互转换,汉字可直接变为拼音和语音音节,拼音可直接变成语音音节。语音音节变为拼音时,可以直接消除空格而实现。拼音变为汉字时,一一对应的可由计算机自行转化,其余的由计算机按词分别显示,并提示同音词,用键盘选择输入。一个文件中的同一词汇,可以由计算机一次性提示和一次性的选择和转化。这一方法也可用于输入汉字。
15、可以编制专用程序,实现语音音节、拼音和汉字的自动转化。
说明书


图1~图3双拼汉语语音无调音节表图4图1和图3的整体图。
图5双拼汉语编码键盘图。
权利要求
1.一种用于汉语信息处理技术领域的双拼汉语编码法,其特征是根据汉语语音的拼合规律和键盘输入的要求,把汉语语音带调音节分解为双拼母音,再合并为一组双拼声母码元和一组双拼韵母码元,实现汉语语音带调音节及其各种文字形式的双拼编码。
2.一种双拼汉语编码的计算机内部代码系统,其特征是一个双拼声母码元和一个双拼韵母码元,即可拼出汉语语音的带调音节,直接用于汉语语音的键盘录入、语音识别、语音合成和汉语拼音类文字的键盘录入、字形识别和字形打印,以及汉语程序设计等汉语信息处理技术领域。
3.一种双拼汉语键盘的双拼码元排列方式,其特征是由4行10列共40个主要键位组成,每个键位既代表一个双拼声母码元,又代表一个双拼韵母码元,按输入顺序相区分,两次击键即可输入一个带调音节。
4.按照权利要求1所述的汉语编码法,其特征是根据能否与中介韵母i、u或ü为首的韵母相拼,把声母区分为不同的双拼声母;把基本上不能与双拼声母同时相拼的韵母合并为双拼韵母组。再根据通用小键盘主键位的数量限制确定出双拼声母码元和双拼韵母码元。
5.按照权利要求1和3所述的双拼汉语键盘双拼码元排列方式,其特征是根据双拼汉语编列码元的相容关系,参考各个码元在汉语信息处理时的使用概率和键盘的指法,排列在通用小键盘的相应主要键位上,力求快速击键,便于学习、操作和记忆。
6.按照权利要求5所述的汉语编码法,其特征是把能与i或u为首韵母相拼的声母分离出来,加一个“′”号区别;再把能与ü为首韵母相拼的声母并入前述声母中,jü与z′合并,记为z′j;qü与c′合并,记为c′q;xü与s′合并,记为s′x;能与ü和üe相拼的声母y与f合并,记为fy;能与üan和üen相拼的声母y与ch′合并,记为ch′y;p′与r′合并,记为p′r′;f′只有一个fu,并入f中;从而组成40个双拼声母码元。一般不能与双拼声母码元同时相拼的韵母合为一组,即ang、iang、uan;an、üan、ian、ua;ai、ia、u;a、iu、ui、ong、o、iong、uo;e、ei、i;en、in、un;eng、er、ün、ing、ueng和ou、üe、ie、uang共10组。每组再按阴平、阳平、上声、去声各分4个,轻声并入阴平。这就组成40个双拼韵母码元。
7.按照权利要求5和6所述的双拼汉语键盘双拼码元排列方式,其特征是双拼韵母码元同列同韵母,同行同声调;双拼声母码元则与通用小键盘的字母数字键相兼容。
8.按照权利要求6和7所述的双拼汉语编码输入法,其特征是汉语语音带调音节等长2码,可以用于汉语语音的键盘输入。
9.按照权利要求6和7所述的双拼汉语编码输入法,其特征是汉语拼音类文字按书写格式直接分词输入。
10.按照权利要求6和7所述的双拼汉语编码输入法,其特征是把汉字的读音分解为双拼声母和双拼韵母,再辅以区分相同读音的方法,对汉字、词或句子及其组合进行编码,从而形成双拼汉字编码输入法。
11.按照权利要求10所述的双拼汉字编码输入法,其特征是取包含双拼码元的最高频字为一级简码;取双拼编码音节的最高频字为二级简码。
12.按照权利要求10所述的双拼汉字编码输入法,其特征是取包含双拼码元的最高频词为一级简码;取包含双拼编码音节的最高频词为二级简码。可以是1字词;也可以是包含1字词的2字词;或者是设置这两种不同的状态。
13.按照权利要求11或12所述的双拼汉字编码输入法,其特征是简码之外的字或词,按照高频先见的原则在同音码范围内按序号提示和选择输入。
14.按照权利要求11或12所述的双拼汉字编码输入法,其特征是简码之外的字或词,按照联想提示的方式进行屏幕选择和输入。
15.按照权利要求11或12所述的双拼汉字编码输入法,其特征是简码之外的字或词,用双音节或单字的联想双音节进行屏幕提示、选择和输入。
16.按照权利要求11或12所述的双拼汉字编码输入法,其特征是等长4码,不足4码的补充一个空格,超过4码的只取4码。
17.按照权利要求11或12所述的双拼汉字编码输入法,其特征是等长2码,不足2码的补充一个空格,超过2码的,第3码增加一个空格进入屏幕提示或进一步编码的选择状态。
18.按照权利要求1-17中的任何一项,对汉语信息进行编码和输入的方法,可以用于一切大、中、小、微型计算机汉语信息处理系统,电传机,打字机,汉语终端机及汉语通讯系统中。
全文摘要
一种用于汉语信息处理技术领域的双拼汉语编码法,主要解决汉语信息的统一编码和键盘输入问题。本发明的主要技术特征是根据汉语语音的拼合规律和键盘输入的要求,把汉语语音带调音节分解为双拼母音,再合并为一组双拼声母码元和一组双拼韵母码元,实现汉语语音带调音节及其各种文字形式的双拼编码。可用于一切大、中、小、微型计算机汉语信息处理系统,电传机,打字机,汉语终端机及汉语通讯系统中。
文档编号G06F3/023GK1081523SQ92105929
公开日1994年2月2日 申请日期1992年7月20日 优先权日1992年7月20日
发明者梁晨 申请人:梁晨
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1