全拼双拼混用型中文输入法的制作方法

文档序号:6409558阅读:392来源:国知局

专利名称::全拼双拼混用型中文输入法的制作方法
技术领域
:本发明涉及计算机中文输入
技术领域
,特别是使用键盘方式的、以汉语拼音为基础的各种音码的中文输入方法,以及包括音码的音形码或形音码中文输入法。键盘式输入是计算机上输入文字的主要的手段。输入中文(汉字)可以使用通用英文键盘,或特别设计的专用键盘。在键盘上输入中文需要对中文字词编码。编码有形码和音码两种基本形式,和以这两种基本形式为基础、派生出的各种音形码或形音码。音码中文输入方法中,最普遍的是以汉语拼音方案为基础而设计的各种拼音输入法,它们大多数以通用英文键盘为基本输入设备。以汉语拼音方案为基础的音码中文输入的现有技术中,有三种基本编码形式。第一种是所谓“全拼”,即直接使用汉语拼音方案本身,或者仅仅对它做一些微小改动,来输入中文;用户在键盘上按汉语拼音方案规定的符号击打键位,输入汉语语音,计算机把它转换为汉字、词或句子,在显示器提示区显示,如果有重码,则用数字键、或光标移动键、或鼠标等选择输入。使用通用英文键盘输入拼音有一个特殊处理,即对汉语韵母ü规定一个替代键。一般规定用v替代。第二种是所谓“简拼”,它把汉语拼音方案中部分超过一个字母表示的声母或韵母,即多字母的声母或韵母,分别用一个字母来替代。在键盘上输入中文时使用这些规定的替代键,可以减少击键次数。例如,规定用字母g替代韵母ing,可以将此韵母的击键次数,从三键减少到一键。其他方面的处理与全拼类似。第三种是所谓“双拼”,它把汉语拼音方案中所有超过一个字母表示的声母或韵母,全部规定分别用一个字母来表示,使每个汉语音节,都可以表示为规整的双字母形式一个声母字符加一个韵母字符。对于少数没有声母的独立音节,如ang(昂)等,可以规定一个附加的“零声母”键位,使它们转变成双字母形式。在各种包括拼音音节编码的音形码或形音码中,它们的拼音编码部分也都可以归入上述全拼、简拼和双拼三种形态。一般采用双拼形式,如目前市场上较流行的“自然码”输入法,是一种包括双拼编码的音形码。有些音形码或形音码,只使用拼音的声母,或者只使用拼音的韵母。音码输入还从单纯的字输入系统,发展为包括词输入和句输入功能的系统。然而,从编码的形式上考察,这些系统都以全拼、简拼或双拼为基础。因此,在目前音码或音形结合的中文输入领域中,全拼和双拼是两种应用最普遍的编码形式和现有技术。不论是在纯音码还是在音形码中,全拼与双拼有各自的优缺点。全拼的优点是最直观,符合国家语言文字工作的有关法规政策,与国民知识背景统一,与中小学语文的汉语拼音教学统一,因此易学性和通用性最好。它的主要缺点之一是击键次数太多。汉语拼音方案中一个音节最多要用6个字母表示。如“床”字的拼音chuang。双拼输入的优点是击键次数少且规整,它统一用两个字母表示一个汉语音节,显著减少了击键次数。它的主要缺点之一,是由于对多字母表示的韵母和声母,都要使用替代键位,因此需要一定的记忆量,在形式上也不如全拼直观。学习难度和遗忘率均高于全拼。并且,如果在小学阶段推广计算机双拼中文输入,从教育学和心理学考察,都必定在儿童心理认知中引起全拼和双拼一定程度的混淆,增加教学难度和负担。为了补救全拼和双拼各自的这些缺点,通用的计算机中文系统,一般都同时配备全拼、双拼输入法(也配备某些形码输入法),使用户可以在这些方法中选择一种使用。然而,无论选择哪一种音码输入法,它都具有独占性和排他性。即在某种全拼(或双拼)输入状态下,如果不用特定热键或鼠标等方式切换,或者如果不用特定的区别键标识前导输入的字符串或后续输入的字符串是全拼编码抑或是双拼编码,就不能直接使用双拼(或全拼)。于是,如果用户在全拼输入状态下感觉输入太慢,希望直接学习和使用双拼是不可能的。如果用户在双拼输入状态下,记不住某些双拼替代键,或者遗忘了某些替代键,而希望直接使用全拼,也是不可能的;并且,当用户在全拼编码与双拼编码之间产生混淆的时候,计算机就不能正确检索目标字词,还需要用户自己查找替代键位。由此可以设想,如果能够把双拼输入法和全拼输入法协调统一起来,不用任何人工干预的方式切换或标识,就能使用户在同一种输入状态下,自由地随意地混合使用全拼编码和双拼编码输入汉语语音,由计算机系统承担自动化的识别转换处理工作,实现中文输入,上述的双拼和全拼各自的缺点就能被克服,优点就能够兼容。本发明的目的是提供一种计算机键盘输入方法,它能够在音码输入方式或使用音码的音形码或形音码输入方式中,把现有技术全拼编码和双拼编码的输入方法结合与协调起来,不使用其他用功能热键、鼠标、程序肖像选择等等任何一种额外的人工干预的切换方式,不在全拼输入状态与双拼输入状态之间进行任何切换,也不使用任何区别全拼编码与双拼编码的特殊标识键、以标识前导输入的字符串或后续输入的字符串是全拼编码抑或是双拼编码,就能够使用户在同一种输入状态下,自由地随意地混合使用全拼和某种双拼输入汉语语音,由计算机系统自动识别转换,实现中文输入;在这种输入方法中,双拼和全拼的混淆是允许的,它不影响正常和正确的输入,因此不再是一种错误;总之,它能够在同一个状态下,自由地随意地混合使用全拼和某种双拼,击打全拼编码与双拼编码的任意组合序列,表达汉语音节,并与显示器结合起来,在计算机上实现输入中文字、词、词组或句子,从而克服现有音码输入技术中,全拼输入与双拼输入相互分离排斥所产生的各自的缺点,兼容全拼的易学性和双拼的高效性的优点,显著改善现有的全拼编码和双拼编码输入技术以下叙述中,如果没有特别说明,“全拼”这个词,就是指直接以汉语拼音方案为基础的、不对其中多字母声母和多字母韵母采用替代键位的拼音编码输入方法。本发明的关键是要在计算机系统中,把全拼编码与双拼编码相互协调起来。本发明的目的可以通过以下措施来实现1).按照现有技术定义全拼编码键位;2).定义双拼编码的替代键位或专用键位,替代或表示那些在汉语拼音方案中,用两个或两个以上的字母表示的声母和韵母,定义的原则是,把双拼编码中用于替代或表示全拼编码中的多字母声母的键位字符,定义到与全拼声母字母的组合序列不冲突的字符集上,把双拼编码中用来替代或表示全拼编码中的多字母韵母的键位字符,定义到与全拼韵母的第一字母的组合序列不冲突的字符集上,从而能够满足,相对于汉语音节,在任何可能的全拼、双拼编码字符的自由组合序列中,双拼的替代字符序列与全拼的字符序列之间,互不冲突;3).在1)与2)中所定义的全拼键位和双拼替代或专用键位字符集的基础上,用户在使用音码输入中文时,不需要用热键、鼠标、程序肖像选择等任何人工干预的切换方式、在全拼和双拼输入状态之同切换,也不需要使用任何区别全拼编码与双拼编码的特殊标识键、以标识前导输入的字符串或后续输入的字符串是全拼编码抑或是双拼编码,就可以在同一个输入状态下,根据规定的双拼替代键位系统和全拼键位系统,自由地随意地混合击打双拼替代键位或全拼键位,即双拼编码与全拼编码的任意组合序列,可以声母打全拼,韵母打双拼,或者声母打双拼,韵母打全拼,可以在两个或两个以上连续音节的输入中,同样自由地随意地在任何声母、韵母、或音节部分打双拼或全拼,来输入汉语的音节;4).在1)与2)中所定义的全拼键位和双拼键位字符集的基础上,由于全拼编码的字符组合序列与双拼编码的字符组合序列互不冲突,计算机程序以1)与2)中规定的全拼键位和双拼替代或专用键位系统为依据,把从键盘键位上接受到的合法的输入编码字符串——不论它们是全拼编码字符还是双拼编码字符,也不论它们是全拼编码与双拼编码的任何一种组合形式——转换成统一的内部的语音表达符号系统的字符序列,这种符号系统可以就是全拼,也可以是某种双拼,还可以是任意一种与汉语拼音等价的中介编码,用这个转换后的字符系列,去检索匹配的中文字、词、词组或句子,从而达到输入中文的目的;5).由4)中所叙述的计算机系统对输入的全拼与双拼编码混合字符串的识别转换,完全是程序自动执行的,它只依靠按照1)与2)中所规定的全拼编码键位系统与双拼编码键位系统而制定的转换规则,不需要任何额外的区别全拼编码与双拼编码的特殊标识键,不需要这些特殊的键位来标识前导输入的字符串或后续输入的字符串是全拼编码抑或是双拼编码,就能够自动地全部完成对全拼编码与双拼编码自由混合的字符串的识别转换工作;6).由4)中所叙述的计算机系统对输入的全拼和双拼编码混合的字符串的识别转换,它允许连续输入多个音节,它在所有无歧义的情况下,不需要用户输入音节切分信息,就能够自动地完成音节之间的切分,仅仅在人类阅读者也不能正确区分音节的歧义情况下,才需要用户从外部输入一个音节切分信息,以提供给程序切分音节。以下结合两个最佳实施例对本发明的技术方案做进一步的详细所述。首先描述技术方案中共同的核心的部分。(一)、定义全拼键位系统与双拼键位系统。定义全拼键位系统可直接采用汉语拼音方案等现有成熟技术,不再赘述。定义双拼替代键位或专用键位(以下简称替代键位)。定义的方法是把双拼编码中的用来替代或表示多字母声母的替代键位字符,定义到与全拼声母键位字符不相同的字符集上,即不属于字符集(b,c,d,f,g,h,j,k,l,m,n,p,q,r,s,t,w,x,y,z);把双拼编码中用来替代或表示全拼多字母韵母的键位字符,定义到与全拼韵母键位第一字符(除了字母ü以外)不相同的字符集上,即不属于字符集(a,e,i,o,u),并且确保,相对于汉语音节,这些字符在与声母字符组合时,不与全拼字符的组合序列引起识别上的冲突。需要规定双拼替代键位的全拼多字母声母序列一共有3个,它们是ch,sh,zh.需要规定替代键位的全拼多字母韵母序列一共有26个,它们是ai,an,ang,ao,ei,en,eng,ia,ian,iang,iao,ie,in,ing,iong,iu,ong,ou,ua,uai,uan,uang,ue,ui,un,uo。此外,无论是双拼还是全拼,都要对汉语拼音字母ü规定键位。这个定义原则,与现有技术双拼输入法的替代键位定义方法,基本相同。传统双拼定义替代键位,就是利用如下性质在汉语拼音方案中,所有的声母字符都不是韵母的第一个字符,所有的韵母的第一个字符,都不是声母字符。于是,可以用韵母的第一个字符来替代多字母声母,可以用声母字符来替代多字母韵母。而且,这也基本上自动地满足了上述双拼替代字符与全拼字符的组合序列在实际使用中互不冲突的原则。上述要求中,对韵母替代键的规定有一个限制要注意“在与声母字符组合时不与全拼字符的组合序列引起识别上的冲突”。下面分析这个限制所对应的情况。字符h用做多字母韵母的替代键位的状况。根据“与全拼韵母第一字符不相同”这一条,h不是汉语拼音中多字母韵母的第一个字符,可以用做多字母韵母的替代键。但是,在实际使用中还可能产生冲突。例如,在“自然码”输入法中,把h定义为替代韵母ang,这样,对于接受到的字符串ch中的第二个字符h,程序就不能识别它是全拼翘舌音ch中的h自身,还是代表着韵母ang的双拼替代键,因为cang也是汉语中合法的音节。也就是说,它没有满足上述不冲突的原则,因而这种双拼替代定义不适合于全拼双拼混用型输入法。然而,如果把h用做替代平舌音声母z、c、s之后不可能出现的韵母,就可以避免这种冲突。例如,如果把h规定为替代韵母ian,由于在汉语中不存在cian、sian、zian这三个音节,所以当接受到字符串ch、sh或zh时,程序能够识别ch、sh或zh这三个字符串中的h是与前导字母c、s或z组合的声母中的第二个字符,分别构成全拼中的三个翘舌音,而排除它是替代韵母ian的双拼编码,因为在z、c、s之后不可能出现h所替代的韵母,这就满足了不冲突的要求。又如,可以规定用v同时替代韵母ü和韵母ui,此时,任何一个声母,如果它与ü的组合成合法音节,即汉语中有这个发音,它就不可能与ui组合成合法音节,即汉语中没有这个发音;反之亦然。例如,汉语中有nü这个音节,而没有nui这个音节,有kui这个音节,而没有kü这个音节,等等。因此,用v这个键位同时替代韵母ü与ui,可以满足“相对于汉语语音不冲突”的要求。但是,如果规定v同时替代ü和ao,就会发生冲突,例如,对于输入的字符串nv,程序就无法识别它是音节nü,还是音节nao,这就引起冲突,因而不符合上述键位定义要求。需要指出的是,除了上述把h用做韵母替代键这个特殊情况以外,在规定双拼替代键位时,只要满足前述“不相同”要求,并且满足一个字符只能替代一个韵母抑或一个声母,就能满足在实际使用中“不冲突”的要求。如果一个字符同时替代或表示两个或更多不同的韵母,就要具体分析它与所有声母组合的情况,检查是否有可能产生冲突。下面表1中j与m等键位就是同时替代了两个韵母,通过检查,它们在实际使用中不发生冲突,所以是可行的规定。除了上述“不冲突”的原则之外,对双拼替代键位的定义方法没有任何其他限制,可以在通用英文键盘上的26个字母的范围内定义,也可以用其他字符定义,因为使用非汉语拼音的字符,就与全拼编码不冲突。因此也可以设计专用键盘,把汉语拼音中的多字母声母和韵母,更大部分地或全部地用专用键位表示,例如,对韵母ang,专门设立一个新键位,等等。下面表1给出一种使用英文通用键盘的可行的替代键位系统。表1、一种可用于双拼、全拼自由混合输入的双拼替代键位表</tables>与表1对应的使用通用英文键盘的替代键位图见说明书附图。注1.对无声母的多字母韵母独立音节,且音节的字母数超过2个,如果用双拼方法输入,则特别规定必须在前面加一个“零声母”o,然后再根据规则使用替代键;当音节的字母数不超过2个时,则直接打该无声母音节的拼音字符。例如,独立音节ang,当用双拼形式输入时,它的键位为of。独立的音节an,当用双拼输入时,打键位an。这在表中和图中没有明确表示。注2那些用一个英文字母表示的拼音的声母和韵母,在双拼编码中与全拼编码相同,不存在替代问题,所以表中未列出。注3说明书附图中大写字母表示通用英文键盘的键位,小写字母表示被替代的汉语拼音的声母或韵母。(二)、根据全拼和双拼的字符组合序列互不冲突的性质,并以事先规定的双拼替代键位系统为依据,程序可以根据①从键盘上接受到的合法的编码字符,②这些字符的顺序,③其他可能的合法功能键(不是对输入状态进行切换的功能键,不是区别前导或后续字符串属于全拼编码抑或双拼编码的特殊标识键,而是指在同一个输入状态下,输入法所需要的某些与编码有关的功能键,例如,声调键,音节区分键,重码选择键或音形码中的形码键等等)、自动地识别双拼编码和全拼编码,把它们转换成任何一种事先规定的内部的统一的汉语语音符号系统,提供给程序检索中文字、词、词组或句子。识别转换规则在概念上很简单,它遵循以下三条总的原则第一,识别转换操作按照(声母→韵母)的顺序进行,如果输入法包括双音节词输入,则按照(声母→韵母→声母→韵母)的顺序进行,如果包括多音节词等语言单元的输入,依此类推。程序可以根据输入合法字符的种类和顺序、识别转换规则和转换的实际结果,判断当前是处于声母失败转换阶段,还是处于韵母识别转换阶段,以控制识别转换正确地实施,控制转换操作在声母转换阶段和韵母转换阶段之间有条不紊的交替进行。第二,全拼和双拼这两者对应的字符组合序列互不冲突,这个性质是程序自动识别转换的必要且充分的条件。它在转换操作上的具体体现为1.在声母的第一个字符的识别转换中,如果遇到不属于全拼的声母字符,就必定是声母的双拼替代字符;例如,第一个声母字符属于(i,u,v)时,它们不是全拼声母字符,所以只可能是声母的双拼替代字符;此时就按双拼替代键规则把它们分别转换为全拼声母(ch,sh,zh);这里,全拼与双拼字符序列互不冲突;如果第一个声母字符是全拼合法字符,它也必定是双拼声母的合法字符;例如,声母键位g,既是全拼,也是双拼;这里,全拼与双拼的字符也互不冲突;又由于在双拼中,任何声母只用一个键位表示,因此,如果在声母转换阶段接受到第二个声母字符,就必定是全拼声母字符;这种情况只发生在第一、二键位属于多字母声母(ch、sh、zh)的时候,此时,其中第二个键位h识别为全拼声母的第二个字符,而不可能是双拼的替代键位;2.基于同样的道理,在韵母的第一个字符的识别转换中,如果遇到不是全拼的韵母字符,就只能是韵母的双拼替代字符,这里,两者对应的字符序列互不冲突;如果第一个韵母字符是全拼合法字符,它也必定是双拼韵母的合法字符;这里,两者对应的字符集也互不冲突;又由于在双拼中,任何韵母只用一个键位表示,因此,如果在韵母转换阶段接受到第二个字符,就必定是全拼的韵母字符;因此,在韵母识别转换过程中,从第二个韵母字符开始,就按照全拼的规则识别转换。由此,满足(一)中定义原则的双拼编码与全拼编码自由混合使用时,完全能被程序自动识别。第三,在全拼双拼混用输入方案中,判断输入字符串是属于全拼字符、还是双拼字符,并进行转换操作,没有任何歧义。然而,有可能发生音节区分的歧义。在汉语拼音方案自身中,如果实行分词连写,就有可能产生音节分隔的歧义。例如,对于字符串piao,它可以代表“飘”的音节,或代表“皮袄”的音节,即使是人类阅读者也不能区分。所以在汉语拼音方案中,在全拼中文输入中,都规定了附加的隔音符号来切分音节。上例中如果piao代表两个音节,就必须在两个音节之间加一个间隔符。这种规定,对于全拼双拼混用输入法也适用。也就是说,全拼双拼混用型输入法中由于可以使用全拼,也就自然“继承”了全拼自身存在的音节切分歧义现象。当发生这种歧义时,需要用隔音键位来人工切分音节。例如,目前流行的WPS中文系统的全拼输入法,用空格键来切分汉语音节。因此,在全拼双拼混用输入法中,当不发生歧义的情况下,由计算机系统自动识别,完成音节切分,当发生人类阅读者也不可判断的歧义时,要求用户用其他键位对音节切分,例如用空格键。同时必须指出,这种隔音键,并不是对输入状态进行转换或对输入编码进行区别性标识,而仅仅是在同一个输入状态下的、用于多音节词输入时辅助的音节切分键,它不改变全拼双拼自由混合输入的性质和状态。下面更细致地叙述全拼双拼混用型输入法的关键部分之一全拼双拼混合字符串序列的识别转换算法。为了便于阅读理解并着重阐明转换规则,为了充分地清楚地说明技术关键,采用自然语言与表格形式相结合的方式,直观通俗而又准确详尽地描述算法的全部操作过程,这样有利于详细地解释识别转换规则所具有的意义、而不仅仅是列出规则,以使技术人员能够深入理解识别转换的原理,使技术人员可以根据本说明的描述,方便地把它转换成各种计算机语言编写的程序。假设1).转换所依据的双拼替代键方案,是由表1与附图所规定的双拼替代键方案;全拼键位与汉语拼音方案相同,字母ü用v表示;不使用声调码;2).转换后的内部的实际语音表达检索符,也直接用全拼;3).这个算法是整个中文输入法系统程序中的一个模块,它专门处理输入键位中全拼双拼编码混合序列的识别转换这一部分,它受到主程序的控制,那些与全拼双拼混合字符串序列的识别转换没有直接关系的操作,在主程序中和主程序控制的其他模块中,用现有技术完成,这里不再赘述;4).在韵母编码字符之后输入的第一个空格键,是音节分隔键。全拼双拼混合字符串识别转换算法描述1.声母转换阶段1SHENGMU_1声母第一输入字符识别转换规则表(也可能是零声母音节的首字母)输入字符串abcdefghijklm输出字符串a!b\c#d\e!f\g\h\ch\j\k\l\m\输入字符串nopqrstuvwxyz输出字符串n\o!P\q\r\s#t\sh\zh\w\x\y\z#对输出字符串的进一步操作1).保留输出字符串中的声母符号,供后续韵母转换时参考使用。2).根据输出字符串的尾字符,分以下三种情况处理A).如果尾字符是\,将输出字符串中前导的声母符号,用于检索中文字词。结束这轮声母转换,从键盘接受下一个合法的编码字符,假设为韵母的第一个输入字符,转去执行YUNMU_1。(这种情况是无论相对于全拼还是相对于双拼,已经能够确认第一个输入的字符,就是最终确认的声母符号的场合)。B).如果尾字符是!,将声母符号置为零,结束这轮声母转换,转去执行YUNMU_1。(这种情况对应着第一个输入的字符是零声母的场合)。C).如果尾字符是#,将输出字符串中前导的声母符号,用于检索中文字词。这轮声母转换尚未结束,从键盘接受下一个合法的编码字符,假设它是声母的第二个字符,转去执行SHENGMU_2。(这种情况是还不能确认声母字符是否已经最终确认的情况,也即第一输入的字符是平舌音声母的场合)。2.声母转换阶段2当前导声母符号是c、s、z时进入本程序SHENGMU_2声母第二输入字符转换规则表(也可能是声母后接受到的第一个韵母字符)输入字符串abcdefghijklm输出字符串\\\\\\\h\\\\\\输入字符串nopqrstuvwxyz;输出字符串\\\\\\\\\\\\\对输出字符串的进一步处理1).如果输出字符串是h\,则将h拼接在前导的c抑或s抑或z之后,生成声母符号ch抑或sh抑或zh,用于检索中文字词,并保留,供后续韵母转换时参考使用。从键盘接受下一个合法字符,假设为韵母的第一个输入字符,转去执行YUNMU_1。2).如果输出字符串是\,则将此次的输入字符假设为韵母的第一个输入字符,转去执行YUNMU_1。注意根据表1.和附图的替代键规则,从第二个输入键位开始,分号键是合法的编码键位,所以本转换规则表中包括对分号键的识别。3.韵母转换阶段1声母转换最终确认后,进入本程序。YUNMU_1韵母第一输入字符转换规则表输入字符串abcdefghi输出字符串a!ue\uan\an\e!ang\ao\ian\i!输入字符串jklmnopqr输出字符串iang\iaoin\ong\un\o!ou\ie\ei\输入字符串stuvwxyz;输出字符串ai\en\u!ui\iu\uai\eng\ia\ing\对输出字符串的进一步处理如下1).如果前导的声母不属于(b,f,m,l,p,w),也不是无声母音节,则输出字符串o!改为uo!。2).如果输出字符串是ui\,则当前导声母属于(j,q,x),输出字符串改为u\。当前导声母属于(n,l),输出字符串改为v\(v代表韵母ü)。3).如果前导的声母不属于(d,j,l,q,x),则输出字符串ia\改为ua\。4).如果前导的声母不属于(j,l,n,q,x),则输出字符串iang\改为uang\。5).如果前导的声母属于(j,q,x),则输出字符串ong\改为iong\。6).把输出字符串中前面的韵母符号部分,提供给程序的检索模块,检索字词7).如果输出字符串的尾字符是\,韵母转换已经最终确认,结束本轮韵母转换和音节转换,返回主程序(这对应着本次识别转换确认为是双拼替代键的情况,要重新开始新的一轮音节转换,即接受下一个合法的编码字符后,转去执行SHENGMU_1)8).如果输出字符串的尾字符是!(这对应着本次识别转换确认为是全拼韵母第一字符的情况),保存此字符串的韵母部分,从键盘接受下一个合法的编码字符,作为假设的第二个韵母字符,拼接在此次的韵母字符之后(例如,此次的韵母字符是u,从键盘接受到的新字符是a,则拼接为ua,),转去执行程序YUNMU_2。注1)、2)、3)、4)、5)中的操作都是根据双拼编码规则和全拼编码规则,分析与不同的前导声母的组合序列中,应当按照什么替代键规则转换。4.韵母转换阶段2当前导韵母是a,o,e,i,u时,进入本程序条件操作在进行转换前首先检查新接受到的假设的第二个韵母字符,如果它是音节分隔键,即空格键,则结束这轮韵母转换,并结束这轮音节转换,返回主程序主程序。如果不是空格键,执行下列转换操作。YUNMU_2韵母第二输入字符拼接后的转换规则表(即前两个韵母字符作为输入字符串的转换规则)输入字符串aianaoeieniaieinio输出字符串ai\an!ao\ei\en!ia!ie\in!iong!输入字符串iuonouuaueuiunuo其他输出字符串iu\ong!ou\ua!ue\ui\un\uo\其他*对输入字符串和输出字符串的进一步处理如下1).如果前导声母为零(是无声母音节),则如果输入字符串为(of,oy)时(在上表中这些字符串都归入“其他”),将它们分别转换为(ang\,eng\),作为输出字符串。2).如果输出字符串的尾字符不是*,把输出字符串中的前面韵母符号部分,提供给程序的检索模块,检索字词。3).如果输出字符串的尾字符是\,结束这轮韵母转换,并结束这轮音节转换,返回主程序(要重新开始新的一轮音节转换,即接受到下一个合法的编码字符后,转去执行SHENGMU_1)4).如果输出字符串的尾字符是!,保存此字符串的韵母部分,从键盘接受下一个合法的编码字符,作为假设的第三个韵母字符,拼接在此次的韵母字符之后(例如,此次输出的韵母字符是ua,从键盘接受到的新字符是n,则拼接为uan),转去执行程序YUNMU_3。5).如果输出字符串的尾字符是*,(这说明字符串中的第二个字符是下一个音节的第一个声母字符),结束这轮韵母转换,并结束这轮音节转换。将输出字符串中的第二个字符,作为新的音节的第一个输入字符,返回主程序(后续操作相当于要转去执行SHENGMU_1,开始新一轮的音节自动识别转换,本操作也代表了程序在所有可能的情况下,自动对音节进行切分)。特别说明根据对双拼替代键位使用的特别规定(见表1.后面的说明),对无声母的三字母表示独立音节,如果按照双拼形式输入,要先打键位o.然后再打韵母的替代键位。这个规定使得无声母独立音节(ang,eng)的双拼输入形式为(of,oy),因此有本阶段的1)。的有关判断操作。5.韵母转换阶段3条件操作在进行转换前首先判断,新接受到的假设的第三个韵母字符如果是空格键,则结束这轮韵母转换,并结束这轮音节转换,返回主程序主程序。如果不是空格键,执行下列操作。YUNMU_3韵母第三输入字符拼接后的转换规则表(即前三个韵母字符作为输入字符串的转换规则)输入字符串angengianiaoingiononguaiuan其他输出字符串ang\eng\ian!iao\ing\iong!ong\uai\uan!其他*对输出字符串的进一步处理如下1).如果输出字符串的尾字符不是*,把输出字符串中前面的韵母符号部分,提供给程序的检索模块,检索字词。2).如果输出字符串的尾字符是\,结束这轮韵母转换,并结束这轮音节转换,返回主程序(要重新开始新的一轮音节转换,即接受到下一个合法的编码字符后,转去执行SHENGMU_1)3).如果输出字符串的尾字符是!,保存此字符串的韵母部分,从键盘接受下一个合法的编码字符,作为假设的第四个韵母字符,拼接在此次的韵母字符之后(例如,此次输出的韵母字符是uan,从键盘接受到的新字符是g,则拼接为uang),转去执行程序YUNMU_4。4.如果输出字符串的尾字符是*,(这说明字符串中的第三个字符是下一个音节的第一个声母字符),结束这轮韵母转换,并结束这轮音节转换。将输出字符串中的第三个字符,作为新的输入字符,返回主程序(后续操作相当于要转去执行SHENGMU_1,开始新一轮的音节识别转换,本操作代表了程序在所有可能的情况下,自动对音节进行切分)。6.韵母转换阶段4条件操作在进行转换前首先判断,新接受到的假设的的第四个韵母字符如果是空格键,则结束这轮韵母转换,并结束这轮音节转换,返回主程序主程序。如果不是空格键,执行下列操作。YUNMU_4韵母第四输入字符拼接后的转换规则表(即前四个韵母字符作为输入字符串的转换规则)输入字符串iangionguang其他输出字符串iang\iong\uang\其他*对输出字符的进一步处理如下1).如果输出字符串的尾字符不是*,把输出字符串中的前面韵母符号部分,提供给程序的检索模块,检索字词。2).如果输出字符串的尾字符是\,结束这轮韵母转换,并结束这轮音节转换,返回主程序(要重新开始新的一轮音节转换,即接受到下一个合法的编码字符后,转去执行SHENGMU_1)3).如果输出字符串的尾字符是*,(这说明字符串中的第四个字符是下一个音节的第一个声母字符),结束这轮韵母转换,并结束这轮音节转换。将输出字符串中的第四个字符,作为新的输入字符,返回主程序(后续操作相当于要转去执行SHENGMU_1,开始新一轮的音节自动识别转换,同时,本操作也代表了程序在所有可能的情况下,自动对音节进行切分)。7.多音节的转换以上已经完整地描述了对一个音节中,全拼、双拼的声母和韵母的全部可能的组合形式的识别转换。多音节字符串是音节顺序相接的序列,根据归纳推理易知,只要对一个音节的转换是完全可行的,对多个音节的转换就是对单音节转换的重复循环操作,所以没有任何困难。从上面的算法中也可以看出,当程序判断出一个韵母转换已经最终确认,完全结束,就意味着这个音节的转换也完全结束,可以准备进入下一个音节的识别转换过程,进入循环操作。(三)、以上详细地描述了全拼双拼混用型输入法中对输入键位字符串自动识别转换的全部规则。这里再对方案做几点补充说明。1.全拼双拼混用型中文输入法,它所采用的全拼编码和双拼编码的具体方案可以有多种形式。根据(一)中所叙述的双拼键位定义原则,可以定义出许多种双拼键位方案。表1及对应的说明附图所列的双拼键位系统,仅仅是众多可行方案中的一种。如前所述,只要满足互不冲突的要求,任何一种双拼方案都是可行的。对双拼编码方案的定义,只需要满足(一)中所叙述的互不冲突的条件,没有任何其他限制。例如,目前流行的WPS中文系统的双拼双音输入法中所使用的双拼替代键位,虽然与本说明书表1所规定的不同,同样可以用于全拼双拼混用型输入法。2.全拼编码与双拼编码自由混合使用的中文输入法,可以使用通用英文键盘,也可以使用其他形式的键盘,包括专门设计的键盘,只要求这些键盘上包含了全拼编码键位与双拼编码键位,并且,它们满足(一)中所述的双拼与全拼的符号序列在使用中互不冲突的条件。3.上述转换识别算法,仅仅是众多可行的算法中的一种,还存在着许多其他的可行的转换算法,它们相互等价。这里,转换操作能够实施的关键,在于规定双拼键位和全拼键位时,满足(一)中所述的其字符组合序列不冲突的条件,这个条件是转换操作可行性的必要和充分的条件。4.上面(二)节中对识别算法的详细说明,由于它包括了所有可能的字符组合序列,就相当于证明了转换可行性的充分条件;上面(一)中对特定键位h,用做替代韵母ang时会引起冲突、从而无法识别的例子的分析,就相当于证明了转换可行性的必要条件。5.这种全拼双拼混用型输入法的字符串识别转换操作,是自主自足的,所以它可以用于纯音码,可以带或不带声调,也可以用于包括汉语音节编码的音形码或形音码。例如,如果使用带声调的音码,那么只需要在规定这些声调键位时,满足与全拼双拼字符组合序列不冲突的条件即可。比方说,规定汉语的四个声调符号分别用数字键1、2、3、4表示,并且规定在输入了韵母之后输入声调键位,那么显然,这些声调键位字符与全拼双拼字符串序列的自动识别转换不矛盾,实际上是有利的,因为一旦接受到声调键位字符,程序就可以判断一个韵母以及一个音节的输入已经完成,可以准备进入下一个音节的声母识别转换阶段。同理,对把拼音与字形结合起来的任何一种音形码或形音码,只要满足对形码编码字符的规定,在实际使用中与全拼双拼键位组合序列不冲突,上述全拼双拼自由混合输入的识别转换操作,就适用于该音形码或形音码中的音码部分。6.(二)中所叙述的全拼、双拼键位混合序列的自动识别转换规则,是是一个独立的部分,它对输入法的其他部分没有交叉影响。因此,本输入法的其他部分,可以采用任何现有技术来实现。例如,提示行显示技术,高频先见与动态调频技术,自然语言理解的各种理论技术的应用等等,以构成一个完整的输入方法。一般的方法就是,当任一阶段的动态识别转换操作完成后,程序就根据转换所获得的最新的内部的语音表达符号序列,在字词库中检索对应的中文字词候选集,如果匹配的字词项目唯一,就直接在显示器提示区显示,如果不唯一,则根据高频先见技术和自然语言理解等其他技术,确定提示区显示项目的优先顺序后,在提示区上显示,用户击打优先项结束键或重码项的选择键,使目标项上屏到位,结束这轮输入,或继续输入后续键位。由于这些部分的程序流程完全可以采用成熟的现有技术,就不再赘述。7.上述全拼编码与双拼编码自由混合使用的中文输入法中,其输入操作的过程,从键盘上输入编码键位到检索出匹配字词,在显示器提示显示,以使用户可以输入目标词的操作,可以采用两种不同的方式同步识别转换和显示方式与异步识别转换和显示方式。所谓同步识别转换显示方式,是指从第一个输入键位起,每从键盘上接受到一个编码字符,当时就识别转换,当时就将转换后获得的内部检索码提供给程序检索,当时就将检索时成功匹配的字词按某种规定的方式,在显示器提示区显示,用户当时就可以用上屏到位键输入命中的目标字词。所谓异步识别转换显示,是指计算机程序不是每接受到一个编码字符就立即识别转换,而是要等待用户打完一个音节的全部编码序列串、或者一个词的全部编码序列串、或者一个声母单元的全部编码序列、或者一个韵母单元的全部编码序列等等,才开始进行识别转换和显示。本说明书实施例所描述的,是同步识别转换和显示的方式,即每接受到一个编码字符,就立即识别转换并显示匹配项。异步识别转换和显示与同步识别转换显示相比,唯一的差别,仅仅是在接受到了某单元字符串的全体之后,才进入实际的识别转换和显示操作,而它的识别转换操作本身的规则和原理并没有改变,所以,只要同步识别转换是可行的,异步识别转换也必定是可行的。因此,本全拼编码与双拼编码混合输入法,可以采用同步方式进行,也可以采用异步方式进行。发明人推荐使用同步识别转换显示方式。以上详细叙述了全拼双拼混用型输入法的实施方案中的共同的关键的部分,下面叙述两个实施实例中的其他有关部分,对其中有关全拼双拼编码字符组合序列的识别转换部分,由于与上面叙述相同或重复,不再具体展开。1.实施例1,全拼双拼混用型的音码中文输入法。一种自由混合使用全拼与双拼的纯音码中文输入法。满足①双拼替代键位按照本说明书表1和图1定义,不采用声调码。②在第一个音节的韵母转换时,如果接受到紧随其后的第一个空格键,则是音节分隔键兼单字重码显示键,例如,当接受到字符串pi后如果紧接着接受到一个空格键,就确认音节pi已经结束,将与此音节对应的全体汉字,按照高频优先的原则在提示行显示,并且如果继续接受到新的输入字符,则进入第二音节的声母进行转换。否则,pi还可能与后续的输入字符结合,仍旧当作第一音节识别转换。③在第二个音节的韵母转换时,如果接受到紧随其后的第一个空格键,则是音节分隔键兼双音节词重码显示键,其操作原理与②类似。④在第三个音节的韵母转换时,如果接受到紧随其后的第一个空格键,则是音节分隔键兼三音节词重码显示键,其操作原理与②类似。但整个这一轮输入到此结束,也即本输入法对一个输入项目所允许的最大音节编码数目是三个。后续操作重新进入一个新的输入项目的第一个音节的转换操作。⑤如果连续接受到两个空格键,则第二个空格键是提示行首位项的上屏到位键。⑥四音节或四音节以上的多音节词按照非音节形式的压缩编码输入,编码规则是,取前三个音节的声母码和最后一个音节的声母码。多音节词在提示行单独显示,并指定用回车键作为多音节词的专用上屏到位键,结束输入。这样,多音节词的输入与其他字词部分的输入相互独立、互不冲突。同时,多音节词的识别转换,只有声母的识别转换,没有韵母的识别转换。程序操作流程从第一个合法的输入字符开始,程序每接受到一个字符,就按照前述全拼、双拼识别转换规则,把外部输入的编码转换成内部的语音检索码,根据这个内部的检索码序列,在计算机存储设备中预先设立的字词库中,检索对应的中文字词的匹配候选集,如果匹配的字词集合中的项目唯一,就直接在提示行上即时显示,如果不唯一,则根据高频先见技术或自然语言理解等等的其他技术,确定显示项目的优先顺序,再在提示行上即时显示,用户可以击打优先项结束键或重码项的对应选择键,使目标项上屏到位,结束这轮输入,或者继续输入后续键位,直到这轮输入结束。当存在重码时,采用与音码输入法中现有技术相同的处理,在提示行显示重码项,并将每个重码项按顺序分配数字同时显示,用户根据提示行提示,用数字键选择输入;如果提示行不够显示,则使用规定的换页键继续查找后续项目。根据前述全拼双拼自动识别转换规则部分的介绍,程序在所有不引起歧义的情况下,能够自动完成音节区分,如果发生歧义,则要求用户从键盘上输入空格键以提供当前音节已结束的信息。2.实施例2,全拼双拼混用型的音形码中文输入法。一种自由混合使用全拼与双拼的音形码中文输入法。编码的一般规则如下第一字第二字第三字末尾字单字拼音+形码双字词拼音拼音+形码三字词拼音拼音拼音+形码多字词声母声母声母声母其中,形码是取该字的首笔画入码。把汉字的所有可能的首笔画归入五类横、竖、点、撇、折,它们的键位分别是各自笔画名的拼音声母的第一字符,即横→h,竖→s,点→d,撇→p,折→z。音码可混用全拼与双拼。输入法满足①双拼替代键位按照本说明书表1和图1定义,不采用声调码。②采用“按词长梯度分离加速输入”的现有技术(见发明专利“文字输入加速方法”,专利申请号为92112716.2),每接受到一个输入编码键位,程序经必要的识别转换后,在预先设立好的四个字词库中分别检索,这四个字词库是,单字库、双字词库、三字词库、多字词库,将检索到的每个库中的优先匹配项,在提示行按单字、双字词、三字词、多字词的顺序,从左到右排列,同时显示,并分别设立对应于单字、双字词、三字词、多字词的各自的上屏结束键,也即有四种上屏结束键位,这些键位的规定方法,可参见上述申请号为92112716.2的发明专利的说明书。③在第一个音节的韵母转换时,如果接受到紧随其后的第一个空格键,则是音节分隔键兼单字重码显示键,例如,当接受到字符串pi后如果紧接着接受到一个空格键,就确认音节pi已经结束,将与此音节对应的全体汉字,按照高频优先的原则在提示行显示,并且如果继续接受到新的输入字符,则进入第二音节的声母进行转换。否则,pi还可能与后续的输入字符结合,仍旧当作第一音节识别转换。④在第二个音节的韵母转换时,如果接受到紧随其后的第一个空格键,则是音节分隔键兼双音节词重码显示键,其操作原理与②类似。⑤在第三个音节的韵母转换时,如果接受到紧随其后的第一个空格键,则是音节分隔键兼三音节词重码显示键,其操作原理与②类似。⑥如果连续接受到两个空格键,则第二个空格键是提示行首位项的上屏到位键。即完成提示行首位项到位上屏操作,这意味着本次输入完成。⑦在第一个音节后面的第一个字符(对应于单字的形码键)输入后,如果接受到紧随其后的第一个空格键,则是单字重码显示键;此时关闭双字词、三字词和多字词检索,仅在单字库检索并显示匹配项;在第二个音节后面的第一个字符(对应于双字词的形码键)输入后,如果接受到紧随其后的第一个空格键,则是双字词重码显示键,此时关闭三字词和多字词检索,仅在双字词库检索并显示匹配项。⑧在第一个音节后面的第一个字符输入后,如果接受到紧随其后的非空格键的合法编码字符,即该字符属于声母或韵母编码,则关闭单字检索;在第二个音节后面的第一个字符输入后,如果接受到紧随其后的非空格键的合法编码字符,即该字符属于声母或韵母编码,则关闭双字词检索。⑨多音节词编码识别处理与实施例1相同。程序操作流程,与实施例1有一个重要区别程序对接受到的键盘输入的编码字符,在逻辑上是区分单字、双字词、三字词、多字词共四种情况,分别识别转换与检索。例如,在第一个音节后面的接受到的第一个字符,不用转换就可以用做单字检索,因为它对应着单字的形码,同时,又必须对它进行转换后用于检索双字词和三字词。其他操作与实施例1类似,不再赘述。全拼双拼混用型中文输入法,在音码输入法的发展上,以及在使用音码的音形码或形音码的发展上,提出了新概念和新方法,它具有以下优点。第一,它兼有全拼与双拼的各自优点,又克服了全拼与双拼各自的缺点。它通过计算机内部的自动的“模糊”识别转换功能,使得拼音输入法中的两大方法全拼输入法和双拼输入法,和谐地统一在一起。它为使用全拼的用户学习使用双拼,提供了最方便的途径,极大地优化了双拼的易学性。它不再是仅仅依靠外在的方法,例如在键盘的键帽上印上双拼替代键位,在屏幕上用热键弹出双拼替代键位图等等,不再完全依靠这种外在的方法帮助用户学用双拼。而是计算机内部的程序自己完成全拼双拼编码键位序列的识别,显著降低了输入的心理操作难度,为使用双拼,提供了最大限度的“容错”功能无论是用户记不住或暂时遗忘双拼键位,还是在双拼输入对与全拼键位发生混淆,都不影响输入的正常进行,因为输入法本身就允许全拼双拼编码字符任意的组合序列。所以,在这种输入方法中,全拼与双拼之间的“混淆”,不会影响输入的正常和正确地进行,因此“混淆”不再是一种错误。它提供了更加友好亲切的人机交互方式,计算机系统也因允许人类使用者发生“混淆错误”、仍旧能正常地正确地工作,而更发挥智能化的特征,也显得更加“善解人意”。第二,它特别有利于在中小学推广普及中文书写计算机化,从根本上消除了使用双拼在汉语拼音教学上所产生的相互混淆的副作用。它把教育心理和工程心理在中文输入法中的应用统一起来,它使得在计算机化的拼音中文输入,不仅能与小学的汉语拼音教学相互协调,而且能与教育学中的小步教学法统一起来,因为,它不要求学生一次掌握全部双拼键位,而是可以循序渐进的一个键位一个键位的学,或几个键位几个键位的学,等等,掌握一个键位就可以用一个键位,掌握几个键位就可以用几个键位,而不象原先的全拼输入与双拼输入,处于互相排斥的状态,或者全部使用双拼,或者一个双拼替代键都不能使用,等等,这对减轻少年儿童的学习负担,维护少年儿童的身心健康,尽早运用现代科技工具提高学习效率,会起到良好的作用。第三,它符合国家语言文字工作的有关法规和政策,符合中国语文现代化的发展方向,与国民知识和教育背景,高度相容或统一。第四,它为进一步提高音码中文输入法的性能,提供了新的起点、新的基础。权利要求1.一种全拼双拼混用型中文输入方法,它在以键盘为基本输入设备的音码输入法或包括音码的音形码和形音码输入法中,把全拼编码和双拼编码的输入方式结合与协调起来,由计算机系统负责自动识别并转换所接受到的全拼与双拼编码的自由混合序列,并与显示器结合起来,实现中文输入,其特征在于1).按照现有技术定义全拼编码键位;2).定义双拼编码键位,用于表示那些在汉语拼音方案中,用两个或两个以上的字母书写的声母和韵母,定义的原则是,把双拼编码中用于表示汉语拼音中的多字母声母的键位字符,定义到与全拼声母字母的组合序列不冲突的字符集上,把双拼编码中用来表示汉语拼音中的多字母韵母的键位字符,定义到与全拼韵母的第一字母的组合序列不冲突的字符集上,从而满足,相对于汉语音节,在任意的全拼和双拼的编码字符的自由组合序列中,双拼的编码字符序列与全拼的编码字符序列之间互不冲突;3).在1)与2)中所定义的全拼与双拼键位系统的基础上,用户不需要用热键、鼠标、程序肖像选择等任何人工干预的切换方式、在全拼与双拼输入状态之间切换,不需要使用任何区别全拼编码与双拼编码的特殊标识键、以标识前导输入的字符串或后续输入的字符串是全拼编码抑或是双拼编码,就可以在同一个输入状态下,根据规定的全拼与双拼键位系统,自由地随意地混合击打全拼键位或双拼键位,即全拼编码与双拼编码的任意组合序列,来输入汉语的音节;4).计算机程序以1)与2)中规定的全拼和双拼的键位系统为依据,把从键盘上接受到的输入编码字符串——它们可以是全拼编码与双拼编码的任何一种组合形式——转换成统一的内部的语音表达符号系统的字符序列,用这个转换后的字符系列,去检索匹配的中文字、词、词组或句子,从而达到输入中文的目的。2.按照权利要求1所述的全拼双拼混用型中文输入法,它所采用的双拼编码的具体方案可以有多种形式,这些编码方案只需要满足权利要求1的2)条中所规定的定义原则,没有任何其他限制。3.按照权利要求1所述的全拼双拼混用型中文输入法,可以使用通用英文键盘,也可以使用其他形式的键盘,包括专门设计的键盘。4.按照权利要求1所述的全拼双拼混用型中文输入法,可以是纯音码输入法,也可以是包括音码的音形码或形音码输入法;当它是音码输入法时,可以使用声调码,也可以不使用声调码。5.按照权利要求1所述的全拼双拼混用型中文输入法,其计算机程序系统对输入的全拼和双拼编码混合的字符串的识别转换,允许连续输入多个音节,它在所有无歧义的情况下,不需要用户输入音节切分信息,就能够自动地完成音节的切分,仅仅在人类阅读者也不能正确区分音节的歧义情况下,才需要从外部输入音节切分信息,以提供给程序切分音节。全文摘要一种全拼双拼混用型中文输入方法,它使得以键盘为基本输入设备的音码输入法或包括音码的音形码输入法,不需要进行任何切换或使用任何标识键,就能够使用户自由地随心所欲地混合运用全拼编码和双拼编码输入中文,从而把传统相互排斥的全拼输入与双拼输入这两类输入系统完善地协调统一起来,开辟了音码输入中文的新概念新途径。文档编号G06F3/023GK1152737SQ9512130公开日1997年6月25日申请日期1995年12月23日优先权日1995年12月23日发明者徐火辉申请人:徐火辉
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1