音义码汉字输入方法

文档序号:6330400阅读:908来源:国知局
专利名称:音义码汉字输入方法
技术领域
本发明汉字输入方法,尤其涉及一种应用汉字的音码与义码对汉字进行编码的汉字输入方法。
世界各国的经济在发展,语言文字也同样在发展。西方先进国家的拼音文字易学易用,适宜机械化、自动化操作,这是有目共睹的。汉字虽经几千年沿革,在符号中已渐渐增加字音的成分,但整体仍旧不脱象形文字的桎梏,在当今电脑普及的时代,其使用效率难与西文比肩,亦为世人皆知的事实。
电脑的诞生,为人类使用文字提供了一个全新的工具和平台。同样也向各种文字提出了现代化和标准化的挑战。中文已经失去了打字机的时代,不能在电脑时代再次落后。
本发明之发明人认为,汉字现代化的唯一正确途径,是拼音化。这不仅因为欧美诸国早已从中得益,就连我们的亚洲邻邦,如日本、韩国、朝鲜、泰国、越南等等,也相继走上了拼音化的道路。汉字如果再不顺势而动、创新求变,中华民族将要为此付出巨大代价。
从这样的背景来看汉字编码,它不能只是一个单纯的代码转换系统,而应该是整个汉字现代化系统工程中间的一个组成部分。它应该是沿着拼音化的道路勇敢地、坚决地走下去,在汉字的字音、字形、字义这三个组成部分中,突出字音的作用,强化字音的成分,用字音来明确字义,摒弃字义对于字形的过分依赖,使得汉字编码成为未来拼音化汉字的一个雏形和蓝本。
政治、经济、文化相互之间的影响是密切而微妙的。大陆与台湾之间由于政治的原因,形成两岸使用的中文繁简不同,若不早日寻求解决方案,恐怕将来会由文字而语言,由语言而文化,有渐行渐远之趋势。而全球华人,也在殷殷期盼能有一种兼容繁简汉字的编码,为他们相互之间的沟通交流,扫除障碍,提供方便。
由此可见,汉字现代化寻求解决的,是找到一个合乎汉字本身规律、符合汉字改革发展方向、字码合一的方案,使得全球华人能够认同、乐于学习、易于使用,用最小的代价实现汉字的自动化操作。
为了使带有键盘的电子设备,例如个人计算机,能输入汉字,目前已有很多种不同的汉字输入方案。我们经过全面的检索,发现有两件中国专利申请与本发明的内容最为接近,该两申请之申请号分别为CN 92100709.4(发明名称一种汉语汉字的罗马字母拼写法及适宜和输入设备)和CN 92108715.2(发明名称简易音部码汉语输入法)。
上述第一件申请(下面简称“罗马法”),注重汉字中的“义元”成分(在该发明中被称为“意符”),向《说文解字》中追溯汉字的根源。但是两者都存在共同的缺陷只用一个或两个罗马字母来对应义元,这就使得在它们实际运用中仍然是难学难记的。
首先,在“罗马法”的设计中,先找出7000个汉字中的所有“意符”,然后将意义相同或相近的归类合并,得到91个意符。问题便出在这个“归类合并”上,因为意义相同或相近的义元是不能随便归并的。从“罗马法”的意符表来看,它把“寸”、“廾(音gong3)”(注,本文中涉及汉语拼音声调时,分别用1、2、3、4、5来表示第一声、第二声、第三声、第四声和轻声)和“手”一起,都归入“与手有关”的意符里头去了。这就造成了一批因“归并”而引起的重码,如受、寿、授(shou4),捣、导(dao3),叔、抒(shu1),叟、擞(sou3),摄、射(she4),抑、异(yi4),变、弁(bian4),插、叉(cha1),夺、度(duo2),艰、搛(jian1),矍、掘(jue2),抢、将(qiang1),揄、舁(yu2)等等。
其实,“寸”的本义是“十分”,从原来的字形上来看是指事字,表明手掌底部后退一寸为动脉位置,称作寸口。而“廾”是“拱”的古字,意为两手相拱。因此,这两个义元与“手”的原义和原形还是有一定差别的。“又”的原义和原形与“手”最为接近(仍有细微差别),但考虑到以拼音为基础的汉字输入法原来就存在大量重码,应当尽量利用业已存在的每一个义元来给每一个汉字作准确定位。另外,把同类义元合并,也引起记忆上的困难,不如为每个义元设置一个义码来得方便。
其次,“罗马法”的罗马字意符是“参考该意符的意义的拉丁字根而来的”,这就使得这些意符代码,对于绝大多数中国人来说,是一种需要强记的无意义的符号。
“罗马法”发明者的目标是在提供一种新的编码方法的同时,“设计一种新的拼音文字”,这是对的。每一个致力于汉字编码的发明者,都应以此为目标。然而,我们认为,要想让一种输入法真正成为未来文字雏形的话,就必须使其既有合理的字形结构,又有可读的字音。“罗马法”加了这些意符,在字音上就造成了困难。比如,“罗马法”把“音”、“冒”表示为yinfpn、maoxt(f、x分别表示声调的第一、第二声),这显然不能算一种可以读的“拼音文字”。
在上述第二件申请中(下文简称“音部码”)中,发明者把200个“部首”作为汉字表意符号,分成27个类,去对应键盘上27个键。这也存在与“罗马法”同样的问题。一个键位上堆满了9到10个“部首”,无论发明者采用怎样的归类方法,怎样联想,怎样形似,都会让使用者感到不胜其烦。
为什么多数采用“音形”或“音义”法编码的发明者,都会落入同样的陷阱呢?其原因可能在于片面追求缩短码长。不知从何时起,汉字编码似乎有了一条不成文的规定,码长越短越好,最多不要超过4位。正是这条“欲速则不达”的规定,造成了许多削足适履、作茧自缚的现象的发生。汉字编码的码长,必须按照实际情况来定。有些方案把码编成整齐划一的4位,有的甚至压缩到只有3位、2位,由于违背了汉字的内在规律,其结果只能是规则繁复、难学难记。
实际上,码的长短对于一种文字并非重要指标。这些脱离了汉字的渊源和本义而孜孜以求缩短码长的编码,至多只能算一种需要强记的速记码,而不能成为普及的标准码。
因此,本发明的目的在于提供一种便于学习记忆、易于使用且字码合一的汉字输入方法。
下面先描述一下本发明所根据的原理。
古代汉字学家将汉字的造字法归纳为“六书”,也就是六种造字法。根据汉代的许慎在《说文解字》中的表述,为指事、象形、形声、会意、转注、假借。
指事造字法是指用相对简单的符号,通过其组合关系来指出字的含义。比如“上”、“下”等字。一横表示一个平面,在其上加一点和其下加一点分别表示上下两个方位。象形造字法是以描画物体的形状特征而成字。比如“日”、“月”等字。“日”字原来是圆形中间加一点,“月”字是弯曲的新月型中间加一点。形声造字法是指用两个业已存在的原字拼起来成一个新字,其中一个原字表明新字的读音,另一个原字表明新字的意义属性。比如“想”、“泳”等字。“想”是读xiang3音而义与“心”有关,“泳”是读yong3音而义与“水”有关。
会意造字法是指用两个或更多的业已存在的原字拼起来成一个新字,这个新字的含义是那些原字的含义的综合。比如“尖”、“森”等字。一头小一头大就成了尖,三个木表树木繁多即是森林的意思。
转注造字法的定义历来比较模糊,众说纷纭。我们采用一种说法,即从一个业已存在的原字,孳生出一个新字,新字与原字具有同一个部首,字义有着相互引申的关系。比如“考”、“老”等字。两者的部首相同,前者指一般意义上的父老,后者特指家中的父老。
假借造字法是指借用业已存在的原字表达一个新的字义,这样一个字就变成了两个字,两个字的字型完全一样,而字义毫无渊源。比如“之”、“其”等字。“之”原字表示“去”、“到”的意思,后借用为“之乎者也”中的之,与白话文中的“的”意同;“其”原字是名词“簸箕”的象形字,后借用为副词和代词。
通过上面的简述,我们可以看出,汉字按造字法可以分为三类。第一类是原生类,包括指事和象形,属于“无中生有”,活生生地造一个字出来,指事法比较抽象,象形法比较具体。第二类是组合类,包括形声和会意,都是用原生字组合拼装成一个新字,形声法是音义组合,会意法是义义组合。第三类是变化类,包括假借和转注,假借法属转化,转注法属分化。由于变化类的汉字是从前两类汉字“借”来或转化而来,因而汉字最终可以归并为两类,即原生类和组合类。
本发明的汉字输入法所利用的音义码的编码原理就是二元六要素法,二元指音码和义码,六要素指音码的声母、韵母和声调以及义码的声母、韵母和声调。
先分析两类汉字中比较复杂的组合类汉字。音义组合的形声字可分为音元和义元。音元即形声字的汉语拼音,包含三个要素声母、韵母、声调。义元即表明形声字的意义属性的原字(一般表现为偏旁部首),也包含三个要素声母、韵母、声调。同样,义义组合的会意字亦可分为音元和义元,音元即会意字的汉语拼音,义元则对应其中一个主要的原生字,因此会意字也可以用二元六要素表达。
再来看原生类汉字。原生类汉字只有音元,不含义元,因而只需用一元三要素表达就可以了。一元三要素可以看作是二元六要素的一种省略表达方式。
综上所述,音义码的二元六要素表达方式完全可以涵盖所有汉字。
按二元六要素法编码时,仍把汉字分为两类组合字和原生字。组合字有音元和义元,原生字只有音元,没有义元。
音元的拼音表达方式称为音码,义元的拼音表达方式称为义码。
原生字的编码形式为(S1)Y1D1S1代表汉字的声母;Y1代表汉字的韵母;D1代表汉字的声调;例如“日”的编码是ri4。
括弧表示有时候声母不存在,可以省去(下同)。
例如“凹”的编码是ao1。
组合字的编码形式为(S1)Y1D1(S2)Y2D2S1代表汉字的声母;Y1代表汉字的韵母;D1代表汉字的声调;S2代表汉字义元的声母义码;Y2代表汉字义元的韵母义码;D2代表汉字义元的声调义码;例如“泳”字的音码(拼音)是yong3,义元(氵)的义码是shui3,完整的编码就是yong3shui3。“啊”字的音码是a1,义元(口)义码是kou3,完整的编码是a1kou3。
组合字里也有一部分是会意字。比如“尖”,由“小”和“大”两个原生字组成,则取其中一个主要的原生字“小”作为义码(这里判断“主要”的方法原则上是先上后下、先左后右、先外后内),这样“尖”的编码为jian1xiao3。
在音义码的实际应用中,除了用12345的组合来代表和对应声调第一、二、三、四声和轻声的组合,还有其它方案,比如12340的组合,zxcvb的组合,或者其它26个英文字母中5个字母的任意组合,只要是不会引起与音码或义码的混淆。
根据上述编码规则,本发明提供的音义码汉字输入方法包括原生字的输入方法和组合字的输入方法,原生字输入包括如下步骤通过键入表示汉字声母的键,输入原生字的声母;通过键入表示汉字韵母的键,输入原生字的韵母;
通过键入表示汉字声调的键,输入原生字的声调;组合字输入包括如下步骤通过键入表示汉字声母的键,输入组合字的声母;通过键入表示汉字韵母的键,输入组合字的韵母;通过键入表示汉字声调的键,输入组合字的声调;通过键入表示组合字义元声母的键,输入组合字的声母义码;通过键入表示组合字义元韵母的键,输入组合字的韵母义码;通过键入表示组合字义元声调的键,输入组合字的声调义码;其中,所述表示汉字声调和表示组合字义元声调的键从数字键、字母键或其它符号键中选择五个键,分别表示汉字声调中的第一声、第二声、第三声、第四声以及轻声,这五个表示声调的键的选择原则为不引起与音码或义码的混淆。
根据上面的音义码编码原则,下面详细描述本发明的音义码汉字输入方法的实施例。关于本输入方法的特点将在实施例之后进行说明。
如上所述,本发明在输入汉字时,将汉字分成原生字和组合字两类,下面分别就这两类汉字的输入进行描述。
原生字由于原生字只有音元部分,而没有义元部分,因此,在对原生字进行编码和输入时,只输入原生字的拼音,即按顺序输入原生字的声母、韵母和声调,声母和韵母在英语26个字母中都有相应的字符可以对应。对于声调,则可以使用数字、字母和其它符号来表示,例如分别用数字键1、2、3、4、5或1、2、3、4、0表示声调中的第一声、第二声、第三声、第四声和轻声,也可以用字母键Z、X、C、V、B分别表示声调中的第一声、第二声、第三声、第四声和轻声,从这些键中选择声调的原则为不引起与音码或义码的混淆。
组合字根据本发明的分类,组合字包含两部分,一部分为音元,另一部分为义元。对于音元部分包含的信息,其输入方法基本上与原生字的输入方法相同,即按顺序输入汉字的拼音。对于义元部分包含的信息,是在输入了音元部分的拼音之后,输入义元的拼音。每个义元都有其各自的发音,而且,大部分义元的读音与包含该义元的汉字的读音是不同的。例如“们”,该汉字的拼音为meng3,“们”字的义元为“亻”,其发音为ren2。下表是组成汉字的义元的义码一览表。
在上述音义码及其汉字输入方法的基础上,本发明还提供了几种简化方法助记码助记码是为了区分重码而设置的,实际就是用词组来定位。例如“茶”与“茬”,用cha2yev4(茶叶)作为“茶”的助记码,用chaxkouc(茬口)作为“茬”的助记码。
缩略码对于字频排列在前20位的超常用汉字,如果属于组合字,音义码提供缩略形式即省略义码,以缩短码长,加快输入速度。如“的de5、是shi4、在zai4、和he2、有you3、这zhe4、为wei4(wei2)、们men5、个ge4、地di4”,同时,仍保留标准形式。
速记码速记码又称中华双拼码。由于音义码的音义二元都用拼音实现,因此只要用双拼来替代全拼就可以了。中华双拼码的键位安排见下表。
例如“泳”的中华标准码是yong3shui3,中华双拼码是ys3uc3。“中国”的中华标准码是zhong1-guo2,中华双拼码是vs1-go2。
词组编码词组由单字组成,音义码的词组编码形式是将其中每个单字只取音码,略去义码,用短划线连接起来。
两字词的具体形式为(S1)Y1D1-(S2)Y2D2(S1)Y1D1分别代表词中第一单字音码的声母、韵母、声调,(S2)Y2D2分别代表词中第二单字音码的声母、韵母、声调。例如“游泳”的编码是you2-yong3。
三字词及其他多字词依此类推,(S1)Y1D1-(S2)Y2D2-……-(Sn)YnDn例如“想当然”的编码是xiang3-dang1-ran2,“叶公好龙”的编码是ye4-gong1-hao4-1ong。
繁体字编码方式繁体字的编码方式与简体字的编码方式在原理上完全一样。由于多数繁体字的简化是将汉字中表义或表音的原生字在笔画或字形上加以简化处理,而这些原生字的发音并没有发生变化,因此大多数的繁体字和简体字的编码结果也是完全一致的。例如“码”和“碼”的音义码都是ma3shi2,“词”和“詞”的音义码都是ci2yan2。有些字在简化过程中将义元改换掉,或者索性把含有义元的组合字改成没有义元的原生字,则编码结果会有所不同,主要是义码不同了,音码还是相同的。比如“體”的音义码是ti3gu3,而“体”的音义码就是ti3ren2;“頭”的音义码是tou2ye4,而“头”的音义码则是tou2。
根据上面描述的音义码汉字输入方法,其具有如下特点1.完善拼音,等同文字汉字终究要在拉丁拼音化的道路上继续前进,汉语拼音的推广应用是这条道路上的一个重要的里程碑。汉语拼音的历史贡献,在于把汉字的音元拉丁化,而音义码的最大特点,是将汉字的义元也加以拉丁化,用拼音来表达。
汉语要规范化、标准化,还必须用更多的多字词来取代单字词,必须整理和规范词的定义和数量,消除汉语词在语音上以及电脑输入上的严重的重码现象。这一改革的实质,是用多音节来为汉语词定位。文言文发展到白话文的过程,正是多字词比例不断上升、单字词比例不断下降的过程。音义码把义元拼音化,就是把组合类的单字多音节化,为发展多音节词创造条件。而在词组编码时将单字省去义元,中间连以短划线,使之与单字编码的形式趋于一致,又略有区分。
这样的一种编码,可以把它看做是是未来汉字的雏形,也可在近期把它当作汉字的一种特殊形态加以使用。谓予不信,可看下例。
汉语我喝了一口鲫鱼汤音义码wo3 he1kou3 le0yi1 kou3 ji4-yu2 tang1shui3其中“鲫鱼ji4-yu2”、“汤tang1shui3”分别和“鲫ji4yu2”“汤水tang1-shui3”有很好的对应和互换关系。
如果按照编码规则里的一种方案,将声调12340用zxcvb替代woc hezkouc lebyiz kouc jiv-yux tangzshuic就更象一种成熟的文字了。
2.基本离散,可以盲打以拼音为基础。拼音为音码,加上义码。义码起到离散拼音重码的作用。义码加上后,重码率降低到11%左右。可以说,已经把汉字基本上离散开来。剩下的少数重码,可以通过上述助记码等技术手段进行处理,将来还可以通过文字改革进行改造和分离。这样,音义码完全能够达到盲打的要求。
3.规则简单,容易学习义码是最简单方便的离散方法,也是最简单方便的记码方法。因为义码原本就是一个个常用汉字。如“木”字旁mu4、“雨”字头yu3之类。全部义码的总和与新华字典中的偏旁部首差不多,一共245个(其中组字频率在两个以上的198个),然而比偏旁部首更科学、更合理。
4.码长合理,轻松记忆引入采用拼音表示的义码概念后,看来码位数比较多一些。最短的码比如“大”da4为3个,最长的“庄”zhuang1guang3是13个,平均码位数7.85个。
在英语中,最短的单词“I”(我)为一个字母,而最长的据说有20多个,像comprehensively、conceivability这些词都有14、15个字母,平均字母数据统计为5.2个。因此,从中英文字的比较来看,音义码的码长也是可以接受的。
而当采用中华双拼码以后,每个汉字的输入至多只需6键就可完成,有的只要4至5键,平均码长5.81位,每个汉字的击键数与英文差不多。
必须看到的是,英文单词是一种拼音文字,是一种成熟的、稳定的、可以用机器自动化操作的文字,而中文目前尚处在一个变化过程中,即从纸上手写的象形文字向可以用机器自动化操作的拼音文字过渡。音义码可以认为是这种过渡的一种中间形态。随着音义码与中文造字法(准确地说是中文构词法)之间的互相影响和不断改进,音义码的码位数或许还会减少。
5.兼容简繁,包含速记音义码的一大优点,是它的兼容性。它兼容简体繁体,同时它还能兼容标准输入与速记输入。对于那些追求汉字输入速度的专业人员,音义码同样提供方法,那就是中华双拼码。
6.大小键盘,均可使用音义码不仅是标准键盘上理想的输入方法,而且它在类似手机等小键盘上也很好用。小键盘输入是边看屏幕边操作的,由于音义码设计的合理性,用户在输入的时候,只需要输入音元加上义元的第一位拼音字母,就可以找到相应的汉字,基本上不用翻屏。
权利要求
1.音义码汉字输入方法,包括原生字的输入方法和组合字的输入方法,原生字输入包括如下步骤通过键入表示汉字声母的键,输入原生字的声母;通过键入表示汉字韵母的键,输入原生字的韵母;通过键入表示汉字声调的键,输入原生字的声调;组合字输入包括如下步骤通过键入表示汉字声母的键,输入组合字的声母;通过键入表示汉字韵母的键,输入组合字的韵母;通过键入表示汉字声调的键,输入组合字的声调;通过键入表示组合字义元声母的键,输入组合字的声母义码;通过键入表示组合字义元韵母的键,输入组合字的韵母义码;通过键入表示组合字义元声调的键,输入组合字的声调义码;其中,所述表示汉字声调和表示组合字义元声调的键从数字键、字母键或其它符号键中选择五个键,分别表示汉字声调中的第一声、第二声、第三声、第四声以及轻声,这五个表示声调的键的选择原则为不引起与音码或义码的混淆。
2.如权利要求1所述的音义码汉字输入方法,其特征在于,所述表示汉字声调和表示组合字义元声调的键为1、2、3、4、5,分别表示声调的第一声、第二声、第三声、第四声和轻声。
3.如权利要求1所述的音义码汉字输入方法,其特征在于,所述表示汉字声调和表示组合字义元声调的键为1、2、3、4、0,分别表示声调的第一声、第二声、第三声、第四声和轻声。
4.如权利要求1所述的音义码汉字输入方法,其特征在于,所述表示汉字声调和表示组合字义元声调的键为z、x、c、v、b,分别表示声调的第一声、第二声、第三声、第四声和轻声。
5.如权利要求1所述的音义码汉字输入方法,其特征在于,在输入汉字的声母或韵母时,利用下列对应关系来输入多字母声母或韵母
6.如权利要求1所述的音义码汉字输入方法,其特征在于,在输入词组时,仅输入词组中每个汉字的声母、韵母和声调,每个汉字的码之间利用分割符分开。
7.如权利要求6所述的音义码汉字输入方法,其特征在于,所述分割符为“-”。
全文摘要
本发明涉及音义码汉字输入方法。传统汉字输入都侧重于输入快速和缩短码长,而忽略了汉字的拼音化。本发明的输入方法包括原生字和组合字的输入,原生字输入包括:按顺序输入原生字的声母、韵母和声调;组合字输入原生字的基础上增加了输入义元的义码,包括:按顺序输入组合字义元的声母、韵母和声调;其中,表示声调的码从数字键、字母键或其它符号键中选择五个,分别表示汉字声调中的第一、二、三、四声及轻声。
文档编号G06F3/023GK1376961SQ0110579
公开日2002年10月30日 申请日期2001年3月28日 优先权日2001年3月28日
发明者徐雷 申请人:徐雷
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1