汉字的音-形互补码输入法的制作方法

文档序号:6410744阅读:422来源:国知局
专利名称:汉字的音-形互补码输入法的制作方法
1、音—形互补码输入法是汉字编码输入的一种新方法;是在编码方案中直接应用汉字本体规律,在代码及键盘设计中整合音码与形码特点的汉字编码输入技术。
2、通过检索500余种汉字编码输入的方法和技术,我们认为,包括几十种实用的无理和有理编码,都普遍存在这三方面的共性缺点。其一,形码设计偏重于汉字特征的经验性总结。如汉字的五笔字型输入法,所选“字根”实质是汉字部首检字法的一种套用;因后者的主要目的在于查询、检索汉字,并且,侧重考虑偏旁、部首的组字频率而忽视单笔划、非成字部首与成字部首的定性标准,因此,由部首转换而来的“字根”概念缺乏说理性,也难以概括汉字在构成上的内在本体规律即在构成关系中包含的各种线性与非线性特征。此外,仅以五种笔划和三种构型概括汉字构造的时空序,也同样是不完备的。这是因为,基本笔划是汉字的一种线性组字单位,相当于拼音文字的字母——它们除显示五笔划概括的共性外,更多地表现彼此间的个性差别;因汉字植根于中国传统文化背景中,其构型特征实质诠释了东方自然哲学代表的某种时空观念,因此,仅将汉字区分为三种构型,就很难完整地提取汉字拥有的复杂信息。再如表形码、表音码、赋音形码等,在“部件”选择上也存在类似五笔字型的缺点;尽管后者追加了音的信息,但都单向地以音作注解,即以发音作“部件”的指定性代码,未能形成互补的、以字母键为中介的自然转换关系,以致记忆量增加成了此类编码难以避免的一种代价。如“永字八法”是书法家对汉字书写规律的粗略总结、“二、三分体”是人们对汉字疏密结构关系的概括性认识——凡此类及具主观经验色彩,至今未能升华为真正意义的科学准则,因此,有些编码直接应用这类知识,其历史局限性是不言面喻的。其二,为编码而编码,因编码需要而附加各种人为规定。如三维天然码是最典型的为编码而编码的输入方法,它机械而牵强附会地将汉字造形与西文字母划等号,已经完全偏离汉字内在的本体规律;如是,汉字和汉语言何以保持纯洁性和规范性。据统计,支持五笔字型输入法的规则多达200余条,其中有些是为了服伺汉字的拆分与取码,并明显地有违小学汉字教学的背景知识;暂且不论规则的人为性,仅繁杂的字型谱系就与简洁的西文输入相去太远——不经较长时间的专门培训是难以上机操作的。再如对拼音输入法的改进,人们曾以“紧缩”法来减少击键次数,却因声、韵母代码的加入增加了记忆负担,同样没能解决重码率高的难题;也有人在此基础上增加声调码和区分码,这再次增加了操作者的记忆负担,以致普遍被认为是好学却不好用的汉字输入技术。究其原因,就在于汉语拼音方案未能诠释汉字固有的丰富的文化内涵;尽管它代表着汉字改革的一种发展方向,但至少在目前存在涵盖面窄的局限——在用于汉字输入时,因码长和重码就必然要求人们附加一些人为规定。除上述外,被称为无理编码的电报码等,就是更典型的一些人为设计方案,对此人们早已达成共识。事实上,在许多编码方案,类似前述的作法随处可见;共同的原因在于,对汉字所作的文字学研究已大大滞后于它的应用,特别是在汉字编码输入中的应用。其三,代码设计多为指定性的。由于未能自觉地应用汉字构造的本体规律,无论以数字作代码还是用音作形的注解,代码就必然是一种强制性的;这一方面要求人们死记代码——尽管编码者给予种种解释或编出某种助记口诀,另一方面已额外增加了操作者的记忆负担,十分不利于中文电脑在大规模人群中的普及。综合上述,音—形互补码输入法遵循了这样的设计思想经验不等科学,实用首先应该合理,合理还必须体现科学的一贯原则即服从科学的理性精神;以经验编码向科学编码的转变为目的,建立以汉字三大本体规律为核心的汉字编码科学的理论体系;以代码的非指定性为目标,设计与编码方案相适应的通用标准键盘,最终获得音—形互补码为基础的汉字编码输入技术。体现这一思想,我们还必须注意这种现象“速度快、重码低”曾成为汉字编码科学的一种代名词,成了评价汉字编码方案的唯一标准。我们认为,以牺牲科学性和规范性为代价的技术评价标准是不足取的;只有科学性、先进性与实用性的有机统一,才是一种真正科学意义的汉字编码方案。
3、本项发明旨在向公众提供一种简明、规范、高效、实用的汉字编码输入技术,这具体体现在以下四方面。①系统设计直接利用小学教育中的汉字书写、认读和汉语拼音背景知识(仅限于单字的第一个拼音字母的应用),以便适合中小学生、略具中文知识的外国人和各种非专职录入员使用。②以汉字的三大本体规律为核心,诠释汉字的“字母”、部件、构成单元和它们与中国传统文化的内在联系,仅给出少量编码规则,以便最大限度地降低记忆量、适合少儿和老人在内的各年龄组的人使用。③给出汉字构成单元的非指定性代码,设计与26个形码和23个音码相匹配的通用标准键盘——在设定中文输入状态时,西文字母直接转换为汉字音与形的代码,以便于实现盲打、适合以快速性为目标的专职录入人员使用。④以兼容性获得较好的性能价格比,以便于社会各阶层的人员使用。4、音—形互补码输入法的基础理论
1)汉字的“字母”与部件众所周知,拼音文字是由字母这种部件排列、组合而成的,部件之间保持一种简单、线性的系统关系。相比之下,背负博大精深、无以伦比的中国文化,汉字的构造也就更为复杂、更多地呈现既开放又相对封闭的非线性系统特征。从这一意义出发,汉字本身为中国传统文化和东方哲学观念的一种缩影,亦即系统构造贯穿了东方整体观和古老唯象哲学的科学文化思想。特别重要的是,在现代科学经历长足的发展之后,东西方文化正趋于汇流,当代科学正朝向中国传统科学的主导观念发展;由此,再次反证了汉字及中国传统文化的优秀品质和深藏于汉字内部的科学文化内核。
汉字属象形文字,仅就其线性特征而言,与拼音文字具有一定的可比性。如英文由26个字母组成;据新编九年制义务教学大纲,汉字可拆分、还原为28个基本笔划。这里,单笔划就相当于汉字的“字母”,起到类似英文字母的组字作用。
但在更多的时候,这两种文字不具有可比性,其中之一就是汉字独有的非线性构成特征。例如,汉字可全部拆为单笔划,也可在拆出单笔划的同时,拆出由单笔划组成的相对独立的多笔划结构;或在较复杂的汉字中,拆出相对独立的单字来。这表明,汉字的“字母”不仅直接参与构成单字,而且还通过多笔划结构或由相对独立的单字构成更复杂的汉字。换句话讲,汉字比拼音文字多一套组字单位除这里的“字母”外,还有后面要讲的构成单元。
作为文字语言,汉字的载体作用也将通过字义得到表现,亦即各种字义分别代表某种特定的文化信息。因此,我们参照遗传学的基因编码原理,以字义为标准,将一般无字义或仅含隐义的单笔划和多笔划结构称为部件。其中,单笔划为基本部件,多笔划结构为单笔划组成的组合部件。若将部件比作编码基因的硷基和核苷酸,具有特定字义的单字(包括成字部首)便相当于基因。这样,我们不仅明确了汉字的两套组字单位,而且还严格地给出了汉字部件的信息学定义。从信息科学的角度,汉字正是由部件的组合涌现出字义的。
2)汉字的非线性构成单元既然单字可参与构成比它更复杂的汉字,那么,它们起到的作用就类似于前述的部件。注重这里的共性,我们可将它们合称为汉字的构成单元。
构成单元有四种,除两类部件外,单字又可分为独体字和合体字。其中,独体字是指以自身为参照、整体结构最小的单字,亦即完全由部件组成、内部不含任何其它相对独立的单字;相比之下,合体字可拆出部件,也可拆出一个及一个以上相对独立的单字来。显然,新概念有别于传统的定义,它使汉字的拆分与分类相统一——不因结构疏密而分体不清、也避免了分体结构可再分体的模糊性,因而具有更严密的科学逻辑性。
作非线性考虑,我们进一步将构成单元分为四个层次并用级来表示1级构成单元为基本部件,2-4级分别为组合部件、独体字和合体字。其中,1级为2-4级共同的基础;2级可拆出1级或同处一级的其它2级构成单元;3级只能拆出1-2级构成单元,4级则可拆出1-3级来。这样,在相对线性的四级构成单元之间,实质保持着一种非线性的联系。由于“字母”同处四级构成单元的第1级,因此,两套组字单位形成了一种互补的联系。正因为这一点,汉字信息处理要比西文更复杂,更困难一些。
3)汉字构造的金字塔模式与全息规律如前所述,四级构成单元之间保持着非线性而又相对线性的联系。这犹如金字塔——1和4级分别为金字塔的底坐和塔尖;二者间依次有2和3级构成单元,因此。我们称这一规律为汉字构成的金字塔模式(参见图①-②)。
由该模式。我们可以获得汉字的另一种分类方法,即以四级构成单元的排列组合为基础,将汉字分成1×1、1×2、1×3、1×4、2×2、2×3、2×4、3×3、3×4、4×4这十大类。如一和
都是单笔划亦即本文的基本部件或“字母” 或1级构成单元,但在单独出现时,各自本身又是一个单字, 因而被视为特例即非组合性质的汉字。
特例字的存在实质提出了另一个问题在一定条件下,一般无字义或仅含隐义的部件可以不同程度地显示字义;亦即四级构成单元都或潜或显地存在某种字义,只是愈靠近塔底即第l级,能由潜到显而表现字义的几率愈小。再如讠为组合部件或2级构成单元,隐含有“言”的字义,当讠参与“说、话、语”等字的构成时,即可不同程度地表现“言”的信息;相比之下,3-4级构成单元的字义是显性的,勿须经历这样的转化。因此.我们称上述为汉字构成的全息规律。显然,全息只是一个相对的概念.与之对应的是全息不全。如“说、话、语”都显示“言”的信息,但因信号转换中的信息损失,各字中“言”的信息量有所不同。后者即为全息不全。
4)汉字构造的象形规律从构成到构型,我们可将汉字分为四大类。即上下型、左右型、外内型和杂合型汉字。既使土与士、人与入、已与巳,巳的基本构型相似,也因笔划长短、是否封口而呈现局部及至整体的构型差别(参见图③)。
无疑,汉字构型特征的出现不是偶然的,有其深刻的社会文化背景。亦即与中医学同出一辙,如中医的元气论与阴阳五行学说、汉字造象的非线性构成规律与构型特征,都体现了整体观和唯象哲学的古代自然主义思想。当然。正因为自然哲学的广泛包容性,加之特定的历史原因,具体到每个汉字的造字背景就很复杂,亦即多因素共同决定某字区别于它字的唯一性。同样的原因,汉字常表现字多音或多义、多字同音或音阶模糊、书写允许某些变形等现象,这也类似中医学即存在多义、岐化、模糊、涵盖面广的文化特点。
简单的讲,古人造字的初衷是象形,直至形成取类比象、以形托义、具体参照两类自然事件的造字原则,如上下、左右、外内、前后等是古人最容易感受到的事物存在方式,在纸平面上再现此类时空特征。古人便创造了前述四种构型的汉字。再如笔划长短常指代各种事物的阴阳五行属性、长笔划也可视为外笔划沿时空方向的一种延伸,这样,长短笔划依序在单字内的出现、既满足了造象对形的要求也可说明表征物对应的自然哲学归类。在另一方面,汉字造象还参照了各种具象物的形态特征,如日、月、人就分别形似于太阳、月亮和人体。由于此类字例十分众多,这里不再赘述。
概括起来,形可看作构成与构型的总和;当四级构成单元相互组合或为满足造字要求、出现类似笔划长短的变化时,即可涌现字义、形成某字区别于它字的的唯一性。因此,构成为汉字造象的基础、形更直接地由构型来体现,我们称这为汉字构型的象形规律。
5)汉字的四种分类方法在前面,我们已介绍了这三种汉字分类方法,一是依构成关系,将汉字分为合体字、独体字和独体字的特例,后者如-和
、既是部件也是单字;二是对构成关系作数理描述,用数学语言将汉字分为1×1、1×2、1×3、1×4、2×2、2×3、2×4、3×3、3×4、4×4这十类;三是依构型特征,将汉字分为上下型、左右型、外内型和杂合型这四类。接下来,我们将讨论第四种即首位分类法。
所谓首位,是指对应上下型、左右型、外内型汉字的上、左、外或内(先写为标准)部结构和对应杂合型汉字的起笔或先写结构。无论汉字多么复杂,作为首位的结构只有四种一个相对独立的单字(合体字或独体字);一个组合部件;一个基本部件;一个混合结构。例如,音和熬的首位为立和敖,肥、间、打、语首位分别为月、门、扌和讠;边、凶为半包围的外内型汉字,因力和
先写,故力和
为首位。再如朱、中和女为杂合型汉字,它们的起笔或先写结构——丿、口、
分别就是首位。在有些时候,我们会遇到类似
(敖)、畐(副)、
(疆)、
(粲)、
(受)、
(带)的首位结构——作为相对独立的整体,它们不是单字,也不符合另外两种首位的定义,因而被称为混合结构。对大多数汉字,依据构型的首位认定一般是明确的;如果遇到困难,可以参考笔顺规则或查阅《新华字典》。如戊的首位为
咸的首位为相对于
的戊;依照惯例,
可拆为
爿和臣,故
为的首位。
这样,首位分类法就是依首位特征对汉字作出分类的方法。它将汉字分为四大类,与前三种方法保持着互补的联系。继首位之后,若以同样标准界定次一级的首位结构或加上音的信息,这一方法即可用于汉字的检索分类,这被称为汉字的首位检字法。后者将从很大程度上弥补部首检字法的理论缺陷。例如,部首检字法主要考虑了偏傍、部首的组字频率,却忽视了部首与部首的本体差异,如有些部首为本文定义的基本部件和组合部件,有些本身为单字(只是组字频率相对较高),另一些则是本文所指的混合结构(
忄、攴、
、采、
、疒都可拆出一个以上相对独立的单字,作为整体却无字义);由于组字频率较低,还有许多与上述类似的结构不在部首之列,因而也不具备广泛的概括性。正因为这一原因,人们总在不断地寻求新的汉字检字法的出现,这也是新的首位检字法的意义之所在。
6)汉字拆分的基本方法在遵循笔顺规则的基础上,最基本的汉字拆分方法有三种。一是“字母”拆分法或称基本部件拆分法,即拆出汉字中所有的单笔划;二是部件拆分法,亦即分别拆出汉字中的基本部件和组合部件;三是构成单元拆分法,除拆出两类部件外,还直接拆出相对独体的单字即3-4级构成单元;由于合体字可拆为独体字和其它的部件,因此,此法可派生出1-3级拆分法和1-4级拆分法这两种。应指出的是,因汉字构造的复杂性,实际应用可选择上述中的一种,也可以是三种方法的综合应用。如用于汉字编码,“字母”拆分法会增加码长;既便综合应用这三种方法,也需要对某些细节作以规范。具体参见本文后面的单字编码规则。
5、音—形互补码输入法的操作系统
1)“音—形互补码”的键盘设计据新编九年义务教育的语文教学大纲,参与组字的单笔划即汉字“字母”共有28个。其中,
(竖弯)可归并为
(竖折)、
(横折弯)被归并为
(横折弯钩),从而剩下实际应用的26个“字母”。
与通用标准键盘的英文字母相对照,汉字“字母”可依序排列在字母键的26个键位上,由此形成以字母键为中介,可以相互转换信号的双字符中西文键盘系统(参见图④)。除此之外,这种键盘还有第三种信号转换功能,如在汉语拼音音节索引中,用于汉字检索分类的拼音字母有23个;后者对应除I、U、V外的23个英文字母,因此,击字母键既可输入汉字“字母”也可输入西文及汉语拼音字母——若设定中文输入状态,西文字母即可成为汉字“字母”及汉语拼音字母的一种代码,并且,是非指定性的代码。
2)构成单元的代码因前述的原因,以下代码是非指定性的,因而不需专门记忆,只要求熟悉键盘、具备粗浅的汉语拼音背景知识。
①1级构成单元即基本部件的代码作为汉字的“字母”,26个基本部件被有序地安排在字母键的各个键位上,它们的代码即键位上对应的西文字母(参见键盘设计)。在对键盘作表面处理时,其直观的对应关系极便于盲打。
②2级构成单元即组合部件的代码因组合部件由基本部件和同处一级的其它组合部件组成,因此,不另设代码、直接借用各自结构中第一个基本部件的代码。如讠借用
的代码U,艹借用一的代码I,等等。组合部件有两种(参见图⑤),一是部分非成字部首,如取虍的
为组合部件,其它参见图⑤;因
忄、攴、
、采、
丶疒为前述的首位(混合结构)
、覀、罒被视为单字羊、西、四的变形,因而都不在组合部件之列。二是连续书写的直观无字义的多笔划结构,如
ナ、
等都是一些相对独立的组合部件。显然,组合部件本身不需要专门记忆,它们按笔顺规则书写、具有直观无字义的特征。
③3-4级构成单元即单字的代码与前述形码相互补,单字取音码即以各字汉语拼音的第一个字母为代码。只是应注意这两点,处在单字内,曰取与日相同的发音R,多音字取常用或音序排列在前的发音;因特定历史原因,作为构成单元的某些单字出现了变形,对此仍按单字处理。
3)单字的拆分与取码本系统沿用汉字编码的四码制,即字词编码均含四级码元。单字的第一码为各字汉语拼音的第一个字母即单字自身的代码,第二、三、四码则视以下的拆分、取码规则而定。
①单字拆分与取码的直观原则合体字的构成关系有两种,一是相对独立的单字与其它结构呈交叉、嵌合关系,如申(日、丨)、电(日、
)、大(一、人)、木(十、八);二是呈平行的相接和相离关系,如朱(
未)、土(十、一)、采(
木)、间(门、日)等。为了避免因拆分而带来的岐义,如按笔顺规则,耒至少有四种拆分结果——一、未;二、木;三、小;丰、八。我们规定,凡是前一类型的合体字,不直接拆出相对独立的单字,如申可拆为口、一、丨,不得拆为日丶 丨;木拆为一、丨、丿、,不得拆为十、八。这样,类似天的单字只有一种拆分结果,即一、大而非二、人。同样,作为相对独立的结构,曹中的
为组合部件,不得拆为艹、日;丰只能拆为一、
②首位的拆分与取码在四种首位中,一个单字和一个基本部件的首位直接取一码。依据笔顺规则(书写规则),首位为一组合部件的作一级拆分即取两码,如讠取

宀取
和冖、冖取

冫取丶和
氵取
和冫、取

艹取一和丨,


,辶取

阝取
和丨,


。同样,若首位为混合结构,也顺序取两码,如畐取一和口,



和夕,

和土

和卜,

和止,疒取广和冫,其它相类似。以上表明,两种首位的拆分应用了“字母”拆分法和部件拆分法,首位取码则应用了汉字的首位分类法。由此,见字识首位、同时取1-2码,加上前述的第一码,即可简化汉字拆分与取码的步骤并降低了重码。
③顺序拆分与取码继首位之后,我们还需顺取1-2码。顺序取码主要采用构成单元拆分法,具体操作注意三点。一是首位后的所有独体字和受直观原则限制的合体字不再拆分,直接取代码;二是遇到类似似元、示、羽、品的合体字,均一一拆分,分别取代码;三是遇到类似石、土和主的合体字,仅在编码需要时作一级拆分,否则不再拆分。后者如编、首位为虫,扁作一级拆分、取户和
户不得拆为
和尸;再如周中土与口相拆离,土不得再拆为十和一。如此经历顺序拆分,首位直接取码(首位为一个单字和个基本部件的)的单字,可顺取首位后2码;若首位拆分已取了2码,只须另取一末位码。末位是指顺序拆分获得的最后一个相对独立结构,如首位后只有一个不得拆分的独体字或合体字,二者即为末位;同样,首位后只有一个基本部件或组合部件,它们也直接作为末位。
4)单字的编码规则在汉字的拆分、取码中,凡不足四码者另补一末笔代码,这被称为末笔处理。如庆拆为广、大,末笔处理取;黑拆为里、灬,末笔处理取
;卜拆为丨、
,末笔处理取
即重复取丶的代码。此外,本系统坚持编码输入为汉字本体规律的直接应用的原则,对预期出现的个别重码,仅以序号选择来处理;相比之下,以往的许多编码存在这种缺陷,那就是为编码而编码,因编码需要而付加各种人为规定。从科学意义上讲,汉字输入的未来发展方向有两点,一是促使汉字编码即键盘输入由经验走向科学、由代码的指定性转为非指定性亦即不要专门的代码;二是探索更为有效的非键盘输入技术。显然,因本系统坚实的科学理论基础和前述代码的非指定性特点,前一目标已在本系统具体地得到实现。
①首位为一单字(独体字或合体字)或一基本部件的单字首位一码,顺取二码。例如,肥→月、巴 fybj堆→土、隹dtzi熬→敖、灬 aapu柱→木、
、王 zmuw叭→口、八 bkbl吧→口、巴bkbj规→夫、见 gfjj顺→川、
贝 scib多→夕、夕 dxxu码→石、马msmi您→你、心 nnxu众→人、人、人zrrr取→耳、又 gcyl好→女、子hnzi间→门、日 jmri庆→广、大qgdl近→斤、辶 jjul送→关、辶squl音→立 日 ylri天→一、大 tidl朱→
未 zpwl血→
皿 xpmi主→
一、土 zuit木→一、丨、丿 miop女→く、丿、一nspi正→一、止、zizi可→一、口、亅kikn王→一、十、一 wisi八→丿、bpll二→一、一 eiii再→一、冉ziri小→亅、
xnpu工→一、丨、一gioi下→一、卜 xibu②首位为一混合结构或一组合部件的单字首位二码,另取一末位码。例如敖→
万、攵、 aiwp 粲→
夕、米 coxm餐→
夕、良 coxl疆→弓、土、一 igti副→一、口 、 刂 fiko 受→
冖、又 sppy带→
、冖、巾 dipj 踏→口、止、日 tkzr悉→
米、心 xpmx告→
土、 口 gptk病→广、冫、内bgun悟→
卜、口 wpbk疏→
止、
swzp恙→丷、王、心 yuwx趾→口、止、止zkzz补→
卜 huwb苷→一、丨、甘 giog语→
口 yuqk降→
丨、
xvoi文→
一、
wuiy宝→
冖、
bupu笑→
大 xppd给→
口gatk洋→
冫、羊 yuuy 针→
十zpts寿→一、一、寸siic曹→一、丨、日 cior殳→
又 spgy
③特例一和
的单字代码均为Y,部件代码分别为I和G。各自编码为yiii和yggg。注意,处在单字内,一和
均按照部件取代码。此外,人中借用
代码H,人和入的编码为rpll,rphh。
5)词汇的编码规则字词混合输入.词汇的编码如下述。
①双字词第一码统一为V,第二、三码为前后两个单字的代码,第四码为后一字的末位码。例如中国 vzgu 朱码 vzmm科学 vkxz 您好 vnhz专利 vzlo 湖北 vhbb
②三字词第一码统一为I,第二、三、四码为前后三个单字的代码。例如
十堰市 isys图书馆 itsg
基金会 ijjh生物学 iswx
③四字词第一码统一为U,第二、三、四码分别为1、2、末个单字的代码。例如
五湖四海 uwhh气象万千uqxq
中国人民 uzgm地久天长udjc
④多字词顺取1、2、3、末单字代码为第一、二、三、四码。例如
中华人民共和国 zhrg
中国共产党 zggd
中国人民解放军 zgrj
6)简码的应用
①一级简码共安排26个高频字,给出与26个“字母”或字母对应的代码,输入简码字的代码,另击一次空格键。
②二级简码共安排500余个次高频字,分别输入全码的前二码,另击一次空格键。
③三级简码共安排2500余个国标一级汉字,分别输入全码的前三码,另击一次空格键。除1-3级简码外,国标二级汉字、罕见字和剩下的700余个一级汉字需全码输入。
7)其它技术的应用
①重码在出现个别重码时,屏幕将依频度显示重码字的排序号,此时击数字键即可选择用户所需的汉字。
②容错码若输错简码以外的汉字的最后一码,三码相同的汉字将按排序号同时显示在屏幕上,此时也作数字键选择。
③“?”学习键若遇不知读音或不会拆分的汉字,未知的1-2码可用“?”代替。在此基础上,击数字键可选择屏幕上依序号排列的某一汉字。
6、音—形互补码输入法的技术特点
与现有的同类技术相比,本系统具有以下优点
1)简明性如编码规律强、规则少、无记忆负担、不需专门培训、经验成份被降至最低限度,突破了沿用汉字部首检字法的汉字认知体系。
2)快速性如代码具有非指定性、汉字“字母”与西文字母相互对照、键盘设计简洁、极易实现盲打、每分钟可输入150左右的单字、平均击键次数为2.08,同时适宜文章的起草和抄录。
3)兼容性广义的兼容性包括编码与标准化教育接轨、音码与形码互补而不受方言限制、继承汉字传统并增强其科学逻辑性、与通用电脑及键盘设计相兼容。
4)有效性如四码制编码可覆盖所有国标一、二级汉字和部分罕见字、三类词汇与单字编码绝对离散;可建立自定义词组、重码率仅为1.5%,在作容错处理时、可完全消除重码,适宜处理所有汉字书面文章。
5)经济性由前述派生而来,包括勿须培训,不需另行添置专用设备等,因而具有较好的性能价格比,适宜在社会各阶层中普及。
7.附

图1-5
1)图1为汉字构成的金字塔模式.1.2.3.4.代表汉字的四级构成单元,其中,
1.2.级又分别称为基本部件和组合部件。
2)图2为28个基本部件及其称呼(参见九年义务教学大纲)。
3)图3为汉字的四种构型及字例。
4)图4为26个基本部件的代码及健位安排。
5)图5为组合部件举例。因此类皆为连续书写且相对独立的无字义结构,因此,见字可识,不需专门记忆。
权利要求
1、音—形互补码输入法是汉字编码输入的新方法和新技术,其主要技术特征可概括为以下几方面①设计汉字的组字单位的代码。汉字的组字单位有两种,一是线性的组字单位即26个单笔划,它们又称为汉字的“字母”;二是非线性组字单位即四级构成单元——1级为26个单笔划、2级为单笔划组成的相对独立的多笔划结构、3-4级分别为独体字和合体字,其中,1-2级又分别被称为汉字的基本部件和组合部件。与一般无字义或仅含隐义的两类部件相比,3-4级都具有明确的字义即作为单字(包括成字部首)参与构成更复杂的汉字;其中,独体字是指以自身为参照、整体结构最小的单字即完全由两类部件组成,合体字则可从内部拆出一个及一个以上相对独立的单字来。将汉字“字母”置于通用标准键盘的字母键上,1级构成单元的代码分别为键位上与汉字“字母”对应的26个西文字母;2级构成单元不另设代码,直接借用组合部件中第一个基本部件的代码如讠借用
的代码U;3-4级构成单元皆取单字汉语拼音的第一个字母为代码,它们分别对应除I、U、V外的23个西文字母。②设计键盘。与通用标准键盘兼容,26个汉字“字母”被有序地排列在26个字母键的键位上;在设定中文输入状态下,西文字母可直接转换为前述1-2级构成单元的形码代码和3-4级构成单元的音码代码,由此显示代码的非指定性和音与形码的互补性特点。③单字的编码与输入。对应汉字的四种构型即上下型、左右型、外内型和杂合型,书写在先的上、左、外(或内)、杂合型的先写结构为汉字的首位。首位只有四种,一个基本部件;一个组合部件;一个单字;一个混合结构。首位为一个基本部件和一个单字的,首位直接取一码,顺拆首位后的2个构成单元作第三、四码;若是另外两种首位,首位作一级拆分、取二码,再取顺序拆分的最后一码即末位码。单字编码为四码制,第一码统一为各字的代码本身。顺序拆分须遵循笔顺规则和直观原则,凡不足四码者另补一末笔代码。④字词混合编码。双字词的第一码统一为V,第二、三码为前后两个单字的代码,第四码为后一字的末位码。三字词的第一码统一为I,第二、三、四码分别为三字的代码。四字词的第一、二、三、四码为U、1-2、末字代码。多字词依次取前三个和最后一个单字的代码为第一、二、三、四码。
2、键盘设计在26个字母键上,同时安排两组呈对照关系的中西文“字母”或字母。对照关系为
(Q)、フ(W)、
(E)、
(R)、
(T)、
(Y)、丶(U)、 一(I)、丨(O)、丿(P)、
(A)、
(S)、
(D)、
(F)、
(G)、
(H)、
(J)、(K)、(L)、
(Z)、
(X)、
(C)、
(V)、乛(B)、亅(N)、
(M)。说明,新编九年义务教育教学大纲共列举28个单笔划,在本系统,竖弯(
)被归并为竖折(
)、横折弯(
)被归并为横折弯钩(
)。
3、汉字的四种分类方法;依构成关系,本系统将汉字分为合体字、独体字(内部不含任何相对独立的单字)和独体字的特例(一和乙)。依1-4级构成单元的非列、组合关系,本系统将汉字分为十大类(不包括一和乙这种特例),即1×1、1×2、1×3、1×4、2×2、2×3、2×4、3×3、3×4、4×4。依构型特征,本系统将汉字分为四种,它们的首位分别为一个基本部件、一个组合部件、一个单字和一个混合结构。后者如副中的畐、疆中的
等。对于单字的编码,这些分类方法将不同程度地予以支持。
4、汉字的三种拆分方法一是“字母”拆分法,即拆分出单字内所有的基本部件。二是部件拆分法,即拆出单字内相对独立的基本部件和组合部件。三是构成单元拆分法,除拆出两类部件外,还直接拆出相对独立的独体字和合体字;因合体字本身可拆为独体字和其它的部件,因此,这一方法还可派生出1-3级拆分法和1-4级拆分法。在单字的具体编码过程中,这些拆分方法将综合地得到应用。
全文摘要
音-形互补码输入法,是在编码方案中直接应用汉字本体规律、在代码及键盘设计中整合音与形码特点的汉字编码输入技术。它一方面解决了其它方案偏重应用经验知识的缺点;另一方面实现代码的指定性向非指定性转变并体现于键盘设计当中。汉字有两套组字单位,一是线性的汉字“字母”;二是非线性的四级构成单元。注重二者的内在联系,本系统设计了两种代码并通过键盘设计建立音与形码的双向互补性联系,以期获得代码的非指定性特点。本系统旨在提供一种大众化的汉字编码输入技术,以便于中文电脑在社会各阶层的广泛普及。
文档编号G06F3/023GK1179566SQ9611965
公开日1998年4月22日 申请日期1996年10月11日 优先权日1996年10月11日
发明者朱克刚 申请人:朱克刚
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1