汉语音节处理机及汉语音节处理方法

文档序号:98674阅读:777来源:国知局
专利名称:汉语音节处理机及汉语音节处理方法
本发明属于中文信息处理技术领域

本发明包括两个部分(1)适合中文信息处理的,具有与西文计算机系统交流信息,共享资源性能的,组合式汉语音节处理机。(2)以汉语音节为基本输入单元,纯拼音的汉语输入方法和采用拼音表索引方式进行音节-汉字翻译系统为技术核心而组成的中西文兼容的汉语音节处理系统。
中文信息与西文信息在处理方式及方法和对系统的软硬件设计要求上都存在着一些差异。这种差异主要体现于作为语言载体的文字之上。现行汉字是方块型文字,由于其复杂的字形结构和庞大的符号集合,给信息的输入及处理带来很大困难,主要表现于两个方面(1)中文信息的输入,(2)与西文信息系统的资源共享。
迄今为止已有的各种汉字输入系统,普遍采用的是对汉字进行编码的方法,或辅以汉语拼音手段的方法。其本质大都是根据独成一体的汉字的字形、字义、字音等特征,对其进行编码。由于汉字体系固有的字形复杂,数目繁多等缺点和相当数量的同音异字、同字多意现象,势必造成编码规则繁多,规律难循等弱点。此外,一个更重要的原因是这种从汉字直观认识而就字编码的方法,忽视了文字与语言的本质关系,见图1-a所示。从汉语语言①到汉字②,再到汉字编码③,然后通过计算机对编码进行翻译和处理,最后呈汉字结果④输出。这一途径,关系十分复杂。从语言学的科学角度出发认为文字是记录语言的符号,必须具有与语音相一致的读音,文字才能被自如运用。而上述的汉字编码是由不同读音的符号组成,与语音不一致,因此编码在使用过程中需要通过人脑进行码音与语音的翻译、转换,这正是编码难以被人们接受的原因所在。假使汉字编码直接与语言对应,就必须重新建立一个与语音相一致的庞大的符号系统,完成这一过程如同再造一套新的编码型“汉字”。如图A虚线所示。这实际上相当于重新学一门汉字一样困难。实践证明世界上任何一种与语音不一致的编码,如电报码、密码、音形码、四角编码等,运用到计算机汉字输入中都难以普及推广。
解决中西文系统资源共享目前所采用的方法是将汉字编码加工成与西方编码不相冲突的交换码,由于交换码与西文的国际通用编码ASCII码之间,存在着差异,使中文信息在西文信息系统的传输和处理过程中难以实现软件与硬件的资源共享,这样往往需要对西文系统的软硬件进行改造,这种改造工作是十分困难的,因此另一种方法即将交换码加工成由ASCII码组成的一种新的码,制作一些编码与解码软件,来实现中文信息在西文信息系统中的传输、处理等目的。这些处理方法不仅需要解决与西文系统的接口,使工作复杂化,而且仍然有其局限性。
为了解决上述两个主要方面一直阻碍着电算技术被自如地运用到汉字处理领域的技术难题,本发明采用了一种新型的输入方法-汉语音节输入法和实现这一方法的汉语音节处理机。该方法与以往各种编码方法有着本质的区别。其区别在于,音节输入法不是采用为汉字编码的方法,而是根据汉语语言的特点,设计出一种适合计算机处理的快速记录语言的方法,见图1-b所示。从汉语语言

,是通过本音节输入法直接把汉语语言转换成计算机处理的语言,再由计算机翻译和处理成汉字输出Ⅲa,同时可加工形成一种新的音节文字输出Ⅲb。
音节输入法由于采用与西文相同的字符集,汉语的词均由这些字符组成,因此可直接用ASCII码方式储存汉字,这种方法使共享西文系统的资源创造了十分良好的条件。
本发明的目的在于1.提供一套以组合式汉语音节处理机为保障条件,以“音节”处理为技术核心的输入方法而构成的汉字信息处理系统。这套处理系统与现有的多种汉字编码处理技术有着本质的区别。这套处理技术,编码简短、好学好记、方便、易用,并可快速盲打输入。
2.研制出的这一“音节处理系统”采用西文字母作为汉语音节的字符集。汉字信息的存储和处理采用国际标准通用编码-ASCII码,为中文信息与英文、法文等西文信息的交流创造了基本条件。使多种信息处理通讯设备,如计算机,网络设备,数字通讯设备等都能进行对中文(汉字)信息的传输和处理,并且具有良好的计算机软硬件的兼容性。
3.提供一套保证汉语音节处理系统发挥其技术性能的汉语音节处理机。
图1-a是目前汉字通过计算机进行汉字输出的关系示意图图1-b是本发明汉语音节处理方法进行汉字输出的关系示意图图2-a是汉语音节处理方法的系统程序框图图2-b是汉语音节处理方法的数据结构框图图3是汉语音节处理机的组合机示意图,该机由两部分组成,第一部分是便携式键盘机(31),第二部分是字形库(33),显示器(32)和打印机(34)组成。
图4是便携式键盘机(51)的平面示意图图5是便携式键盘机(51)的主机板内部结构框图图6是汉语音节处理机第二部分内部结构框图图7是汉语音节处理方法的系统结构示意图图8是汉语音节处理方法声母表图9是汉语音节处理方法韵母表本发明汉语音节处理机是根据汉语音节处理方法的特性而设计的一种用于处理中文信息的组合式微型计算机。
汉语音节处理机的主要特点是能进行大量的字符处理工作,其次具备大量的字形库和双音节库的存储空间。根据这两个特点,将音节处理机设计成一种突出字符处理功能,而不强调运算速度和运算功能的处理机。汉语音节处理机可以做为大机器或高档微机的终端。同时本身也具有一定的独立处理功能。该处理机采用与大机器联机的方式,将大部分复杂的科学运算,数据管理提交大机器完成,而音节处理机本身主要从事输入输出结果的汉字“翻译”工作。这样不仅充分开发了大机器的功能,而且可以使本处理机的成本大幅度降低,便于携带和普及应用。
由此汉语音节处理机借用了廉价实用,技术上成熟的8位机Z80CPU作为中央处理机,为了达到本发明的目的,充分发挥本发明的技术特点。本处理机采用了组合式的设计方案,设计中将汉语音节处理机分为各自具有独立技术性能的两部分组成。
第一部分是汉语音节处理机的便携式键盘机(31),它是由键盘(41),液晶显示器(42),录音机(43),汉语速记键(45),声调辅助键(44)组成。见图4。键盘机主机板见图(5),有Z80CPU(2),12KROM(7),48KRAM(4),电池(11)组成。这部分可以作为一个独立的系统进行一些简单的程序运算,尤其在键盘的设计方面,见附图4,除了按一般的西文设计键盘之外,还设计了汉语速记键(45)和声调辅助键(44),这部分的特点是线路简单,器件体积小,造价低,耗电省,便于携带,便于普及。
第二部分,见附图(6),由字形库(16-19),双音节库(14)、显示器电路(22)、RS-232接口通路(21)、软盘驱动器接口(15)、打印机接口(13)组成。这部分除字形库和双音节库是本发明的设计外,其余部分均采用已有的成熟技术,其目的是在实现本发明技术目的之前题下,力求以最低的造价而选择的最佳配制方案。这部分设计的特点在于由Z80CPU的最大寻址能力为64KB,而字形库加双音节库共需312KB存储空间,因此将双音节库和字形库作为外设进行管理,见附图6,每64KB为一个外设,在其数据线上安置有锁存器(24-28),存取数据时,首先将地址设置好,通过指令,打开锁存器(24-28),读出相应地址中的数据。
第一部分和第二部分通过扁平线相连。两部分之和组成了完整的汉语音节处理机。
本发明的汉语音节处理方法主要内容包括(一)输入方法,(二)系统设计,(三)数据结构,三个方面组成。以下分别对其说明。(一)输入方法-包括六个部分,即A.音节划分,B.输入处理,C.缩写处理,D.拼音简化,E.存储方式,F.积累处理。
A.音节划分汉语的“词”在其演变和发展过程中,已变得十分简炼。这些词主要是由单音节和双音节组成,如众所知。双音节以上的多音节大都可以划分为双音节、单音节。此外,从实践中得知,汉语常用词一万个左右,占文章出现率的99%以上,这些词就是汉语中的“核心词”。仅占1%左右的非常用词也大都由这些核心词衍生而来。根据以上特点,把汉语语句划分成单音节、双音节,把衍生出来的新词和一些生僻词也划分成单音节,或双音节,这一过程称为音节的划分-这是音节输入方法的基础。
本发明正是在此基础上,创造了音节输入法。将错综复杂的语句和词语变为计算机比较容易处理的单音节和双音节的码。这种方法不但符合语言的习惯,人们易于掌握,更主要的是从语言学的角度来解决汉语计算机输入问题,突破了目前汉字编码已有的框框,为中文信息计算机的计算机处理开辟了一条崭新的途径。
B.输入处理将汉语的声母和韵母分别用一个英文字母表示。由于汉语韵母共有35个,因此就必须有选择的将个别英文字母来表示两个或三个汉语韵母的方法来解决这一问题。见附图(8)、(9)声韵母表。其根据在于有一部分韵母和声母就不存在相拼的配合关系。例如韵母iong和ong,其中iong只能和声母J,q,x配合,而ong却不能与J,q,x配合。用一个字母G表示iong和ong。XG读“凶”,韵母读iong,GG读“工”,韵母只能读ong。见声韵表附表。
本输入方法的操作过程是用组成音节的声韵字母作为一个单音节或双音节码,每输入一个音节码,用一个空格表示音节的停顿或转折(当码不发生同音时空格可省略)。或者在音节码后不同时输入一个音调数表示同音选择。具体方法有三大类一、单音节处理,二、双音节处理,三、特殊处理。以下分别介绍
第一类 单音节处理将单音节使用频率的高低划分为三种情况1.使用频率最高的单音节二十五个,如“的”、“了”、“是”、“在”、“和”等,分别用一个英文字母表示。
2.使用频率次最高的单音节约三百个左右,用声韵相拼组成的单音节码直接调用。
3.使用频率低于前两种情况的常用单音节,约一千个左右,可直接用音调辅助键,从字形库中调用。
上述三种以外和单音节按特殊处理方法处理(详见后叙)。
第二类 双音节处理将声韵相拼的双音节码作为调用码,从双音节库中调出相应的汉字输出。如果遇上同音码(包括①即同声韵母,又同声调的同音字和②仅同声韵母而不同声调的同声字),可用换音节键(F1,F2)将排于其后(或前)的同音音节输出。也可在输入时辅加音调辅助键调出相应的音节输出。
在双音节库中找不到的非常用双音节,则采用特殊处理方法处理。
第三类 特殊处理特殊处理是针对非常用词和生僻字而设计的处理方法,这种情况仅占输入过程中的1%左右。
特殊处理分为单音节和双音节特殊处理。
1.双音节特殊处理可任选以下三种方法之一进行解决①分理法,即将双音节分成两个单音节,分别处理,例如“类属”一词,用前叙之单音节处理方法分别找出“类”和“属”字。
②提示法,即通过两个双音节取其所需的字。例如“类/别”、“属/于”、或“分/类”、“所/属”等等。“类别”、“属于”、“分类”、“所属”等均是常用双音节,从双音节字库中取出后,将斜杠下方的字不予输出,即输出“类属”一词。
③综合法,即上述两种方法可混合使用。例如“类”可用单音节处理,“属”可用“属/于”提示法处理。
2.单音节特殊处理可任选用以下三种方法之一进行解决①提示法-同双音节特殊处理的提示法相同。
②选择法,即近似目前已有的通用方法。以10个同音字为一组排列显示于屏幕下方。按照同音字排列的位数找出相应的汉字。
③注释法,该方法是目前所有通用的输入方法所没有的,即处理一些不能构词的生僻字而设计的。根据这些字的字形、字意上的特征进行注释。例如“镱”字,可在双音节库中建立一个虚设的双音节“镱金”其中后一个字用于注释前一个字,当输入“镱*金”时,后一个字不显示,即可调出“镱”字。
一些常用成语、人名、地名、专用词也可以采用虚设的双音节的方法实现。
C.缩写处理上述输入处理中所调用的音节码均是由声、韵母双拼而成(最常用词二十五个除外)。故单音节、双音节码均是偶数码。为了充分发挥机器的处理能力,本发明将成语、多音节词、人名、地名等专有名词、专用词语抽出其中的三个或五个“字头字母”,组成了具有特定含意的缩写码。该缩写码为奇数码,不会与上述的偶数码发生冲突。例如“社会主义”一词,可采用缩写码“SHZ”,即可一次调出四个汉字。使用者可根据自己的需要,随意地将一些常用的人名和词语,甚至语句积累在一个缩写文件中。使用时,可直接打入几个字头,调出一串所需的汉字。该方法可随时增、删,这在汉字速打中可发挥极大的作用。
D.拼音的简化处理本发明的音节输入法对汉语拼音中容易混淆,不易区分的字母如Z、zh、c、ch、s、sh、en、eng、in、ing作了简化处理。即把模糊制识技术应用到本发明领域中,无论是标准拼音输入,或是近似拼音输入,都做为同音处理。例如输入“正”一字,无论采用zen、zeng、zhen、zheng都可调出“正”字,这种技术对于汉语发音不准的人和基本上掌握汉语发音而初学汉字的外国人、外族人来说,无疑是个极大的帮助。
E.存储方式本发明的存储方式直接采用ASCII码并将中文的音节码为一个小写紧接一个大写的方式存放到计算机中去,例如“我们”二字,采用中文音节码“w m”这种方式存放,系统在打印输出时,遇到一个小写和一个大写连在一起时,作为汉字输出,其它情况均为西文输出。
F.积累处理双音节库中的双音节在系统初始后,由用户逐渐积累形成的。这种积累过程由系统造双音节功能完成的,例如当输入“我们”一个双音节,双音节库中并无此音节,通过按造双音节键,由用户选择生成“我们”这一双音节存入库中,这样用户在使用过程中不断的生成各种音节,使库中的双音节越积越多,逐渐使之完善化。使用时双音节库中的双音节可通过造双音节功能,不断修改和调整,使之越用越完整和合理。缩写处理也采用积累方法,使之完善和实用。
二、系统设计本发明汉语音节处理系统最大的特点之一就是充分开发了西文计算机已有的技术,而应用到汉字处理方面中。因此本发明的汉语音节处理系统通过加上几个I/O模块,就赋予了西文计算机面向中文处理的新的技术性能。该系统程序主要由键盘程序、显示程序和打印程序三部分组成,见附图2-a。以下分别介绍1.键盘程序,见附图4键盘程序是实现功能键(F1-F10)和方式键(速记键、中/英键、音调辅助键)处理的程序模块的集合,主要有以下模块组成F1,F2-换音节键。其用途是用前(后)一个单音节或双音节替换当前的单音节或双音节。
F3-造双音节键。其用途是在双音节库中,可增加,修改或删除一个双音节。
F4-打印键。其用途是将显示的汉字打印输出。
F5,F6-选择键。其用途是向前(向后)翻页选择。
F7-颜色选择。
F8-紧缩格式或松散格式选择键。其用途是在中文方式下,屏幕上每个汉字占两个英文字母位置,但是在计算机中,一个汉字往往后面跟一个空格或数字,因此有时一个汉字要占三个字节。紧缩格式将这些空格在显示时压缩掉。松散格式将保留这些空格,便于全屏幕的编辑和修改。可用紧缩格式将汉字输出。
F9-中英方式选择键。其用途是可选择进行中、西文方式工作。
F10-自动大小写交替选择键。其用途是在中文方式下,中文是以一个小写紧接一个大写的格式记入计算机的。人工进行这种方式记录十分麻烦,F10功能就是将输入的文字自动进行大小写转换。
速记键(45)-可进行音节文字的速记,并输出音节文字。
音调辅助键(44)-,/,∨,/,各表示汉语拼音中的一、二、三、四声,以区别不同声调的同音码。
中/英键-纯中文方式和纯西文方式。
2.显示程序显示程序是本系统的核心,基本设计思想是,当操作系统将信息送往屏幕时,显示程序将随时判断是否连续出现一个小写紧接一个大写的情况,条件如果符合,即进入汉字显示状态。并且将输入码存入一个缓冲单元。当出现一个空格或音调数时,即表示一个音节码输入完毕,将缓冲单中保存的码加工成汉字输出。
汉字输出由汉字输出模块完成。该模块采用索引方法,分别按单音节或双音节码从库中取出相应的字形信息显示于屏幕,索引方法及数据结构在后面介绍。对于缩写输入码,可从用户定义库中调出。
3.打印程序打印程序是根据显示程序中索引查找的汉字地址将该地址中的字形信息直接发送打印机打印输出。
三、数据结构(音节-汉字翻译系统)
汉语音节处理系统的数据结构是由拼音索引表、双音节库、字形库和系统管理四部分组成,见附图2-b所示。
本发明的显示程序的自身工作过程是,保存在缓冲单元中的音节码,首先通过拼音索引表找出双音节库段地址和字形库段地址,然后根据单音节或双音节加工成字形的绝对地址,在字形绝对地址中,取出汉字字形输出,整个工作均在系统管理下控制完成。以下分别介绍数据结构的四个组成部分。
1.拼音索引表拼音索引表有26×26个记录,每个记录五个字节。前两个字节记录双音节记录双音节库的“段地址”,后两个字节记录字形库的“段地址”。另一个字节为音节码。双音节库分为335个“段”,每一种音节为一个“段”,字形库也分335个段,将同音字放在一起为一个段。见附图7。
2.双音节库双音节库中将第一音节码相同的双音节放在一起为一个段,其中每一个音节为一个“记录”,每个“记录”中包括有第二音节码;字1相对地址;字2相对地址;声调码;是混淆声韵码共五个内容。同音的双音节紧挨在一起存放,并按使用频率的高低依次排对存放。
3.字形库本发明的字形库与普通字形库不同,不同点在于它的排列方式。本发明虽然将具有相同发音的字形放在一起作为一个段,但是每个段中,第一位是次最常单音节(见输入处理章节)。第2-5位是常用单音节按四个不同的声调存放。第六位是可作为百家姓的字。其余按使用频率的高低为序排列其后,见附图7。
4.系统工作步骤本系统工作步骤分双音节和单音节两种情况进行。见附图(7)。如果输入的是一个双音节,例如“我们”,调用双音节码“WOmN”。调用步骤如下①按“WO”找出拼音索引表中的WO双音节库的段地址和WO0字形库的段地址,然后找出拼音表中MN0字形库段地址。
②按双音节库WO段地址,从该段中找出MN的记录来。然后字1相对地址0与WO0相加,得出字形绝对地址WO0,从该地址中输出字形“我”字。字2相对地址与MN0字形段地址相加,得字形绝对地址MN2,从该地址中找出“们”字输出。
如果输入的是单音节,例如“猛”字,调用单音节码“MN3”。该字属于常用单音节(在一千字这个范围内),其中“猛”字音调为第三声,用声调辅助键调用,因此输入码为“MN3”,调用步骤如下①从拼音索引中取出字形库段地址MN0与音节调数相加得出字形绝对地址MN3。
②从字形绝对地址中取出“猛”字输出。
权利要求
1.一种计算机汉字信息处理系统,本发明的特征是,汉字的输入采用汉语音节输入法,汉语音节输入的字符集采用西文字母;汉字存储的方式直接采用ASCII码,音节-汉字翻译系统的数据结构采用拼音索引表的方式进行,在此基础上构成中西文兼容的汉语音节处理系统。
2.一种由显示器、打印机和键盘机构成的汉语音节处理机,本发明的特征是该处理机设置有双音节库和新型字型库,键盘机为便携式,可独立进行汉语音节的输入。
3.根据权利要求
1所述的汉语音节处理系统其特征在于汉字的输入是把汉语划分成单音节或双音节为基本输入单元进行输入。汉语音节的声韵母符号采用西文字母表示,并将个别西文字母表示为两个或三个汉语韵母。如O-uan,uan,O; Z-uang,iang;G-ong,iong; B-uen,un;F-ue,uei; X-ia,ua。
4.根据权利要求
3所述的汉语音节输入法,其特征在于单音节按使用频率的高低划分为最高单音节,次最高单音节和常用单音节三种情况。
5.根据权利要求
3所述的汉语音节输入法其特征在于在输入过程中采用了提示法和注释法。
6.根据权利要求
3所述的汉语音节输入法,其特征在输入过程中可采用缩写处理方式和简化拼节的方式进行汉字输入。
7.根据权利要求
1所述的汉语音节处理系统,其特征在于汉字的存储方式直接采用ASCII码,并将汉字的音节码用一个小写紧接一个大写的方式存放在计算机中。
8.根据权利要求
1所述的汉语音节处理系统,其特征在于音节-汉字翻译的数据结构采用拼音索引表的方式进行,并通过双音节库调用汉字。
9.根据权利要求
2所述的汉语音节处理机其特征在于便携式键盘机的输入盘上设置有汉语速记键,声调辅助键,换音节键和造双音节键。
10.根据权利要求
2所述的双音节库,其特征在于双音节库中将第一音节码相同的双音节放在一起为一个段,同音双音节按使用频率的高低排队存放。
11.根据权利要求
2所述的字形库,其特征在于字形库按音节分段,并按音节使用频率的高低和音节声调排队存放。
专利摘要
本发明属中文信息处理技术领域
。包括两大部分(1)适合中文信息处理的具有与西文计算机系统交流信息和共享资源性能的组合式汉语音节处理机;(2)以汉语音节为基本输入单元,统拼音的汉语输入方法和采用拼音表索引方式进行音节——汉字处理、翻译系统为技术核心的中西文兼容的汉语音节处理系统。本方法编码简短、方便易用,是根据汉语语言的特点而设计的一种适合计算机处理的快速记录语音的方法。
文档编号G06F3/16GK86102418SQ86102418
公开日1987年11月25日 申请日期1986年4月11日
发明者吴燕川 申请人:石油部勘探开发科学研究院计算中心站导出引文BiBTeX, EndNote, RefMan
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1