一种文字信息处理方法和装置的制作方法

文档序号:6408063阅读:139来源:国知局
专利名称:一种文字信息处理方法和装置的制作方法
技术领域
本发明涉及文字信息处理的方法和装置。
现有文字处理的方法和装置,文字的机内码是基于文字字母或基本单位的编码,文字信息存储量大,传输量大,运算时间长。
本发明的目的在于提供一种含有多级内码的文字信息处理方法和装置,以减少文字信息的存储量和传输量,提高运算速度。
我们把只能处理单级内码文字信息而不能处理多级内码文字信息的文字处理装置为第一类文字处理装置,把既能处理单级内码的文字信息又能处理多级内码文字信息的文字处理装置为第二类文字处理装置。
多级内码是本发明的一个重要概念,由于难以一次以定义的形式给出,因而应从上下文中理解其内涵。
内码是文字信息在机器内部的表示,简称机内码或内码。
单级内码是对应文字字符或基本单位的内码。例如ASCII码和汉字机内码等。单级内码也可称为一级内码。
文字成分是对应文字中的词,词组和短语的文字部分。
多级内码是对应于文字成分的内码。
成分项是对应于多级内码的文字信息部分,它可以含有单级内码或多级内码,或多级内码和单级内码。成分项所含相应单级内码的长度之和称为成分项的实际长度,所含内码的长度之和为成分项的表项长度,成分项的表项长度或实际长度称为成分项长度。
成分库装置是将成分项按某种规则排列的装置。
基本成分库装置的排列规则是按成分项的表项长度分段,再将各段分为大小相等的区,一个区在成分库装置内的顺序号为区号,一个成分项在区内的顺序号为位号。
映射成分项由成分项,成分项长度和相应多级内码构成。
映射成分库装置是将映射成分项按某种规则排列的装置。
映射成分库装置的排列规则一般是按映射成分项相应的单级内码升序(或降序)排列。
索引装置由索引项构成,索引项主要由标明映射成分项相应的第一个(或前几个)内码首次在映射成分库装置中出现的地址的地址项构成。
单向转换是由高级内码向低级内码的转换,一般情况下是指转换为单级内码。
多向转换是由低级内码向高级内码的转换,一般情况下是指由单级内码转换为多级内码。
单向转换装置是实现单向转换的装置。
多向转换装置是实现多向转换的装置。
单向转换操作是执行单向转换的操作。
多向转换操作是执行多向转换的操作。
比较操作是对内码比较的操作,含有多级内码的比较操作是指单级内码与多级内码比较,或多级内码与多级内码比较。多级内码与单级比较可将多级内码转换为单级内码再比较,多级内码间可作是否相等的比较。如果,多级内码与相应的单级内码的顺序完全一致,则多级内码间可比较大小,因而,单级内码与多级内码比较也可将单级内码转换为多级内码再比较。
含多级内码的操作是指对含多级内码的文子信息的比较,查找,替换,插入,删除和排序等操作。
一个多级内码的级比相应成分所含多级内码的最高级多1。例如,生产率相应的单级内码分别为a,b,c;设一多级内码A对应ab,则A为二级内码;设一多级内码C对应Ac,则C为三级内码。
多级内码的编码要符合国际及有关国家和地区关于字符或图形字符的编码标准。多级内码是一种多字节编码,它可采用位标识,字节标识,串标识或无标识编码。多级内码应易于与单级内码相区分。多级内码与成分库装置的结构有关。
下面以二字节位标识编码和基本成分库为例,设每区为94个成分项,多级内码的第一字节高位为0,第二字节的高位为1,则多级内码第一字节为区号加20H,多级内码第二字节为位号加AOH。二字节位标识编码两字节的高位可为0和1的不同组合。
多级内码不仅用于存储和传输,还用于运算。
本发明的方法用以指导编写计算机程序,生成计算机指令,控制计算机完成相应操作。这些方法可以用方法形式描述,也可用装置形式描述,其实质是一样的。为方便起见,我们大多采用装置形式描述。
单向转换装置主要是识别文字信息中的多级内码,将其转换为单级内码。下面给出单扫描单向转换装置的技术特征。
单扫描单向转换装置含成分库装置,其操作步骤为识别文字信息中的多级内码,并据此计算在成分库装置中的位置,用其成分项取代此多级内码,若成分项中含多级内码,重复上述步骤,直到成分项中不含多级内码。
多向转换装置主要是识别文字信息中的单级内码,如可能则将其相应文字信息部分转换为多级内码。本发明提供的多向转换装置使转换的多级内码对应的成分项的实际长度最长,也就是说,它所代表的文字信息最多。下面给出单扫描多向转换装置的技术特征。
单扫描多向转换装置含映射成分库装置和索引装置,其操作步骤为识别文字信息中的内码,据此查索引装置,若查到地址项,将该地址相应的成分项与对应的被转换的文字信息相比较,若相等,则用相应的多级内码替换原文字信息,按映射成分项升序(或降序)移动一项,重复上述比较及以后的步骤,直到成分项大于(或小于)所比文字信息。
文字成分从输入装置输入,可通过在输入装置内加入多向装置完成多向转换。也可通过输入码输入转换装置或区位码输入转换装置完成。
文字成分输入码的编码可取等长码或不等长码,一般采用三字母或四字母。下面以码长为四字母为例说明结构层次编码的方法。
结构层次编码的基本思想是先从整体上将文字成分分解为部分,这是第一层次,然后再将第一层次分解的部分分解,这是第二层次,这样可依次分解下去。
对第一层次分解为不同部分数的编码原则如下。
二部分每部分取两码,不足两码的部分取一码。
三部分第一,二部分各取一码,第三部分取两码。
四部分每一部分取一码。
五部分或以上一,二,三部分各取一码,最后一部分取一码。
就文字结构而言,可分为字母式结构和非字母式结构两类。下面分别举例说明结构层次编码的方法。
英文为字母式结构文字。英文词和词组从结构上可分为连续和不连续两类,连续的是指中间不含分隔符,如空格或逗号等。
对于四字母或少于四字母的连续的词,顺序取其字母为输入码。
对于五字母和五字母以上的连续的词,按音节分解为部分。第二层按音节对应的字母分解,对于不连续的词或词组,按分隔符分解为部分,第二层按连续的情况分解。例如,father分为两个音节,可取fate为输入码,difference为四个音节,可取dfrc为输入码,differentiate为五个字节,可取dfra为输入码,at a full jump可取aafj为输入码,all bark and no bite可取abab为输入码。
非字母式结构的文字编码比较复杂,下面以汉字为例说明结构层次编码的方法。二字词按字分为两部分,字可按发音分解或字形分解。例如,体育分为体和育两部分,若按拼音取码则可取tiyu为其输入码。例如,体育场可分解为体育和场,因而可取tyia(这里,用o,i,u分别代替zh,ch,sh)。例如,最高人民法院分解为最高,人民和法院三部分,因而可取zrfy为输入码。例如,最高人民检察院分解为最高,人民,检察院三部分,检察院又分解为检察和院两部分,因而可取zrjy为输入码。显然,后两例的输入码是不同的;但是,如果按取一,二,三和末字的首音为输入码,则后两例的输入码是相同的。由于三,四词的分解有时会有异义,所以可采用近似的结构层次分解的方法,这时三字词,一,二字各取一码,第三字取两码;四字词每字取一码。这种近似的结构层次编码,由于对三,四字词取码数目是固定的,所以输入速度快。
输入码表装置是成分输入码与成分库装置的成分项及其多级内码的对应关系表。下面以英文和汉语为例说明。每个输入码用5位表示,4码共20位,输入码表装置的表项由3个字节组成,余下4位,3位用作一,二,三级简码标志位,1位用作重码标志位。表项按成分库装置相应成分项的顺序排列。
输入码输入转换装置含输入装置,输入码表装置和成分库装置,从输入装置输入成分的输入码,由输入码表装置所匹配的成分库装置的成分项,得出相应的多级内码。
对于字母式结构的文字在成分库装置中没有相应成分项的词或词组按其字符输入,对于有相应成分项的词或词组可按其字符输入,也可按成分的输入码输入,不论以一,二,三级简码输入,还是以全码输入,最后都要输入一个特殊键作为输入码输入的标志。
区位码输入转换装置含输入装置和成分库装置,从输入装置输入成分的区位码,根据成分库装置区位码和多级内码的关系,转换为相应的多级内码。
输入码输入转换操作是指由输入码输入转换装置输入成分的输入码,转换为相应的多级内码的操作。
区位码输入转换操作是指从区位码输入转换装置输入成分的区位码,转换为相应的多级内码的操作。
将第一类文字输出装置内加入单向转换装置就成了第二类文字输出装置。例如,在打印机中加入含有单向转换装置的软件或硬件,使得打印机能打印含有多级内码的文字信息。第一类文字输入装置内加入输入码输入转换装置,或区位码输入转换装置,或多向转换装置,或以上装置的组合,就成了第二类文字输入装置。借助于这些装置,可使文字的编缉或排版系统能处理含多级内码的文字信息。
文字信息的传输是指文字处理装置内部各部分之间的文字信息的交换与传输,或文字处理装置之间的文字信息传输与通讯。例如主机与打印机,显示终端,外存之间的文字信息传输;计算机网络内或之间的文字信息的传输与通讯;或通讯装置之间的文字信息传输和通讯。
含有多级内码的文字信息传输操作是指含有多级内码的文字信息的传输。
本发明提供的方法和装置可广泛用于第一类文字处理装置中,举例如下。区位码输入转换装置和输入码输入转换装置可用于第一类文字处理装置中将成分的输入码转换为相应的单级内码;单向转换装置和多向转换装置可用于第一类文字处理装置中的文字信息的压缩的存储和通讯等。例如,在文件操作或磁盘操作系统中加入单向和多向转换装置,使文字信息自动以压缩的形式存储。
在语言工程中,多向转换装置可用于第一类文字处理装置中的词切分中。
在第二类文字处理装置内或之间,可采用含有多级内码的文字信息来存储,传输和运算;因而,比用仅含单级内码的文字信息存储量和传输量少,运算速度快,改进了机器内部的性能,提高了效率。
第二类文字处理装置,还简化了语言工程中的处理过程,例如可部分或全部省去词切分工作,这在文字统计和文字翻译中都可得到应用。
本发明的技术方案可广泛应用于文字信息处理的各个领域,还可用于指导相关软件,半软件,固件和集成电路设计及制造,具有巨大的经济效益和社会效益。
附图
为单扫描多向转换装置中的主要部分的流程图。识别文字信息中的内码,据此查索引装置,若能查到地址,由A进入M1,M1比较所比文字信息是否大于或等于(或小于或等于)映射成分项相应的成分项。不满足条件时从B点跳出比较过程。
M2M1的结果若为大于转M4。
M3将相应的文字信息用映射成分项相应的多级内码取代。
M4将映射成分项按升序(或降序)方向移动一项。
本发明其余的方法和装置已经在技术方案中说明了主要步骤,不再另附图。
成分库装置可为基本成分库装置,或等长成分库装置,或半索引成分库装置,或全索引成分库装置。等长成分库装置的成分项的表项长度都相等。当少部分成分项的表项长度不同时,可在其成分项中设一索引,称为索引成分项;另建一辅助成分库装置,索引成分项含该成分项在辅助成分库中的位置及表项长度等信息;索引成分项的长度与其余成分项的表项长度相等;这种成分库装置称为半索引成分库装置。当成分项的表项长度差别较大时,可将成分项全部换为索引成分项;而真正的成分项都在辅助成分库装置中;这称为全索引成分库装置。半索引成分库装置的索引成分项的内容要能与单级内码,多级内码相区分。全索引或半索引成分库装置中相应的单向转换装置要稍加修改,对于半索引成分库装置要判断成分库装置中是成分项还是索引成分项。对于全索引和半索引成分库装置的索引成分项要增加访问辅助成分库装置的步骤。等长,半索引和全索引基本成分库装置的表项长度都相等,可以全部按其相应的单级内码的顺序排序,因而多级内码和单级内码的顺序完全一致,多级内码也可比较大小。同时,成分库装置和映射成分库装置的顺序完全一致,当映射成分项仅含成分项时,也可合为一个。
映射成分库装置按映射成分项相应的单级内码升序(或降序)排列,其映射成分项由成分项长度,成分项和多级内码构成,或由成分项长度和成分项构成,或由成分项和多级内码构成,或由成分项长度和多级内码构成,或由成分项构成,或由多级内码构成。
索引装置的索引项由地址项或标志项构成;或由地址项和多级内码,或标志项构成;或由内码项和地址项构成;或由内码项,地址项和多级内码构成。
管道单段成分库装置按管道成分项相应的单级内码升序(或降序)排列,最低端称为始端,最高端称为终端,其管道成分项由成分项长度,成分项和多级内码构成,或由成分项和多级内码构成,或由成分项构成。管道单段成分库装置某位置L的成分项内所含的成分项A,如果A为在L与始端之间的成分项,则A用相应的多级内码表示,否则用单级内码表示。这样可便于比较操作。
管道多段成分库装置的管道按内码的级别分段,然后,将各段由低内码段到高内码段依次连结成一条管道,最低内码段的外端称为始端,最高内码段的外端称为终端。管道多段成分库装置的成分项由成分项长度,成分项和多级内码构成,或由成分项和多级内码构成。
管道单扫描多向转换装置含管道单段成分库装置,文字信息从始端进入,边前进边与成分项比较,若相等,则用相应多级内码替换对应文字信息,文字信息从终端出来,就完成了多向转换。
管道单扫描单向转换装置含管道单段成分库装置,文字信息从终端进入,边前进边与多级内码比较,若相等,则用相应成分项替换对应多级内码,含多级内码的文字信息从始端出来,就完成了单向转换。
管道多扫描多向转换装置含管道多段成分库装置,文字信息从始端进入,边前进边与成分项比较,若相等,则用相应多级内码替换对应文字信息,文字信息从终端出来,就完成了多向转换。
管道多扫描单向转换置含管道多段成分库装置,文字信息从终端进入,边前进边与多级内码比较,若相等,则用相应成分项替换对应多级内码,含多级内码的文字信息从始端出来,就完成了单向转换。
汉字中大部分为二字词,二字以上的词含多级内码的成分项的表项长度也多为4字节;所以汉字成分库装置可采用半索引基本成分库装置。这时,索引装置的索引项除地址项还应含相应的多级内码。
英文的成分库装置可采用基本成分库装置或全索引基本成分库装置,索引装置可采用HASH查询的方法,例如第一字母为26个字母之一,第二字母为26个字母或空格之一,总共26*27=702个索引项。当词和短语较多时,可采用几种二字节位标识编码,例如第一字节高位为0或1,第二字节高位为0两种编码。
以上多向转换或单向转换采用的正向方式,也就是按文字成分的正常顺序排序,比较;如果采用反向方式,则按文字成分的反向排序和比较。
文本压缩的一些算法可以用于多向转换和单向转换,词切分的一些算法可用于多向转换。
权利要求
1.一种文字信息处理方法,其特征在于含有多级内码的操作。
2.一种文字信息处理方法,其特征在于执行含多级内码的单向转换操作,或多向转换操作,或输入码输入转换操作,或区位码输入转换操作,或传输操作,或运算操作,或以上操作的组合。
3.一种文字信息处理方法,其特征在于多级内码采用双字节位标识编码法。
4.一种文字信息处理装置,其特征在于文字成分用多级内码表示。
5.一种文字信息处理装置,其特征在于含有与多级内码相关的单向转换装置,或多向转换装置,或输入码输入转换装置,或区位码输入转换装置,或以上装置的组合。
6.由权利要求5所述的文字信息处理装置,其特征在于(1)单扫描单向转换装置含成分库装置,其操作步骤为识别文字信息中的多级内码,并据此计算在成分库装置中的位置,用其成分项取代此多级内码,若成分项中含多级内码,重复上述步骤,直到成分项中不含多级内码;(2)单扫描多向转换装置含映射成分库装置和索引装置,其操作步骤为识别文字信息中的内码,据此查索引装置,若查到地址项,将该地址相应的成分项与对应的被转换的文字信息相比较,若相等,则用相应的多级内码替换原文字信息,将映射成分项按升序(或降序)的方向移动一项,重复上述比较过程,直到成分项大于(或小于)所比文字信息;(3)管道单扫描多向转换装置含管道单段成分库装置,文字信息从始端进入,边前进边与成分项比较,若相等,则用相应多级内码替换对应文字信息,文字信息从终端出来,就完成了多向转换;(4)管道单扫描单向转换装置含管道单段成分库装置,文字信息从终端进入,边前进边与多级内码比较,若相等,则用相应成分项替换对应多级内码,含多级内码的文字信息从始端出来,就完成了单向转换;(5)管道多扫描多向转换装置含管道多段成分库装置,文字信息从始端进入,边前进边与成分项比较,若相等,则用相应多级内码替换对应文字信息,文字信息从终端出来,就完成了多向转换;(6)管道多扫描单向转换装置含管道多段成分库装置,文字信息从终端进入,边前进边与多级内码比较,若相等,则用相应成分项替换对应多级内码,含多级内码的文字信息从始端出来,就完成了单向转换;(7)区位码输入转换装置含输入装置和成分库装置,从输入装置输入成分的区位码,根据成分库装置区位码和多级内码的关系,转换为相应的多级内码;(8)输入码输入转换装置含输入装置,输入码表装置和成分库装置,从输入装置输入成分的输入码,由输入码表装置所匹配成分库装置的成分项,得出相应的多级内码。
7.由权利要求4或5或6所述的文字信息处理装置,其特征在于成分的输入码采用结构层次编码或近似结构层次编码。
8.由权利要求4或5或6所述的文字信息处理装置,其特征在于用于第一类文字处理装置中。
9.由权利要求5所述的文字信息处理装置,其特征在于(1)成分库装置为基本成分库装置,或等长基本成分库装置,或半索引基本成分库装置,或全索引基本成分库装置;(2)映射成分库装置按映射成分项相应的单级内码升序(或降序)排列,其映射成分项由成分项长度,成分项和多级内码构成,或由成分项长度和成分项构成,或由成分项和多级内码构成,或由成分项长度和多级内码构成,或由成分项构成,或由多级内码构成;(3)索引装置的索引项由地址项或标志项构成,或由地址项和多级内码、或标志项构成,或由内码项和地址项构成,或由内码项,地址项和多级内码构成;(4)管道单段成分库装置按管道成分项相应的单级内码升序(或降序)排列,最低端称为始端,最高端称为终端,其管道成分项由成分项长度,成分项和多级内码构成,或由成分项和多级内码构成,或由成分项构成;(5)管道多段成分库装置按内码的级别分段,然后,将各段由低内码段到高内码段依次连结成一条管道,低内码段的外端称为始端,最高内码段的外端称为终端;管道多段成分库装置的成分项由成分项长度,成分项和多级内码构成,或由成分项和多级内码构成。
10.由权利要求4或5或6或9所述的文字信息处理装置,其特征在于管道单段成分库装置某位置L的成分项内所含的成分项A,如果A为在L与始端之间的成分项,则A用相应的多级内码表示,否则用单级内码表示。
全文摘要
本发明提出了一种文字信息处理的方法和装置,它使得文字信息的存储容量增大,传输速度和处理速度加快。本发明可广泛用于计算机网,通讯网,各种文字处理设备内或之间文字信息的传输,存储和处理,具有巨大的经济效益和社会效益。
文档编号G06F3/023GK1122476SQ9411410
公开日1996年5月15日 申请日期1994年10月5日 优先权日1994年10月5日
发明者吴胜远 申请人:吴胜远
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1