一种中文词库的设计方法

文档序号:6602701阅读:335来源:国知局
专利名称:一种中文词库的设计方法
技术领域
本发明涉及一种中文词库的排序设计方法,特别是依音码的排序设计方法。
现有词库之设计方法已有几种。现今应用于电子字词典,计算机中文输入,中文文献和中文词典的中文词条库,有多种设计结构;如词条首汉字部首排序结构,四角号码排序结构,拼音排序结构等;眼下,作为音码排序结构的拼音排序设计法,并非名实相符的拼音排序设计法,而是一种多因素设计法。该设计结构下,一个词条中的各字的查找虽然均仰赖于拼音,但却不是仅仅依赖于拼音。例如,最流行的汉语词库----″现代汉语词典″(中国社会科学院语言研究所词典编缉室编,商务印书馆出版,1979,北京。)中的词序,就是这种设计方式的代表。这种词库,就不是依赖拼音一个因素能前后贯通的词库。而且,在这种词库的设计里,拼音的作用不是为词条本身排序,而是逐个为词条中的字排序,这一特点耐人寻味。----用这种办法,排库或检索时,人们首先找词条的第一个汉字所在的位置,接着找该词条第二个汉字的位置,…;可见,该库的设计中心是汉字而不是词条本身。于是,找寻汉字的方法和过程,就成了检验这种设计方法是否名实相符,并衡量其效率高低和应用前景的焦点。
这种汉字库结构的忧点和缺点都十分突出,而缺点则是致命的它使中文文献库无法与国际文献库接轨;而检索效率特低。由于汉字的同拼字并不唯一而且很多,使得这种使用拼音的查找法每次所找到的,一般不可能是待查词条中的那个待查的汉字,而是与该字同拼的汉字群。为了为具体的汉字定位而采用的其它标识方法,如汉字四声法,与拼音法别成体系,而打乱了单用拼音作为排序设计依据的词库的严谨性。这样以来,在该设计结构下,同一词条的各个字的拼音各有其位,而不能合为一个有序的队列----合在一起时,将是形式上有序,实际上杂乱的排列。例如,依英语字母序,″CHAOYANGHU A″应该排在″CHAOZHONG″之前,但在″现代汉语词典″里,词汇″超重″被排在词汇″朝阳花″之前,而这两个汉语词汇的拼音正是″CHAOZHONG″和″CHAOYANGHUA″!这种混乱在中文词库文献里比比皆是。如″中国成语大辞典″(上海辞书出版社,1987版。)中,词条″礼贤下士″(LI XIAN XIA SHI)被排在词条″里程碑″{LI CHENG BEI)之前;高等学府数据库中,词条″山西师范大学″(SHANXI SHIFAN DAXUE)被排在词条″陕西机械学院(SHANXI JIXIE XUEYUAN)前;等等。这些排法,虽然有其原则而不能说错,可正是这种混乱使得中文文献库无法与国际文献库接轨。另一方面,这种多因素结构又使中文词汇的检索非常沉重。例如,,为了查询词汇″异彩″,从″现代汉语词典″的第1336页就得留意,而以″异″为首字的词汇在第1359页,差约23页;事实上,以″YI″为其首字拼音的汉语词汇,在该词典中有24页。由于汉字只有约400个拼音类型,分别为A,AI,....,BA,BAI,...,ZUI,ZUN,ZUO,平均而言,每类约有1/400的词库词量。自然,对一部1500页的词典来说,用拼音查一词平均就可能得查3.75页,多时达到三,五十页。对一个照搬这种词库结构的拥有六万词汇的计算机拼音输入方法来说,相应于每个拼音的搜索量,平均为150个词条,多时可达一千条,也够可观了!不巧的是,常用词大量地分布在这种所占篇幅大的拼音块里,从而使这种词库结构下的检索效率显得更低。为了提高对汉字的识别能力,很多专家采取了码上加码的作法,如拼音加笔划,拚音加部首的作法等,效果不错。这种作法的势头似乎正盛。可是,就中文词库而言,只要采用多因素设计法,或者,说得更严格一些,只要不采用单一因素作为设计中文词库的依据,所成词库就无法与国际文献库接轨,检索速度及方便程度就会受限。这是多因素中文词库设计法的一个不能自拔的泥潭困境。
以汉字为词库设计中心的作法本身,也使中文词库的设计难于改进。在其基础上设计中文词库,一些拼音新码也发挥不了作用。汉字有400个拼音类型,而以二字词为标记对象的两种混拼码,每种都有约10000种类型。可见,以混拼码检索词库,可能重码很少而效率极高。然而,事实上,当词库如此时,用目下流行的简拼法或混拼法却是或者更糟,或者无济于事。例如,以词汇″花瓶″的混拼码″HPING″为据在该种词库中查询该词,需在从″HA″到″HUO″的范围内进行搜索,而拼音首字母为″H″的汉语词汇,约为汉语词汇总量的二十几分之一;若以词汇″花瓶″的另一混拼码″HUAP″为据在该种词库中查询该词,需在″HUA″所在的拼音块的范围内进行搜索,而该拼音块中的汉语词汇,仍然约为汉语词汇总量的四百分之一。显然,这种查法让中国人太苦了。一种快速查询的方珐,应是人们翘首以待的方法。而这方法的实质是汉语词库的设计方法。
本发明的任务,是提供一种将中文词库仅仅依赖单因素排序的设计方法,从而使所成中文词库成为可以快速检索的,并且可以与国际文献库接轨的对象,实现本发明的技术路线是打破传统,另辟奚径,以如下三条作为中文词库设计的指导原则(1)以词或词条本身而不是以组词的字作为中文的核心标识对象;(2)单用拼音来为每个词条设计词码;(3)以词条的词码的英文字母顺序为词条排序建库。
使用中文而舍字就词,似乎离奇,但却有独到之处。汉字只有约400个拼音,若然抱住汉字作为词库设计的主体,拼音就发挥不出它的长处,也不可能使中文词库的设计摆脱多因素设计珐。而一旦以词代字又依拼音为词库排序,就自然而然地能得到三点好处若以拼音为词本身而不是为词中的字编码成功,就必然能使词库被拼音一个因素前后贯通;二字词的全拼码的类型,已可达到单字全拼类型的平方倍,即约十六万个,就是以混拼码为二字词编词码,其类型也有大约10000个,从而大大减少了重码率,提高了检索效率;而拼音码的序列,又以清晰严谨而著称。当然,以词代字成库时,也有某些新问题,例如,单个汉字要作为一字词处理。
本发明的总的技术路线,既有严格的设计原则,也有灵活的余地。本发明的原则的主要两点,一是选择可使词库贯通排序的词的标识码,即词码,一是在保证词码符合贯通排序原则和减少重码原则的基础上能简则简。拼音码符合第一点而被我们选中。由第二点,对包含二字或二字以上的多字词条,可以采用其简拼码或混拼码作为词码。如可取词条″前进″的词码为″QIANJ″,或″QJIN″。词条″紫禁城″的词码可设计为″ZJC″。删繁就简,一排到底,就不能采用像四声,笔划等拼音以外的因素构成另成体系的二级词码。这样,本发明对分别同拼字无任何助益;但是,本发明使具体字与以该字为首字的词分开了,例如,在依本发明设计的词库里,汉字″一″后将是其它拼音为″YI″的字,而不可能是拼音为″YI BA SHOU″的词条″一把手″了----这个词条被排在其简拼为″YBS″的词码所在块里,与″原版书″同列。删繁就简,也意味者不为追求词无同码而另加设计规则,因为,重码量不大时,那样追求不一定合算和必要。----能让同码词条在词典里处于同页,对查词者而言,已经不会再快了;所以,对同码词,本设计方法未为它们特别排序。这样,是中文词汇″原板书″还是″一把手″在前,本发明并不作定。当然,这可以看作本方法的一个缺点。而在语言学里,同码而不同音本为平常的现像。如英语″RECORD″就有重音在前和在后的不同读法和不同涵义,但在排库时,是先给重音在前″RECORD″作解释,还是先给重音在后的″RECORD″作解释,并不是重要的问题。重要的是,我们应当说明,依照本发明的设计,中文词汇的词码与读音可能脱钩了,例如,无从得知,词码″YBS″是中文″原板书″还是″一把手″。甚至,仅仅依赖词码″YBS″,人们也不会知道是那个词。这也说明了词码的本质词码为汉语词汇注形,而不能代替词汇本身,一如拼音为汉字注音,却不能代替汉字一样。
在尊循本发明指导原则的前题下,任何作法都是可行的技术路线。
具体地说,可以这样来描述一些技术路线在尊循本发明指导原则的前题下,以词的全拼为各词条设计词吗的作法,就是一种可行的技术路线。
在尊循本发明指导原则的前题下,首先将以全拼为一、二字词设计词吗的原则固定下来,也是一种可行的技术路线。
此时,若其它词均取前三字的简拼,即前三字全拼的首字母组成的字符串作为词码,即构成了一个有别于后边所述七方案的一个新设计;若其它字取所有各字全拼的首字母组成的字符串作为词码,则所成方案即后边所述的方案四,等等。
在尊循本发明指导原则的前题下,首先将以全拼为一字词设计词吗,以前字全拼首字母与后字全拼组成的字符串为二字词设计词码的原则固定下来,也是一种可行的技术路线。
此时,若其它词均取前三字的简拼,即前三字全拼的首字母组成的字符串作为词码,即构成了再一个有别于后边所述七方案的一个新设计;若其它字取所有各字全拼的首字母组成的字符串作为词码,则所成方案即后边所述的方案二,等等。
在尊循本发明指导原则的前题下,首先将以全拼为一字词设计词吗,以前字全拼首字母与后字全拼组成的字符串为二字词设计词码,但当二字词首字之声母为ZH,CH,或SH时,该二字词的词码是词的前字全拼的前两个字母和后字的全拼组成的字符串的原则固定下来,也是一种可行的技术路线。
此时,若其它词均取前三字的简拼,即前三字全拼的首字母组成的字符串作为词码,即构成了再一个有别于后边所述七方案的一个新设计;若其它词取所有各字全拼的首字母组成的字符串作为词码,则所成方案即另一新方案,等等。
在尊循本发明指导原则的前题下,首先将以全拼为一字词设计词吗,以前字全拼与后字全拼首字母组成的字符串为二字词设计词码的原则固定下来,也是一种可行的技术路线。
此时,若其它词均取前三字的简拼,即前三字全拼的首字母组成的字符串作为词码,即构成了又一个有别于后边所述七方案的一个新设计;若其它词取所有各字全拼的首字母,则所成方案即后边所述的方案六,等等。
在尊循本发明指导原则的前题下,首先将以全拼为一字词设计词吗,以前字全拼与后字全拼首字母组成的字符串为二字词设计词码,但当二字词后字之声母为ZH,CH,或SH时,该二字词的词码是词的前字全拼和后字的全拼的前两个字母组成的字符串的原则固定下来,也是一种可行的技术路线。
此时,若其它词均取前三字的简拼,即前三字全拼的首字母组成的字符串作为词码,即构成了又一个有别于后边所述方案的一个新设计;若其它词取所有各字全拼的首字母,则所成方案即另一新方案,等等。
在尊循本发明指导原则的前题下,首先将以全拼为一字词设计词吗,以依次所取三字词或多字词各字全拼首字母组合而成的该词的简拼码作为该词词码的原则固定下来,与二字词的各种允许方式进行组合,以构成可能的新方案当然要避免重复。)在尊循本发明指导原则的前题下,首先将以全拼为一字词设计词吗,以依次所取三字词或多字词前三字全拼首字母组合而成的该词的简拼码为该词设计词码的原则固定下来,与二字词的各种允许方式进行组合,以构成可能的新方案。(当然要避免重复。),在尊循本发明指导原则的前题下,首先将以全拼为一字词设计词吗,以依次所取三字词三字全拼首字母组合而成的该词的简拼码为该三字词设计词码,以依次所取多字词前四字全拼首字母组合而成的该词的简拼码为该多字词设计词码的原则固定下来,与二字词的各种允许方式进行组合,以构成可能的新方案。(当然要避免重复。)本发明的技术路线的益处是明显的。各个具体的技术路线,其词码类型以第一个最多,其余的,约为两万到十八万左右。能满足从词典排版到计算机中文输入法的各种需要。就词库的检索速度而言,也已甚为迅速据专家研究,汉语词汇的2/3为二字词;于是,常用约六万字的词库,有约四万词条为二字词;由于混拼码的类型大约是一万个,每类的平均词条只有三个多,约为词库总词条量的1/10000,充其量是前述多因素结构下每类含有的词量----1/400的词库词量----的1/20。多字词的重码率更低。不言而喻,就约1500页的词典而言,查一词条只须在一页内浏览即可,而就计算机汉字文献库的词条查询而言,其速度会也快约20倍。就将一字词输入计算机而言,本发明不能有任何直接改进之处,而建议以以词定字法输入它们;然而,使用本发明排版的中文字典里,同拼汉字将被排在一起,且与由之作为首字的词条分离,从而使应浏览的页数大大减少。据专家统计,一字词约为总词汇量的13%;那么,在一本1500页,六万词条的中文字词典里,一字词条约占200页;一字词共有约400个拼音类型,可见,平均每类约占1/2页;这样,查询一个一字词或查询一个汉字,仅需浏览一页即可。如查汉字″超″,仅需浏览词码″CHAO″所在的那一页即可。
本发明的实用性是巨大的。首先,电子字典若采用本法构建其词库,其汉词的查询速度,可因查询范围的大大缩小而加快;第二,用此法构建的中文词库,是一种全新的,不需记忆任何规则的,面向学人而不单是打字员的中文输入法的基础,与之相应的具体词汇的查询检索范围,将会缩小约20多倍,从而可大大加快中文的输入速度;第三,本发明可运用于以中文为查询对象的词典,如汉英词典、汉语词典、汉语成语词典的排版,使每个检索码的词条,基本上排于同一页内,从而让词书这肿智能工业的产品更好使用。
具体的可以将中文文献库一排到底的可实施的设计方案是很多的。
第一种方法是最简单的方法,它如下进行词库的设计(1).其排序依据是词码;(2).词的词码是词的各字全拼的依次排列而成的字符串(下文里,简称作词的全拼),例如,词汇″东方″的词码是″DONGFANG″;(3).词库的排序规则是依照英文字母顺序,照各词的词码先后顺序排列。
下面,是依照该方案给出的10个具体汉语词汇的排序结果搭架子 DAJIAZI搭讪 DASHAN懂 DONG冬虫夏草 DONGCHONGXIACAO冻豆腐 DONGDOUFU东方 DONGFANG东方歌舞团 DONGFANGGEWUTUAN断编残简 DUANBIANCANJIAN多数 DUOSHU哆嗦 DUOSUO上述方法可以化简,有时也有必要化简。因为,词码太长,用者必烦;词码类型过多,或远远超过常用词的数量----六万时,也会使无效词码增多而致检索量加大,特别是作为计算机输入法的词库词码时,还会增加内存的负担。
第二种方法是一种以简化的词码成库的设计方法,其词码的选取原则依词的汉字字数而有分别,具体原则是1)一字词的词码是词的全拼;2)二字词的词码是词的前字全拼的第一个字母和后字的全拼;3)其他词的词码是依次所取各字全拼首字母组合而成的各词的简拼码。词库的排序规则依然是依照英文字母顺序,照各词的词码先后顺序排列。
下面,是依照该方案给出的上例中同样10个具体汉语词汇的排序结果断编残简 DBCJ冬虫夏草 DCXC冻豆腐DDF东方 DFANG东方歌舞团DFGWT搭架子DJZ懂DONG搭讪 DSHAN多数 DSHU哆嗦 DSUO第三种设计方法与第二种方法相近,只是
1)三字词的词的词码是依次所取三字全拼首字母组合而成的各词的简拼码;2)多字词的词码是依次所取前四字全拼首字母组合而成的各词的简拼码。
第四种设计方法与第一种方法相近,只是1)一、二字词的词码是词的全拼;2)其他词的词码是依次所取各字全拼首字母组合而成的各词的简拼码。
第五种设计方法与第四种方法相近,只是1)三字词的词码是依次所取三字全拼首字母组合而成的各词的简拼码;2)多字词的词码是依次所取前四字全拼首字母组合而成的各词的简拼码。
第六种设计方法与第二种方法相近,只是1)二字词的词码是词的前字的全拼和后字的全拼的第一个字母。
下面,是依照该方案给出的上例中同样10个具体汉语词汇的排序结果搭讪 DAS断编残简 DBCJ冬虫夏草 DCXC冻豆腐DDF东方歌舞团DFGWT搭架子DJZ懂DONG东方 DONGF多数 DUOS哆嗦 DUOS第七种设计方法与第六种方法相近,只是1)三字词的词码是依次所取三字全拼首字母组合而成的各词的简拼码;2)多字词的词码是依次所取前四字全拼首字母组合而成的各词的简拼码。还可以给出一些具体的词库设计方法,其差异因一字词,二字词与三字词词码的设计方式组合变化而不同。这里不再赘述。具体词库何者为好,要看词库本身的特点而选择和设计。然而,只要符合本发明的指导原则,检索时都很快捷。
权利要求
1. 一种中文词库的设计方法其特征是(1).排序依据是词码;(2).任一具体词的词码仅仅依赖该词的拼音予以选定,它可以是该词拼音的全部字母或依某种规则而取的部分字母的组合;(3).词库中词的排序规则是依照英文字母顺序,按各词的词码先后顺序排列。
2.根据权利要求1所述的一种中文词库的设计方法其特征是(1).词的词码是词的全拼。
3.根据权利要求1所述的一种中文词库的设计方法其特征是(1).一、二字词的词码是词的全拼。
4.根据权利要求1所述的一种中文词库的设计方法其特征是(1).一字词的词码是词的全拼;(2).二字词的词码是词的前字全拼的第一个字母和后字的全拼组成的字符串。
5.根据权利要求1所述的一种中文词库的设计方法其特征是(1).一字词的词码是词的全拼;(2).当二字词首字之声母为ZH,CH,或SH时,该二字词的词码是词的前字全拼的前两个字母和后字的全拼组成的字符串;(3).其它情况下,该二字词的词码是词的前字全拼的第一个字母和后字的全拼组成的字符串。
6.根据权利要求1所述的一种中文词库的设计方法其特征是(1).一字词的词码是词的全拼;(2).二字词的词码是词的前字的全拼和后字的全拼的第一个字母组成的字符串。
7.根据权利要求1所述的一种中文词库的设计方法其特征是(1).一字词的词码是词的全拼;(2).当二字词后字之声母为ZH,CH,或SH时,该二字词的词码是该词的前字的全拼和后字的全拼的前两个字母组成的字符串;(3).其它情况下,该二字词的词码是该词的前字的全拼和后字的全拼的第一个字母组成的字符串。
8.根据权利要求1所述的一种中文词库的设计方法其特征是(1).一字词的词码是词的全拼;(2).三字词或多字词的词码是依次所取该词各字全拼首字母组合而成的该词的简拼码。
9.根据权利要求1所述的一种中文词库的设计方法其特征是(1).一字词的词码是词的全拼;(2).三字词或多字词的词码是依次所取该词前三字全拼首字母组合而成的该词的简拼码。
10.根据权利要求1所述的一种中文词库的设计方法其特征是(1).一字词的词码是词的全拼;(2).三字词的词码是依次所取该词三字全拼首字母组合而成的该词的简拼码;3).多字词的词码是依次所取该词前四字全拼首字母组合而成的该词的简拼码。
全文摘要
本发明涉及一种中文词库的音码排序设计技术。它摒弃了以汉字为中心的设计思想,而以词条本身为中心,以拼音为唯一根据为词条设计词码,依词条的词码的英文字母顺序排库。具体设计法因对一字词、二字词、三字词及多字词选择词码的方法不同而有多种。用这种方法设计的中文词库,完全可与国际文献库接轨;而检索时的搜索范围,平均缩小了20多倍。本发明可用于中文文献、中外文词典与中文词典的排版,计算机中文输入及为电子词典排库。
文档编号G06F3/023GK1172296SQ9611764
公开日1998年2月4日 申请日期1996年7月31日 优先权日1996年7月31日
发明者王本善 申请人:王本善
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1