专利名称汉字首部件检字法的制作方法
技术领域本发明涉及一种汉字字典检索技术。
本发明的技术方案是这样得以实现的一种汉字首部件检字法,其特点是它是将汉字拆分为首部件及余部,首部件是指按照规范的汉字书写笔顺,首先书写的那个汉字字头或偏旁,它可以是一个多笔画的汉字结构件,也可以是一个单笔画;首部件目录将首部件按笔画数多少的顺序进行排列,并在每个首部件旁列有该首部件在首部件检字表中的页码;余部是指将汉字首部件拆除后的剩余笔画部分;在首部件检字表中在每个首部件下按拆除汉字首部件后的余部笔画特征的数字编码顺序排列汉字,在每个汉字旁列有该汉字余部笔画特征的数字编码及该汉字在字典正文上的页码;检字时将要检索的字依据首部件拆分规则,首先确定该汉字的首部件,并在首部件目录中查得该首部件在首部件检字表中的页码,再在首部件检字表中相应页码处的首部件下按该汉字余部笔画特征的数字编码的大小依序查得该汉字及其在字典正文上的页码,按这个页码就可在字典正文对应页上查到所需的汉字。
由于本发明是按汉字结构的“首部件”即按照规范的书写笔顺首先写出的那个汉字零件对汉字字形进行归类,并在所属首部件下按拆除首部件后的汉字余部的字形进行编码,本检字法共设置检字首部件285个,其中包括原繁体字偏旁部首26个,使字形归类工作变得直观、容易,部件下的检字篇幅相对减少,实现了汉字检索的方便、准确、高效。可用于一般汉语字典的正文排序索引或音节排序字典的辅助检字。
一.首部件定义与汉字首部件拆分规则1.定义所谓首部件,是指按照规范的汉字书写笔顺首先书写的汉字字头或偏旁(通常称作部件),其形状可以是一个多笔画的汉字结构件,也可以是一个单笔画。如“迅”字的首部件为“折笔”,“世”字的首部件为“廿字头”,“费”字的首部件为“弓字旁”,繁体字“盤”字的首部件为“舟字旁”等。至于对首部件的设置,除横、竖、撇、点、折五个单笔画部件外,两画以上的汉字结构件,多数是已为人们所熟悉的偏旁或位于汉字左上角的字头,如礻(示字旁)、钅(金字旁)、艹(草字头)、匚(区字框)等,而对那些不处于汉字书写起始位置的偏旁部首如灬(四点火)、攵(反文旁)、辶(走之底)、皿(皿字底)等则不再用作检字部件。为满足人们对简、繁体汉字检索的不同需要,本检字法除设置简体首部件外,另将繁体首部件单独立部,以减少简体首部件下的汉字检索量。《首部件检字表》共设置汉字首部件285个,其中单笔画部件5个,两画以上的笔画部件280个;组合部件中,简体首部件251个,繁体首部件29个。
2.汉字首部件的拆分规则从一个汉字中拆出首部件,须遵循以下基本规则(1)按照规范的汉字书写笔顺,从书写的首笔画拆起,坚持“拆大优先”的原则,能拆成较大部件的,不拆成较小部件;但在实在拆不出多笔画组合部件时,就只拆了一个单笔画,单笔画是最小的汉字部件。如“就”字首部件应拆为 高字头)而不能拆为亠(六字头),“黄”字首部件应拆为 (共字头)而不能拆为艹(草字头),“木”字首部件应拆为“十字头”而不能拆为“横笔画”,“熏”、“璺”二字的首部件只能拆出一个单笔画“撇”等等。
(2)从汉字结构连接的薄弱处拆开,即按照“先拆离、再拆连、最后再拆交”的原则拆分出首部件。如“朱”字首部件应拆为单笔画“撇”而不能拆为“”(卧人头);“关”字的首部件应拆为 (倒八头)而不能拆为 (前字头)等。
(3)多笔画组合部件的笔画数及各个笔画的形状必须准确、规范。当部件发生变形时,如笔画数发生变化,则不再属于原部件。如 与“艮”不是一个部件,分别为五画的“既左旁”及六画的“垦字头”。同理,“犭”与“犬”、“衤”与“衣”、“扌”与“手”、 与“文”等均为互不相同的部件。另外,“月”字的第一笔、“百”字、“夏”字的第二笔“撇”可视为竖笔画的变形当作“丨”(竖画),其首部件分别拆为“冂”(同字框)与“丁”(丁字头)。
(4)在“拆大优先”的原则下,对个别特殊汉字还要兼顾其结构特征,如“容”字的首部件应拆出“宀”(宝盖头)而不能拆成“穴”(穴字头),“酋”字的首部件应拆为 (倒八头)而不能拆为“”(前字头)。
(5)多笔画首部件必须是由多个连续书写的笔画组成。在对汉字拆分时,拆出的首部件必须是一些连续书写的笔画组成,除方框、戈字框等几个框形部件可以由不连续笔画组成外,凡是不连续书写的笔画不能互相拼凑为一个部件。如“巫”字的第一、第二与第末笔因非连续笔画而不能拆成首部件“工”,“夾”字的第一笔画与末两第画也不能组成首部件“大”。“巫”、“夾”二字的首部件应分别拆为“丁字头 ”与“横笔画(一)”。连续笔画之间的组合方式可以是扦插结构,也可以是离合结构,如“中”字的首部件拆为“口字旁(口)”,“旧”字的首部件拆为“竖笔画”(丨),“皿”字的首部件拆为“同字框(冂)”,“费”字的首部件拆为“弓字旁(弓)”等。
(6)以下几个全包围、半包围部件允许由不连续笔画组成,当这些部件书写的起始笔为整个汉字书写的第一笔画时,该部件即为汉字的首部件。这些框形部件共有8个,它们是方框儿(口)、戈字框(戈)、弋字框(弋)、戊字框(戊)、栽字框 、区字框(匚)、囟字框 、舆字框 等,其中方框儿、囟字框的内芯必须包含两个以上笔画。
(7)除“一”、“乙”“O”三个单笔画汉字外,所有汉字均可拆出一个比该汉字笔画数少一些的首部件,并在其所属首部件下进行检索。
二、汉字余部及其编码1.余部含义所谓余部,就是将汉字首部件拆除后的剩余笔画部分,余部可以是多笔画的组合体,也可以是一个单笔画。如“本”字拆出首部件“木”后,余部为单笔画“横”;“幽”字拆出首部件“竖”后,余部为“折 折 点 折 折 点 折 竖”等8个单笔画的组合体;“辉”字拆出首部件“小字头”后,余部为“横 撇 折 点 折 横 折 横 竖”等9个单笔画的组合体,“彖”字拆出首部件“斜角框 ”后,余部为“横、撇、折、撇、撇、撇、点”等7个单笔画的组合体。
2.余部笔形码传统的“部首检字表”是在偏旁部首下按汉字或汉字余部的笔画数检索汉字,当同一笔画下的汉字较多时,检索起来既费力又费时,为了克服上述弊端,考虑到一般人对数字比较敏感,本检字法按余部的字形码进行检索。余部字形码为6位数字编码,其中前两码为余部笔画数码,后四码为笔画名称码。当余部笔画数不满两位数时,笔画码的十位数即编码的首位码为0;后四位笔画码则取余部的第一、第二、第三及第末笔的笔画名称代码,横、竖、撇、点、折5个笔画的名称代码分别用数字1、2、3、4、5表示。当设定的“检字部件”(指多笔画组合部件包括框形部件)不用作汉字首部件而处于汉字余部位置时,其余部编码不适用上述“汉字首部件拆分规则”,一律按其规范的书写笔顺及宋体汉字标准书写笔画逐笔拆卸与编码。当其余部不足4画时缺位笔画名称码以数字0填充。如“缴”字的余部编码为133254,“综”字的余部编码为084454,“红”字的余部编码为031210。另外,被设置为“首部件”的独立汉字,其余部编码为“00”,在首部件检字表中该字为该首部件下的第一个字。如“女”字为首部件“女字旁”下的头一个字,编码为“00”。
三.在首部件下按余部编码检索汉字1.按照本检字法设置的汉字首部件(其中已将常见的繁体偏旁部首单独设置为首部件),依据规范的汉字书写笔顺及其首部件拆分规则,首先判定该汉字的首部件归属,并在《首部件目录》中查得该首部件在首部件检字表中的页位;《首部件目录》将首部件按笔画数多少的顺序进行排列,并在每个首部件旁列有该首部件在首部件检字表中的页码。
2.将汉字首部件拆除后,确定余部的笔画数与各笔画形状名称,并按照余部编码的方法与规则,生成余部字形的6位数字编码。
3.在《首部件检字表》中在每个首部件下按拆除汉字首部件后的余部笔画特征的数字编码顺序排列汉字,在每个汉字旁列有该汉字余部笔画特征的数字编码及该汉字在字典正文上的页码;在《首部件检字表》的所属首部件下按该汉字余部编码的大小依序查得该余部编码、所对应的汉字(其中带小括号的汉字为繁、异、别体字)及其在相应字典正文上的页码,然后再在字典正文的对应页上找到所需的汉字。
4.本检字法的《汉字首部件检字表》共收录汉字11329个,其中正体字7860个,包含了《现代汉语通用字表》的全部7000个正体字并有所扩充,繁、异、别体字3469个,可以满足一般汉语字典检字的需要。
权利要求
1.一种汉字首部件检字法,其特征在于它是将汉字拆分为首部件及余部,首部件是指按照规范的汉字书写笔顺,首先书写的那个汉字字头或偏旁,它可以是一个多笔画的汉字结构件,也可以是一个单笔画;首部件目录将首部件按笔画数多少的顺序进行排列,并在每个首部件旁列有该首部件在首部件检字表中的页码;余部是指将汉字首部件拆除后的剩余笔画部分;在首部件检字表中在每个首部件下按拆除汉字首部件后的余部笔画特征的数字编码顺序排列汉字,在每个汉字旁列有该汉字余部笔画特征的数字编码及该汉字在字典正文上的页码;检字时将要检索的字依据首部件拆分规则,首先确定该汉字的首部件,并在首部件目录中查得该首部件在首部件检字表中的页码,再在首部件检字表中相应页码处的首部件下按该汉字余部笔画特征的数字编码的大小依序查得该汉字及其在字典正文上的页码,按这个页码就可在字典正文对应页上查到所需的汉字。
2.根据权利要求1所述的一种汉字首部件检字法,其特征在于所述的首部件拆分规则为(a)、按照规范的汉字书写笔顺,从书写的首笔画拆起,坚持“拆大优先”的原则;(b)、从汉字结构连接的薄弱处拆开,即按照“先拆离、再拆连、最后再拆交”的原则拆分出首部件;(c)、多笔画组合部件的笔画数及各个笔画的形状必须准确、规范,当部件发生变形时,如笔画数发生变化,则不再属于原部件;(d)、在“拆大优先”的原则下,对个别特殊汉字还要兼顾其结构特征;(e)、多笔画首部件必须是由多个连续书写的笔画组成;(f)、几个全包围、半包围部件允许由不连续笔画组成,当这些部件书写的起始笔为整个汉字书写的第一笔画时,该部件即为汉字的首部件。
3.根据权利要求1或2所述的一种汉字首部件检字法,其特征在于所述的余部笔画特征的数字编码为六位数字编码,其中前两码为余部笔画数码,后四码为笔画名称码,当余部笔画数不满两位数时,笔画码的十位数即编码的首位码为0;后四位笔画码则取余部的第一、第二、第三及第末笔的笔画名称代码,横、竖、撇、点、折5个笔画的名称代码分别用数字1、2、3、4、5表示。
全文摘要
一种汉字首部件检字法,它是将汉字拆分为首部件及余部,首部件目录将首部件按笔画数多少的顺序进行排列,并在每个首部件旁列有该首部件在首部件检字表中的页码;在首部件检字表中在每个首部件下按拆除汉字首部件后的余部笔画特征的数字编码顺序排列汉字,在每个汉字旁列有该汉字余部笔画特征的数字编码及该汉字在字典正文上的页码;检字时将要检索字的首部件先确定下来,并在首部件目录中查得该首部件在首部件检字表中的页码,再在首部件检字表中相应页码处的首部件下按该汉字余部笔画特征的数字编码的大小依序查得该汉字及其在字典正文上的页码。本发明清晰直观、思维周期短、归类难度小、检索效率高。
文档编号B42F21/00GK1400110SQ0212878
公开日2003年3月5日 申请日期2002年8月17日 优先权日2002年4月3日
发明者李军章 申请人:李军章