中文字词语从形编码法及其所用键盘的制作方法

文档序号:99517阅读:346来源:国知局
专利名称:中文字词语从形编码法及其所用键盘的制作方法
本发明属于电子计算机及其他类似设备处理中文信息的技术领域

目前国内外利用电子计算机等设备处理中文信息,一般采用对汉字进行逐字编码输入(在通用小键盘上)或整字逐字输入(在特制的大、中型键盘上)的方案。对汉字的逐字编码的方法,包括拼音法、音形结合法、笔划拼形法、部件笔划拼形法等四种。前两种方法在输入不认识的汉字,或读音不准时,就感到困难。而且相同读音的字太多,选择起来很费时间。笔划拼形法虽然部件或笔形较少,但要将汉字拆分得很细,容易出错,且汉字平均击键次数高。部件笔划拼形编码法(如苍吉码、五笔字形输入法、宏观字形简易输入法以及85 104343号专利申请所公布的汉字编码法)采用偏旁部首和笔划组合选作部件,使平均击键数有所减少,输入速度有了提高,但均存在着所用部件多(100个左右),涉及的规则和概念复杂,学成较慢,且无法将所用笔划或部件较为清晰地全部刻于键帽上,使操作和记忆不甚方便。至于整字输入方式,虽使输入操作较为直观,每个字平均击键次数降低,但它要求对通用的计算机等设备的硬设备进行相应的添加或改制,另作中、大型键盘,势必增加设备的购置费用,同时在选取所需汉字时,无疑要花费较多时间,仍使输入速度难以提高。
对汉字的逐字编码输入或整字输入难以提高中文信息的处理速度,使人们不能不考虑“以词为单位”。“词”本是世界上大多数国家的文字构成单位。我国的汉字发展到现在,亦已大部分演变成“词素”,由一个单音节的“字”具备有词的作用的已为极少数,如去年出版的十万词的《现代汉语词表》里,只有约2000个单音节的词。由单音节的词发展到多音节的词是语言文字进化的规律。
本发明旨在撇开对汉字的逐字编码输入和整字输入的方式,而提供一种对全体中文词语进行编码的易学、好记、适用的词语从形编码方法及其所用键盘,以大大加快输入速度,提高计算机处理中文信息的能力。
根据本发明,对中文字、词汇、成语(包括谚语、歇后语等)分成“一字词”、“二字词”、“三字及三字以上词语”、“由两个句组成的语句”、“无习惯已简缩词语”(指三个或三个以上常用词所组成的复合词)、“有习惯已简缩词语”诸种情况分别规定其取码的字及其部位;每应取码的部位取决于对该汉字的拆分;对汉字的拆分按“块分排、层,雪落分层(指不用笔顺),择大录取”(“大”指高频字简码、部件或复笔形)的原则进行(在本发明中除高频字简码、“一字词”用“对字编码”的拆形法外,一般只涉及字的“首”、“底”部分);各汉字按上述规则被拆分成一定的部件或笔形;每个部件或笔形被赋予于一个字母,同组部件和笔形被赋于相同的字母;本发明中所标称的部件约28个,基本笔形为7种,复笔形为12种,经优化选择综合为26组;每组部件或笔形对应于键盘上的一个字母键;按照上述方法,每一个中文字词语被赋于其特定的一个至数个字母组成的字母串。
下面结合附图对本发明加以详细说明。
图1示出了本发明使用的28个部件,7种基本笔形和12种复笔形,它们的分组情况,每组部件和笔形与英文字母的对应关系,以及每个高频字简码(本发明中为21个高频字)所对应的字母。
图2为本发明所使用的键盘键帽示意图。
图3是几个编码实例,说明了对不同情况采用的编码方法,即取码位置。
按照本发明,依“块分排、层,雪落分层,择大录取”的原则,对应编码的汉字进行拆分。所谓块分排、层,是指根据汉字的结构加以分排
、分层
(汉字结构实际上很复杂,存在多种多样的块列形式,本发明中概括为这两种);所谓雪落分层,是指按字的形状加以分层拆开,而不按笔顺处理;所谓择大录取,是指对高频字不拆分,能拆分为部件的不再拆分成复笔形或基本笔形,能拆分为复笔形的不再拆分成基本笔形。在本发明中,除高频字简码在编码时应直接取其本身。“一字词”采取对字编码“(即对字拆形编码)”以外,一般涉及取码的部位只有“首”、“底”两部分。“首”指字的左上部分,“底”指字的右下部分。
由于本发明是对汉语的全部词语进行编码,须按词语所含字数的多少,分别规定其取码的位置对“一字词”,如系高频字简码,直接取用,否则采取“对字编码,”即对字拆形编码方法;
对“二字词”,采取按各字的“首”、“底”部位依次分别取码,这样,“二字词”最多编为4码;
对“三字和三字以上的词语”,采取第一字取“首”、从第二至第四各字取“底”,再跳取末一字的“底”码,这样“三字和三字以上的词语”最多编为5码;
对“由两个句组成的语句”,其第一个短句按“三字和三字以上的词语”的编码方法取码,加编第二短句末一字的“底”码,这样,一般编为6码;
对“无习惯已简缩词语”(即指三个或三个以上常用词所组成的复合词),取从首词至末词前各词的第一字的“首”码、再加编末末词最后一字的“底”码;
对“有习惯已简缩的词语”,在取第一字的“首”码、末一字的“底”码后,加编一个比较不常用的字母,一般加“Z”,这样形成的一个字母串便代表着该简缩词语未简缩前的全称。
本发明中对“一字词”的编码中的“对字编码”,除运用对词语编码中的“首”、“底”方法外,加用“字边”的手段。具体做法是,先区分是“排”还是“层”,对“排”结构,依左右顺取二块的“首”码;对“层”结构,在取最上一层的“首”码后,接编下一层的“首”码;然后再看底边,如有2~3块,取其靠右2块各块的右下形(依左右)2码;如底边只有一层(不能分块),则取其包括上一层在内的右下二形(由上而下)编2码(若右到底处已经取过码,则在其左下到底处编出1~2码),对一个部件右上角的“丶”笔形,若已取足4码,则不再取码。
本发明所选用的部件,笔形示于图1。由图中看出,所用部件数极少,仅约28个,其中,部件“亠”只用于“对字编码”时。所选用笔形,包括基本笔形和复笔形共19个,而且都标称出其相应名称,便于记忆和联想。由于部件数与笔形种数之和仍然多于字母键元数,将其划分成26组,经过优化选择,归并如图1所示方案。
本发明所提供的键盘,至少有26个字母键和一个空格键,它们在键盘上的相对位置最好与标准英文键盘相同。
在实际输入中文字,词语时,计算机中专司控制和接受中文字词语的程序要求操作员在每个中文字、词、语的字母串输入结束后,键入一个“代码结束键”,通常为空格键。
26组部件、笔形分配到如图2所示的26个字母键。采取这种分配方法的出发点是尽量方便于联想,减少记忆。其法则是采用“音”或“形”相近。在“音”相近中有借助于“声母”相近的,如部件“疒、宀”对应于“B”键、“点”笔形“丶”对应于“D”键、部件“木”对应于“M”键、部件“氵”对应于“S”键、部件“土”对应于“T”键、部件“王”对应于“W”键。等等;
有借助于“直”音的,如高频简码字“的”对应于“D”键、高频简码字“我”对应于“O”键、高频简码字“有”对应于“U”键、等等。
在“形”相近中,如部件“匕”对应于“E”键、部件“大、女”与“斜叉”笔形(乂、メ)对应于“X”键(借助于其下半形相似),部件“辶”对应于“L”键,部件“口(左)”对应于O键等等。
本发明的主要优点是,它是以中文里的“词”或“语”为编码单位,从而极大地压缩了每字的平均码长。据对今年3月22日《赵总理在中国人民维护世界和平大会上的讲话》全文近2000字依本方案编码的实例统计,每字平均码长为1.41个码/字,每词码长为3.09个码/词。无疑,这将大大提高中文字的输入速度,加强计算机对中文信息处理的能力。
本发明所提供的编码方法简单明确,使用者只要有一般的词语概念,掌握几条简单的法则,在各种运用计算机处理中文信息的领域,都能得到满意的效果。
记忆量少,是本发明的又一个特点。在本发明里,所选用的高频字只有21个,选用的部件只有28个,基本笔形和复笔形共只19种,只达已有诸种方案的1/3左右。从而,使编码用的所有元部件(包括高频字、部件、笔形)都能清晰地标志在标准的英文键盘上,供操作人员迅速准确地选用。即使不经专门训练,也能较快进行中文信息的处理。
还有,本发明中,对中文字的构件(即部件、笔形、高频字简码)概括得较为完备,因而能适应中文字词语编码中的各种复杂情况。
从对政治、经济及日常生活中所涉及的数万条词,语进行编码的实践表明,按本发明编码可能发生重码,但对同码除显示提告外还设计有便于联想的附加码手段,对本方案的应用无甚影响。
当然,按照本发明的思想对上述实施例加以变更,比如,选用的高频字简码及部件、笔形的多少等作些改动,以利于各专业特有字词的使用,也同样得到理想的结果。因此,本发明并不仅仅局限于上述的实施例。
权利要求
1.一种对中文字词汇、成语(包括谚语、歇后语等)的编码方法,其特征在于,按词语所含字数的多少,分别对取码位置(应取码的字及其部位)作不同处理,对应编码汉字依其形象按一定原则拆分成其相应的部件和(或)笔形,对应取码部位的每一部件或笔形被赋予一个字母,从而使任一中文字词语被赋予一个依应取码位置先后排列的一个至数个字母组成的字母串。
2.如权项1所述的编码方法,其特征在于对“一字词”如无高频字简码则采取“对字编码”的拆形方法;对“二字词”采取按各字的“首”、“底”部位依次分别取码;对“三字和三字以上的词语”,采取第一字取“首”、从第二至第四各字取“底”,再跳取末一字的“底”码;对“由两个句组成的语句”,其第一个短句按“三字和三字以上的词语”的编码方法取码,加编第二短句末一字的“底”码;对“无习惯已简缩词语”(指三个或三个以上常用词所组成的复合词),取从首词至末词前各词的第一字的“首”码,加编末词最后一字的“底”码;对“有习惯已简缩词语”,在取第一字的“首”、末一字的“底”后,加一个比较不常用的字母。
3.如权项2所述之编码方法,其特征在于,对词语中应编码的字按“块分排、层,雪落分层(指不用笔顺),择大录取(“大”指高频字简码、部件或复笔形)的规则进行编码。
4.如权项2所述之编码方法,其中的“对字编码”,其特征在于,除运用对词语编码中的“首”、“底”方法外,加用“字边”的手段。对“排”结构,依左右顺取二块的“首”码;对“层”结构,在取最上一层的“首”码后,接编下一层的“首”码;然后再看底边,如有2~3块,取其靠右2块各块的右下形(依左右)2码;如底边只有一层(不能分块),则取其包括上一层在内的右下二形(由上而下)编2码(若右到底处已经取过码,则在其左下到底处编出1~2码)。
5.如权项3、4所述的编码方法,其特征在于,所择取的部件为疒、宀;火、亠(对字编码专用);匕(七、
)、阝、卩(左右);月;心、广、礻(衤)、工;口、(除左外);钅(左);讠(左);辶、己;木;口(左);^(人、人、亻(左))、儿;氵(左);土(士);扌(左);王;大、女;;纟(左)(幺、乡)。所归纳的笔形中,基本笔形7种“横”笔形(一、
);“直”笔形(丨、亅);“撇”笔形(丿、
);“点”笔形(
、丶、
);“角”笔形(、亻、乛、、
);“方”笔形(口(非左)、囗、日、目、罒);“叉”笔形(十、、
)。(以上笔形连有“钩”的,视同没有。如“”同“
”、“亅”同“丨”);复笔形12种“左右斜”笔形(八、丷、……),“对角”笔形(
……),“上下斜”笔形(
),“连角”笔形(
、几、己、……),“多叉”笔形(艹、丰、卅、
、……),“叉角”、(包括“叉叉角”笔形)(力、九、七、肀、
、……)“方叉”笔形(中、田、甲……),“角叉角”笔形(巾、
、……),“三排”笔形(小、、川、水、氺、
、……),“斜叉”笔形(乂、乂、……),“角叉”(包括“连角叉”“角叉叉”)笔形(又、

、廴、
、……),“四排”笔形(
)。
6.一种实现中文的字、词、语编码方法的输入键盘,至少包括26个字母键和一个空格键,它们的相对位置与标准英文键盘相同,其特征在于“横”笔形(一、
)对应于一个字母键部件“疒、宀”与“直”笔形(丨、ノ)对应于一个字母键;“撇”笔形(丿、
)对应于一个字母键;部件“火”与“点”笔形(丿、丶、
)对应于一个字母键;部件“匕、(匕
)、阝、卩(左右)”与“左右斜”笔形(八、丷……)对应于一个字母键;部件“月”与“对角”笔形(
、、
、厶、匚、
、……)对应于一个字母键;部件“心、广、礻(衤)、工”与“角”笔形(厂、
、乛、、

)对应于一个字母键;部件“囗(除左外)”与“方”笔形(囗、日、目、罒)对应于一个字母键;部件“钅(左)”与对应于一个字母键;“叉”笔形(十、、
)对应于一个字母键;部件“讠”与“上下斜”笔形(
)对应于一个字母键;部件“辶、己”与“连角”笔形(
、乙、
、几、己……)对应于一个字母键;部件“木”对应于一个字母键;“多叉”笔形(艹、丰、
……)对应于一个字母键;部件“口(左)”对应于一个字母键;“叉角”(包括“叉叉角”)笔形(力、九、
、肀
……)对应于一个字母键;部件“
(人、人、亻(左))、儿”对应于一个字母键;部件“氵(左)”对应于一个字母键;部件“土(士)”对应于一个字母键;“方叉”,“角叉角”笔形(中、田、甲、巾、屮、
……)对应于一个字母键;部件“才(左)”对应于一个字母键;“三排”笔形(小、忄、、川、氺、水、
……)对应于一个字母键;部件“王”对应于一个字母键;部件“大、女(女)”与“斜叉”笔形(乂
……)对应于一个字母键;部件“”与“角叉(包括“连角叉”、“魚叉叉”)”、“四排”笔形(又、
、廴、
……)对应于一个字母键;部件“纟(左)(幺、乡)”对应于一个字母键。
7.如权项5所述的键盘,其特征在于,该键盘为标准的英文键盘,且“横”笔形(一、
)对应于A键;部件“疒、宀”与“直”笔形(丨))对应于B键;“撇”笔形(丿、
)对应于C键;部件“火”与“点”笔形(
、丶、
)对应于D键;部件“匕(七、匕),阝、卩(左、右)”与“左右斜”笔形(八、丷……)对应于E键;部件“月”与“对角”笔形(
、、
、厶……)对应于F键;部件“心、广、礻(衤)”与“角”笔形(
、乛、、乛、し)对应G键;部件“口(除左外)”与“方”笔形(囗、日、目、罒)对应于H键;部件“钅(左)”对应于I键;“叉”笔形(十、、
)对应于J键;部件“讠”与“上下斜”笔形(
)对应于K键;部件“辶、己”与“连角”笔形(
、乙、
、几、己……)对应于L键;部件“木”对应于M键;“多叉”笔形(艹、丰、卅、
……)对应于N键;部件“口(左)”对应于O键;“叉角”(包括“叉叉角”)笔形(力、九、
、肀、
……)对应于P键;“方叉”、“角叉角”笔形(中、田、甲、巾、
、屮……)对应于Q键;部件“亻(左)、人、人、儿”对应于R键;部件“氵”对应于S键;部件“土(士)”对应于T键;部件“扌(左)”对应于U键;“三排”笔形(小、忄、、川、水、氺
……)对应于V键;部件“王”对应于W键;部件“大、女(女)”与“斜叉”笔形(乂、メ)对应于X键;部件“”与“角叉(包括“角叉叉”、“连角叉”)”、“四排”笔形(又、
……)对应于Y键;部件“纟(左)、幺、乡”对应于Z键。
专利摘要
本发明是一种对全体中文字词语从形编码法及其键盘。它按词语字数多少对取码位置作不同处理,对应编码字依其形象按一定原则被拆分为相应的部件和笔形。本方案选用的47个部件、笔形被分组,使其分别对应于26个字母键,每个部件和笔形被赋予一个字母,每一中文字词语被赋予按规则排列的一至数个字母。因对词语编码,使每字平均码长成倍降低,大大加快输入速度;编码法则简单明确,记忆量小,易学好用;所用部件笔形极小,可全部清晰地刻于键帽上。
文档编号G06F3/023GK86103490SQ86103490
公开日1987年12月2日 申请日期1986年5月20日
发明者黄美陶 申请人:黄美陶导出引文BiBTeX, EndNote, RefMan
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1