音型位置码汉字输入和字典检索方法

文档序号:6338410阅读:396来源:国知局
专利名称:音型位置码汉字输入和字典检索方法
技术领域
本发明是一种应用于电脑键盘等设施上的汉字输入技术和一种全新的根据汉字结构型式、注音字模块(含选定部首)、笔画位置检索的字典查字方法的技术。
背景技术
1、现有的汉字输入方法可分为音码、形码、音形/形音码三大系列音码和音形/形音码对方言区的人士常因读音而影响使用效果,还有重码多的缺点;形码普遍有非规范的汉字部首拆分、不符合规范的笔划顺序、字根太多难于记忆、或键码太多输入效率低的缺点,且多数方案与现行的语文教育体系中汉字教学大纲脱节、或丧失汉字结构型式上的完整性。
2、现有的字典检索方法有部首法、拼音法、四角法、笔划数法,缺少汉字结构型式的整体性特征,与现行的语文教育体系中汉字教学大纲有较大的距离。

发明内容
1、本发明选用了汉字全集中构字能力较强的符合成字规范的注音字模块188个,按标准键盘的A-Z取26键位配置;五种基本笔画按照汉字的上下型、左右型、独体—围中型共三类型式划分,依上下型的上部/下部、左右型的左部/右部、独体—围中型分五区与键盘的A-Y共25键位相匹配;设定注音字模块子汉字集专用的V识别键,配置在V键位,此类汉字合计有162个;所有汉字在标准键盘上用不超过4码的编码实现汉字的输入。本方法属于音形码这一类别。
(1)、汉字型式方法中引用了《汉字写法规范字典》中的汉字形体结构类型表的细分方法,归并为上下型、左右型、独体—围中型共三大类别。
①、上下型—即为上下结构类型汉字,示例如下忠=中+心、想=相+心=(木+目)+心、霜=雨+相=雨+(木+目)、髹=髟+休=(镸+彡)+(亻+木)、蕊=艹+惢=艹+(心+(心+心))、
蟹=解+虫=(角+(刀+牛))+虫、崮=山+固=山+(囗+(十+口))、翼=羽+異=(习+习)+(田+(+八))、岗=山+冈、器=哭+ =((口+口)+犬)+(口+口)、纛=毒+縣=(+母)+( +(幺+小))、孽=薛+子=(艹+( +(立+十)))+子,②、左右型—即为左右结构类型汉字,示例如下村=木+寸、锄=钅+助=钅+(且+力)、楼=木+娄=木+(米+女)、剽=票+刂=(覀+示)+刂、撵=扌+辇=扌+((夫+夫)+车)、撬=扌+毳=扌+(毛+(毛+毛))、墁=土+曼=土+(日+罒+又)、劓=鼻+刂=(自+田+丌)+刂、缀=多+叕=纟+((又+又)+(又+又))、搬=扌+般=扌+(舟+(几+又))、掰=手+分手=手+((八+刀)+手),③、独体—围中型包括独体型结构汉字(也称独体字)、包围结构汉字和全围合结构汉字,又可细分出八个系列,示例如下独体型结构一、乙、人、八、刁、中、电、毛、主、工、斤、凡、业、重、扎,左上右包围凤=几+又、闼 =门+达、阈=门+或、阔=门+活、阗=门+真,左下包围廷=壬+廴、迦=加+辶、氇=毛+鲁、邂=解+辶、飚=风+焱,上左下包围匹=匚+儿、匿=匚+若、匦=匚+轨、匾=匚+扁,左下右包围凼 =水+凵、函=承+凵、幽=幺幺+山,上左包围庆=广+大、屁=尸+比、戽=户+斗、厢=厂+相、瘊=疒+侯,上右包围句=勹+口、匈=勹+凶、氛=气+分、氤=气+因,全围合结构困=囗+木、圆=囗+员、囿=囗+有、圈=囗+卷、圉=囗+幸;
(2)、注音字模块、基本笔画的键盘配置
(3)、五种基本笔画方法中引用了《汉字写法规范字典》中的汉字笔画分类和名称,按照规范归并为横一(含提ン)、竖丨、撇丿、点丶(含捺乀)、折乙共五个基本类别,其中仅折乙笔就有25种形式,形式最为多样和丰富。五种基本笔画在现代汉语的运用,横笔一(含提ン)使用频率最高、其后依次是竖笔丨、点笔丶(含捺乀)、撇笔丿、折笔乙。五种基本笔画相应于汉字三种形式的键盘配置如(2)中表之“基本笔画”列所示。
(4)、特选键位的配置本方法特选了现代汉语中26个使用频率高的高频字,26个为方便记忆而给键位命名的键名字(或为注音模块、或为包含注音模块的汉字等),另补充有26个较常用的字称为较高频字(即三次码),选用V键作为注音字子汉字集中专用的识别键;①、高频字、较高频字(二次码)与键名字的键盘配置

②、V键位列示的识别码汉字清单同头田日二儿而耳为无五文勿万未午其且犬丘七区齐也业衣羊曰央永又由酉雨右尤已尹弋乂聿幺之平止旁皮果光更广革弓戈鬼骨冈艮瓜非反飞丰大电当石刀豆丁东事上十四史书身食尸巳氏厶勺司后乎禾黑互见今几己九斤角巾臼及甲夹开考里老力立门六米皿龙兰面民目毛麦母末免那年内南农牛鸟不比百八并匕卜巴半北在重者竹舟左专出成产虫厂车彳寸长小向兴习西穴夕乙
(5)、汉字拆字编码原则先分字型上下型(上部/下部)、左右型(左部/右部)、围中型(内部/外部),每个部分都不少于两笔划,或为单个字或为注音字模块或含注音字模块或为笔画组合;独体型,不能拆分以上三种型式,或为注音字模块加单笔画,或为注音字模块与笔画相连,或为注音字模块与笔画相交,或者只能拆出单笔画的字。
次取模块注音字模块优先、其次是基本笔画,取模块时尽量取多笔画结构。
顺序编码上下型(上部/下部)、左右型(左部/右部)、围中型(内部/外部)汉字编码4个或以上模块的字,依笔顺取一、二、三、末模块编码,为四码字;3个模块的字,依笔顺取三模块编码①、无剩余笔画为三码字,②、有剩余笔画,取余末笔编位置码,为四码字;2个模块的字,①、无余笔a)、左右型汉字,取两模块编码,为二码字,否则,b)、上下型/围中型字,加取末笔位置码,为三码字;②、有余笔,取余末笔编位置码,为三码字;1个模块的字,先取模块码,加取首末余笔编位置码,为三码字。
独体型汉字编码注音字模块字,取V+模块码+末笔位置码,为三码字;1个模块的字,a)、余一笔,双取余笔编位置码,为三码字;否则,b)、余多笔,取首末余笔编位置码,为三码字;无模块汉字,①、二笔画字、顺取二位置码,三笔画字、顺取三位置码;②、四笔或以上笔画字,顺取一、二、三、末笔画,为四码字;(6)、词汇输入二字词输入,首字的(首码+首码+次码)+次字的首码,为四码;若首字为高频字,则(首字+首字+次字)的首码,为三码;
三字词输入,首字的(首码+首码)+(次字+末字)的首码,为四码;四字词输入,(首字+次字+三字+四字)的首码,为四码;多字词输入,(首字+次字+三字+末字)的首码,为四码。
2、本发明所述的字典检索方法,引用了如1中的三种汉字结构型式、26个键盘字模块、162个注音字模块和5种基本笔画。现在常用的汉字字典的偏旁部首在这里或为注音字模块、或为与注音字模块有相应的同源关系,参见1中之(2)表所列;只有以下24个笔画数较少、现代汉语中未独立成字的部首如匚、刂、、冂、丷、勹、、亠、冫、冖、、凵、廴、尢、、彡、夂、彐、彑、巛、攵、肀、爫,未有相对应的注音字表示,只能用5种基本笔画来描述。检索原则是(1)、汉字分三型左右型、上下型、独体—围中型;(2)、分型后取模块注音字模块、或基本笔画;(3)、遵从优先级注音字模块取大优先、最后基本笔画;(4)、模块逐个分首取模块、不足三模块汉字加取一个或二个基本笔画。
依这四项原则,构造出字型—模块(或笔画)—模块(或笔画)—模块(或笔画)的由字型出发到模块(或笔画)再模块(或笔画)再模块(或笔画)的树状汉字检索程式。本发明的特点是(1)、注音字模块独立成字、数量少仅188个汉字,规律性强、规则简单、位置码独特,辅之高频字/键码字/二次码等,可把汉字频序前1000字、累频达90%以上(1988年统计数据)少重码输入,静态平均码长2.63码;(2)、把汉字频序前1200字、累频达93%以上(1988年统计数据)少重码输入,静态平均码长2.86码,动态平均码长少于2.3码;
(3)、结合常用二字词、三字词、四字词、多字词的词组输入方法和智能字库模式,可使汉字输入的效率更高,平均码长更短;(4)、注音字模块的选取、汉字分型的方式、基本笔画位置的区分、及笔顺的规则符合现代汉字规范的要求,概括了简化汉字的特征和完整的结构信息,便于掌握汉字的书写结构和方法,与现有的汉语教学相衔接,这也是本汉字输入和字典检索方法的共有特点。
具体实施例方式
本发明中应用前述的汉字分型、注音字模块、基本笔画位置配置和汉字拆字编码原则,例示实施方式如下先分字型上下型(上部/下部)、左右型(左部/右部)、围中型(内部/外部),每个部分都不少于两笔,或为单个字或为注音字模块或含注音字模块或为笔画组合;独体型,不能拆分出以上三种型式,或为注音字模块,或为模块字加单笔画,或为模块字与笔画相连,或为模块字与笔画相交,或者只能拆出单笔画的字。
上下型翼=羽+異=(习+习)+(田+(+八))左右型剽=票+刂=(覀+示)+刂(注示标识“礻”的注音字模块)围中型阔=门+活、迦=加+辶、匿=匚+若独体型八、刁、电、毛、主、重、扎;次取模块注音字模块优先、其次是基本笔画,取模块时尽量取多笔画结构。
翼=注音字模块(习+习+田+八)多于四个模块剽=注音字模块(覀+示)+基本笔画竖丨右二个模块+余末笔画阔=注音字模块(门+氵+十+口) 四个模块迦=注音字模块(力+口+辶) 三个模块无剩余笔画匿=注音字模块(艹+右)+基本笔画折乙围二个模块+余末笔画吗=注音字模块(口+马)左右型二个模块无余笔画要=注音字模块(覀+女)+基本笔画横一下 上下型二个模块无余笔画肋=注音字模块(月+力)左右型二个模块无余笔画扶=注音字模块(扌+大)+基本笔画横一右 左右型二个模块有余笔画杆=注音字模块(木+十)+基本笔画横一右 左右型二个模块有余笔画八=V标识键+注音字模块(八)+基本笔画点丶独 注音字模块刁=独体型首笔折(乙)+独体型末笔横(一)独体型双笔画字及=V标识键+注音字模块(及)+基本笔画点丶独 注音字模块文=V标识键+注音字模块(文)+基本笔画点丶独 注音字模块电=V标识键+注音字模块(文)+基本笔画点乙独 注音字模块毛=V标识键+注音字模块(毛)+基本笔画折乙独 注音字模块主=注音字模块(王)+基本笔画点丶独注音字加余末笔重=V标识键+注音字模块(重)+基本笔画横一独 注音字模块扎=注音字模块(扌)+基本笔画折乙独 注音字加余末笔顺序编码4个或以上模块的字,依笔顺取一、二、三、末注音字模块为四码字;翼=注音字模块(习+习+田+八)多于四个模块,取XXTB阔=注音字模块(门+氵+十+口) 四个模块,取LSAK3个模块的字,依笔顺取三个注音字模块,①、无剩余笔画为三码字,迦=注音字模块(力+口+辶) 三个模块,取LKP②、有剩余笔画,加取末笔位置码,为四码字 ;活=注音字模块(氵+十+口)+左右型余末笔(丿)右,取SAKK
2个模块的字,①、无余笔a)、左右型字,为二码字,吗=注音字模块(口+马) 二个模块,取KL否则,b)、其他型字,取末笔位置码,为三码字,要=注音字模块(覀+女)+基本笔画二个模块,取XNY②、有余笔,取余末笔位置码,为三码字;匿=注音字模块(艹+右)+基本笔画二个模块+余末笔画,取CYX杆=注音字模块(木+十)+基本笔画二个模块+余末笔画,取MAH1个模块的字,加取首末余笔位置码,为三码字;块=注音字模块(土)+基本笔画+基本笔画一个模块+余首末笔,取TML形=注音字模块(开)+基本笔画+基本笔画一个模块+余首末笔,取KKK独体型1个模块的字,①、无余笔,a)、V+注音字模块+末笔,为三码字,毛=V标识键+注音字模块(毛)+基本笔画折乙独,取VMX重=V标识键+注音字模块(重)+基本笔画横一独,取VZN②、有余笔,a)、余一笔,注音字模块+余末笔,为二码字,电=注音字模块(曰)+基本笔画折乙独,取YX扎=注音字模块(扌)+基本笔画折乙独,取FX否则,b)、余多笔,注音字模块+余首末笔,为三码字;严=注音字模块(业)+基本笔画(横一+撇丿)独 取YNV卢=注音字模块(尸)+基本笔画(竖丨+横一)独 取SBN页=注音字模块(贝)+基本笔画(横一+撇丿)独 取BNV
无模块汉字,①、二笔画字按笔顺取二笔为二码字,三笔画字按笔顺取三笔为三码字;刁=独体型首笔(乙)+独体型末笔(一) 取XN川=独体型首笔(丿)+独体型次笔(丨)+独体型末笔(丨) 取VBB②、四笔或以上笔画字,按笔顺取一、二、三、末笔画,为四码字。
丝=独体型(首笔折乙+次笔折乙+三笔折乙+末笔横一) 取XXXN(6)、特选键位汉字的输入注音字清单162个字按V+注音字码+末笔输入,如文取VWC高频字26个按相应键一码直接输入,如是J、国K、家P、的R键码字26个按V+相应键二码直接输入, 如火VH、水VS、山VD二次码26个按相应键+V二码直接输入, 如日RV、为WV、那NV(7)、词汇输入二字词输入,首字的(首码+首码+次码)+次字的首码,为四码;军队=军字的(车+车+上部折乙)+队字的(阝),取CCQE三字词输入,首字的(首码+首码)+次字的首码+末字的首码,为四码;总经理=总字的(口+口)+经字的(纟)+理字的(王),取KKOW四字以上词输入,(首字+次字+三字+末字)的首码,为四码;中国人民=中字(中)+国字(国)+人字(人)+民字(民),取LKRM中国共产党=中字(中)+国字(国)+共字()+党字(口),取LKCK(8)、字典检索按汉字三型、模块(基本笔画)、优先级别的组合建立汉字库,则可依①、汉字分类型,如理—左右型、索—上下型、国—独体—围中型;②、型内取模块,如理=注音字模块(王+里)索=注音字模块(十+纟+小)+基本笔画(乙)上部、
③、遵从优先级先注音字模块、取大优先,再基本笔画;④、模块逐个分全取注音字模块、模块数目不足以查字时加取剩余笔画,逐一增加。依照这四个原则,构造出一种由字型出发到注音字模块(或笔画)、再注音字模块(或笔画)、再注音字模块(或笔画)的树状汉字检索程式。例如检索汉字“理”,先左右型,有树状汉检程模块优级次副取到例如依体按理琪玩琊瑛璋瑁琨璜珙现—次模块(王),有理璋瑁琨琪玩琊瑛璜珙现珥瑭班玟璇斑琅琼璃琉玲珍玢环珠—再模块(里),有理璋—直接选取,则有理汉字“理”检索完成。
权利要求
1.一种选用汉字集中构字能力较强、容易认读并符合通常成字规范的注音字模块188个,按标准键盘A~Z共26键位配置;及五种基本笔画按照汉字的上下型、左右型、独体—围中型共三类型式划分,依上下型的上部/下部、左右型的左部/右部、独体—围中型分五区与键盘A~Y共25键位相匹配;还设定有注音字模块汉字子集专用的识别键,配置在V键位,合计此类汉字162个;所有汉字在标准键盘上不超过4码即可实现汉语文字的输入。
2.权利1中汉字先分型、再拆分,按注音字模块优先、其次基本笔画的优先级别,依照汉字笔画顺序规范按一定的规则拆分编码来实现输入汉字。
3.权利1中键盘上配置有26个一次码高频字、26个二次码键名字、26个二次码较高频字;注音字模块识别键V赋予162个注音字模块汉字子集的标识先按V键+该字的注音字模块+该字的末笔画位置码,即可实现输入,为三键码汉字。
4.权利1中汉字先分三型(上下型、左右型、独体—围中型),次取注音字模块(或基本笔画)、再取注音字模块(或基本笔画)、再取注音字模块(或基本笔画)、再取注音字模块(或基本笔画),形成树状结构检索程式,可实现汉字字典的快捷性汉字检索。
全文摘要
音型位置码汉字输入和字典检索方法是一种用于电脑键盘等设施的汉字输入音形码技术和一种按注音字模块拼音首字母、型式、笔画位置编码检索查字技术。1.选用注音字模块合188个,置于标准键盘A-Z键;五种基本笔画按汉字三型分五区置A-Y键;置注音字模块识别键V;所有汉字不超过4码输入。2.选用注音字模块数量少、规律性强、规则简单,先分字型、次取注音字模块、笔画位置编码、顺序编码、词汇输入,通用字表汉字可少重码输入。3.按汉字三型、注音字模块、基本笔画、优先级的组合建立字库,由字型出发到模块(或笔画)再模块(或笔画)再模块(或笔画)的树状检索结构程式,可进行汉字字典检索。
文档编号G06F17/30GK1877500SQ20061006130
公开日2006年12月13日 申请日期2006年6月26日 优先权日2006年6月26日
发明者陈保国 申请人:陈保国
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1