汉字正反序双部件归部检索法及拼音盲打智能输入法的制作方法

文档序号:6353580阅读:458来源:国知局
专利名称:汉字正反序双部件归部检索法及拼音盲打智能输入法的制作方法
技术领域
本发明涉及一种汉字按正反序部件快速定字、归部、检索的方式,一种能用于输入 多种字符集的几万个汉字的拼音智能输入法,及使用汉字的正反序部件和笔画查字、使用 汉字的正反序形码和笔画反查编码的方法。
背景技术
传统上延续使用的多种“部首检字法”,一般取字的上下、左右或内外的某一部分 作部首。如“夏”字从下边取“夂”部,上边不取部;“斃”字从右上取“夂”部;“歸”字从左 下取“止”部;“思”字有的从上取“田”部,有的从下取“心”部;“鸿”字有的从左取“? ”部, 有的从右取“鸟”部;遇上“甚、芈、臧、囊、赜、纛、鬱、爨”之类的字,普通查字的人常感到难 以确定部首。无固定规律地从字的多个不同部位取部,使其不确定性过大,检索效率低,严 重落后于时代要求,不符合国际上通用的“按固定顺序检索”的习惯,不利于以计算机等现 代化方式检索。由于原有的部首划分方式较为宽泛,只用一个部首也无法准确定义一个汉 字的字形特征,导致了各种借助形码的输入法取部难、取部慢、取部方式不统一,也导致了 过高的重码率。从某种意义上说,汉字的检索和输入是否科学、规范、快捷,也关乎到汉字的 国际地位。目前使用的汉字,一般不超出GBK编码字符集或GB18030-2000的范围,前者21003 字,后者27533字。汉字从大的方面可分为简化字、繁体字和异体字,简化字、繁体字中也存 在一些分支,如现今繁体字中较大的分支有台湾繁体字、香港繁体字和大陆繁体字。“简”与 “繁”是相对的,简化字的国标码与繁体字的大五码中有四千多字是相同的。各种用字之间 存在复杂的对应关系,不能全面、完整地转换。国标码有二百多个字不能转为大五码的字; 大五码约有四千多字不能转为国标码的字。以“魚”作部首并与“魚”有关联的字,国标码 有七十多字,大五码有一百六十多字,其中国标码有十几个、大五码则有一百零几个魚部的 字不能转为另一内码的字。仅化学用字一项,国标码的二百零几个字就有四十多个字不能 转为大五码。因而能让大众使用的无重码输入GBK或GB18030全部汉字的汉字输入法是时 代所需。当今使用的输入法种类很多,从大的方面划分,有纯形码输入法、纯音码输入法和 音形码输入法等。纯形码输入法的编码规律通常不能涵盖全部汉字,某些字只能用变形字 根等不规范的处理办法,某些简码字无规律,需要特殊记忆,总体说记忆量非常大,一般只 有专业打字员使用。纯音码和音形码的输入法重码太多,形码的划分无统一标准,学起来不 算难,用起来较难。有的输入法为了减少重码,把编码扩展到字母以外的符号,用起来并不 方便。因而目前还没有一种输入法被公众广泛认可、接受。汉字的字音分布极不均衡,如果 不考虑声调,在GBK的21003个汉字中,仅发yi(衣)音的字就有大约400个。在涉及到字 音的输入法研究中,消除重码多年来一直是一个没有突破的重大课题。虽然对于输入法的 看法各有不同,但社会各界大致上还是有共识,一种能被公众广为接受、使用的汉字输入法 应当符合以下几个条件1.按照汉字本身的特征和规律,为了减小记忆量,输入法应与汉
6字的字音相关。2.当用大键盘输入时,所用编码不超出通用键盘沈个字母的范围。3.能无 重码输入GBK或GB18030的2万多个汉字。4.如果输入法中有音码以外的形码等辅助码, 使用者应当很容易熟记。5.不需要切换码表或词库,就能输入简化字的语词和繁体字的语 词,并且二者不会混淆。随着手机等产品的普及,小键盘输入与人们的生活越来越紧密,但现行小键盘输 入法(如使用较多的T9、iTAP、eZi等)的输入速度适应不了快速的现代生活节奏。现行小 键盘输入法分作笔画和拼音两大类,笔画输入法难记,拼音输入法重码过多,都需要按一大 串的按键和繁琐的选择过程才能输入一个字,输入速度太慢。小键盘输入法也存在其他许 多争相研究而没有解决的问题。

发明内容
本发明提供一种汉字按正序和反序两个部件快速定字、归部、检索的方式,和建立 在双部件归部基础上,编码只使用英语通用键盘的沈个字母,通过按既定规则对部分汉字 转码、优化形码等,全码输入GBK、GB18030-2000等内码的二万多个汉字时,在沈个字母的 通用键盘上输入无重码、在12键的小键盘上输入最多显示6个字无须翻页的拼音智能输入 法,简繁体字、简繁体语词在不用切换码表或词库的状况下即可任意输入,使能查字典的每 一个人不管使用双拼、简拼或全拼的方式都能快速盲打,及一种利用汉字的正反序部件和 笔画查询汉字、利用汉字的正反序形码和笔画反查编码的方法,使汉字的归部、检索与汉字 输入,使汉语教材、工具书等与汉字输入以科学、快捷的方式融为一体。附表与


表1为汉字部分正反序部件形码、名称表。表2为汉语拼音、龚码全拼与龚码双拼部分音节对照表。图1为汉语拼音标示的龚码转码示意及双拼键位。图中附有形码与所在键位字母 相关的高频部件,如“土、田”的形码为t,附在T的键位内。图2为华语拼音标示的龚码转码示意及双拼键位。图中附有形码与所在键位字母 相关的高频部件。
具体实施例方式一、汉字正反序双部件快速定字、归部、检索法1.每一个汉字都按正序、反序两个部件归部。2.正序部件一般取自汉字的左上角,反序部件一般取自汉字的右下角。如“龚”字 取“龙”为正序部件,取“共”为反序部件。“学”字取“、、‘、子”,“胜”字取“月、生”为正反序 部件。“湖、陛、幕、犟”的正反序部件分别为“?月、卩土、*巾、弓牛”。3.全包围或半包围结构的字,正序部件取包围部分的左上角。如“虚、赶、句、凤、 凼、噩、因”中的正序部件分别为“严、走、勹、几、U、王、口”。反序部件取被包围部分的右下角。如“巫、威、闯、周、式、向、采”中的反序部件分 别为“人、女、马、吉、工、口、V”。4.包容性较大的部件优先。如“敛”的正序部件是“佥”不是“人”,“臺”的正序部 件是“吉”不是“士”,“搂”的反序部件是“娄”不是“女”,“光”的反序部件是“兀”不是“儿”。
5. “呗、项、颅、项、气、敉”形结构的反序部件取左下部分。如“颍、颓、颡、 颢、澂、徵”的反序部件分别为“水、几、糸、小、禾、王”。“K”形结构的反序部件取下中部分。如“赢、瀛”的反序部件分别为“贝、女”。“哀、彳形结构的反序部件取中间部分。如“哀、衡”的反序部件分别为“口、大”。

6.左中右或上中下结构的汉字,当两端部件相同时,反序部件取中间部分。如“楙、 辩、幸、呂”的反序部件分别为“矛、i、八、i ”。7.某些近似部件合在一起使用。如“本、未、朿、束”作为部件使用时归入“木”,作 为单字时仍按本身的字形拆分。8.大部分部件正反序通用,如“副”的正序部件和“咸”的反序部件都是“ ”,“甬” 的正序部件和“伶”的反序部件都是“ ι ”,“前”的正序部件和“直”的反序部件都是“^"”, “阜”的正序部件和“追”的反序部件都是“自”,“冰”的正序部件和“韵”的反序部件都是 ” ”,“欧”的正序部件和“杧”的反序部件都是“匚”,“冬”的正序部件和“复”的反序部件 都是“&”。少数部件通常只用于正序,如“ 、廿、 、3、少、少、卓、、▽、兴”;少数部件通常 只用于反序,如“夂、升、L、U、皿、、农、臾、尹”。9. 一笔写成的字,若笔形无变化,正反序部件视为相同。如一、丨、j、、、、的正反
序部件都是本身。一笔写成的字,若笔形中间有变化,正反序部件依笔形变化而定。如“L、乙”的正 反序部件分别为“丨折、一折”。为了以汉字正反序双部件方式快速、准确地定字、归部、检索,在原有的汉字部件 之外增加“Π (向字框)、石(畐字头)、!(卬字旁)、k (长字底)、lk (丧字底)、农(农字 底)、Λ (黄字底)、尹(争字底)”等汉字部件。“定字”的意思是判定一个汉字的字形特 征。以下是按主形部件(括号内为附形部件)笔画排序的汉字正反序部件表,部件后 的字母是各种输入法都可以使用的正反序形码,其中< (ι.Λ)为“折”,乂为“捺”,門” 一般用于非简化字。部件的名称、例字请参看本申请附录中的“汉字部分正反序部件形码、 名称表”。汉字正反序部件表(笔画序)一画一(z)h [ ( J )g j ρ 、(! < (LAJvvn 乙 t L 1 Af二画 Jl i (窗)i 又(叉)s Pf十(于)w 人 g Ijn Lk 力 c 乂 (X )a 厶(《Ιλ上)s if 、{ (^)b几(几)k儿e卜(卜-1上下不丕)ν 八a 匚(c:]:i)p 刀(匁刃)d 1[ ( 1J )w 厂(厂Ds j 勹(刁)w 二 e 丁(丁)
勹)h 七七弋 Jc)q ( )v P (Ti)e (々力)o 门(ilfU])t 九」 "(i)m vh 乃(及)η ArC (£ α P)i t U x三画口 k ? e 廿(卅)c 土 t ^ ρ 女η乡(系)s 大(夫夭天夬) O山d t χ寸c马(馬)g巾d之(1_乏)!11干(千?于平T)m小f ^ y三 (彡)s & (夂夂)d门(門)m广ζ ^b Ig子ζ t (f)t兀u 士 w弓(东 )g尸(尸尸尺升g ^ k尤(无)i夕(夕y)x彐(Ε丑)d巳(已己)s川 (〈〈〈州极眠列)ο 幺(乡)i 口 g Ik (lO s 乂. q 、i/ g 也 i 屮(Lj Ij ) q [勺(门)χ、ν χ
四画木(本卒未朿束)a 日(曰EHr 月(冃待片月)y 贝(貝)b 王(玉 主)u火h心(必)x车(車)m戈(戊弋戋)c夂ρ ,、、、h内(内肉匂)r止(正 t£)v-5f欠e丰()f见(見)1方(万)h斤(斥丘)v犬(犮)q ^ x勿U仅 η水e殳w手(J^1)q毛m Er文u爿(片爿评卯)o歹d牛(五五)n韦 (韋)u少r 瓦u 氏(氐)a牛η今j 户h 中(审半仔虫φ ) z 爪(”)z 毋(母)g斗d屯t尹ν廿(《舟)η牙少1 χ五画 ($)」鸟(与乌鳥_鳥)2 田(申甲由)t石w 目q禾(采)U皿 m广r净ζ冋(冏)j氺(求术)u白(百甶)1 ( ^ )m示k立(离)ρ册(冊 曲血凿胜)t矢(失)w且(旦:fil)U旦(亘)d可ο穴(A)x用(甫)y古e龙 (尨龍)1四(M)r半(牛 )b生w 占ν业(亚)i皮ρ瓜g电(电)d疋ρ 冉r弗f 甘g六画虫( 亩)ο ν米(来)h页(頁)i耳u羽q早(早)ζ舟(丹) b臼糸s吉j艮(皰)g臣(3亞)o而e各g缶f共η聿(圭老) y羊()i舌w严h自(g)f 西( )χ衣i耒η自(θ·)ζ q兴七画I^b走(此)1豕y酉(酋)f辛(幸)y里1豆d言i角j臾 h辰0佥(兪)q豸ν身w Mb麦(麥)m八画鱼(魚)q隹ν雨ζ其(甚)q金j非f 齿(齒)0具(真肩)j 或h 黾( ) m卓ο九画革g骨η娄(婁)1 Mg柬j忽(悤)c韭j面(囬)m食e十画及以上髟f兼j^l門d鹿b黑h鼠(鼠)w鼻b汉字正反序部件、笔画查字法当正反序双部件用于汉字检索时,按照正序部件、反序部件、笔画的方式查询,如 “龚”字,按照正序部件“龙”、反序部件“共”、11画的顺序即可查询到。可分别制定正序检字表和反序检字表。如“湖”字,在正序检字表中归“?部”,在 反序检字表中归“月部”。以上的汉字正反序双部件归部、检索法可用于工具书、教科书等图书和网络、软 件、光盘等的汉字归部、排序、检索等用途,以及各种大小键盘输入法中制定形码。二 . 26字母通用键盘龚码智能输入法汉语拼音、龚码全拼与龚码双拼编码的部分对应请参看附录的对照表。以下是以汉语拼音标示的转码示意与龚码双拼键位
权利要求
1. 一种汉字按正反序部件归部、检索的方法,其特征在于1)每一个汉字按正序、反序两个部件归部;2)正序部件一般取自汉字的左上角,反序部件一般取自汉字的右下角;3)全包围或半包围结构的字,正序部件取包围部分的左上角,反序部件取被包围部分 的右下角;4)包容性较大的部件优先;5)“呗、项、颅、项、嗖、^ ”形结构的反序部件取左下部分,“蠃”形结构的反序部 件取下中部分,“哀、彳 ”形结构的反序部件取中间部分;6)左中右或上中下结构的汉字,当两端部件相同时,反序部件取中间部分;7)某些近似部件合在一起使用,作为单字时仍按本身的字形拆分;8)一笔写成的字,若笔形无变化,正反序部件视为相同;一笔写成的字,若笔形中间有 变化,正反序部件依笔形变化而定;9)在原有的汉字部件之外增加“Π(向字框)、-Cf (畐字头)、!(卬字旁)、k (长字 底)、lk (丧字底)、农(农字底)、臾(黄字底)、手(争字底)”等汉字部件;10)当正反序双部件用于汉字检索时,按照正序部件、反序部件、笔画的方式查询。以下是按主形部件(括号内为附形部件)笔画排序的汉字正反序部件表,部件后的字母是可用于多种输入法的正反序形码一画一(z)h [(J)g J ρ 、(! < (ιΛ)ν^η Lt L 1 Af二画J 1 i (窗)i 又(叉)s ^ f 十(少)w人g Ijn Lk力c 乂 (X)a厶(石1>丄)s ^f 、{ (^)b几(几)k儿e卜(卜H上下不丕)ν八a 匚(c:]:i)p 刀( 刃)d 1| ( 1J )w 厂(厂IT) s j 勹(刁)w 二 e 丁(丁 )d 5 ( ^7 )h 七(亡 t弋戈)q (")v P (TJ)e (夕力)o 门(rN)t 九 j " (^)m 、/h 乃(及)n 入 rC(e 工t Ux三画口 k ? e廿(卅)c 土 t ^ ρ女η ^ )s大(夫夭天夬)o山d 个χ寸c马(馬)g巾d之(1_乏)!11干(千于于平T)m小f ^ y三(彡)s 欠(夂夂)d门(門)m广ζ ^b Ig子ζ t (I )t兀u 士w弓(乐)g尸 (尸尸尺P)w升g 4 k尤(^)i夕(夕彐(C丑)d巳(已己)s川(〈〈〈 州曰 StV/、l)o 幺(乡)i 口 glk(LOs_^q、pg 也 i 屮(屮 L]H)q(门)x、v x 片U)j四画木(本卒未朿束)a日(曰9)r月(冃吞片月)y贝(貝)b王(玉主)u 火h心(必)x车(車)m戈(戊弋戋)c夂ρ…、h内(内肉匂)r止(正tE)V_s"f Xe丰()f见(見)1方(万)h斤(斥丘)v犬(犮)q ^ χ勿u农η水 e殳w手(手手乎)q毛m巴r文u爿(片爿菲卯)o歹d韦(韋)u少w件 r瓦u 氏(氐)a牛η今j户h中(市半.&虫亜)ζ爪(”)ζ毋(母)g斗 d屯t尹ν 廿(册舟)n 牙i生g 少少1 χ五画鸟( 乌鳥芎烏)ζ田(申甲由)t石w目q禾(采)u Mm 广r卒ζ冋(冏)j氺(求氷)u白(百甶)1 7 ( 7 )m示k立(; ;)ρ册(冊曲 i苗幽)t 矢(失)w且(且苴)u旦(亘)d可ο穴(^)x用(甫)y 古e龙(尨龍)1四(M)r半(牛夕)b生W占V业(亚)i皮P瓜g电(甩)d疋P 冉r弗f 甘g六画虫(亩)ο ν米(来)h页(頁)i 耳u羽q早(早)ζ 舟(丹)b 臼(IlEla) j糸s吉j 艮(随)g臣(3亞)o而e各g缶f牛(五五)n共η 聿(全去)y羊()i舌w严h自(目)f 西( )x衣i 耒η自(盲)ζ七画^Sb走(At)I豕y 酉(酋)f 辛(幸)y里1豆d言i角j臾h 辰ο佥(兪)q豸ν身w Mb麦(麥)m八画鱼(魚)q隹ν雨ζ其(甚)q金j非f齿(齒)o具(真県)j或h 黾( )m 車ο九画革g骨η娄(婁)1鬼g柬j忽(悤)c韭j面(囬)m食e十画及以上髟f兼j然1門d鹿b黑h鼠(鼠)w鼻b
2. 一种可无重码输入GBK或GB18030的2万多个汉字的大键盘拼音输入法,其特征在于1)这种拼音输入法分为双拼、简拼和全拼,每个汉字的音码双拼全部2码,简拼2-3码, 全拼2-4码;加上正反序形码后,每个汉字的全部编码双拼4码,简拼4-5码,全拼4-6码, 依序为首音码、次音码、三音码(第三个音码,全拼与简拼中)、四音码(第四个音码,全拼 中)、正序码(也是首形码)、反序码(也是次形码);双拼、简拼的部分次音码以汉字的读 音按规则省略而成,正序码和反序码按权利要求1中的汉字正反序双部件划分法确定;2)把所有的汉字按一定规则分成两部分或多部分,对其中一部分或几部分汉字按一定 规则转换编码;3)在输入法的简化字版本中,以GB码(国标码)为基础确定“简化字”(主用字)的 范围,其余的汉字定为“非简化字”(次用字);在输入法的繁体字版本中,以BIG5码(大五 码)为基础确定“繁体字”(主用字)的范围,其余的汉字定为“非繁体字”(次用字);4)在输入法的简化字版本中,按键位表所示对“非简化字”(次用字)的次音码进行转 码;在输入法的繁体字版本中,按键位表所示对“非繁体字”(次用字)的次音码进行转码;5)对于较难确定正序码,很容易确定反序码的字,可以忽略正序码,以“音码+ +反 序码”的方式输入;6)在一码即可输入的一码固项字中,根据单音节词义项频,特别把“把”安排到“a”,把 “说”安排到“O”,这项安排对于小键盘通用;7)双字词以音码组成,末字为儿化音的双字词以“首字音码+r’”组成,末字为字母的 双字词以“首字音码+字母+’ ”组成;三字词以“三个字的首音码+末音码”组成,末字为儿 化音的三字词以“前两字首音码+r’”组成,儿化音在中间时用作“r”,末字为字母的三字词 以“前两字首音码+字母+’ ”组成;四字及以上词以“前三字首音码+末字首音码”组成,四 字词中的儿化音为“r”,五字及以上词中的儿化音在编码中忽略;8)不需要切换码表或词库,在输入过程中简化字版本可以输入非简化字语词(次用 词),繁体字版本可以也可以输入非繁体字语词(次用词),并且二者不会混淆;输入时次用 词的编码加前导符或后置符,每个字的编码与所属版本中的单字相符,三字词中第三字的 末音码为非次音码时不转码,四字及以上词中编码不变;9)对于重码字,字频较高的字保留原编码,字频较低的字优化反序码,被优化的反序码 优先取用最接近该字右下方的部件形码,包围结构中被包围部分优先,若没有其他部件,把 本身的部件分拆开,从字的右下方开始取码,已被正序码取码的部件,不再用于反序取码。 以下是以汉语拼音标示的转码示意与双拼键位
3.一种利用汉字正反序形码和笔画反查编码的方法,其特征在于1)对于不知道读音或编码的汉字,按权利要求1中所述的正反序部件和权利要求2中 所述的形码,以“正序码+反序码+笔画”的方式查询,被查询到的单字可直接上屏,编码可 不上屏;2)对于优化过反序码的字,查询时仍按优化前的反序码,查询显示的结果则为优化后 的编码。
4.一种可输入GBK或GB18030的2万多个汉字的小键盘拼音输入法,其特征在于1)这种拼音输入法分为双拼、简拼和全拼,具有与权利要求2中所述的大键盘拼音输 入法相同的键位对应;2)具有与权利要求2中所述的大键盘拼音输入法相同的转码方式;3)不需要切换码表或词库,在输入过程中简化字版本可以输入非简化字语词,繁体字 版本可以也可以输入非繁体字语词,并且二者不会混淆;能以权利要求2中“输入时加前导 符或后置符”的方式,每个字的编码与所属版本中的单字相符,三字词中第三字的末音码为 非次音码时不转码,四字及以上词中编码不变;4)对于不知道读音或编码的汉字,能以权利要求2中“正序码+反序码+笔画”的方式 查询,被查询到的单字可直接上屏,编码可不上屏。以下是小键盘拼音键位表,字母与数字的对应可以根据需要作出各种改变
全文摘要
本发明公开了一种汉字正反序双部件快速定字、归部、检索法,一种建立在此基础上,输入多种字符集的几万个汉字时,对部分汉字按一定规则转码,在通用大键盘上全码输入无重码、在12键小键盘上全码输入最多显示6个字无须翻页的大小键盘通用的拼音智能输入法,及一种利用汉字正反序形码和笔画反查编码的方法。每个汉字按照本发明的正反序部件表分别从左上角和右下角取正序、反序两个部件,可同时用于汉字的归部、检索和输入法中的正序码和反序码。本发明可用于多种字符集的输入,优于多种输入法,使能查字典的每一个人不管使用双拼、简拼或全拼的方式都能快速盲打,让汉字的归部、检索与计算机、手机等的输入以科学、快捷的方式融为一体。
文档编号G06F3/023GK102096477SQ20111002492
公开日2011年6月15日 申请日期2011年1月16日 优先权日2011年1月16日
发明者龚学胜 申请人:龚学胜
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1