一种首末码汉字输入方法

文档序号:6572235阅读:263来源:国知局

专利名称::一种首末码汉字输入方法
技术领域
:本发明涉及一种汉字输入方法,尤其是涉及一种用于计算机、手机等电子定义备的拼形类汉字输入法。
背景技术
:目前,用于计算机、手机等电子定义备的汉字输入法,大致有拼形类、拼音类、音形类、形音类、数字类等。中国专利85100837号公开的《优化五笔字型编码法及其汉字输入键盘》是拼形类的一个代表,重码率较低,包括其它一些人们熟知的拼形类汉字输入法在内,还存在以下缺陷(1)需记忆大量的字根,需要太多强制记忆,较难掌握;(2)汉字拆分难度大,难以准确认定;(3)忘得快,这些拼形类汉字输入法完全是硬性确定某字的编码是什么,按其本身的编码方法使人容易在可能出现的几种汉字分拆的情况下作出错误的选择;(4)有些输入法重码较多,主要表现为两个方面,有的编码方法重码总数太多,有的在较多的重码中,一个重码包含较多重码字,多的可达8个以上,且没有对所有规范汉字进行编码,编码不能容纳较多词组。中国专利98101731.2号公开的《大自然汉字键盘及其输入方法》是音形类的代表,其除使用26个字母编码以外,还需使用其他符号编码,符号代表的字根难以掌握,影响输入效率。
发明内容本发明的目的在于提供一种取码直观,较易记忆,重码率低,且输入效率较高的首末码汉字输入方法。本发明的目的是通过以下技术方案实现的(一)字根选择规则(1)以常用汉字的偏旁、部首,或出现频率较高的笔画型(如“_”、“_”等),作为字根;(2)为便于实现编码字根最大化,降低汉字分解难度的偏旁、部首、笔画型,作为字根,如“矛”、“巫”、、“爪”、“求”、“尸”、“卩”、等;(3)将组字能力极低的偏旁或部首(如等),予以淘汰,不作为字根;(4)将有两种或多种“变形”的偏旁、部首或笔画型,归入同一个字根,例如西(覀)、四(罒)、雨、月大、几(_、如“微”字中)、又纟(纟,如“辔”字中)、小、亅(,如“豹”字中)、冂、人、八、火(“如偏旁“衤”中、如“飞”字中、如“鄹”字中)、_(如“站”字中)、(,如“豢”字中)、木(如“新”字中)、车足(_)、禾土(_)、竹(_)、牛卩(,如“卫”字中)、儿(,如“羌”字中;,如“辉”字中;,如“尬”字中)、尸(,如“君”字中)、求(,如“裘”字中)、水(氺,如“录”字中;,如“暴”字中;,如“犀”字中)匕如“化”字中)、(,如“贯”字中)、王(、王,如“全”字中,上“横”比第二“横”短)。但在编码当中,不能将“刀”类推为字根“_”,将“_”类推为字根“卩”。除以上情况外,还有一些在取码笔画最大化当中,结构形态相近的笔画型,归入结构形态相近的字根如“殳”字中的归入字根“几”,“凹”字中的归入字根“冂”,“身”字中的归入字根“月”,“即”字中的归入字根“厶”,“敝”字中的归入字根“_”,“脸”字中的“_”归入字根“_”,“业”字中的“_”归入字根“_”(“业”字中的笔画型“_”,“点”、“撇”和“横”之间有间隙),“良”字中的归入字根以上列出的字根,不能作类推,如不能以“尹”字中看作“尸”的“变形”;“卫”字中可看作“卩”的“变形”,而类推“乌”字中的笔画型可看作;不能以“贯”字中可看作的“变形”,而类推“缘”字中也为字根(5)将组字能力较低的偏旁或部首归并入其他形态相近似的字根,如没有定义字根“夂”,“条”字首取字根为“_”,而“复”字末取字根为“又”;没有定义字根“广”,“广”字首取字根为“亠”,“扩”字末取字根为“厂”。没有作为字根的偏旁、部首,其笔画都将归入“一”、“丨”、“丿”、“丶”、“乙”这些基本笔画。按照以上规则选定字根,数量宜为100-130个,优选105-120个。(二)字根键位布置规则(1)按照组字能力确定,组字能力≥100字的在首偏旁字根(如“氵”、“廾”、“口”“木”、“扌”、“亻”等),尽可能处在不同键位里,并兼顾各码位的容量平衡,以降低重码率,如把字根“辶”安排在字根“氵”所在键位里(因两者一个在字首,一个在字末,是不会发生重码的)。(2)当把组字能力≤100的在首偏旁字根安排键位时,既考虑是否和键位里主要在首偏旁有较多同部首而发生重码,也考虑是否有笔画形态相近问题(如把字根“口”安排在字根“口”所在键位里,会发生27个重码;改把字根“口”安排在字根“目”所在键位里就会相应减少些)。(3)组字能力≥100的在末部首字根尽可能处在不同键位里,但可与主要在首偏旁安排在同一键位。(4)为便于记忆,尽可能将字根定义在与主要字根(键名字根)名称“近声”或“近形”的字母键位上,如“丶”的名称读音含有声母“D”,故定义在“D”键上;“木”读音含有声母“M”,故定义在“M”键上,“氵”名称读音含有声母“sh”,故定义在“S”键上;以此类推,“土”定义在“T”键上,“日”定义在“R”键上,“忄”定义在“X”键上,“竹”定义在“Z”键上;“目”近形于“E”(检测眼睛视力的图形),定义在“E”键上;“钅”近形于“W”(象金元宝),定义在“W”键上;“艹”近形于“Y”(象草),定义在“Y”键上;“口”近形于“O”,定义在“O”键上;“阝”近形于“P”,定义在“P”键上;“女”字近形于“V”,定义在“V”键上;“冂”近形于小写“N”(n),定义在“N”键上;“乙”近形于“G”,定义在“G”键上;“丿”近形于“J”,定义在“J”键上等;“一”近形于“F”(“F”含有两“横”),定义在“F”键上。(5)尽量使各点击对应键位的手指工作量基本平衡,如包含字和词较少的键位“B”键,就能减轻左食指工作量(因左食指需点击六个键位);如包含字和词较少的键位“N”键,就能减轻右食指工作量(因右食指需点击六个键位)。(6)为提高输入效率,将含有“一”、“丨”、“丿”、“丶”“乙”五种使用频率高的基本笔画的字根,定义在最方便食指、中指点击的键位上;更进一步,将组字能力≥300的偏旁所在的字根定义在最方便食指、中指点击的键位上。(7)尽可能布置在各字母键上,但为减少重码,除各字母键外,也可启用少量其它字符键,例如使用率较低的标点符号键“”键和“?”键等。本发明也适用于数字键盘的汉字输入,此时,所述字根自然应当定义在数字键上。另外一个改进方案是,增设“重码键”将键盘上的空格键位置一分为二,左为重码键,当出现重码时,可在输入编码后补击重码键,以提高输入效率;右为空格键。(三)取码编码规则首先按照笔顺以字的在首笔画实行首码字根最大化;并用未取笔画按倒数顺序以末笔实行末码字根最大化;接着用未取笔画按笔顺实行第二码字根最大化;然后用未取笔画按笔顺实行第三码字根最大化。在编码过程中,编码按顺数码位排列,而在实现字根最大化时,则按首码、末码、第二码、第三码的次序进行,在发生被取码笔画相矛盾时,后者依次让前者。这样做,也是为了突出首末字根在进行词组编码时,能够直观化,这种取码方法,本发明者称之为四码位最大化首末码,简称首末码;本发明之汉字输入法,可称之为首末码汉字输入法。当汉字编码不足四码时,后面补空格键。对于词汇的输入,可采用以下编码规则,以提高输入速度双字词,取第一字的首、末码为词的第一、二码,取第二字的首、末码为三、四码,共四码位。三字词,取各字首码为词的第一、二、三码,取第三字末码为词的末码,共四码位。四字或四字以上词组编码取前三字和最后一字首码,共四码位。本发明的积极效果在于,编码取码具有唯一性强、直观、易记等特点,重码率低。图1为本发明一实施例的键名字根在键盘上的分布图。具体实施例方式以下结合实施例对本发明作进一步详细说明。根据前述字根选定规则,本实施例选定字根113个;按照前述字根键位布置规则,布置在26个字母键及2个标点符号键“”键和“?”键(分别命名为“火”键(所在键位标记草体“火”字)和“月”键(所在键位标记草体“月”字)。在输入“”(冒号)时,在后补点击空格键,在输入“;”(分号)时,在后补击重码键;在输入“?”时,在后补点击空格键,在输入“/”时,在后补点击重码键。本实施例也适用于数字键盘的汉字输入,此时,所述字根布置在数字键上。本实施例的键名字根在键盘上的分布参见图1。所述113个字根在键盘上的位置,如下表所示<tablesnum="0002"></tables>[以上字根中为在“家”字末笔画型;为在偏旁“衤”(“捺”变“点”)中、“聚”字末笔画型][注解“齿”在编码中分解为、“__”;偏旁分解为“丶”;“面”字分解为“一”、;“革”分解为“艹”、;“马”字分解为、“一”;偏旁或部首“车”在首分解为、“一”,在末分解为“一”、;偏旁叫“衤”分解为“_”、;偏旁“礻”分解为“_”、“丶”;偏旁“犭”分解为、“丿”;“雨”分解为“一”、;“舟”分解为、“丶”;“骨”分解为“月”。]取码编码方法,如前所述,首先按照笔顺以字的在首笔画实行首码字根最大化;并用未取笔画按倒数顺序以末笔实行末码字根最大化;接着用未取笔画按笔顺实行第二码字根最大化;然后用未取笔画按笔顺实行第三码字根最大化。在编码过程中,编码按顺数码位排列,而在实现字根最大化时,则按首码、末码、第二码、第三码的次序进行,在发生被取码笔画相矛盾时,后者依次让前者。编码举例例如“伟”字依次分解为“亻”、“一”(为第二“横”)、、“十”,编码为”kFGI”,依次击打“K”、“F”、“G”、“I”键即可;”爱”字依次分解为“爫”、“冖”、“フ”、“大”,编码为”JQGC”。首末码只有一个或两个字根的字,其编码为点击字根所在键位加声母组成。例如”口”字编码为”OK”(“K”为声母);”从”字编码为“KKC”(“C”为声母).当汉字编码不足四码时,后面补空格键。如“办”字编码为“UDD”,在输入编码后补空格键。本实施例还专门设有“重码键”将现有键盘上的空格键位置一分为二,右为空格键,左为重码键,重码键上标记草体“重”字。在实际编码中,多数为两个字(词)重码,少数重码为三个字(词)以上,针对这种情况,特采取不同的方法对待(在输入编码为重码时,让电脑屏幕底格同时显示所有的同编码字或词)(1)汉字编码出现的重码为四个码位,且只有两个字(词)为重码,以最常见字(词)为本码字(词),在输入该编码时,电脑屏幕内容同时显示该字(词)完成输入;而需要输入重码字(词)时,补点击重码键,电脑屏幕内容显示的本码字(词)切换成重码字(词),重码字(词)在屏幕底格编号为“2”。(2)给汉字编码中出现的重码为三个码位以内,且只有两个字为重码,在输入编码后补空格键为输入本码字;再补击重码键,本码字切换成重码字,也可在输入编码后只补击重码键便可输入该字,重码字编号也为“2”。(3)汉字编码中出现的重码有三个字(词)以上(这时不必管编码多少码位),该编码所有的字(词)用阿拉伯数“1”、“2”等给以编号,最常见编号为“1”,次常见编号为“2”(词可定义在字后考虑),依次类推,在输入该编码中的字(词)时,在编码后补击对应的编号为输入所选择的字(词)[补空格键也可代替补编号“1”,四码位字(词)这时必为五次击键输入]。设计重码键还可专门进行重码字(词)切换输入,但不包括本码字(词)或编号为“1”的字(词)[因这些字(词)可利用空格键]。如已输入一个重码,点击一次重码键,即为完成输入编号为“2”的重码字(词);点击二次重码键,即为切换成对应编号为“3”的重码字(词),如此类推,重码键可轮流将重码中编号为“2”以后的所有重码字(词)切换输入。在给汉字编码当中,还存在笔顺这一大问题需要解决。当前“汉字规范笔顺”不能较好地满足汉字信息处理要求。通过大量的试编码实践,为了实现取码字根最大化、唯一性,必须做到取码时汉字笔画顺序唯一性、统一性;同时又能让这种唯一性、统一性的笔画顺序大多数符合现行的《汉字笔顺规范》,但当给出一种规定时,就要求不能有例外,如给出“从左到中,至右”的规定,“非”字就不能以“丨”为先,而是以“三”为先,鉴此,本实施例对笔顺作如下特别规定(一)从左到中,至右如“非”字依次分解为“三”、“丨”、“丨”、“三”,编码为“THHT”;“止”字依次分解为“丨”、“丨”、“二”,编码为“”;“臧”字依次分解为“乚”、“一”、“丿”、“丶”,编码为“GFJD”;“将”字依次分解为“冫”、“丨”、“夕”、“寸”,编码为“AHUL”;在以“撇”、“捺”或“点”对称排列在两边时,按以下两种情况处理(1)中间定位两偏旁笔画型,先中间,后两边如“水”、、“承”、(“鳏”字中)、(“巫”字中)、(“幽”字中)、(“率”字中)、(“蘖”字中)、(“燮”字中)、(“亦”字中)、(“业”字中)“办”、(“梁”字中)等,“水”依次分解为“亅”、,编码为“LSS”;“率”字依次分解为“亠”、“厶”、“十”,编码为“AGBI”;“幽”字依次分解为“山”、“厶”、“厶”,编码为“BGBB”;“业“字依次分解为“丨”、“丨”、“_”,编码为;“办”字依次分解为“力”、“丶”、“丶”,编码为“UDD”;(2)两边在上夹中交或夸笔画型,先两边和“横”(含“横折”、“竖折横”等),后中间,如、“半”、“米”、(“夹”字中)、“坐”、(“敝”字中)、“兆”、(“脊”字中)、(“谷”字中)、(“塽”字中)等,如“米”,在字首,依次分解为“_”、“小”,在字末,依次分解为“丷”、“木”;“兆”字依次分解为、“儿”,编码为“SWZ”;“坐”字依次分解为“人”、“人”、“土”,编码为“KKT”;“敝”字依次分解为“_”、“冂”、“八”、“乂”,编码为“ZNKC”等;(二)从上到下,如“皮”字(在不设字根时),依次分解为“乛”、“丨”、“丿”;(三)两笔画相交,先“横”(含“横折”、“横折竖”、“竖折横”),后“竖”(含“竖折”、“竖撇”)或“撇”如“十”、(参见“降”字中)、(参见“也”字中)、(参见“五”字中)、“巾”、“子”、“韦”、“聿”、(参见“庸”字中)、(参见“勤”字中)、“_”(参见“泽”字中)、(参见“隹”字中)、(参见“青”字中)、(参见“垂”字中)、“七”、(参见“逆”字中)、(参见“屯”字中)、“屮”(参见“蚩”字中)、(参见“虐”字中)、“九”、“力”等。即如“五”字依次分解为“一”、“_”、“丨”、“一”,编码为“FGHF”;“子”字依次分解为“乛”、“一”、“亅",编码为“GFL”;“青”字依次分解为“三”、“丨”、“月”,编码为;“逆”字依次分解为“_”、“_”、“丿”、“辶”,编码为“BJS”;“虐”字依次分解为“丨”、“一”、“_”,编码为“HFGG”;“九”字依次分解为“乙”、“丿”,编码为“GJJ”等;但在“冂”框、框、“囗”框、“囗”字、框与“横”相交时有特例,以“冂”、、“囗““囗”、等结构看成在上,为先,“横”看成在下,为后,规定为从上到下。如“册”字依次分解为“冂”、“冂”、“一”,编码为“NNF”;“尹”字依次分解为“尸”、“一”,编码为“PFY”;“衰”字依次分解为“亠”、“口”、“一”、,编码为“AOFW”;“母”字依次分解为、“亠”、“、”,编码为“EAD”等;(四)两笔画相接,若有出头时,出头者为先,若无出头成左上角时,看成先角上,后角下如“卩”、等,其左上角无笔画出头,因此象“氏”字依次分解为“丿”、“_”、编码为“JGV”,而象“及”、“乃”等字左上角有笔画出头,因此以出头的笔画“ㄋ”为先;(五)全包围,左上右包围、上左包围、上右包围字型,先外后里如“国”、“母”、“同”、“问”、“厅”、“司”等;(六)左下右包围,左下包围,上左下包围字型,先里后外如“画”“运”(参见“甚”字中)、(参见“曷”字中)、“也”、“区”等,即如“画”字依次分解为“一”“日”“丨”“__”,编码为“FRHB”;“运”字依次分解为“二”“厶”“辶”,编码为;“甚”字依次分解为“艹”“三“”八““_”,编码为“YTKG”;“也”字依次分解为“丨”、“乚”,编码为“GHG”;“区”字依次分解为“一”、“乂”、“_”,编码为“FCG”等;而对于一些特殊的近于左下包围但却难以认定为左下包围结构的笔画型,如(1)汉字组字中,把笔画“_”右上的笔画看作被笔画“_”左下包围笔画型,以笔画“_”右上的笔画为先,如“与”、“丐”、“鸟”等字,若不设字根“鸟”时,“鸟”字的笔顺依次为“丿”、“_”、“丶”、“_”、“一”,而不是以“丶”作为末笔(参见第七条规定);(2)象“比”字的左部笔画型及“匕”字等,同样看作左下包围笔画型,先里后外;(3)对于“鬼”“尬”、“毡”、“旭”、“飞”等字中有笔画“_”或“乚”,不视为左下包围笔画型,把这些笔画看作在左部分笔画,以左部笔画为先,如“尬”字依次分解为“一”、“儿”、“人”、“丨”,编码为“FWKH”。(4)由多笔画组成的偏旁“辶”、“廴”等看作左下包围,除此而外,象“处”字中笔画型、“昶”字中笔画型等由多笔画组合的笔画型不视为左下包围笔画型。(七)“点”在上部或左上,笔顺为先,如“衣”、“为”、“门”等;“点”在右上或字里,笔顺为后,如“发”“瓦”等。如“为”字,依次分解为“丶”、“力”、“丶”,编码为“DUD”;“发”字依次分解为“人”、“フ”、“丶”,编码为“GKGD”,若不设字根“门”时,“门”字依次分解为“丶”、“丨”等。为便于实现取码字根最大化,对于汉字的笔画结构的认定,本实施例还有下列规定(一)除字根“亅”之外,所有“折”均看作字根“乙”;(二)“提笔”看作“横”,如“刁”字;但“横”不为“提笔”,如“事”字中的笔画型不为字根“扌”[特别说明“辔”字右边“纟”(底下笔画为“横”)仍认定为字根“纟”,因其在笔画结构上完全相同]。(三)“亦”在字整体上部或部首上部时,笔画型均为两“竖”如“迹”字,分解为“亠”、“丨”、“丨”、“辶”,编码为“AHHS”;“奕”字分解为“亠”、“丨”、“丨”、“大”,编码为“AHHC”等。(四)方框内包有一笔画者,认定为“囗”框,不为“口”字。如“象”字中笔画为“囗”框;“柬”字中笔画型为“囗”框(“囗”框作为部首在字末时,规定以“囗”框为末笔字根最大化,但不类推框);(五)“二“、“三”、“_”等字根中,处在最底下的“横”为不短于上部的“横”,并且对于字根“三”,上面第一“横”还须不短于处在中间位置的“横”,否则都不认定为该字根,如“芈”字首笔画型为,不为字根“三”,因其第一“横”短于中间的“横”;“作”字末笔画型不为字根“三”,因其最底下的“横”短于第一“横”;而“宜”字末笔画型却为字根“三”,是因其最底下的“横”为不短于上部的“横”;另外,笔画型(参见“妻”字中)、(参见“捷”字中)以在笔画型“_”中间位置的“横”为最长;笔画型“聿”以底下位置的“横”为最长,即“妻”字第一码确定取字根为“_”等;“垂”字以笔画型“艹”中的“横”为最长,“垂”字第二码确定取字根也为“_”等;(六)汉字中存在多个“横”的笔画时,以最长的“横”为被取字根“十”、“大”、“木”、“廾”、“_”(字根“_”针对底下的“横”)的笔画,因此“钵”字末笔字根最大化不认为是“十”,而是“一”。(七)“竖钩”(“亅”)变“竖”(“丨”)则依“竖”,“竖”变“竖钩”则依“竖钩”(不包括“亦”在上时),如“犀”字中依“丨”看作字根“_”;(八)汉字中有许多以“横撇”和“竖”笔画相接,如“千”、“垂”、“币”、“禾”等字中的笔画型,这种笔画型实现取码字根最大化时,如果定为字根“亻”(单人旁),就会有许多汉字被拆散;而象“裁”字中,若以第三码取笔画型认定为字根“人”,以及“夜”字末码取笔画型认定为字根“人”,都属于反拆汉字,很难理解;又如“庹”字,若取末笔画型为字根“八”,“后”、“差”等字,若取笔画型为字根“_”,都是不能支持的。因此特别规定只以偏旁或部首“亻”、“人”、“八”、“丷”、“_”(如“失”字首)、能够理解为同一种笔画型的(如“家”字末笔画型)、以及能够理解为同一种笔画型的[(如“聚”字末、偏旁“衤”(“捺”变“点”)中笔画型]认定为字根。所述字根,一般为笔画相连,或为笔画相交,或为笔顺相连,或为笔画位置相连续,不存在被中插笔画隔分;如字根被中插笔画隔分,应是“撇”、“捺”或“点”对称排列在中插笔画两边,笔顺相连,如“八”、“丷”等。举例如下“柬”字首取字根“木”、“十”和“八”相连不为隔分;“策”字末取字根“木”、“小”与“一”相交,不为隔分;“宣”字末取字根“三”,笔顺相连,不存在隔分;“辰”字首取字根“三”,笔画不连,笔顺不连,但位置相连续,不存在隔分,认定为字根;“水”字末取字根虽被中插隔分,但笔顺相连且对称在两边,认定为字根;“于”字首取字根为“二”不为隔分;“工”字首取字根不为“二”,因“二”被“丨”中插隔分,笔画不连不交,笔顺不连,笔画位置不连续;“兼”字末笔画型“_”,笔顺虽相连,但被左边“丨”隔分,且不是以字根(“小”的变形)中的“丨”对称排列,而是以笔画型对称排列,因此,“兼”字末取字根不为“小”,而为“八”。汉字中,象“武”字中的,笔画位置处在上面的“一”偏向笔画位置处在下面的“一”的一边,这种“偏位移”现象有很多,如“裁”等字中的,其笔画型“十”就在笔画“一”的上面有“偏位移”,“戢”字中的,其笔画型就在笔画“一”的下面有“偏位移”;“我”字中的,其笔画型就在与笔画“一”相交有“偏位移”,还有“丑”字中的,其笔画型“十”在笔画“一”的上面也稍有“偏位移”;当然,,或许“旭”、“尬”等字中的笔画型也要讨论是否可看作有“偏位移”现象,这些偏旁或部首在汉字组字结构中应仍为原偏旁或部首,在编码时仍须看作原字根。笔画结构“亠”在汉字组字结构中没有出现“偏位移”,但当它作为字根在实现取码最大化时,就有“点”在笔画“横”上“偏位移”现象,如“伏”、“国”、“浦”、“试”等字末最大化笔画型,是否可以认定为字根“亠”呢?如果认定,这将拆散许多的类似汉字。如果认定“偏位移”,笔画型全被认定为字根“亠”;如果不认定“偏位移”,象“作”字末的,上“横”应偏移一边,也稍有类似现象,是否也要否定为字根“二”呢、“戢”字中的、“戒”字中的等不认定为字根,从而使分拆取码有违汉字本义上的笔画结构,且对于“丑”字中的是否存在“偏位移”,则需要用尺来量了。综合以上考虑,特规定除字根“亠”外,承认所有的“偏位移”,把字根“亠”称作“不可偏位移性”。在实际编码中还会看到,还有某些“偏位移”并不能理解为汉字笔画结构,如“臼”字末最大化笔画型“韭”字末笔画型,“凸”字末笔画型,“亟”字末笔画型等,但也可看作最大化字根“二”;如“友”字在首最大化笔画型,也可看作最大化字根“大”。如果说象“长”字首笔画型可用被笔画“一”中插隔分,来否定为字根,或者说笔画“丿”、笔画“_”在构字布局中完全不同,那么又如象“贲”字首笔画型是否要看作字根“土”呢?象“周”字首笔画型是否要看作字根“月”呢?象“豸”字中首笔画型(“点”和“撇”没有间隙)是否要看作字根“爫”呢?象“佳”字末笔画型(笔画“一”和“土”在结构上应存在间隙,只是笔画间布局紧凑,不明显而已)是否要看作字根“王”呢?等等。为此,特规定由某偏旁、部首或说构字部件确定为某字根的笔画构成,其笔画原为与整体中某些笔画相连或相隔的,而出现在汉字取码字根最大化当中,笔画型有极似其形却为该笔画间相隔或相连的,不为该字根。词组编码双字词组编码,取第一字首、末码为词的第一、二码,取第二字首、末码为三、四码,共四码位,例如“学习”依次分解为“_”、“亅”、“乙”、“冫”,编码为“ZLGA”。三字词组编码,取各字首码为词的第一、二、三码,取第三字末码为词的末码,共四码位,例如“湖南省”依次分解为“氵”、“十”、“小”、“目”,编码为“SIZE”。四字以上词组编码,取前三字和最后一字首码,共四码位,例如“马到成功依次分解为“一”、“厂”、“一”,编码为“PFCF”。字母看作一码全码字,输入时,按本字母键并在后补空格键(为字母小写),如输入多个字母组成的拼音时,只能按同样方法逐字输入用以表示,如接连出现两个拼音,在前一个拼音完成输入后再补一次空格键。本实施例编码方案,以《现代汉语词典》为依据,能对所有规范汉字进行编码,存在的重码仅有408个,能容纳大量词组。本发明的保护范围不能认为只局限于上述具体实施方式。对所属
技术领域
的普通技术人员来说,在不脱离本发明构思的基本前提下,还可以做出若干简单推演或等同替换,这些等同替换方案仍然将被视为在本发明的保护范围之内。权利要求1.一种首末码汉字输入方法,其特征在于(一)字根选择规则(1)以常用汉字的偏旁、部首,或出现频率较高的笔画型,作为字根;(2)以便于实现编码字根最大化,降低汉字拆分难度的偏旁、部首、笔画型,作为字根;(3)将组字能力极低的偏旁或部首,予以淘汰,不作为字根;(4)将有两种或多种“变形”的偏旁、部首或笔画型,归入同一个字根;(5)将组字能力较低的偏旁或部首归并入其他形态相近似的字根,没有作为字根的偏旁、部首,其笔画都归入“一”、“丨”、“丿”、“丶”、“乙”这些基本笔画字根本;(二)字根键位布置规则(1)按照组字能力确定,组字能力≥100的在首偏旁字根,尽可能处在不同键位里,并兼顾各码位的容量平衡;(2)当把组字能力≤100的在首偏旁字根安排键位时,既考虑是否和键名字根有较多同部首而发生重码,也考虑是否有笔画形态相近问题;(3)组字能力≥100的在末部首字根尽可能处在不同键位里,但可与键名字根安排在同一键位;(4)尽可能将键名字根定义在“近声”或“近形”的字母键位上;(5)尽量使各点击对应键位的手指工作量基本平衡;(6)将含有“一”、“丨”、“丿”、“丶”“乙”五种使用频率高的基本笔画的字根,定义在最方便食指、中指点击的键位上;将组字能力≥300的偏旁或部首所在的字根定义在最方便食指、中指点击的键位上;(7)尽可能布置在各字母键上;(三)取码编码规则首先按照笔顺以字的在首笔画实行首码字根最大化;并用未取笔画按倒数顺序以末笔实行末码字根最大化;接着用未取笔画按笔顺实行第二码字根最大化;然后用未取笔画按笔顺实行第三码字根最大化。在编码过程中,编码按顺数码位排列,而在实现字根最大化时,则按首码、末码、第二码、第三码的次序进行,在发生被取码笔画相矛盾时,后者依次让前者;当汉字编码不足四码时,后面补空格键。2.如权利要求1所述的首末码汉字输入方法,其特征在于,选定的字根为为100-130个。3.如权利要求2所述的首末码汉字输入方法,其特征在于,选定的字根为105-120个。4.如权利要求3所述的首末码汉字输入方法,其特征在于,选定的字根为113个,所述字根在键盘上的位置如下表所示。5.如权利要求1-4之一所述的首末码汉字输入方法,其特征在于,双字词组编码,取第一字的首、末码为词的第一、二码,取第二字的首、末码为三、四码,共四码位;三字词组编码取各字首码为词的第一、二、三码,取第三字末码为词的末码,共四码位;四字或四字以上词组编码取前三字和最后一字首码,共四码位。6.如权利要求1-4之一所述的首末码汉字输入方法,其特征在于,将键盘上的空格键位置一分为二,左为重码键,当出现重码时,在输入编码后补点击重码键,右为空格键。7,如权利要求1-4之一所述的首末码汉字输入方法,其特征在于,对编码取字根时的笔顺还有如下规定(一)从左到中,至右;在以“撇”、“捺”或“点”对称排列在两边时,按以下两种情况处理(1)中间定位两偏旁笔画型,先中间,后两边;(2)两边在上夹中交或夸笔画型,先两边和“横”,后中间;(二)从上到下;(三)两笔画相交,先“横”后“竖”或“撇”;但在“冂”框、框、“囗”框、“口”字、框与“横”相交时,“冂”、“囗“、“口”、结构看成在上,为先,“横”看成在下,为后,理解为从上到下;(四)两笔画相接,若有出头时,出头者为先,若无出头成左上角时看成先角上,后角下;(五)全包围,左上右包围、上左包围、上右包围字型,先外后里;(六)左下右包围,左下包围,上左下包围字型,先里后外;对于一些特殊的近于左下包围但却难以认定为左下包围结构的笔画型,作如下规定(1)汉字组字中,把笔画右上的笔画看作被笔画左下包围笔画型,以笔画右上的笔画为先;(2)象“比”字的左部笔画型以及“匕”字等,同样看作左下包围笔画型,先里后外;(3)对于“鬼”“尬”、“毡”、“旭”、“飞”字,其中有笔画或“乚”,不视为左下包围笔画型,把这些笔画看作在左部分笔画,以左部笔画为先;(4)由多笔画组成的偏旁“辶”、“廴”看作左下包围,除此以外,其他类似由多笔画组合的笔画型不视为左下包围笔画型;(七)“点”在上部或左上,笔顺为先。8.如权利要求1-4之一所述的汉字输入方法,其特征在于,对汉字的笔画结构的认定还有如下规定(一)除字根“”之外,所有“折”均看作字根“乙”;(二)“提笔”看作“横”,但“横”不为“提笔”,不过不包括“辔”字中的“纟”;(三)“亦”在字整体上部或部首上部时,笔画型均为两“竖”;(四)方框内包有一笔画者,认定为“囗”框,不为“口”字;(五)字根“二“、“三”、“_”,处在最底下的“横”为不短于上部的“横”,并且对于字根“三”,上面第一“横”还须不短于处在中间位置的“横”,否则不认定为该字根;(六)汉字中存在多个“横”的笔画时,以最长的“横”作为被取字根“十”、“大”、“木”、“廾”、“_”的笔画;(七)“竖钩”变“竖”则依“竖”,“竖”变“竖钩”则依“竖钩”,但不包括“亦”在上时。9.如权利要求1或2所述的汉字输入方法,其特征在于所述字根,一般为笔画相连,或为笔画相交,或为笔顺相连,或为笔画位置相连续,不存在被中插笔画隔分;如字根被中插笔画隔分,应是“撇”、“捺”或“点”对称排列在中插笔画两边,笔顺相连。全文摘要本发明公开了一种首末码汉字输入方法,其选定字根为100-130个,定义在通用键盘的字母键及选定的标点符号键上;编码规则首先按照笔顺以字的在首笔画实行首码字根最大化;并用未取笔画按倒数顺序以末笔实行末码字根最大化;接着用未取笔画按笔顺实行第二码字根最大化;然后用未取笔画按笔顺实行第三码字根最大化。在编码过程中,编码按顺数码位排列,而在实现字根最大化时,则按首码、末码、第二码、第三码的次序进行,在发生被取码笔画相矛盾时,后者依次让前者。本发明汉字拆分较易,重码率低,直观,易记,好学。文档编号G06F3/023GK101086687SQ20071003539公开日2007年12月12日申请日期2007年7月19日优先权日2007年7月19日发明者刘飞林申请人:刘飞林
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1