全部汉字汉词简易无重码统一输入法定型的制作方法

文档序号:12461751阅读:255来源:国知局
全部汉字汉词简易无重码统一输入法定型的制作方法与工艺
本发明涉及全部汉字汉词简易无重码统一输入法定型。
背景技术
:发明专利申请CN105511636A充分阐明了拼块码方案是(包括汉字输入在内的)汉字处理总体地简易、通用、高效的极限方式,一旦全面实施其经济、文化、社会效益理应超过汉语拼音方案加激光照排技术,全球十几亿习中文者将从无一能快易处理汉语全部字词的过去,很快进入初小以上全都能极其高效地处理汉语全部字词的未来。本发明要走完汉字输入拼块码方法发明系列12年历程的最后一步,基于CN105511636A再次改进这种方法并力争弥补一切疏漏、消除一切不当,精简一切表述。审视巨量汉字的音、形特征,申请人敢断言对汉字汉词的处理,极简单自然的就是全都按书写顺序念出它的几个熟识构块(仿佛拼音文字),让大众能从母语任何字词标准形直接读音(只不过德国人读多音节的词音而中国人读多音节的字词拼块音)同时定码并完成该字词的检索/输入,不信汉语全部字词能有更简单自然的处理方式(科幻式景象不论)。已经投入了大量人力财力并寄予厚望的分词技术恐难行通,中文的特性似不允许科学地分词(谁来分结果都一样);即令竟有一日达成分词共识,它能将现有输入法提效几何?又怎样兼用于字词检索?技术实现要素:本发明对CN105511636A作以下3点改进:1.构块从287个调减至282个:取消“身、求、甫、市、酉、マ”,添加“千、末”,移位“ナ、厶”,方案的整体性状趋于完善。这个判断而非观感只能是后验的,在依照当下两张构块表逐对比较十几万字词拼块码的生成难易之前无从下此结论;“子块”赋予汉字编码极大的自由,没有这一概念,就不可能自始至终无数次这样来优化构块表;2.单字、多字词、高频词的拼块音规则全都精炼成一句话,最大限度地便利公众把握运用;3.手机键盘的数字键位设置合理改动,用户按键操作更加轻松。三点之外对CN105511636A多处有种种改进。附图说明图1是本发明的中英文两用键盘字母键位图;图2是本发明的手机键盘数字/字母键位图。具体实施方式本发明的一个具体实施例由以下6个步骤组成:1.拼音汉语拼音恢复本来写法,再ü/ao换为y/au,声调不计;例如wu/yu/yao恢复成u/ü/iao,再ü/ao换为y/au,成u/y/iau。2.子块汉字中按笔顺的相继数画称为该字的一个子块;每一n画字恰有n(n+1)/2个子块,例如3画字“也”恰有3×4/2即6个子块“也,丨、乚”。“子块”既是不容歧解的数学式概念,又是选择余地极大的灵活概念(10万字形的子块总数超过1000万),这就给汉字编码排序打开了新天地。字中的几个子块称为相继的,若按笔顺其中每一个的末画与下一个的首画构成该字的上下两画,例如“解”中的“用、刀、牛”是相继的;字中无公共笔画的子块间的相交、相接关系按笔画间的同名关系理解。3.构块、块音、块码用来组成全部汉字的下列282子块称为构块,简称块:构块表表中形体较大的称为根,较小的称为枝。根的单音节拼音可谓公众常识,例如“幺/乚/衤/”的拼音是iau/ze/i/uo;枝的拼音规定是其根的拼音故易记(枝的形状或读音近乎其根),例如“/氵/”的拼音即其根“习/亡/水/于”的拼音xi/uang/suei/y;块的拼音称为块音,仅几枝的读法不近习常但有所依傍,例如“扌”(“把”的块)的块音是ba而非ti或sou,旨在均衡各部以缩短很多高频字的码长。块/非笔形根若是字则称块字/根字。多画块的下列3种变形之一若不变各画间关系且未成别块则视同原块:1)块中某一画的伸缩或位移,如视同“土/亠”;2)块中某一“乚”换为之一,或“丿”换为“丨”,或“一”换为“乛”,如“艹/”视同“巳/廾/土”;3)块中某一画或其末段换为它的对偶(称“一”与“丨”与“亅”、“丶”与对偶),如“冫/”视同“亠/氵//寸/”。此外个别多画块的其它稍许变形亦视同原块,如视同“丰/电”;又视同“凹/巴/了/予/或/虎”。块码是块音首字母,但依次有下列5种变通之一:1)若块(“耳、十”及其枝除外)音与“○、一、二、…、九”之一的块音相同(不区别起头的sh和s、n和l及结尾的ng和n),则块码是对应阿拉伯数字(如“巴”的块码是8);2)若块音末字母为a,则块码是a(如“下”的块码是a);3)若块音末字母为o,则块码是o(如“火”的块码是o);4)若块音末三字母为uei,则块码是v(如“未”的块码是v);5)“木”的块码是w。如此36块码起效、自然、且兼容许多方言块音(例如“丰”的块码f兼容四川方言块音fong),大众极易读块定码;设置5种变通以激增码位,目的仍在化解重码、缩短大量高频字的码长。块码按国际通行顺序列在构块表左端。4.块顺依次遵守下列3条简明规则逐一拆下某字的相继构块直至拆尽该字的全部笔画,所得惟一一串块称为该字的块顺:1)块少拆得的块尽量少(但多画字拆成至少2块且其构块“口、冂、厂,”依次力避拆散;字的等型子块依次单独分拆除非属其另一构块且“*”的余部自成一块除非拆得的块更少;“斗、头”拆成3块);【例:业,拆成(一)、()对,其它拆法错;口,拆成(冂一)对,(丨)错;東,拆成(一日)对,(一冂未)错】2)根大拆得的诸根字总画数尽量大(但相继两块依次力避相交、相接);【例:业,拆成(一)对,()错;,拆成(一灬)对,(一灬)错】3)先小先拆得的块画数尽量小。【例:王,拆成(一土)对,(干一)错;三,拆成(一二)对,(二一)错】规则的但书令拆字总之更一目了然。字一经拆对再难拆错;罕用字的分拆与常用字的大体同样容易。块顺定义是在数百遍逐字敲拆74345国际标准字形的过程中,与构块表逐遍互相改进、协同确定的。字的块顺含n个块,该字即称n块字,例如“東”是3块字。5.拼块音、拼块码单字的拼块音按下表简明确定:从其块顺首3及末块串取各块音,多块块字本身算做块顺首块。例如“鑄/易/丨/凡”的拼块音是jinsizecuen/riu/su/fanjidian。多字词的拼块音按下表简明确定:例如“太岁头上动土/饕餮大餐/一切/A4版”的拼块音是dasandiansangtu/kougenidabu/iqidau/asipiancangiou。高频词的拼块音按下表简明确定:例如“社区卫生服务中心/合理性/防潮”的拼块音是seqyueixin/helixin/fangcausueiye;2字词假如末字属“人子心头生事车手”,则上表中的“取末”改成“取首”,例如“好事”的拼块音是hausinyzi。一般人早就能说会写上万高频词,于是高频词的拼块音无非其拼音的简单伸缩。汉语全部字词在万难通晓的单音节字音以外,从此赋有大众能按字词形直接读定的多音节码音即拼块音,随之汉字处理领域的种种难题将迎刃而解。拼块音一经念对再难念错,且如块顺除非举例无需写出。由字词的拼块音将其中各块音换为同块码,即成它的拼块码(故单字和高频词/多字词的拼块码长≤4/5,定此数有算术与经验理据)。例如,由“个/一部分”的拼块音gerensu/ilierbadau(作为词)或gerensu/ibufen(作为高频词)将其中各块音换为同块码,即成它的拼块码grs/1le8d或grs/1bf。拼块码全免记忆,任何字词按方言普通话默念拼块音同时检索/输入拼块码大都立刻显现;念高频词拼块音最利中文想输,因为高频词拼块码对拼音维持两点优势:兼容许多方言拼块音(例如“具体”的拼块码jtd1兼容昆明方言拼块音jitidani),大致一码一词。设依次按降频、CJK字符集、扩展A集、B集、…、各字块数、各块画数、各画笔形、各字结构排列的若干字的拼块码都是s1s2s3s4,规定第t字的扩码是s1s2s3s4后缀t-1个0;又设若干字的拼块码都是s1s2s3同时n个字的拼块码都是s1s2s30,规定前者第1字的扩码是s1s2s3,第t字的扩码是s1s2s3后缀n+t-1个0(t≥2);再设若干字的拼块码都是s1s2同时m个字的拼块码都是s1s20且n个字的拼块码都是s1s200,规定前者第1字的扩码是s1s2,第t字的扩码是s1s2后缀m+n+t-1个0(t≥2);如此继续直至不同字形赋有不同扩码(74345字形有至少50000不同拼块码,所以“后缀0”可行;扩码长≤18)。进而同样处理,不同字词形/高频词形也有不同扩码。字词的拼块音后缀同样多个lin即成它的扩音。由此,每一扩码、扩音及稍后定义的简码、简音必对应惟一字词形/高频词形故极利输入,这些对应交付机器去识记,输入时也只需确定字词的拼块码或拼块音;在全部汉字汉词中,扩码/扩音不同于拼块码/拼块音的占少数且大都罕用,而罕用字词的码长、音长不影响绝大多数用户的中文输入效率。汉语字词的拼块音可比方汉语拼音或德语词形(读写同构),拼块码可视为拼块音缩写且类似常用汉词简拼,扩码与简码/扩音与简音不过是拼块码/拼块音的简单伸缩。可以说全部汉字汉词的简易无重码和较高频汉词的免记简码已由极简算法生成或极简规则读定。以下例解供初习字词的拼块码参照,用户适量练习后自能见/想字词瞬即出码:【例:“午”,默念upiegan同时检索/输入5pg;“亅”,默念gou同时检索/输入g;“貔”,默念pieqyanpiebi同时检索/输入pqpb】【例:“增收”,默念tubarizeuen同时检索/输入t8rzu;“第二次世界大战”,默念zuerernianbu同时检索/输入z22nb】【例:“增收”,默念zensouzeuen同时输入zszu;“第二次世界大战”,默念diercizan同时输入d2cz】下面给出按拼块码字典序排列的1)CJK字符集及其扩展A、B、C集74345字形表f部计686字形;2)2010年度媒体25546高频词语表u部计346词形【拼块码相同的按扩码字典序排列;字词附注自然数对t/n,指其扩码是拼块码后缀t个0且扩音是拼块音后缀t个lin/有n级简码即拼块码首n块码和简音即拼块音首n块音。例如“春1/2”指“春”的扩码是far0且扩音是fongnarilin/有2级简码fa和简音fongna,“外经贸1/0”指“外经贸”的扩码是ujm0且扩音是uaijinmaulin/无简码简音,“万事0/3”指“万事”的扩码即拼块码且扩音即拼块音/有3级简码u41和简音uansii,“堃0/0”指“堃”的扩码即拼块码且扩音即拼块音/无简码简音(t/0、0/n省写做t、/n若tn≥1,0/0全省略)】,供参验:1网/2u0131万物1/3u56561玩法/3uav42万一u1132外务/3u5ul62问答/3uazk3玩意儿1u1233挽留/2u6bt63完败/3ub0u4外衣/3u12134外流/3u6vc64皖ub55文艺/3u17135莞/2u7565晚报/3ub8i6万亿/3u1d136晚期/3u77y66完毕/3ubbs7文艺复兴/3u1fx37外企/3u7rz67腕表ubf18文艺工作者/3u1gz38挽u8268外表1/3ubf19文艺界u1j39网吧/2u8k869温饱ubl410万u1l40翁u8x70外包1/3ubl411玩意u1lx41丸u9d71外部/2uble12王/2u1t42挽救/2u9qu72外边ublz13歪u1z43纹u9u73外币/3ubpj14文/2u2144玩耍/3ua2n74完备/3ubut15弯u2g45温差/3ua8g75文本/3ubw116玩儿/3u2pz46外挂ua8t76文笔ubzm17望而却步/3u2qb47uaam77稳步/3ubzp18亡u2z48文雅/3uaav78外出/3uc3019完善/2u38k49文化/2uad779外层/3uc4420万事/3u41l50文化馆1uag80晚餐/3ucbg21碗/2u4e51玩家/3uagq81完成/2uccd22王室u4gt52文案uagw82蚊虫1/3uccd23温室1/3u4gt53文化节uaj83王储ucdb24文史/3u4k154文化界1uaj84外传ucdd25问世/3u4nz55文化教育uajy85外侧/3ucdg26往事/3u4su56文化课uak86温床ucdw27外事/3u4xb57外加/3ualk87王朝/3ucsy28万无一失/3u51458文化人uar88蚊ucu29文武/3u52d59网卡uasb89往常/3ucxj30文物/2u56560外卡1/3uasb90豌豆/3ud1d91忘掉/3ud8s121王冠/3uggc151往届/3uj4i92晚点udbo122文稿/3ughk152外交/3uj6193网点1/3udbo123外观/3ugi2153婉拒uj8094温度/3uddi124外管局ugj154问卷/3uj8e95网店uddk125/3ugns155完结/3uj9k96问道uddz126网格/3ugwk156顽疾/3ujba97弯道1uddz127王后uhck157文件/2ujd698王道2uddz128往后1/3uhck158稳健ujda99稳定/2udgr129问候/3uhda159忘记/3ujdj100温度计udj130温和/3uhhk160文静/3ujfg101问鼎/3udmz131外号uhkk161外交官ujg102外地人udr132问号1/3uhkk162旺季/3ujhz103外电udrz133完婚uhnr163外经贸1ujm104外地/3udti134问好uhnz164晚间/3ujmr105文档/3udw3135完好1/3uhnz165问及/3ujna106稳定性udx136吻合/3uhrk166外景/3ujrx107外方/3uf2l137外行/3uhsd167文教ujsu108万分/3uf8d138外环/3uhug168外教1/3ujsu109往返/2ufcz139稳/2uhx169外界/3ujt2110王府/3ufdc140玩忽职守/3uhzs170问津/3ujv8111文风/3ufj1141外用/3ui08171文集ujvw112晚饭/3ufli142网页/3ui1r172文具ujy8113王妃/3ufnj143网瘾/3uibx173玩具1/3ujy8114UFOufo144蜿蜒/3uica174外籍/3ujzr115网购/3ug04145晚宴/3uign175外壳/3uk4j116稳固ug0k146外延uipa176吻uk5117顽固1ug0k147网银/3uipg177外科/2ukhs118完/2ug5148汪洋/2uivs178文科1/3ukhs119外公/3ug84149网游/3uivz179外来/2ul1w120完工/3uga1150弯腰/3uiyn180往来1/3ul1w181玩乐/3ulbx211王国uo0d241晚清/3uqvy182文联/3ulea212万国1uo0d242温情/3uqxy183弯路ulkk213外国2/3uo0d243网签/3uqz1184问路1/3ulkk214网罗/3uo4x244往日/3ur01185外立面ulm215网络/2uo9k245晚1/2ur2186紊乱/3ulqz216网络化1uoa246文人/3ur21187文理ulut217稳妥/3uoan247宛如/3urnk188纹理1/3ulut218网络版uob248旺uru189完了/3ulzg219玩偶/3uodn249温润/3urvu190外力ulzp220网络游戏/3uoix250外人/3urxb191外面/3um12221忘我/3uood251温柔/3uryw192网民/3um47222外国人uor252网商us6k193完美/3um8a223网络文学/3uoux253外商1/3us6k194文明办1umb224文博会uov254外甥us6l195外贸/3umbr225外婆uovn255USBusb196闻ume226外国语uoy256旺盛/3uscm197文秘/3umhb227顽皮/3upci257外伤/3usdl198问/2umk228文凭/3updj258网上银行/3usih199外貌/3ump2229旺铺/2uppd259外孙女usn200玩命umre230王牌/3upps260网上/2uss2201文明/3umry231U盘/3upzm261晚上1/3uss2202外卖/3umta232网球场uqc262往usu203网名umxk233顽强/3uqgc263外省/3usxz204闻名1/3umxk234歪曲uqis264文书/3uszd205万能/3un4b235弯曲1/3uqis265外孙uszx206晚年unps236万千/3uqps266外套/3utac207往年1/3unps237完全/2uqru267文体/2utd1208温暖/2unri238忘却uqte268网帖/3utjk209玩弄/3unu7239外墙/3uqtk269问题/1utrr210万能险unx240网球/3uqud270文坛utt4271网坛1/3utt4301往昔/3ux7r331蚊子/3uzcu272外逃/3utxz302外线/3ux9d332外债uzdr273温网/3uu01303文学家uxa333稳住/3uzdu274万万/3uu1l304外/2uxb334问责/3uzfr275外文/3uu21305问询uxdr335文字/3uzgz276玩/2uu5306闻讯uxds336网站/2uzlk277稳稳/3uuhx307文学/3uxdz337文章/3uzls278嗡嗡/3uukx308外向uxpk338外长/3uzpa279问问/3uumk309旺销uxpy339稳重uzpt280妄uun310外销1/3uxpy340万众/3uzrr281温婉uune311外星人uxr341外在uzst282往往/3uusu312文献/3uxsq342完整/3uzsz283望uuu313万幸/3uxtg343王者uztb284玩玩uuu5314外泄/3uxvz344网址/3uztz285忘uux315外相/3uxwm345完整性uzx286挽回uv0k316外向型1uxx346问责制uzz287外围/3uv0l317惋惜/3uxxr288万岁/3uv3x318玩笑/3uxza289网队/3uver319外运/3uy2z290湾uvg320外援/2uy8i291温水uvga321外语/3uydk292完税/3uvh2322腕uye293玩味/3uvkv323望远镜uyj294温uvm324文员/3uykr295晚会/2uvr4325文娱/3uyna296汪uvu326外遇/3uyrz297外汇/3uvv0327王子/3uz1t298外需ux12328问政uz1u299外形/3ux1p329外资/3uz2r300温馨/3ux4r330婉转/3uz7d6-1.电脑/手机汉字汉词键盘输入中英文两用键盘由通用键盘经如下增补获得:按图1将26个汉语拼音字母块码abc…yz依次标注在26个英语字母键QWE…NM的右下角,10个阿拉伯数字块码123…90已在键盘原位;手机指安装了数字键、字母键及视屏的任何手持电子设备,手机键盘按图2将10个阿拉伯数字块码012…89和26个汉语拼音字母块码abc…yz标注到18个键上;默认状态均为高频汉词键入。在中英文两用键盘上单击某字词/高频词的扩码对应各键位及空格键,电脑视屏仅显示该字词/高频词(“显示某”指“在编辑位置显示某并进入下一输入”,下同),例如,单击“蜼/容易”的扩码cv0/r1r5对应的键c键v键0空格键/键r键1键r键5空格键,视屏仅显示“蜼/容易”;在手机键盘上单击或双击某字词/高频词的扩码对应各键位及*键(规定仅当输入块码i~z时双击对应键位),手机视屏仅显示该字词/高频词,例如,单击键c双击键v单击键0单击键*/双击键r单击键1双击键r单击键5单击键*,视屏仅显示“蜼/容易”;任何字词的拼块码后缀多少0成其扩码让机器去记识,用户只消键完拼块码必要时接续键0直到该字词在视屏出现(下简称“屏现”),例如,键完“蜼”的拼块码cv再键1个0,“蜼”才屏现。至于简码键入方式,用户完全免记哪些字词有哪级简码,他只消键击所欲字词的拼块码至该字词屏现,例如,键击“容易”的拼块码r1r5至r1,“容易”已屏现。本键盘输入法的选字选词键次绝对为0,兼容许多方言音故适量练习后纠错键次几乎为0,总体输入效率极高。6-2.PDA(个人数字助理)汉字汉词手写输入在PDA中预置码感应模块、码识别模块、码-字词转换模块、字词显示模块,默认状态为高频汉词写入。在码感应区书写某字词/高频词的扩码并给结束信号(可以是延时停顿、单击感应区、或其它预定操作),码识别器接受该码,码-字词转换器检出赋有该码的惟一字词/高频词,视屏仅显示该字词/高频词,例如,在码感应区书写“蜼/容易”的扩码cv0/r1r5并给结束信号,码识别器接受该码,码-字词转换器检出赋有该码的惟一字词/高频词即“蜼/容易”,视屏仅显示“蜼/容易”;任何字词的拼块码后缀多少0成其扩码让机器去记识,用户只消写完拼块码必要时接续写0直到该字词屏现,例如,写完“蜼”的拼块码cv再写1个0,“蜼”才屏现。至于简码写入方式,用户完全免记哪些字词有哪级简码,他只消书写所欲字词的拼块码至该字词屏现,例如,书写“容易”的拼块码r1r5至r1,“容易”已屏现。本手写输入法的码-字词转换准确率极高,因为块码只有012…9abc…z这36个,数字0与字母o之别,写成前者竖扁后者横扁即可;在感应区手写字词码时,只要保持各块码顺序,容许大小不一甚至位置重叠,用户无需将注意力集中在感应区,PDA的尺寸可以很小。总体效率,写字词码较写字词快易无算。6-3.车载导航设备汉字汉词语音输入在车载导航设备中预置音感应模块、音-码转换模块、码识别模块、码-字词转换模块、字词显示模块,默认状态为高频汉词读入。在音感应区朗读某字词/高频词的扩音并给结束信号(可以是延时停顿或其它预定操作),音-码转换器将该扩音转换成对应扩码,码识别器接受该码,码-字词转换器检出赋有该码的惟一字词/高频词,视屏仅显示该字词/高频词,例如,在音感应区朗读“蜼/容易”的扩音congzueilin/rongiriu并给结束信号,音-码转换器将该扩音转换成对应扩码cv0/r1r5,码识别器接受该码,码-字词转换器检出赋有该码的惟一字词/高频词即“蜼/容易”,视屏仅显示“蜼/容易”;任何字词的拼块音后缀多少lin成其扩音让机器去记识,用户只消读完拼块音必要时接续读lin直到该字词屏现,例如,读完“蜼”的拼块音congzuei再读1个lin,“蜼”才屏现。至于简音读入方式,用户完全免记哪些字词有哪级简音,他只消朗读所欲字词的拼块音至该字词屏现,例如,朗读“容易”的拼块音rongiriu至rongi,“容易”已屏现。本语音输入法的音-字词转换准确率和总体输入效率都很高,因为机器在最易出问题的音-码转换环节只需识别拼块音中的涉码音素;对于读音可能混同的几组构块如“木、目”,“耳、儿”,“十、石”,则约定惟“木”的读法是mu一声,“耳”及其枝的读法是er一声,“十”及其枝的读法是si二声(现代汉语普通话无此3音)。对于高频词,一般人稍经练习便能盲念拼块音同时完成想输(不拘键入、写入、读入),兼得写记巩固之利。上面严格而完备地描述了本发明的一个具体实施例,即将本发明实施于全部汉字汉词的电脑/手机键盘输入、PDA手写输入、车载导航设备语音输入。应当明白,这只是帮助理解本发明的一个例子,并不构成对本发明保护范围的限制,本发明当然能按同样方式在任何信息处理设备上键入、写入、读入汉语任何字串集,只要该设备配置了步骤6-1、6-2、6-3中描述的那些键盘和内置模块;在把中文大规模书名录、人名录、企业名录、动植物名录、习语名句录等特殊文本当成汉词集来处理时,多字词拼块音规则中的阿拉伯数字宜做适应性更改。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1