字形字频分段输入法的制作方法

文档序号:6330441阅读:217来源:国知局
专利名称:字形字频分段输入法的制作方法
技术领域
本发明涉及处理中文编码计算机输入法,尤其涉及一种字形字频分段输入法。
背景技术
当今汉字编码计算机键盘输入法,有音码、形码、音形码、形音码等等。但对于汉字输入法来讲,其实它有字音、字形和字频三大元素。字音、字形是汉字固有的自然属性的东西,而字频所反映的却是汉字的一种社会属性。把人们在社交活动中使用频度很高的汉字立即先行显屏,乃是提高汉字输入效率的极为有效的手段。

发明内容
本发明的目的是提供一种字形字频分段输入法。
它包括如下步骤1)根据汉字的规范笔顺笔画,确定如下10个笔形作为汉字的基本取号编码码元,这10个笔形是 2)将上述所列的10个笔形定义在具有小键盘功能的计算机上,与阿拉伯数字键位排列对应关系是(1)常用101键计算机块形键位排列对应关系
(2)一般手机的数字键位排列对应关系 3)汉字编码均按照规范笔顺从每个汉字的首笔开始编,根据下述编码规则将每个汉字编出三个码来首、二码依笔顺排,第三码从末笔取,不足三码0补齐,剩下的字复按见。
4)汉字输入分一键、二键、三键输入,它是利用《现代汉语字频统计表》的字频数据,把频度最高的、高的、次高的每组10个汉字依次按一键、二键、三键显屏输入;5)词组输入(1)两字词,每字取首二码,合在一起输入;(2)三字词,前两字各取首码,第三字取首二码;(3)多字词,前三字和末字各取首码;6)采用“7、8、9、0”四个复合代号来进行编码输入,产生的十八个无字首二码,作为辅助的功能键;7)名句、格言、谚语、俗句、歇后语采用“前四字和末字各取首码”的五码输入。
所述的首、二码依笔顺排所有字都依笔顺从首笔起排,编出首、二码,编码中能取出复合代码的要先取出来。第三码从末笔取一般字都从末笔取出第三码,当末笔与它相邻的前面笔画,在编首二码时未用过的,能组合成复合代码的,要取成复合代码。不足三码0补齐遇到字的笔画取不足三码的,就用0补齐三码,这些字的第三码为0。剩下的字复按见按了三键还剩下来的生僻字,复按相见。
十八个无字首二码为11、22、33、44、55、66、12、21、34、43、10、20、17、27、38、48、60、61。
本发明是依据规范的字形、笔顺、笔画与权威的字频统计(《现代汉语字频统计表》1987年1月国家语委、国家标准局编)进行研究发明的。
按理说,字音和字形都是汉字固有的自然属性的东西,而字频所反映的却是汉字的一种社会属性,是人们在社交活动中对它的一种使用频度。频度高的和比较高的字,其实都是常用字。而汉字常用字的高度集中性和它所具有的强大生命力,正是汉字优于其它文字的突出特点和优点。所以,利用汉字的这一特点和优点,把频度高的常用字,依照频度由高到低,采用击一键、二键、三键的分段输入办法,来有效地提高汉字输入的效率。
本发明非常适用于小键盘来完成所有的输入。它主要是利用0到9十个数码键来进行编码的输入。它简明易学,符合规范,击键少,输入快。因此具有较高的实施价值和社会、经济效益。
具体实施例方式
本发明是按照字形(笔顺笔画)编码、根据字频排序、采用分段输入的一种字形字频分段输入法,简称“形频码”。
它有两个重要依据①《现代汉语通用字笔顺规范》(国家语委和新闻出版署1997年4月7日联合发布,以下简称《笔顺规范》)。②《现代汉语字频统计表》(国家语委和国家标准局1987年1月共同编制。以下简称《字频统计表》)。本发明就是将前者的规范字形、笔顺、笔画和后者的权威字频统计有机结合起来的产物。
《笔顺规范》将汉字的三十几种笔画规范为横1、竖2、撇3、点4、折5五种基本笔形。本发明则又将折笔分为横起折笔5和非横起折笔6。此外,又将汉字笔顺中常见的“先横后竖”、“先撇后捺”的情况归结为“横竖组合构成7”、“撇捺组合构成8”,把“两个笔画连同”的情况规定为9,把众多“口”字型的情况规定为0,合起来说,前六种基本笔形就是本输入法的笔画代号,后四种组合笔形就是本输入法的复合代号。
这样,就用0-9十个数码,把汉字中可能出现的笔画和笔画组合的情况都全部、合理地配上了数码代号,从而可以使它们在汉语标数法的十进逻辑范围内,方便地进行编码的活动了。
《笔顺规范》所规范的是汉字的字形、笔顺、笔画等汉字固有的自然属性,而《字频统计表》所反映的是人们在社会交往中关于汉字的使用频度问题,体现的是汉字的一种社会属性。正是因为本发明在汉字固有的自然属性基础上,全面、系统地开发、利用了汉字的这种社会属性,便使本发明得以大幅度地提高汉字的输入效率,从而极大地提高了它的使用价值。
字形字频分段输入法包括如下步骤1)根据汉字的规范笔顺笔画,确定如下10个笔形作为汉字的基本取号编码码元,这10个笔形是 2)将上述所列的10个笔形定义在具有小键盘功能的计算机上,与阿拉伯数字键位排列对应关系是(1)常用101键计算机块形键位排列对应关系 (2)一般手机的数字键位排列对应关系 3)汉字编码均按照规范笔顺从每个汉字的首笔开始编,根据下述编码规则将每个汉字编出三个码来首、二码依笔顺排,第三码从末笔取,不足三码0补齐,剩下的字复按见。
(1)首、二码依笔顺排所有字都依笔顺从首笔起排,编出首、二码,编码中能取出复合代码的要先取出来。例如“他、的、书”三字的首、二码分别是32、30和92。
(2)第三码从末笔取一般字都从末笔取出第三码,当末笔与它相邻的前面笔画,在编首二码时未用过的,能组合成复合代码的,要取成复合代码。例如“那、店、后”三字的第三码分别是2、0和1。
(3)不足三码0补齐遇到字的笔画取不足三码的,就用0补齐三码,这些字的第三码为0。例如“一、九、乡”三字的编码分别是100、350和930。
(4)剩下的字复按见按了三键还剩下来的生僻字,复按相见。例如“曌”字,按了“017”三键之后,复按一下,就可相见。
4)关于分段输入的说明,也就是关于击一键、二键、三键的说明(1)如上所述,虽然每个汉字都被取成了三个码,但是真的在输入时,我们可以利用《现代汉语字频统计表》的字频数据,把频度高的汉字先行显屏。例如按一个数码“3”键,可以让首码为“3”的频度“最高的”10个字——的、和、我、他、用、们、生、作、年、种,立即显示在荧屏上,而后按空格键或选择键把所需要的某个字“跳”上去。
(2)如果你要的不是这10个字,而你所需要的字的首、二码是“35”的话,这时你只需加按一个数码“5”键,荧屏上就会出现按了“3”键以后剩下的首、二码为“35”的频度“高的”10个字——多、然、外、各、条、解、月、象、及、角,听凭选择。
(3)如果你所需要的又不是这些字,而你所要的字的三个码是“351”的话,这时你只需加按一个数码“1”键,荧屏上又立刻会出现前面这20个字之外的,频度“次高的”10个字——脸、馆、匀、腰、丹、腾、乌、鸟、册、胺,供你选择。
(4)只有在少数情况下,在按了三个键后,还需进行复按,才能让余下的字全部显屏。
5)词组输入
(1)两字词每字取首二码,合在一起输入。例如科学 3798;诚实 4595;一生 1039;(2)三字词。前两字各取首码,第三字取首二码。例如自动化 3932;照相机 0778;新华社 4345;(3)多字词。前三字和末字各取首码。例如实事求是 9710;中国共产党0072;中央人民广播电台 0086;6)由于本输入法使用了“7、8、9、0”四个复合代号来进行编码输入,不仅使重码大大减少,而且还因此出现了如下十八个特殊的首、二码,可以作为辅助的功能键来加以使用。
关于这十八个特殊的首二码为什么会成为“无字的空码”的原因说明如下①“11”“22”“33”“44”“55”“66”这6个首二码都被组合成9了;②“12”“21”都被组合成7了;③“34”“43”都被组合成8了;④“10”的1’251则被组编为751了;⑤“20”的2’251则被组编为951了;⑥“17”的1’12和1’21则分别被组编为92和71了;⑦“27”的2’12和2’21则分别被组编为72和91了;⑧“38”的3’34和3’43则分别被组编为94和83了;⑨“48”的4’34和4’43则分别被组编为84和93了;⑩“60”、“61”是两个特殊的首二码,在本码所收的7754个汉字中,还真的编不出这样两个首二码来。
另外,还要作一点说明,就是在输入所有的单字和所有的二字词组的时候,这18个首二码确实都是“无字的空码”。但是在输入三字词和多字词、句的时候,由于规定“前两字各取首码”的关系,就会遇到这18个首、二码参与某些三字词和多字词、句编码的情况,例如“来不及 1135”、“按劳付酬 1737”、“笔记本电脑 3473”等情况。但那都是在击了四键之后出现的情况,是可以作一定的区分的。
7)关于名句、格言、谚语、俗句、歇后语的输入(1)上述各类语句的输入,可以采用“前四字和末字各取首码”的办法来进行输入。
例如[名句]欲穷千里目,更上一层楼 89307; 不以规矩,不能成方圆 16932;[谚语]拔出萝卜带出泥 16729;[俗句]把吃奶的劲都使出来了 10635;[歇后语]八十岁学吹打,老来忙 87299。
(2)采用五码来输入这些语句是可取的。因为采用五码,从00000-99999具有理论容量为10万个编码空间,即使用来应对像《现代汉语句典》(白维国主编)收录的全部14225个条目,也应该是很分散的,绰绰有余的。
下面,就先把击了0-9十个数码键后,出现的这100个高频字亮个相,并计算一下它们的合计频度。
0——是中国时同电里量因由——,合计频度为4.1310%;1——一在不有大来到成过面——,合计频度为6.5617%;2——当四内党常少图山见回——,合计频度为1.2582%;3——的和我他用们生作年种——,合计频度为8.1193%;4——这就主说产方之部度高——,合计频度为3.1746%;5——了对也子民力加那又建——,合计频度为2.9643%;6——以出发能如水小好她收——,合计频度为2.5434%;7——上要地可工下十起都两——,合计频度为3.2844%;8——人为个分会着从合前义——,合计频度为3.4800%;9——于动后定行学法所得经——,合计频度为2.8244%。
以上100个高频字的共计频度为38.3414%。也就是说,在一般情况下,打一篇1000字的文章,其中大约会有380个字就是这100个高频字。而它们这些高频字是只需分别击0-9十个键就可以显屏的。其速度之快,效率之高,令人瞩目。
现在以《八荣八耻》为例,将形频码、五笔字型和智能ABC三种输入法,用单字输入和词组输入的两种办法比较如下单字输入①击键总数,依次为231次,239次,320次;②一个汉字的平均击键次数,依次为2.06次,2.13次,2.86次;③单键显屏率,即击一个键就显屏的字数占总字数的百分比,依次为41.07%,35.71%,0.00%(它们的显屏字数为46∶40∶0)。
词组输入①击键总数,依次为173次,181次,243次;②一个汉字的平均击键次数,依次为1.54次,1.62次,2.17次;③单键显屏率,依次为28.57%,28.57%,0.00%(它们的显屏字数为32∶32∶0)。
所以,总的来看,在上述特定范围内,形频码略优于五笔字型,智能ABC则稍逊一筹。
因此,从合乎规范、简明易学和输入快速这三个方面来比较,本输入法是具有一定的优势的。
关于三种输入法具体的输入情况,请参看下面的《八荣八耻输入情况表》。
《八荣八耻》输入情况表单字输入 形频码(231次)五笔字型(239次) 智能ABC(320次)以热爱祖国为荣1,2,2,3,1,1,3 1,4,2,3,1,1,3 2,2,2,2,3,3,4以危害祖国为耻1,3,3,3,1,1,3 1,3,2,3,1,1,2 2,3,3,2,3,3,3以服务人民为荣1,3,3,1,1,1,3 1,2,2,1,1,1,3 2,2,2,3,3,3,4以背离人民为耻1,3,3,1,1,1,3 1,3,2,1,1,1,2 2,3,2,3,3,3,3以崇尚科学为荣1,2,2,3,1,1,3 1,3,4,2,2,1,3 2,5,5,2,3,3,4以愚昧无知为耻1,3,3,2,2,1,3 1,4,3,2,2,1,2 2,2,3,2,3,3,3以辛勤劳动为荣1,4,3,2,1,1,3 1,4,4,3,3,1,3 2,3,3,3,4,3,4以好逸恶劳为耻1,1,4,3,2,1,3 1,2,4,4,3,1,2 2,3,2,2,3,3,3以团结互助为荣1,2,2,3,3,1,3 1,3,2,2,3,1,3 2,4,3,2,3,3,4以损人利己为耻1,3,1,2,2,1,3 1,1,1,3,4,1,2 2,3,3,2,2,3,3以诚实守信为荣1,3,2,3,2,1,3 1,3,2,2,2,1,3 2,5,3,4,3,3,4以见利忘义为耻1,1,2,3,1,1,3 1,3,3,4,4,1,2 2,4,2,4,2,3,3,以遵纪守法为荣1,3,3,3,1,1,3 1,4,2,2,2,1,3 2,3,2,4,2,3,4以违法乱纪为耻1,3,1,3,3,1,3 1,4,2,3,2,1,2 2,3,2,4,2,3,3以艰苦奋斗为荣1,2,3,3,2,1,3 1,2,3,3,3,1,3 2,4,2,3,3,3,4以骄奢淫逸为耻1,3,3,4,4,1,3 1,4,3,3,4,1,2 2,4,3,3,2,3,3词组输入 形频码(173次)五笔字型(181次) 智能ABC(243次)以热爱祖国为荣1,4,1,3 1,3,4,1,32,3,3,3,4以危害祖国为耻1,4,4,1,31,3,4,1,22,4,3,3,3以服务人民为荣1,4,4,1,31,3,4,1,32,3,4,3,4以背离人民为耻1,4,4,1,31,3,4,1,22,4,4,3,3以崇尚科学为荣1,4,1,3 1,3,4,4,1,3 2,5,3,3,4以愚昧无知为耻1,4,4,1,31,3,4,1,22,3,3,3,3以辛勤劳动为荣1,4,4,1,31,4,3,1,32,4,4,3,4以好逸恶劳为耻1,4,1,3 1,3,1,2 2,4,3,3以团结互助为荣1,4,4,1,31,4,3,1,32,5,3,3,4以损人利己为耻1,4,1,3 1,4,1,2 2,4,3,3以诚实守信为荣1,4,3,2,1,3 1,4,2,2,1,3 2,6,4,3,3,4以见利忘义为耻1,4,1,3 1,3,3,4,2,1,2 2,4,2,4,2,3,3以遵纪守法为荣1,4,1,3 1,4,2,2,2,1,3 2,4,3,4以违法乱纪为耻1,4,1,3 1,4,1,2 2,4,3,3以艰苦奋斗为荣1,4,1,3 1,4,1,3 2,4,3,4以骄奢淫逸为耻1,4,1,3 1,4,1,2 2,4,3,权利要求
1.一种字形字频分段输入法,其特征在于,它包括如下步骤1)根据汉字的规范笔顺笔画,确定如下10个笔形作为汉字的基本取号编码码元,这10个笔形是 2)将上述所列的10个笔形定义在具有小键盘功能的计算机上,与阿拉伯数字键位排列对应关系是(1)常用101键计算机块形键位排列对应关系 (2)一般手机的数字键位排列对应关系 3)汉字编码均按照规范笔顺从每个汉字的首笔开始编,根据下述编码规则将每个汉字编出三个码来首、二码依笔顺排,第三码从末笔取,不足三码0补齐,剩下的字复按见。4)汉字输入分一键、二键、三键输入,它是利用《现代汉语字频统计表》的字频数据,把频度最高的、高的、次高的每组10个汉字依次按一键、二键、三键显屏输入;5)词组输入(1)两字词,每字取首二码,合在一起输入;(2)三字词,前两字各取首码,第三字取首二码;(3)多字词,前三字和末字各取首码;6)采用“7、8、9、0”四个复合代号来进行编码输入,产生的十八个无字首二码,作为辅助的功能键;7)名句、格言、谚语、俗句、歇后语采用“前四字和末字各取首码”的五码输入。
2.根据权利要求1所述的一种字形字频分段输入法,其特征在于,所述的首、二码依笔顺排所有字都依笔顺从首笔起排,编出首、二码,编码中能取出复合代码的要先取出来。
3.根据权利要求1所述的一种字形字频分段输入法,其特征在于,所述的第三码从末笔取一般字都从末笔取出第三码,当末笔与它相邻的前面笔画,在编首二码时未用过的,能组合成复合代码的,要取成复合代码。
4.根据权利要求1所述的一种字形字频分段输入法,其特征在于,所述的不足三码0补齐遇到字的笔画取不足三码的,就用0补齐三码,这些字的第三码为0。
5.根据权利要求1所述的一种字形字频分段输入法,其特征在于,所述的剩下的字复按见按了三键还剩下来的生僻字,复按相见。
6.根据权利要求1所述的一种字形字频分段输入法,其特征在于,所述的十八个无字首二码为11、22、33、44、55、66、12、21、34、43、10、20、17、27、38、48、60、61。
全文摘要
本发明公开了一种字形字频分段输入法。它是利用十个数码键,根据汉字的规范字形、笔顺、笔画和权威的、其频度已量化到百万分之一的字频统计,进行研究发明的。它的这种特点与汉字的下述优越性是密不可分的①汉字的十进逻辑;②汉字的固定笔顺;③汉字常用字的高度集中性和强大生命力。(频度高的汉字其实就是常用字)根据上述特点和优点,本输入法把汉字按照频度,由高到低,采用击一键、二键、三键的办法,分段进行输入,极大地提高了汉字的输入效率。本发明非常适用于小键盘来完成所有的输入。它简明易学,符合规范,击键少,输入快,因此具有较高的实施价值和社会、经济效益。
文档编号G06F3/023GK1959609SQ20061015442
公开日2007年5月9日 申请日期2006年10月31日 优先权日2006年10月31日
发明者谢梯云 申请人:谢梯云
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1