数字化输入和查询中文信息的方法

文档序号:6446549阅读:497来源:国知局
专利名称:数字化输入和查询中文信息的方法
技术领域
本发明是一种数字化输入和查询中文信息(包括字、词、句、短信息)的方法。它是本人上一个专利申请《简单快捷的中英文整句数字输入法》的深化和延伸深化------引入虚拟偏旁加快单体字的输入。延伸-------直接对中文短语句子进行整体编码并扩展到中文信息的查询,它仍用12345对单一汉字进行数字编码输入,以及用67890对中文信息<短语句子、短信息>进行整体编码的输入和查询。
迄今为止,不但各种中文输入法都是围绕着如何输入单个汉字展开的,而且各种中文信息也是按照人为编制的、与中文信息本身并没有直接关联的无理数据<编号>来查询的。这样,如果手头没有资料或不记得编号就难以查询。由于当今社会手机已成为亿万群众最广泛、最普遍使用的信息通讯工具,上述两条自然给人们用手机进行文字信息通讯和查询带来很大的不便------因为手机是用一只手握住、又用该手的一个大姆指来操作按键的,为了发一条短信不但要一个字一个字地输、而且每个字还要一笔一画地输<T9技术>,太慢了!大姆指也太辛苦了!倘若还想用短信进行手机聊天那就更受罪!另一方面,手机是移动通讯的工具,人们希望能随时随地的查询信息,但按以往的方式,就要带一大堆资料或者记一大堆编号备查,太不方便!为了克服现有的中文输入法不能整句快速输入句子<短语>的不足,以及中文信息无理据编码查询方式带来的不便,本发明提供一种方法,它用几个数字就能输入整个句子<及短语或短信息>,又用几个<有理据>数字就能查询某一类、某一条中文信息------却无须死记硬背查询编号或依赖查询资料。
本发明解决其技术问题所采用的技术方案是一、单个汉字的输入-------用12345代表汉字及其偏旁部首的五个基本笔画<横、竖、撇、点、折>,在输入笔画的同时出现一行该笔画起笔的<或第一二笔笔画开头的>侯选字及偏旁部首<显示在另一行>,偏旁部首的编码由上述笔画代码加侯选序号组成。为了加快不带偏旁部首的单体字的输入,本发明引入虚拟偏旁的概念,它是以笔顺相同、由单体字开头三个笔画代码组成的一组分类编码,以此为特征可对单体字归类处理,实现成批出字、快速输入。
二、短语句子、短信息的输入与查询-------用67890代表组成它们的汉字开头的笔画<也是横、竖、撇、点、折>,对大批短语句子、短信息直接进行编码输入,总体要求是五个字以上的句子为复盖表达句子主要意思(主题词)的大部分字,至少要对五个字取码即编六码以上,而两个字的短语为容纳较多数量短语又不重码也要编六码;同时为方便区别规定在句中我、你、他、不、分别用86、87、870、68代表。(去、到、来等字按理也要取两码,但为减轻用户记忆的负担,也可通过软件来处理)下面分三种方式进行说明(一)由于总体要求编六码以上,所以字数少的短语每个字取码就要多一点、字数多的每个字取码就少一点。(注这里的取码是指取汉字开头的笔画代码)具体地说,两个字的短语每个字取三码,三四个字的短语每个字取两码,五个字及五字以上的短语句子除了第一个字取两码外、其余字取一码。同时,对字数多的句子,其编码码长以能复盖主题词有关汉字、又不发生重码为限。这样一来,大批短语句子只要编六、七码(许多十来个字的句子也只要编八、九码),即只用六七个、七八个数字就能整句整句地进行输入!平均每个字才输一码!(字数少的三四字短语每个字也只是输两码)(二)这种方式是以短语句子总体取码多少为特征其规则是第一、二个字取开头两码、其余字取开头一码。原则上三个字的短语句子编六码、四个字的编七码、五个字及五个字以上编七码或七码以上(以复盖主题词、不重码为限)。这样,三四个字的短语就要对最后一个字加取后续笔画以编够码数。对用户来说无须计算多少个字的短语句子输多少码,只要按规则依次对有关字取码即可。如果取到最后一个字待输入的短语句子还未出现,就对最后一个字加取后续笔画。这种方式对经常要交叉输入三四五个字短语的场合比较好。(三)三个字以上的短语句子每个字都取两码。这种方式最简单,但码长可能较长。当某些句子含有离散度很大的人名、物名、地名、时间等等或含有比较用语时,可按单个字输入的方式(方案一)再结合上述短语数字编码输入方式来解决。有了上述几种方式,各种句子都能实现快速输入。对描述信息类别的用语------例如新闻类、财经类、歌曲类、图片类等------则按该类别中文名称的字的多少、按相应的规则来编码。上例为两字词组(短语),则应每字编三码,但为了简便起见(因为类别数目有限,重码机会较小)通常可只对第一个字编三码,以快速进入某一类别浏览(除非为了避免重码才对第二个字加取一码;若类别名称多于两个字,则按三字以上短语编码规则编)。至于具体到每条信息的查询编码实际上和这条信息的输入编码相同,因此,根据待查信息的中文文字<按上述规则>就能推测出查询编码------无须记背。
采用上述方案的有益效果是,短语、句子、短信息的输入大大加快,信息查询也大大方便------无须记背、更不需要等到找来资料、查清编号才能查!下面结合附图和实施例对本发明的方案作进一步说明

图1是用12345输入笔画时在屏幕上出现的输入框<左下方>和两行候选框,其中一行为候选字框,另一行为候选偏旁部首(或部件)框<两行的排列不作限定>。
图2是用数字输入笔画时随之出现的候选偏旁部首<或部件>一览表其中2。1表的候选序号是由符号<如*、+、...>和数字复合而成。
2.2表的候选序号是由英文字母<如m、n、r...>和数字复合而成。(当候选单位只有九个时,也可以由0和1至9个数字复合而成。)一、方案一的依据是1所有汉字包括其偏旁部首都是由横、竖、撇、点、折五个基本笔画组成的。2、所有汉字及其偏旁部首都可以按起笔笔画<即第一笔笔画>分为五大类。
3、相同偏旁部首的字可以按其余部<除去偏旁部首后的剩余部分>第一、二笔归类<分类>。
4、不含偏旁部首的单体字可按其开头三个笔顺相同的笔画代码为特征来归类。
根据第2点,在输入汉字开头的笔画时可以同时出现该笔画起笔的单体字<显示在上一行>和偏旁部首<显示在下一行>,如附图1所示。由于偏旁部首较多,其中一部分在输第二笔时再出<个别的在输到第三笔才出,如附图2表中列出的那样>。由图1可见,各个偏旁部首的左边有候选序号X。由于在显示屏上显示的这个序号X,在内部码表上<附图2>可能有两种方式组成,所以应用本发明需注意<1>当这个候选序号按图2。1表的方式组成时,偏旁部首通过敲*字键和数字序号键来选择;<2>当这个候选序号按图2。2表的方式组成时,偏旁部首通过双击该数字序号键来选择。根据第3点,在选择某个字的偏旁部首后,只要再输入余部<除去偏旁部首后的剩余部分>第一笔或第一、二笔,待输入的字就会在候选字框出现。
此时要注意,候选字的选择相应也有两种可能<1>如果偏旁部首是敲*字键及其候选序号<数字>键来选择的,那么候选字就通过双击其候选序号<数字>键来选字上屏;<2>如果偏旁部首是通过双击其候选序号<数字>键来选择的,那么候选字就通过敲*字键及其候选序号<数字>键来选字上屏。下面对第4点作进一步的说明。首先需要再次明确的是,单个字的输入是以数字1代表横画、2代表竖、3代表撇、4代表点、5代表折,所以如果一个字开头两笔都是横画那么编码就是11、都是竖画则是22,如果第三笔都是撇那么编码就是113、223......以此类推。接下来我们以开头两笔都是竖画的单体字为例说明,如何通过虚拟偏旁把以往看上去杂乱无章、分散的字归类<223>类监临览鉴<224>类业凿邺黹黻黼<225>类旧坚紧贤肾竖这样一来,与虚拟偏旁<开头三码>无关的字不再出现,而开头三码相同的-------同一虚拟偏旁的字则一次出齐----输入自然加快!而屏幕上显示的更清晰、更简洁!二、下面对方案二作进一步说明(仅就第一种方式举例,第二种方式类似,从略)1.周末你有什么安排80687688-------第三个字是“你”要固定用87编码。
2.周末打算干什么80668688-------1、2两句对六个字取码后,不发生重码,可不必再往下编。
3.我想请你吃饭-------86698778<这里泛指吃饭,吃其他的短语另编>
4.我已经到了-------8600605.他也来了-------87007690<他字用870编,四字短语每字取两码>
6.我不能单独处理这事-------866809886<“不”字要取两码>
7.你能否来帮一下忙-------8706696<“来、去、到”字要取两码>
可见,用本上述规则,对三四个字、五个字及五字以上的短语句子、短信息编码时,大多数一一对应、不重码,因而也可以作为相应信息的查询依据并大大方便了编辑短信。至于对前面说到的信息类别(如新闻类、财经类、股市类、娱乐类、......等)编码时,由于上述类别名称为两字词组,为简便起见只对第一个字编开头三码,这样上述类别的编码依次为969、708、806、086。即按规则就能推测出查询编码,多方便!最后,在某些行业应用及特殊场合包括如公安、军用等,为了保密可在数字键盘中任选五个按键代表汉字输入的五个笔画、再在剩余按键中任选五个代表短语句子编码的五个笔画,按上述规则同样可进行单个汉字和中文信息的编码输入或查询。
这样就解决了本发明所涉及的两大问题,达到了予期的目的。
权利要求
1.一种数字化输入与查询中文信息(字、词、句及短信息)的方法,其特征是用12345代表组成汉字及其偏旁部首的五个基本笔画对汉字进行数字编码输入(包括用虚拟偏旁加快单体字的输入),用67890代表短信息(含短语句子)中有关汉字开头的笔画,进行短信息整体数字编码并将其作为该信息输入、查询的依据。
2.根据权利要求1所述的用12345代表五个基本笔画输入汉字时,其特征是随着笔画输入将出现一行该笔画(或第一二笔笔画)开头的偏旁部首(或部件)和一行单体字,在选择了待输入的偏旁部首后只要再输入余部第一笔或第一、二笔笔画(少数要输第三笔),待输入的字(指带偏旁部首的字)就会出现。
3.根据权利要求1所述的用12345代表五个基本笔画输入汉字时,其特征是偏旁部首的编码由其开头的笔画代码加序号组成,该序号可以是(1)、符号(如*、+等等)与数字复合而成,也可以是(2)、英文字母与数字复合而成(若候选单位仅九个,可由0和1至9复合而成。)
4.根据权利要求3所述的偏旁部首的序号,其特征是如果按3、(1)的方式组成时,那么偏旁部首就通过敲*字键和数字键来选择,此时相应的汉字通过双击其数字序号键选择上屏,如果按3、(2)的方式组成时,那么偏旁部首通过双击其数字序号键来选择、而相应的汉字就通过敲*字键和它的数字序号键来选择上屏。
5.根据权利要求1所述的虚拟偏旁,其特征是由单体字开头三个笔顺相同的笔画代码组成,以此为特征可对单体字归类处理,实现成批出字、加快输入。
6.根据权利要求1所述的用67890对短语句子进行整体编码时,其特征是要求至少编六码(字数多的句子编码码长以复盖主题词、无重码为限)。
7.根据权利要求1所述的用67890对短语句子进行整体编码时,其特征是对表达句子主要意思的有关汉字(称为主题词)按从左往右的顺序依次取各个字开头的笔画代码,取码的方式可以是(1)、两个字的短语每字取三码、三四个字的短语每字取两码、五字及五字以上的短语句子除第一个字取两码其余字取一码。(2)、第一二个字取两码、其余字取一码(为此,三四个字短语要对末尾字加取后续笔画代码),(3)、各个字均取两码。
8.根据权利要求6所述的规则对短语句子进行数字编码时,其特征是在某些场合(如行业应用或为了保密)可在数字键盘中任选五个按键代表汉字输入的五个笔画、再在剩余按键中任选五个代表短语句子编码的五个笔画(不再都是67890),来进行数字编码。
9.根据权利要求6所述的规则对短语句子进行数字编码时,其特征是当某些句子含有人名、地名、物名、时间等等离散度较大的字、词或含有比较用语,可按单个字输入的方案结合上述短语直接编码输入的方法来解决。
10.根据权利要求6所述的用67890直接对短语句子、短信息进行数字输入编码时,其特征是该编码同时可作为相应信息的查询编码,当直接对信息类别的进行编码时,可视类别名称中字的多少,按两字或两字以上词组编码规则编(然后再选用简码,例如两字词组只编第一个字开头三码------除非为了避开重码才对第二个字加取一码)。
全文摘要
一种数字化输入和查询中文信息(字、词、句及短信息)的方法。它用12345代表组成汉字及其偏旁部首的五个基本笔画并引入虚拟偏旁来加快输入汉字;用67890代表组成句子有关汉字开头的笔画对短语句子、短信息进行整体编码输入,方法是对两个字的短语每字取开头三码、三四个字的短语每字取开头两码、五个字及以上的短语句子除第一个字取开头两码其余字取一码。(总码长以覆盖主题词为限)第二种方式是三、四、五个字及以上的短语句子均对第一、二个字取两码其余字取一码。(三四个字的短语要对最末一字加取后续笔画)。上述信息输入编码同时可作为该信息的查询编码;对于信息类别可根据其名称中字数多少,按相应词组编码规则编码,再选用简码。
文档编号G06F3/023GK1521609SQ03113689
公开日2004年8月18日 申请日期2003年1月28日 优先权日2003年1月28日
发明者陆庆方 申请人:陆庆方
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1