利用汉字全信息通过全文检索获取生僻字的检字录入方法

文档序号:6518262阅读:325来源:国知局
专利名称:利用汉字全信息通过全文检索获取生僻字的检字录入方法
技术领域
本发明属于计算机汉字录入方法技术领域,具体涉及一种利用汉字全信息通过全文检索方式获取生僻汉字的通用检字录入方法。
背景技术
中国作为世界四大文明古国之一,有着五千年悠久的文明发展史和一脉相承的文化底蕴,而汉字,则是传承整个中华文明的基本元素。汉字经过数千年的发明和衍变,目前流传下来的总数量大约7万左右,其中常用汉字大约有三、四千。经过多年的研究和实践已经比较好的解决了对常用汉字的计算机录入问题。但是对大量的生僻汉字的录入一直没有较好的解决方案。这些数量庞大的生僻汉字即便对于受过高等教育的人群而言,也很少有人认识和使用,其使用人群相当狭窄,再加上目前计算机尚无法处理这类汉字,生僻汉字基本处于“死字”的状态。事实上,现在的国际字符编码标准Unicode已经将约五万个生僻汉字的编码放到了四个字节的长字节编码区,以解决二字节编码码位不足的难题,而微软公司多年前也已在通用软件MS Word中预先安装了总数接近七万汉字的超大字符集,但是这些一直没有引起国人的注意。一个被忽略的事实是这些生僻汉字却大量存在于中国的古代典籍中,与常用汉字一起构成“汉字”这一中华文明的载体,其本身也是国家宝贵的文化遗产的组成部分。在一般的古籍中约有千分之一的汉字属于四个字节的生僻汉字,而在诸如《说文解字》、《康熙字典》等字书类古籍中,四个字节编码的汉字出现的频率可以高达百分之三到五左右。很显然,舍弃这些生僻字而建构的中文知识库绝对是不完整的。
目前,主要的汉字输入方法无非有根据读音输入和根据字形输入两种方法,然而对生僻汉字而言,这两种输入方法都有一定不足。首先对于读音输入方法,基本上所有的生僻汉字绝大多数人都完全不认识,在加上有很多字在历史的演化的进程中已经失去了其读音,或读音不确定,仅仅根据读音输入生僻汉字是不行的。其次,利用字形对生僻汉字进行录入虽然不存在像读音输入法那样的问题,然而目前所存在的字形输入方法,如《五笔字型》输入法等,往往需要使用者预先进行长时间的学习和训练,这个限制条件使得字形输入法目前在非打字员人群中不具有优势影响力。普通用户,如需要大量使用生僻汉字的研究人员,是无法很快掌握这种方法的。
面对3000到1万多的常见汉字,中国人使用了23年的输入法已经没有大的突破的空间了。但是,要处理7万汉字,以至于今后要处理的更多的汉字或字符,普通的输入法显露出种种缺陷和不足。面对这样一个超级混沌的客观存在,迫切的需要一套概念全新的输入方法。

发明内容
本发明针对目前在生僻汉字录入方法上存在的不足和缺陷,针对人们普遍对生僻汉字了解信息不全的事实,针对生僻汉字录入的难点和生僻汉字多系由简单汉字组合而成的特性,提出一种利用汉字全信息,即利用每个汉字所对应的字形、字音(如果有)、字义(如果有)、笔画数、公用编码(如生僻汉字一定存在的对应的五笔编码)等客观特征,实现生僻汉字录入的方法。由于在历史演化的过程中,这些特征已形成了固定的标准,通过汇总这些客观特征,再利用全文检索的方式寻找所有和用户输入特征相匹配的汉字,进而完成生僻汉字的录入。这一方法可以满足生僻汉字使用者特定群体研究、录入生僻汉字的需求。
根据本发明的利用汉字全信息通过全文检索方式获取生僻汉字的通用检字录入方法,具体步骤包括(1)对生僻汉字进行整理,获取该录入法需要处理的生僻汉字字符集;(2)对该生僻汉字集根据每个汉字的客观特征进行全信息整理,并建立数据库;(3)用户输入时,用拼音或数字的方式对要录入的生僻汉字进行描述,利用全文检索的方法对生僻汉字字符集里的每个汉字的全信息进行全文检索;(4)利用汉字笔画的数字信息对检字结果排序输出。
以上步骤即实现了生僻汉字的通用检字录入,用户只要从检字排序输出的结果中,选出要录入的汉字即可。
本发明的特点针对生僻汉字的使用人群的特征提供的带有检索性质的生僻汉字录入方法;利用生僻汉字中存在的全部信息,包括字形、字义、字音和笔画数等信息,进行全文检索,通过对生僻汉字的全文检索完成生僻汉字的录入。
可以兼容简洁输入方法,诸如拼音输入法或《五笔字型》输入法。


下面结合附图对本发明进一步详细地说明图1是为本发明的生僻汉字的通用检字录入方法的流程框图。
具体实施例方式
下面参照本发明的附图,更详细地描述本发明的最佳实施例。
如图1所示为本发明的生僻汉字的通用检字录入方法的流程框图,根据本发明的生僻汉字的通用检字录入方法具体包括以下步骤(1)对生僻汉字进行整理,获取该录入法需要处理的生僻汉字字符集;对生僻汉字字符集可以采用Unicode进行管理;这里所指的生僻字主要是国标GB2312-80《信息交换用汉字编码字符集》基本集之外的汉字。
(2)对该生僻汉字集根据每个汉字的客观特征进行全信息整理,并建立数据库;这些信息可以采用拼音或数字的方式表示,也可以采用其他形式的编码表示;这里所指的汉字全信息包括字义、字形、笔画、字音、公用编码等信息。
全信息的整理包括字义、字形、笔画、字音以及公用编码信息的搜集。
对字义信息的收集,我们利用了《说文解字》、《康熙字典》等古代字书中的相关信息对该生僻汉字集逐字整理字义的信息;对字音信息的收集,不仅包括生僻汉字的拼音读音信息(如果有),也包括其上古音、中古音等古代发音信息(如果有);对字形信息的搜集,可以整理每个生僻汉字的总笔画数信息和部外笔画数信息(如果有),同时根据每个生僻汉字的字形对生僻汉字进行拆分及文字描述。由于生僻汉字多由常见简单汉字通过组合的方式构成,或者由常见简单汉字增减笔画得到,因此可以通过这些常见简单汉字来描述生僻汉字。少数生僻汉字是少笔画非组合汉字,对于这些字可以利用基本汉字笔画,例如点、横、撇、捺、折等,配合汉字笔画数,解决生僻汉字中的少笔画非组合形声字的录入问题。
一些常用的公用编码,如生僻汉字所对应的五笔编码,也纳入全信息中,熟悉五笔字型输入法的用户也可以通过输入所要录入的生僻汉字的五笔编码来实现汉字的录入。
所有这些信息将采用拼音或数字的方式表示,并输入全信息数据库。
(3)用户输入时,用拼音或数字的方式对要录入的生僻汉字进行描述,利用全文检索的方法对生僻汉字字符集里的每个汉字的全信息进行全文检索。
(4)利用汉字笔画的数字信息对检字结果排序输出。
以上步骤即实现了生僻汉字的通用检字录入,用户只要从检字排序输出的结果中,选出要录入的汉字即可。
本发明的利用汉字全信息的生僻汉字录入法,主要解决对国标GB2312-80《信息交换用汉字编码字符集》基本集之外的汉字的计算机录入问题。对于每个汉字,在其演化的过程中,已具有固定的字形,字义,绝大部分汉字也具有固定的一个或多个读音,这些固定特征的和就构成了汉字全信息。对于生僻汉字而言,用户对这些客观信息了解是不全的,全信息录入方法的优点就在于,用户可以最大限度的利用他所知道的关于要输入汉字的一种或多种信息来实现汉字的输入。用户只需要输入其所知道的关于录入汉字的任何信息,都可以完成该汉字的录入。输入的信息越多,待选汉字会越少。
下面结合一些具体生僻字的检字录入,来进一步说明本发明方法的具体实现例如设定汉字全信息表的结构为{字头字音;字义;字形;笔画数;五笔编码}。
则以下几个生僻汉字的全信息分别为{ wéi;古文为;丿横竖臼;12;wnnv}{ wéi;古文为;爪三;8;endf,end}{ ?;?;求心;11;fiyn} (读音不明,字义不明。)在利用检索引擎具体处理时需要预先对全信息进行简化,包括对内容的简化,和对基础笔画,点(、=d)、横(一=h)、竖(丨=s)、撇(丿=p)、捺(=n)、折(=z,向下折)以及乙(y,向上折)的简化,然后采用拼音或数字的方式进行表示并输入数据库。上述全信息在处理后变为{ wei;wei;pie p zhe z zhe z heng h shu sjiu;12;wnnv}{ wei;wei;zhua zhe z san;8;endf,end}{ ?;?;qiu xin;11;fiyn}(读音不明,字义不明。)
用户在录入汉字的时候可以根据自己对要录入汉字信息了解的多少,随意输入所知关于该汉字的一种或多种信息,程序将根据用户输入的汉字信息,利用全文检索的方法对生僻汉字字符集中的每个汉字的全信息进行全文检索,寻找所有与用户输入的汉字信息相匹配的生僻汉字,并根据汉字笔画的信息对检字结果排序输出。用户在检字结果中寻找自己所需要的生僻汉字,从而完成生僻汉字的录入。由于采用的是全文搜索的方法,用户输入的汉字信息不需要遵循一定的先后顺序,对于字形信息的输入也可以只包含汉字部分的形状信息或者与输入汉字相像的形状信息,因此具有很大的灵活性。
例如在上述例子中,用户想要输入 可以通过输入其字音“wei”或者字义“wei”或者笔画数“8”或者全部或部分字形描述如“san”、“zhua san”、“zhua zhe san”或者五笔编码“endf”、“end”或者将上述信息随意组合如字音+字形“wei zhua zhesan”、笔画数+五笔编码+字义“8 endfwei”来完成该汉字的输入。组合的信息之间用空格格开。当然,用户输入的信息越多,最后的待选汉字就会越少,本发明的优点与技术效果生僻汉字的使用人群大多为研究人员,不具备使用诸如《五笔字型》等字形录入法的能力。采用汉字全信息的汉字录入方式,将可以利用尽可能多的信息采用检索的方式完成生僻汉字的录入。该方法的优点在于不需要学习,也没有字根,用户输入的汉字特征不需要遵循一定的先后顺序,因此具有很大的灵活性。
尽管为说明目的公开了本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例和附图所公开的内容。
权利要求
1.一种利用汉字全信息通过全文检索获取生僻字的检字录入方法,具体包括以下步骤1)对生僻汉字进行整理,获取该录入法需要处理的生僻汉字字符集;2)对该生僻汉字集根据每个汉字的客观特征进行全信息整理,并建立数据库;3)用户输入时,用拼音或数字的方式对要录入的生僻汉字进行描述,利用全文检索的方法对生僻汉字字符集里的每个汉字的全信息进行全文检索;4)利用汉字笔画的数字信息对检字结果排序输出。
2.如权利要求1所述的利用汉字全信息通过全文检索获取生僻字的检字录入方法,其特征在于对生僻汉字字符集用Unicode进行管理。
3.如权利要求1所述的利用汉字全信息通过全文检索获取生僻字的检字录入方法,其特征在于所述的生僻字主要是指国标GB2312-80《信息交换用汉字编码字符集》基本集之外的汉字。
4.如权利要求1所述的利用汉字全信息通过全文检索获取生僻字的检字录入方法,其特征在于所述的汉字全信息包括字义、字形、笔画、字音、公用编码信息。
5.如权利要求1所述的利用汉字全信息通过全文检索获取生僻字的检字录入方法,其特征在于进一步,用户只要从检字排序输出的结果中,选出要录入的汉字即可。
全文摘要
本发明针对目前在生僻汉字录入方法上存在的不足和缺陷,针对人们普遍对生僻汉字了解信息不全的事实,针对生僻汉字录入的难点和生僻汉字多系由简单汉字组合而成的特性,提出一种利用汉字全信息,即利用每个汉字所对应的字形、字音(如果有)、字义(如果有)、笔画数、公用编码(如生僻汉字一定存在的对应的五笔编码)等客观特征,实现生僻汉字录入的方法。由于在历史演化的过程中,这些特征已形成了固定的标准,通过汇总这些客观特征,再利用全文检索的方式寻找所有和用户输入特征相匹配的汉字,进而完成生僻汉字的录入。这一方法可以满足生僻汉字使用者特定群体研究、录入生僻汉字的需求。
文档编号G06F17/30GK1719390SQ200510012219
公开日2006年1月11日 申请日期2005年7月18日 优先权日2005年7月18日
发明者钱则侃, 王宏源, 赵锋 申请人:王宏源
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1