一种基于汉字输入法下的造词方法和汉字输入设备的制作方法

文档序号:6581235阅读:214来源:国知局
专利名称:一种基于汉字输入法下的造词方法和汉字输入设备的制作方法
技术领域
本发明涉及信息处理技术,尤其涉及一种基于汉字输入法下的造词方法和汉字输
入设备。
背景技术
用户将汉字输入到电脑,需要借助于汉字输入软件,汉字输入软件为运行于操作 系统上的一个工具软件,把键盘输入的编码或其他非键盘输入的媒体数据转换成汉字输入 的软件。键盘汉字输入软件就是利用键盘,根据一定的编码规则来输入汉字的一种方法。
现有的汉字编码方案已经有数百种,其中在电脑上已经运行的就有几十种,作为 一种图形文字,汉字是由字的音、形、义来共同表达的,汉字输入的编码方法,基本上都是采 用将音、形、义与特定的键相联系,再根据不同汉字进行组合来完成汉字的输入的。
人们在使用现有汉字输入法的过程中,经常需要输入一些人名、复合词之类的词 语。而多数汉字输入法自带的核心词库不能很好地覆盖这类词语,使得人们在需要输入这 类词语时,只能拆分开按单纯词进行输入,影响了输入体验。 比如现有的极点五笔、万能五笔、智能陈桥、搜狗五笔等五笔输入法已经实现了智 能造词的功能,即在用户输入过程中,将用户连续输入的字组合成词。虽然目前几种主流 五笔输入法中都已经实现了智能造词的功能,但它们的规则还比较简单该汉字输入法下 的造词规则仅限于单字,只能将连续输入的单字组合成词,不能将词语与词语组合成新词, 即只能实现A+B = AB,不能实现AB+CD = ABCD ;对连续输入没有限制,例如连续输入"工"、 "要"、"在"、"地"、"一",就能组出"工要在地一",这样非常容易产生垃圾词;输入法中的造 词规则过于繁琐,难以实现,例如将两个字组合成词,需要将这两个字连续输入,并且重复 两遍。而如果只是一次输入,并不能将它们组合成词。如乐+扣+乐+扣,才能造出"乐 扣"这个新词。

发明内容
鉴于上述现有技术所存在的问题,本发明实施例提供了一种基于汉字输入法下的 造词方法及汉字输入设备,通过对用户输入的字词进行相应的词法分析,方便用户组合出 新的输入词语。 为了解决上述技术问题,本发明实施例提供了一种基于汉字输入法下的造词方 法,包括 提取用户按键过程中输入的选词队列,所述选词队列至少包括两个基本输入选 词,所述基本输入选词为汉字输入法系统词库中的已记录的词或者字; 判断所述选词队列是否符合预先设置的造词约束规则,所述造词约束规则为选 词队列的字数不超过第一预设值,且选词队列中的基本输入选词的字数不超过第二预设值 以及选词队列中的词数不超过第三预设值; 对满足造词约束规则的选词队列按照汉字输入法规则为新词匹配所对应的按键输入信息。 所述造词约束规则为 对输入选词为单字和单字组合的选词队列情况下,选词队列中包含的字数不超过 三个字,且不允许三字重复为同一字; 对输入选词为单字和词组合的选词队列情况下,单字不属于词中的字; 对输入选词为词和词组合的选词队列情况下,每个词所包含的字不超过三个,且
只允许两个已有词组合造词。 所述方法之前还包括 预先缓存用户每次按键过程中输入的选词队列;或者实时本地存储用户每次按键 输入过程中输入的选词队列。 在提取用户按键输入过程中输入的选词队列步骤中包括
提取用户在按键输入过程中输入的选词队列; 判断所述选词队列是否至少包括两个基本输入选词,如果存在至少两个基本输入 选词时,则提取所述选词队列; 基于汉字输入法已有词库分析所述选词队列中基本输入选词的词型类别,所述词 型类别为单字、或者包含多个字的词。 所述对满足造词约束规则的选词队列按照汉字输入法为新词匹配所对应的按键 输入信息之前还包括 判断所述满足造词约束规则的选词队列是否为汉字输入法系统词库中的已有 词; 在判断出所述满足造词约束规则的选词队列不是汉字输入法系统词库中的已有 词时,对满足造词约束规则的选词队列按照汉字输入法为新词匹配所对应的按键输入信息。
所述方法还包括 对满足造词约束规则的选词队列存储在汉字输入法的词库中。
相应的,本发明实施例还提供了一种汉字输入设备,包括 获取模块,用于提取用户按键过程中输入的选词队列,所述选词队列至少包括两 个基本输入选词,所述基本输入选词为汉字输入法系统词库中的已记录的词或者字;
第一判断模块,用于判断所述选词队列是否符合预先设置的造词约束规则,所述 造词约束规则为选词队列的字数不超过第一预设值,且选词队列中的基本输入选词的字 数不超过第二预设值以及选词队列中的词数不超过第三预设值; 匹配模块,用于对满足造词约束规则的选词队列按照汉字输入法规则为新词匹配
所对应的按键输入信息。
所述造词约束规则为 对输入选词为单字和单字组合的选词队列情况下,选词队列中包含的字数不超过 三个字,且不允许三字重复为同一字; 对输入选词为单字和词组合的选词队列情况下,单字不属于词中的字; 对输入选词为词和词组合的选词队列情况下,每个词所包含的字不超过三个,且
只允许两个已有词组合造词。
所述汉字输入设备还包括 第一存储模块,用于预先缓存用户每次按键过程中输入的选词队列;或者用于实
时本地存储用户每次按键输入过程中输入的选词队列。 所述获取模块包括 提取单元,用于提取用户在按键输入过程中输入的选词队列; 判断单元,用于判断所述选词队列是否至少包括两个基本输入选词,如果存在至 少两个基本输入选词时,则提取所述选词队列; 分析单元,用于基于汉字输入法已有词库分析所述选词队列中基本输入选词的词
型类别,所述词型类别为单字、或者包含多个字的词。 所述汉字输入设备还包括 第二判断模块,用于判断所述满足造词约束规则的选词队列是否为汉字输入法系
统词库中的已有词。
所述汉字输入设备还包括 第二存储模块,用于存储汉字输入法的词库,并存储满足造词约束规则的选词队 列。 实施本发明实施例,可以在用户的输入过程中自动记录核心词库中没有的词,在 预先设置的造词约束规则的帮助下组合出新词,方便了用户再次输入这个词,为输入中国 人名和一些复合词提供了很大便利。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 以根据这些附图获得其他的附图。
图1为本发明实施例中的基于汉字输入法下的造词方法流程图; 图2为本发明实施例中的汉字输入设备结构示意图; 图3为本发明实施例中的汉字输入设备另一结构示意图; 图4为本发明实施例中的图3中获取模块结构示意图; 图5为本发明实施例中的基于五笔输入法下的造词方法流程图。
具体实施例方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。 参阅图1,图1示出了本发明实施例中的基于汉字输入法下的造词方法流程图,具 体包括如下步骤 S101 :提取用户按键过程中输入的选词队列; 这里的选词队列至少包括两个基本输入选词,该基本输入选词是用户直接输入过程中即可打出的单字或者词等,即该基本输入选词为汉字输入法系统词库中已记录的词或 者字,比如汉字输入法系统中词库录入了 "汉字"、"字体"、"迥"等等基本输入选词,在用户 使用汉字输入软件即可直接选择出该类词供用户选择。 需要说明的是,这里主要是从缓存队列中或者本地存储中获取选词队列的,在 S101步骤之间,输入法系统预先缓存用户每次按键过程中输入的选词队列,或者实时本地 存储用户每次按键输入过程中的选词队列,这里也可以从网络输入过程中搜索新词,从而 提取选词队列。 需要说明的是,在具体该步骤可以通过如下方式实现,如在提取用户在按键输入
过程中输入的选词队列后,还需要判断该选词队列中是否包括至少两个基本输入选词,如 果存在至少两个基本输入选词时,才提取该选词队列进行S102,如果该选词队列本身为一
个汉字输入法系统词库中的基本输入选词时,则没必要对该选词队列进行相应的造词处 理,在分析出该选词队列中存在两个基本输入选词后,还可以进一步的基于汉字输入法系 统中的词库对选词队列进行分析处理,这里的词型类别可以是单字,也可以是包含多个字 的词。 S102 :判断选词队列是否符合预先设置的造词约束规则,如果满足,则进行S103, 否则转S104 ; 这里的造词约束规则为选词队列的字数不超过第一预设值,该第一预设值可以限
定该选词队列不超过八个字数或者不超过六个字数等等,且选词队列中的基本输词的字数
不超过第二预设值,该第二预设值可以限定基本输入选词不超过四个字数者不超过五个字
数等等,以及选词队列中的词数不超过第三预设值,该第三预设值可以限定基本输入选词
的个数可以是两个或者是三个,在实施本发明过程中,不满足该造词约束规则的选词队列
不会进行S104的流程,该选词队列不会成为新词被录入到汉字输入法的词库中。 具体的,针对汉字输入法分析出基本输入选词的词型类别后,该造词约束规则可
以是如下 对输入选词为单字和单字组合的选词队列情况下,选词队列中包含的字数不超过 三个字,且不允许三字重复为同一字; 对输入选词为单字和词组合的选词队列情况下,单字不属于词中的字; 对输入选词为词和词组合的选词队列情况下,每个词所包含的字不超过三个,且
只允许两个已有词组合造词。 S103:对满足造词约束规则的选词队列按照汉字输入法规则为新词匹配所对应的 按键输入信息。 需要说明的是,在S103之前,还可以判断满足造词约束规则的选词队列是否为汉
字输入法系统词库中的已有词,当判断出满足造词约束规则的选词队列不是汉字输入法系
统词库中的已有词时,对满足造词约束规则的选词队列按照汉字输入法为新词匹配所对应
的按键输入信息。在S103之后,还可以对满足造词约束规则的选词队列存储在汉字输入法
的词库中。 S104 :结束 相应的,图2示出了本发明实施例中的汉字输入设备结构示意图,该汉字输入设 备包括
获取模块201,用于提取用户按键过程中输入的选词队列,所述选词队列至少包括
两个基本输入选词,该基本输入选词为汉字输入法系统词库中已记录的词或者字;
第一判断模块202,用于判断所述选词队列是否符合预先设置的造词约束规则,所 述造词约束规则为选词队列的字数不超过第一预设值,且选词队列中的基本输入选词的 字数不超过第二预设值以及选词队列中的词数不超过第三预设值; 匹配模块203,用于对满足造词约束规则的选词队列按照汉字输入法规则为新词 匹配所对应的按键输入信息。 图3示出了本发明实施例中的汉字输入设备结构示意图,该汉字输入设备包括
获取模块301,用于提取用户按键过程中输入的选词队列,所述选词队列至少包括 两个基本输入选词; 具体的,这里的获取模块301可以包括如下单元,图4中的结构示意图,包括
提取单元41,用于提取用户在按键输入过程中输入的选词队列;
判断单元42,用于判断所述选词队列是否包括至少两个基本输入选词,如果存在 至少两个基本输入选词时,则提取所述选词队列; 分析单元43 ,用于基于汉字输入法已有词库分析所述选词队列中基本输入选词的 词型类别,所述词型类别为单字、或者包含多个字的词 第一判断模块303,用于判断所述选词队列是否符合预先设置的造词约束规则,所 述造词约束规则为选词队列的字数不超过第一预设值,且选词队列中的基本输入选词的 字数不超过第二预设值以及选词队列中的词数不超过第三预设值;
需要说明的是,这里的所述造词约束规则可以具体为 对输入选词为单字和单字组合的选词队列情况下,选词队列中包含的字数不超过 三个字,且不允许三字重复为同一字; 对输入选词为单字和词组合的选词队列情况下,单字不属于词中的字; 对输入选词为词和词组合的选词队列情况下,每个词所包含的字不超过三个,且
只允许两个已有词组合造词。 匹配模块304,用于对满足造词约束规则的选词队列按照汉字输入法规则为新词 匹配所对应的按键输入信息; 第一存储模块305,用于预先缓存用户每次按键过程中输入的选词队列;或者用 于实时本地存储用户每次按键输入过程中输入的选词队列。 第二判断模块306,用于判断所述满足造词约束规则的选词队列是否为汉字输入 法系统词库中的已有词; 第二存储模块307,用于存储汉字输入法的词库,并存储满足造词约束规则的选词 队列。 需要说明的是,图l至图4中的汉字输入法可以为拼音输入法,五笔输入法等等, 下面结合具体的五笔输入系统来详细描述整个方案实现过程,这里对约束规则作出如下说 明 本发明实施例中对用户输入的字词进行了词法分析,如对单字+单字组合规则,
单字+词组合规则(或者词+单字组合规则),词+词的组合规则,具体如下 连续输入的单字组合成词时,最多允许将三个单字组合成词,这样通过三个单字组合成词避免了大量垃圾词的产生,还需要说明的是,当三个相同的单字进行组合时,这里 是不允许三个单字都是同一个单字,该规则可以满足三字人名的需求,且不会产生太多无 用词,或者用户不需要的词; 连续输入的单字与词进行组合时,单字与词之间不存在包含关系,比如"刘涛"与 "涛"组合时,按照该规则约束,是不能组合成新词"刘涛涛"。 连续输入的词与词进行组合时,词的数量最多为两个,即本发明实施例中只允许 两个已有词进行组合,这里的词与词进行组合时,每个词的长度最大为三个单字,即这里允 许两个单字词与两个单字词组合,两个单字词与三个单字词组合,三个单字词与三个单字 词之间的组合。 在对词法分析作出约束规则之后,相应的,图5示出了本发明实施例中基于五笔 输入法下的造词方法流程图开始; S401 :检测到用户的按键输入信息; S402 :根据按键输入信息在五笔输入法系统中的核心词库中与用户词库中查询选 词列表; 这里的核心词库一般是该五笔输入法系统中自带的字库,用户词库是用户使用输 入法过程中新词存储的字库。
S403 :将所述选词列表返回至用户界面; S404 :接收用户在五笔输入法系统下的选词队列; S405 :缓存当前用户选择的选词队列; 这里缓存当前用户选择的选词队列前,需要对该选词队列进行初步的分析,如果 该选词队列本身为一个基本输入选词时,不需要缓存该选词队列,该选词队列至少存在两 个以上的基本输入选词。
S406 :提取选词队列; S407 :判断选词队列中基本输入选词的类型;
S408 :按照单字约束规则处理;
S409 :按照单字与词约束规则处理;
S410 :按照词与词约束规则处理; 需要说明的是,S408、 S409、 S410中的处理流程按照前述约定的词法分析进行处 理,在S407判断出队列中基本输入选词的类型后,S408按照单字+单字组合规则处理,S409 按照单字+词组合规则(或者词+单字组合规则)处理,S410按照词+词的组合规则处理, 只有满足了 S408、S409、S410中的造词规则时,才进行S411,否则结束本次造词流程处理。
S411 :判断新造词是否为系统已有词;
S412 :将新造词加入五笔输入法系统中的词库; 五笔输入法系统按照五笔输入规则为新造词匹配所对应的按键输入信息,用户即
可在下次输入该按键输入信息时,即可显示出包含有该新造词的选项列表。
结束。 当然这里不限于五笔输入法系统,对于所有汉字输入系统均可适用,比如智能拼 音、或者拼音输入法等等。
综上,可以在用户的输入过程中自动记录核心词库中没有的词,在预先设置的造 词约束规则的帮助下组合出新词,方便了用户再次输入这个词,为输入中国人名和一些复 合词提供了很大便利。 以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权
利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精 神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围 之内,则本发明也意图包含这些改动和变型在内。
权利要求
一种基于汉字输入法下的造词方法,其特征在于,包括提取用户按键过程中输入的选词队列,所述选词队列至少包括两个基本输入选词,所述基本输入选词为汉字输入法系统词库中已记录的词或者字;判断所述选词队列是否符合预先设置的造词约束规则,所述造词约束规则为选词队列的字数不超过第一预设值,且选词队列中的基本输入选词的字数不超过第二预设值以及选词队列中的词数不超过第三预设值;对满足造词约束规则的选词队列按照汉字输入法规则为新词匹配所对应的按键输入信息。
2. 如权利要求1所述的方法,其特征在于,所述造词约束规则为对输入选词为单字和单字组合的选词队列情况下,选词队列中包含的字数不超过三个字,且不允许三字重复为同一字;对输入选词为单字和词组合的选词队列情况下,单字不属于词中的字; 对输入选词为词和词组合的选词队列情况下,每个词所包含的字不超过三个,且只允许两个已有词组合造词。
3. 如权利要求1所述的方法,其特征在于,所述方法之前还包括预先缓存用户每次按键过程中输入的选词队列;或者实时本地存储用户每次按键输入 过程中输入的选词队列。
4. 如权利要求2所述的方法,其特征在于,在提取用户按键输入过程中输入的选词队 列步骤中包括提取用户在按键输入过程中输入的选词队列;判断所述选词队列是否包括至少两个基本输入选词,如果存在至少两个基本输入选词 时,则提取所述选词队列;基于汉字输入法已有词库分析所述选词队列中基本输入选词的词型类别,所述词型类 别为单字、或者包含多个字的词。
5. 如权利要求1所述的方法,其特征在于,所述对满足造词约束规则的选词队列按照 汉字输入法为新词匹配所对应的按键输入信息之前还包括判断所述满足造词约束规则的选词队列是否为汉字输入法系统词库中的已有词; 在判断出所述满足造词约束规则的选词队列不是汉字输入法系统词库中的已有词时, 对满足造词约束规则的选词队列按照汉字输入法为新词匹配所对应的按键输入信息。
6. 如权利要求1至5任一项所述的方法,其特征在于,所述方法还包括 对满足造词约束规则的选词队列存储在汉字输入法的词库中。
7. —种汉字输入设备,其特征在于,包括获取模块,用于提取用户按键过程中输入的选词队列,所述选词队列至少包括两个基 本输入选词,所述基本输入选词为汉字输入法系统词库中的已记录的词或者字;第一判断模块,用于判断所述选词队列是否符合预先设置的造词约束规则,所述造词 约束规则为选词队列的字数不超过第一预设值,且选词队列中的基本输入选词的字数不 超过第二预设值以及选词队列中的词数不超过第三预设值;匹配模块,用于对满足造词约束规则的选词队列按照汉字输入法规则为新词匹配所对 应的按键输入信息。
8. 如权利要求7所述的汉字输入设备,其特征在于,所述造词约束规则为对输入选词为单字和单字组合的选词队列情况下,选词队列中包含的字数不超过三个字,且不允许三字重复为同一字;对输入选词为单字和词组合的选词队列情况下,单字不属于词中的字;对输入选词为词和词组合的选词队列情况下,每个词所包含的字不超过三个,且只允许两个已有词组合造词。
9. 如权利要求7所述的汉字输入设备,其特征在于,所述汉字输入设备还包括第一存储模块,用于预先缓存用户每次按键过程中输入的选词队列;或者用于实时本地存储用户每次按键输入过程中输入的选词队列。
10. 如权利要求8所述的汉字输入设备,其特征在于,所述获取模块包括提取单元,用于提取用户在按键输入过程中输入的选词队列;判断单元,用于判断所述选词队列是否包括至少两个基本输入选词,如果存在至少两个基本输入选词时,则提取所述选词队列;分析单元,用于基于汉字输入法已有词库分析所述选词队列中基本输入选词的词型类别,所述词型类别为单字、或者包含多个字的词。
11. 如权利要求7所述的汉字输入设备,其特征在于,所述汉字输入设备还包括第二判断模块,用于判断所述满足造词约束规则的选词队列是否为汉字输入法系统词库中的已有词。
12. 如权利要求7至11任一项所述的汉字输入设备,其特征在于,所述汉字输入设备还包括第二存储模块,用于存储汉字输入法的词库,并存储满足造词约束规则的选词队列。
全文摘要
本发明公开了一种基于汉字输入法下的造词方法,包括提取用户按键过程中输入的选词队列,所述选词队列至少包括两个基本输入选词,所述基本输入选词为汉字输入法系统词库中已记录的词或者字;判断所述选词队列是否符合预先设置的造词约束规则,所述造词约束规则为选词队列的字数不超过第一预设值,且选词队列中的基本输入选词的字数不超过第二预设值以及选词队列中的词数不超过第三预设值;对满足造词约束规则的选词队列按照汉字输入法规则为新词匹配所对应的按键输入信息。本发明还公开了一种汉字输入设备,通过实施本发明实施例,可以在用户的输入过程中自动记录核心词库中没有的词。
文档编号G06F3/023GK101719018SQ200910188580
公开日2010年6月2日 申请日期2009年12月2日 优先权日2009年12月2日
发明者张靖 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1