一种获取新的字词组的方法和装置的制作方法

文档序号:6584984阅读:118来源:国知局
专利名称:一种获取新的字词组的方法和装置的制作方法
技术领域
本发明涉及输入法技术领域,特别涉及一种获取新的字词组的方法和装置。
背景技术
随着计算机通信技术的快速发展,计算机已逐渐成为人们日常生活和工作中不可 缺少的工具,在使用计算机的过程中,用户通过使用输入法系统,实现将字词输入计算机 中。 输入法系统是运行于计算机操作系统上的一个工具软件,可以将用户通过键盘输
入的编码转换成字或词输入计算机。在现有的输入法系统中,为每一个字或词设定有相应
的编码,并将每一个字或词及其相应的编码存储在输入法系统中的词库中,用户在使用输
入法系统进行输入时,只要输入相应的编码就能获得所需的字或词。 然而,在实现本发明的过程中,发明人发现现有技术至少存在以下缺点 用户在使用输入法系统输入字或词的过程中,经常需要输入一些复合词、人名之
类的词语;而现有输入法系统自带的词库中没有包括这类词语,使得用户在需要输入这类
词语时,只能拆开按字或单纯词一个一个进行输入,影响了输入速度。

发明内容
为了提高用户的输入速度,本发明实施例提供了一种获取新的字词组的方法和装 置。所述技术方案如下 —方面,本发明实施例提供了一种获取新的字词组的方法,包括 获取用户连续N次输入的N个字词单元,所述N为大于等于2的自然数; 计算所述N个字词单元之间的语义相关度,根据计算出的所述N个字词单元之间
的语义相关度和预设的语义相关度阈值,确定所述N个字词单元是否可以组合为新的字词
组; 当确定所述N个字词单元可以组合为新的字词组时,将所述新的字词组加入指定 词库中。 进一步地,所述根据计算出的所述N个字词单元之间的语义相关度和预设的语义
相关度阈值,确定所述N个字词单元是否可以组合为新的字词组,具体包括 判断计算出的所述N个字词单元之间的语义相关度是否大于预设的语义相关度
阈值; 如果大于,则确定所述N个字词单元可以组合为新的字词组;否则,确定所述N个 字词单元不可以组合为新的字词组。
进一步地,所述语义相关度包括上下文关联度、或人名关联度; 相应地,所述预设的语义相关度阈值包括预设的上下文关联度阈值、或预设的人
名关联度阈值; 相应地,所述判断计算出的所述N个字词单元之间的语义相关度是否大于预设的语义相关度阈值具体为 判断计算出的所述N个字词单元之间的上下文关联度是否大于预设的上下文关 联度阈值;或 判断计算出的所述N个字词单元之间的人名关联度是否大于预设的人名关联度 阈值。
进一步地,所述语义相关度包括上下文关联度和人名关联度; 相应地,所述预设的语义相关度阈值包括预设的上下文关联度阈值和预设的人 名关联度阈值; 相应地,所述计算所述N个字词单元之间的语义相关度,根据计算出的所述N个字 词单元之间的语义相关度和预设的语义相关度阈值,确定所述N个字词单元是否可以组合 为新的字词组,具体包括 计算所述N个字词单元之间的上下文关联度; 判断计算出的所述N个字词单元之间的上下文关联度是否大于预设的上下文关 联度阈值; 如果大于,则确定所述N个字词单元可以组合为新的字词组,然后执行将所述新
的字词组加入指定词库的步骤;否则,计算所述N个字词单元之间的人名关联度,然后判断
计算出的所述N个字词单元之间的人名关联度是否大于预设的人名关联度阈值; 如果大于,则确定所述N个字词单元可以组合为新的字词组;否则,确定所述N个
字词单元不可以组合为新的字词组。
进一步地,所述语义相关度包括上下文关联度和人名关联度; 相应地,所述预设的语义相关度阈值包括预设的上下文关联度阈值和预设的人 名关联度阈值; 相应地,所述计算所述N个字词单元之间的语义相关度,根据计算出的所述N个字 词单元之间的语义相关度和预设的语义相关度阈值,确定所述N个字词单元是否可以组合 为新的字词组,具体包括 计算所述N个字词单元之间的人名关联度; 判断计算出的所述N个字词单元之间的人名关联度是否大于预设的人名关联度 阈值; 如果大于,则确定所述N个字词单元可以组合为新的字词组,然后执行将所述新 的字词组加入指定词库的步骤;否则,计算所述N个字词单元之间的上下文关联度,然后判 断计算出的所述N个字词单元之间的上下文关联度,是否大于预设的上下文关联度阈值;
如果大于,则确定所述N个字词单元可以组合为新的字词组;否则,确定所述N个 字词单元不可以组合为新的字词组。 进一步地,所述获取用户连续N次输入的N个字词单元之后,计算所述N个字词单 元之间的语义相关度之前还包括 判断现有词库和所述指定词库中是否存在所述N个字词单元; 如果所述现有词库和所述指定词库中均不存在所述N个字词单元,则执行计算所
述N个字词单元之间的语义相关度的步骤。
另一方面,本发明实施例提供了一种获取新的字词组的装置,包括
获取模块,用于获取用户连续N次输入的N个字词单元,所述N为大于等于2的自 然数; 处理模块,用于在所述获取模块获取到N个字词单元后,计算所述N个字词单元之 间的语义相关度,根据计算出的所述N个字词单元之间的语义相关度和预设的语义相关度 阈值,确定所述N个字词单元是否可以组合为新的字词组; 更新模块,用于当所述处理模块确定所述N个字词单元可以组合为新的字词组 时,将所述新的字词组加入指定词库中。
进一步地,所述处理模块具体包括 第一计算单元,用于在所述获取模块获取到N个字词单元后,计算所述N个字词单 元之间的语义相关度; 第一判断单元,用于在所述第一计算单元计算出所述N个字词单元之间的语义相 关度后,判断计算出的所述N个字词单元之间的语义相关度是否大于预设的语义相关度阈 值; 第一确定单元,用于当所述第一判断单元的判断结果是大于时,确定所述N个字 词单元可以组合为新的字词组;当所述第一判断单元的判断结果是小于等于时,确定所述 N个字词单元不可以组合为新的字词组。 进一步地,当所述语义相关度包括上下文关联度、或人名关联度;相应地,所述预 设的语义相关度阈值包括预设的上下文关联度阈值、或预设的人名关联度阈值时,所述第 一判断单元,具体用于在所述第一计算单元计算出所述N个字词单元之间的上下文关联度 后,判断计算出的所述N个字词单元之间的上下文关联度是否大于预设的语义相关度阈 值;或 所述第一判断单元,具体用于在所述第一计算单元计算出所述N个字词单元之间 的人名关联度后,判断计算出的所述N个字词单元之间的人名关联度是否大于预设的语义 相关度阈值。 进一步地,当所述语义相关度包括上下文关联度和人名关联度,相应地,所述预设 的语义相关度阈值包括预设的上下文关联度阈值和预设的人名关联度阈值时,所述处理模 块具体包括 第二计算单元,用于在所述获取模块获取到N个字词单元后,计算所述N个字词单 元之间的上下文关联度; 第二判断单元,用于在所述第二计算单元计算出所述N个字词单元之间的上下文 关联度后,判断计算出的所述N个字词单元之间的上下文关联度是否大于预设的上下文关 联度阈值; 第二确定单元,用于当所述第二判断单元的判断结果是大于时,确定所述N个字 词单元可以组合为新的字词组,然后通知所述更新模块执行将所述新的字词组加入指定词 库的步骤; 第三计算单元,用于当所述第二判断单元的判断结果是小于等于时,计算所述N 个字词单元之间的人名关联度; 第三判断单元,用于在所述第三计算单元计算出所述N个字词单元之间的人名关 联度后,判断计算出的所述N个字词单元之间的人名关联度是否大于预设的人名关联度阈值; 第三确定单元,用于当所述第三判断单元的判断结果是大于时,确定所述N个字 词单元可以组合为新的字词组;当所述第三判断单元的判断结果是小于等于时,确定所述 N个字词单元不可以组合为新的字词组。 进一步地,当所述语义相关度包括上下文关联度和人名关联度,相应地,预设的语 义相关度阈值包括预设的上下文关联度阈值和预设的人名关联度阈值时,所述处理模块具 体包括 第四计算单元,用于在所述获取模块获取到N个字词单元后,计算所述N个字词单 元之间的人名关联度; 第四判断单元,用于在所述第四计算单元计算出所述N个字词单元之间的人名关 联度后,判断计算出的所述N个字词单元之间的人名关联度是否大于预设的人名关联度阈 值; 第四确定单元,用于当所述第四判断单元的判断结果是大于时,确定所述N个字 词单元可以组合为新的字词组,然后通知所述更新模块执行将所述新的字词组加入指定词 库的步骤; 第五计算单元,用于当所述第四判断单元的判断结果是小于等于时,计算所述N 个字词单元之间的上下文关联度;; 第五判断单元,用于在所述第五计算单元计算出所述N个字词单元之间的上下文 关联度后,判断计算出的所述N个字词单元之间的上下文关联度是否大于预设的上下文关 联度阈值; 第五确定单元,用于当所述第五判断单元的判断结果是大于时,确定所述N个字 词单元可以组合为新的字词组;当所述第五判断单元的判断结果是小于等于时,确定所述 N个字词单元不可以组合为新的字词组。
进一步地,所述装置还包括 判断模块,用于在所述获取模块获取到N个字词单元后,判断现有词库和所述指 定词库中是否存在所述N个字词单元; 通知模块,用于当所述判断模块的判断结果是所述现有词库和所述指定词库中均 不存在所述N个字词单元时,通知所述处理模块执行计算所述N个字词单元之间的语义相 关度的步骤。
本发明实施例提供的技术方案的有益效果是 本发明实施例所述的获取新的字词组的方法,根据实时计算得到的用户连续输入 的N个字词单元之间的语义相关度,组合出新的字词组,并将新的字词组加入指定词库中, 使得用户需要再次输入该N个字词单元时,指定词库可以以字词组的形式提供该N个字词 单元的候选项,减少了用户的击键次数,大大提高了用户输入字词时的输入速度,可以节省 用户的时间,方便用户的输入。并且,语义相关度可以为上下文关联度和人名关联度,为输 入一些复合词和中国人名提供了很大便利。


图1是本发明实施例1提供的一种获取新的字词组的方法流程9
图2是本发明实施例2提供的一种获取新的字词组的方法流程图; 图3是本发明实施例3提供的一种获取新的字词组的方法流程图; 图4是本发明实施例4提供的一种获取新的字词组的装置结构示意图; 图5是本发明实施例4提供的另一种获取新的字词组的装置结构示意图。
具体实施例方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方
式作进一步地详细描述。
实施例1 参见图l,本发明实施例提供了一种获取新的字词组的方法,包括 101 :获取用户连续N次输入的N个字词单元,N为大于等于2的自然数。 102 :计算N个字词单元之间的语义相关度,根据计算出的N个字词单元之间的语
义相关度和预设的语义相关度阈值,确定N个字词单元是否可以组合为新的字词组。 103:当确定N个字词单元可以组合为新的字词组时,将新的字词组加入指定词库中。 进一步地,根据计算出的N个字词单元之间的语义相关度和预设的语义相关度阈 值,确定N个字词单元是否可以组合为新的字词组,具体可以包括 判断计算出的N个字词单元之间的语义相关度是否大于预设的语义相关度阈值;
如果大于,则确定N个字词单元可以组合为新的字词组;否则,确定N个字词单元 不可以组合为新的字词组。
进一步地,语义相关度包括上下文关联度、或人名关联度; 相应地,预设的语义相关度阈值包括预设的上下文关联度阈值、或预设的人名关 联度阈值; 相应地,判断计算出的N个字词单元之间的语义相关度是否大于预设的语义相关 度阈值具体为 判断计算出的N个字词单元之间的上下文关联度是否大于预设的上下文关联度 阈值;或 判断计算出的N个字词单元之间的人名关联度是否大于预设的人名关联度阈值。
进一步地,语义相关度包括上下文关联度和人名关联度; 相应地,预设的语义相关度阈值包括预设的上下文关联度阈值和预设的人名关 联度阈值; 相应地,计算N个字词单元之间的语义相关度,根据计算出的N个字词单元之间的 语义相关度和预设的语义相关度阈值,确定N个字词单元是否可以组合为新的字词组,具 体可以包括 计算N个字词单元之间的上下文关联度; 判断计算出的N个字词单元之间的上下文关联度是否大于预设的上下文关联度 阈值; 如果大于,则确定N个字词单元可以组合为新的字词组,然后执行将新的字词组 加入指定词库的步骤;否则,计算N个字词单元之间的人名关联度,然后判断计算出的N个字词单元之间的人名关联度是否大于预设的人名关联度阈值; 如果大于,则确定N个字词单元可以组合为新的字词组;否则,确定N个字词单元 不可以组合为新的字词组。
进一步地,语义相关度包括上下文关联度和人名关联度; 相应地,预设的语义相关度阈值包括预设的上下文关联度阈值和预设的人名关 联度阈值时; 相应地,计算N个字词单元之间的语义相关度,根据计算出的N个字词单元之间的 语义相关度和预设的语义相关度阈值,确定N个字词单元是否可以组合为新的字词组,具 体可以包括 计算N个字词单元之间的人名关联度; 判断计算出的N个字词单元之间的人名关联度是否大于预设的人名关联度阈值;
如果大于,则确定N个字词单元可以组合为新的字词组,然后执行将新的字词组 加入指定词库的步骤;否则,计算N个字词单元之间的上下文关联度,然后判断计算出的N 个字词单元之间的上下文关联度是否大于预设的上下文关联度阈值; 如果大于,则确定N个字词单元可以组合为新的字词组;否则,确定N个字词单元 不可以组合为新的字词组。 进一步地,获取用户连续N次输入的N个字词单元之后,计算N个字词单元之间的 语义相关度之前还包括 判断现有词库和指定词库中是否存在该N个字词单元; 如果现有词库和指定词库中均不存在该N个字词单元,则执行计算N个字词单元 之间的语义相关度的步骤。 本发明实施例所述的获取新的字词组的方法,根据实时计算得到的用户连续输入 的N个字词单元之间的语义相关度,组合出新的字词组,并将新的字词组加入指定词库中, 使得用户需要再次输入该N个字词单元时,指定词库可以以字词组的形式提供该N个字词 单元的候选项,减少了用户的击键次数,大大提高了用户输入字词时的输入速度,可以节省 用户的时间,方便用户的输入。并且,语义相关度可以为上下文关联度和人名关联度,为输 入一些复合词和中国人名提供了很大便利。
实施例2 参见图2,本发明实施例提供了一种获取新的字词组的方法,包括
201 :获取用户连续N次输入的N个字词单元,其中,N为大于等于2的自然数。
本发明实施例中将用户通过按键输入编码(可以是拼音、五笔字型等可以实现字 词输入的符号),并输入该编码对应的字词(即选词上屏)为一次输入字词单元,而且,一次 输入的字词单元可以是单个字(如中、国等),或可以是单个词(如和平、解放等),或可 以是一个短语(如我爱北京、天安门等)等,也就是说本发明实施例的字词单元表示字、词 或短语等用户一次性输入的内容,相应地N个字词单元表示用户连续N次输入的内容。并 且,可以采用任何可行的方式获取用户连续N次输入的N个字词单元,如可以在用户输入过 程中,实时缓存用户当前一次输入的字词单元,连续缓存N次即得到用户连续N次输入的N 个字词单元。另外,可以根据实际应用状况,选择N的具体取值,如N可以取值为2、3、5等。
例如用户通过拼音输入字词,并且N取值为2。在用户一次输入过程中,用户先输
11入"hua",并选择"hua"对应的"花"作为一次输入,然后用户输入"duo ",并选择"duo "对 应的"朵"作为一次输入,此时获取到用户连续2次输入的2个字词单元为"花朵"。在用户 另一次输入过程中,用户先输入"ziben",并选择"ziben"对应的"资本"作为一次输入,接 着用户输入"zhuyi",并选择"zhuyi"对应的"主义"作为一次输入,此时获取到用户连续2 次输入的2个字词单元为"资本主义",再接着用户输入"shehui",并选择"shehui"对应的 "社会"作为一次输入,此时获取到用户连续2次输入的2个字词单元为"主义社会"。
202 :判断现有词库和指定词库中是否存在获取的该N个字词单元,如果存在,则 执行207 ;否则,执行203。 其中,现有词库可以是核心词库、用户词库等输入法系统自带的各种词库;指定词 库是本发明实施例指定的存储通过本发明实施例获取到的新的字词组的词库,需要说明的 是,也可以将现有词库中的任意一个词库作为指定词库,不对此进行限定。具体地,可以通 过将获取的N个字词单元与现有词库和指定词库中存在的字词进行比对,得出现有词库和 指定词库中是否存在当前获取的N个字词单元。并且需要说明的是,在比对时是将N个字 词单元作为一个整体进行比对,如获取的N个字词单元为"资本主义",则判断"资本主义" 是否存在现有词库和指定词库中。 203 :计算获取的N个字词单元之间的语义相关度。 在用户输入字词的过程中,通过对用户连续输入的N个字词单元的语义(语义表 示字、词的词性、释义以及在不同语境中出现时的属性等)进行分析,可以知道用户输入的 N个字词单元之间的关联性,从而可以将用户连续输入的N个字词单元组合为一个整体,以 便用户再次输入。基于上述原理,本发明实施例使用语义相关度来表示连续输入的N个字 词单元之间的语义相关程度。例如获取到用户连续输入的"学习"+ "知识","学习"+ "知 识"之间存在很大的语义关联性,组成"学习知识"非常合理,因此"学习"+ "知识"之间的 语义相关度应该很大。相反,获取到用户连续输入的"小"+ "张"+ "的"+ "事情",虽然它 们也是连续输入,但没有语义上的关联性,组成"小张的事情"就是一个没有意义的词,因此 "小"+ "张"+ "的"+ "事情"之间的语义相关度应该很小。具体地,可以通过下面的方法计 算获取的N个字词单元之间的语义相关度
第一种方法
1)获取语料集。 其中,语料集可以是计算机通过搜素引擎实时搜索到的各种文字材料的集合,如 网络新闻、文章等,或可以是预存的各种文字材料的集合,如预存的各种文章、论文等。本发 明实施例对语料集不做限制,可以根据实际应用状况灵活选择。 2)统计获取的N个字词单元在语料集中出现的次数,将统计得到的次数作为语义 相关度。 其中,统计N个字词单元在语料集中出现的次数时,是将N个字词单元作为一个整 体进行统计的。并且需要说明的是,获取的语料集的数量越大、范围越广,得到的语义相关 度就越具有代表性,但需要的计算时间也就会相应地越长,实际应用中,可以根据具体应用 情况,灵活选择语料集的数量和范围。
第二种方法 使用N元条件概率公式计算N个字词单元可能被连续输入的概率AN,将计算出的概率作为语义相关度。N元条件概率公式如下
AN = P(Sn^、S2…Sn—》 其中,N表示输入的次数,N为大于等于2的自然数,SN表示第N次输入的字词单 元,P (SNI SpS," SN—》表示条件概率。可以采用任何可行的方法计算P (S》、P (S2) 、P (S^2)... P(S^…S,)等,例如可以采用对收集的语料集进行统计的方法进行,也可以通过对多个用 户的输入过程进行统计得到。 通过N元条件概率公式可以表现连续N次输入的N个字词单元之间的关联程度。 在连续输入时,N元条件概率就表现为在已有前(N-l)次输入的情况下,后一次输入内容出 现的可能性,即连续N次输入的N个字词单元之间的条件概率。并且需要说明的是,选取的 N越大,计算概率AN需要的计算量和存储数据也越大,边输入边计算的要求也越难满足,因 此在实际应用中,可以根据实际应用状况选择N的取值。 需要说明的是,计算获取的N个字词单元之间的语义相关度并不限于上述的二种 方法,可以根据实际应用状况,采用任何其他可行的方法。 另外,根据语义的不同表现,可以将语义分为纯粹的上下文内容之间的关联,或是 人名的姓与名之间的关联,因此语义相关度可以包括上下文关联度和人名关联度。
上下文关联度主要反应了上下文内容之间的关联性,如获取用户连续输入的"学 习"+"知识",这两个字词单元之间具有很强的上下文关联性;相反,如果获取用户连续输入 的是"小张"+ "打球",则这两个字词单元之间的关联性就明显不如"学习"+ "知识"这两 个字词单元之间的上下文关联性强。 人名关联度主要反应了一个名字的姓与名之间的关联性,如获取用户连续输入 的"张"+ "三",这两个字词单元之间具有很强的人名关联性,相反,如果获取用户连续输入 的是"张"+ "开",则这两个字词单元之间的人名关联性就明显不如"张"+ "三"这两个字 词单元之间的人名关联性强。对于汉语而言,可以将数亿中国人的人名作为语料集,进行统 计计算得到人名关联度。并且,对于汉语而言,人名一般是2到3个字,所以可以将N取值 为2或3。 需要说明的是,上下文关联度和人名关联度的具体计算方式与计算语义相关度的 方式类似,此处不再赘述。并且需要说明的是,上下文关联度和人名关联度只是语义相关度 的两种形式,并不限于此,可以根据实际应用状况进行设置。 204 :判断计算出的语义相关度,是否大于预设的语义相关度阈值,如果大于,则执 行205 ;否则,执行206。 预设的语义相关度阈值可以根据实验或经验进行设置,不对此进行具体限定。如 可以计算所有N个连续的字词单元出现在语料集中的次数,并进行加权和归一化处理,取 平均值,作为预设的语义相关度阈值。并且与步骤203中的语义相关度相对应,预设的语义 相关度阈值可以包括上下文关联度阈值和人名关联度阈值。如当步骤203中的语义相关度 具体为上下文关联度时,该步骤中预设的语义相关度阈值具体为上下文关联度阈值。
205 :确定获取的N个字词单元可以组合为一个新的字词组,并将该新的字词组加 入指定词库中,然后执行207。 需要说明的是,本领域的技术人员很容易想到,在将新的字词组加入指定词库时, 可以将与该新的字词组对应的编码(可以是拼音、和/或五笔字型等可以实现字词输入的符号)也加入指定词库,这样指定词库可以以字词组的形式提供该N个字词单元的候选项, 可以减少用户的击键次数。例如用户通过拼音输入现有词库不存在的人名"金日昆",用 户先输入"jin"选择"金"作为一次输入,接着输入"ri"选择"日"作为一次输入,然后输 入"kirn"选择"昆"作为一次输入,得到"金日昆",在用户输入过程中通过本发明实施例的 方法,获取到"金日昆",将"金日昆"和其对应的编码"jinrikun"加入指定词库,这样下次 用户需要再次输入"金日昆"时,只需输入jinrik皿"即可。 206 :确定获取的N个字词单元不可以组合为一个新的字词组,然后执行207。
207 :重新获取用户连续N次输入的N个字词单元,然后执行202。
本发明实施例所述的获取新的字词组的方法,根据实时计算得到的用户连续输入 的N个字词单元之间的语义相关度,组合出新的字词组,并将新的字词组加入指定词库中, 使得用户需要再次输入该N个字词单元时,指定词库可以以字词组的形式提供该N个字词 单元的候选项,减少了用户的击键次数,大大提高了用户输入字词时的输入速度,可以节省 用户的时间,方便用户的输入。并且,语义相关度可以为上下文关联度和人名关联度,为输 入一些复合词和中国人名提供了很大便利。 需要说明的是,由于语义相关度可以包括上下文关联度和人名关联度,所以在实 际应用中可以只使用上下文关联度,或只使用人名关联度,或将上下文关联度和人名关联 度结合起来使用。并且在将上下文关联度和人名关联度结合起来使用时,可以是先利用上 下文关联度确定N个字词单元是否可以组合为一个新的字词组,再利用人名关联度确定N 个字词单元是否可以组合为一个新的字词组;或可以是先利用人名关联度确定N个字词单 元是否可以组合为一个新的字词组,再利用上下文关联度确定N个字词单元是否可以组合 为一个新的字词组。下面以先利用上下文关联度确定N个字词单元是否可以组合为一个新 的字词组,再利用人名关联度确定N个字词单元是否可以组合为一个新的字词组为例进行
进一步说明。
实施例3 参见图3,本发明实施例提供了一种获取新的字词组的方法,包括 301 :获取用户连续N次输入的N个字词单元,其中,N为大于等于2的自然数。 与步骤201类似,此处不再赘述。 302 :判断现有词库和指定词库中是否存在获取的N个字词单元,如果存在,则执
行309 ;否则,执行303。 与步骤202类似,此处不再赘述。 303 :计算获取的N个字词单元之间的上下文关联度。 与步骤203中计算语义相关度的方法类似,此处不再赘述。 304:判断计算出的上下文关联度,是否大于预设的上下文关联度阈值,如果大于, 则执行307 ;否则,执行305。 305 :计算获取的N个字词单元之间的人名关联度。 与步骤203中计算语义相关度的方法类似,此处不再赘述。 306:判断计算出的人名关联度是否大于预设的人名关联度阈值,如果大于,则执 行307 ;否则,执行308。 307 :确定获取的N个字词单元可以组合为一个新的字词组,并将该新的字词组加入指定词库中,然后执行309。 与步骤205类似,此处不再赘述。 308 :确定获取的N个字词单元不可以组合为一个新的字词组,然后执行309。 309 :重新获取用户连续N次输入的N个字词单元,然后执行302。 本发明实施例所述的获取新的字词组的方法,根据实时计算得到的用户连续输入
的N个字词单元之间的上下文关联度和人名关联度,组合出新的字词组,并将新的字词组
加入指定词库中,使得用户需要再次输入该N个字词单元时,指定词库可以以字词组的形
式提供该N个字词单元的候选项,减少了用户的击键次数,大大提高了用户输入字词时的
输入速度,可以节省用户的时间,方便用户的输入,为输入一些复合词和中国人名提供了很
大便利。 实施例4 参见图4,本发明实施例提供了一种获取新的字词组的装置,包括 获取模块401,用于获取用户连续N次输入的N个字词单元,N为大于等于2的自然数。 处理模块402,用于在获取模块401获取到N个字词单元后,计算N个字词单元 之间的语义相关度,根据计算出的N个字词单元之间的语义相关度和预设的语义相关度阈 值,确定N个字词单元是否可以组合为新的字词组; 更新模块403,用于当处理模块402确定N个字词单元可以组合为新的字词组时,
将新的字词组加入指定词库中。 进一步地,处理模块402具体可以包括 第一计算单元,用于在获取模块401获取到N个字词单元后,计算N个字词单元之 间的语义相关度; 第一判断单元,用于在第一计算单元计算出N个字词单元之间的语义相关度后,
判断计算出的N个字词单元之间的语义相关度是否大于预设的语义相关度阈值; 第一确定单元,用于当第一判断单元的判断结果是大于时,确定N个字词单元可
以组合为新的字词组;当第一判断单元的判断结果是小于等于时,确定N个字词单元不可
以组合为新的字词组。 进一步地,当语义相关度包括上下文关联度、或人名关联度;相应地,预设的语义 相关度阈值包括预设的上下文关联度阈值、或预设的人名关联度阈值时,第一判断单元,具 体用于在第一计算单元计算出N个字词单元之间的上下文关联度后,判断计算出的N个字 词单元之间的上下文关联度是否大于预设的语义相关度阈值;或 第一判断单元,具体用于在第一计算单元计算出N个字词单元之间的人名关联度 后,判断计算出的N个字词单元之间的人名关联度是否大于预设的语义相关度阈值。
进一步地,当语义相关度包括上下文关联度和人名关联度,相应地,预设的语义相 关度阈值包括预设的上下文关联度阈值和预设的人名关联度阈值时,处理模块402具体可 以包括 第二计算单元,用于在获取模块401获取到N个字词单元后,计算N个字词单元之 间的上下文关联度; 第二判断单元,用于在第二计算单元计算出N个字词单元之间的上下文关联度后,判断计算出的N个字词单元之间的上下文关联度是否大于预设的上下文关联度阈值; 第二确定单元,用于当第二判断单元的判断结果是大于时,确定N个字词单元可以组合为新的字词组,然后通知更新模块403执行将新的字词组加入指定词库的步骤;
第三计算单元,用于当第二判断单元的判断结果是小于等于时,计算N个字词单元之间的人名关联度; 第三判断单元,用于在第三计算单元计算出N个字词单元之间的人名关联度后,
判断计算出的N个字词单元之间的人名关联度是否大于预设的人名关联度阈值; 第三确定单元,用于当第三判断单元的判断结果是大于时,确定N个字词单元可
以组合为新的字词组;当第三判断单元的判断结果是小于等于时,确定N个字词单元不可
以组合为新的字词组。 进一步地,当语义相关度包括上下文关联度和人名关联度,相应地,预设的语义相关度阈值包括预设的上下文关联度阈值和预设的人名关联度阈值时,处理模块402具体可以包括 第四计算单元,用于在获取模块401获取到N个字词单元后,计算N个字词单元之间的人名关联度; 第四判断单元,用于在第四计算单元计算出N个字词单元之间的人名关联度后,判断计算出的N个字词单元之间的人名关联度,是否大于预设的人名关联度阈值;
第四确定单元,用于当第四判断单元的判断结果是大于时,确定N个字词单元可以组合为新的字词组,然后通知更新模块403执行将新的字词组加入指定词库的步骤;
第五计算单元,用于当第四判断单元的判断结果是小于等于时,计算N个字词单元之间的上下文关联度; 第五判断单元,用于在第五计算单元计算出N个字词单元之间的上下文关联度后,判断计算出的N个字词单元之间的上下文关联度,是否大于预设的上下文关联度阈值;
第五确定单元,用于当第五判断单元的判断结果是大于时,确定N个字词单元可以组合为新的字词组;当第五判断单元的判断结果是大于等于时,确定N个字词单元不可以组合为新的字词组。 进一步地,参见图5,该装置还包括 判断模块404,用于在获取模块401获取到N个字词单元后,判断现有词库和指定词库中是否存在该N个字词单元; 通知模块405,用于当判断模块404的判断结果是现有词库和指定词库中均不存在该N个字词单元时,通知处理模块402执行计算N个字词单元之间的语义相关度的步骤。
本发明实施例所述的获取新的字词组的装置,根据实时计算得到的用户连续输入的N个字词单元之间的语义相关度,组合出新的字词组,并将新的字词组加入指定词库中,使得用户需要再次输入该N个字词单元时,指定词库可以以字词组的形式提供该N个字词单元的候选项,减少了用户的击键次数,大大提高了用户输入字词时的输入速度,可以节省用户的时间,方便用户的输入。并且,语义相关度可以为上下文关联度和人名关联度,为输入一些复合词和中国人名提供了很大便利。 以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如计算机中的硬盘、光盘或软盘。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
一种获取新的字词组的方法,其特征在于,包括获取用户连续N次输入的N个字词单元,所述N为大于等于2的自然数;计算所述N个字词单元之间的语义相关度,根据计算出的所述N个字词单元之间的语义相关度和预设的语义相关度阈值,确定所述N个字词单元是否可以组合为新的字词组;当确定所述N个字词单元可以组合为新的字词组时,将所述新的字词组加入指定词库中。
2. 根据权利要求1所述的获取新的字词组的方法,其特征在于,所述根据计算出的所 述N个字词单元之间的语义相关度和预设的语义相关度阈值,确定所述N个字词单元是否可以组合为新的字词组,具体包括判断计算出的所述N个字词单元之间的语义相关度是否大于预设的语义相关度阈值; 如果大于,则确定所述N个字词单元可以组合为新的字词组;否则,确定所述N个字词单元不可以组合为新的字词组。
3. 根据权利要求2所述的获取新的字词组的方法,其特征在于,所述语义相关度包括上下文关联度、或人名关联度;相应地,所述预设的语义相关度阈值包括预设的上下文关联度阈值、或预设的人名关 联度阈值;相应地,所述判断计算出的所述N个字词单元之间的语义相关度是否大于预设的语义 相关度阈值具体为判断计算出的所述N个字词单元之间的上下文关联度是否大于预设的上下文关联度 阈值;或判断计算出的所述N个字词单元之间的人名关联度是否大于预设的人名关联度阈值。
4. 根据权利要求1所述的获取新的字词组的方法,其特征在于,所述语义相关度包括 上下文关联度和人名关联度;相应地,所述预设的语义相关度阈值包括预设的上下文关联度阈值和预设的人名关 联度阈值;相应地,所述计算所述N个字词单元之间的语义相关度,根据计算出的所述N个字词单 元之间的语义相关度和预设的语义相关度阈值,确定所述N个字词单元是否可以组合为新 的字词组,具体包括计算所述N个字词单元之间的上下文关联度;判断计算出的所述N个字词单元之间的上下文关联度是否大于预设的上下文关联度 阈值;如果大于,则确定所述N个字词单元可以组合为新的字词组,然后执行将所述新的字 词组加入指定词库的步骤;否则,计算所述N个字词单元之间的人名关联度,然后判断计算 出的所述N个字词单元之间的人名关联度是否大于预设的人名关联度阈值;如果大于,则确定所述N个字词单元可以组合为新的字词组;否则,确定所述N个字词 单元不可以组合为新的字词组。
5. 根据权利要求1所述的获取新的字词组的方法,其特征在于,所述语义相关度包括 上下文关联度和人名关联度;相应地,所述预设的语义相关度阈值包括预设的上下文关联度阈值和预设的人名关联度阈值;相应地,所述计算所述N个字词单元之间的语义相关度,根据计算出的所述N个字词单 元之间的语义相关度和预设的语义相关度阈值,确定所述N个字词单元是否可以组合为新 的字词组,具体包括计算所述N个字词单元之间的人名关联度;判断计算出的所述N个字词单元之间的人名关联度是否大于预设的人名关联度阈值;如果大于,则确定所述N个字词单元可以组合为新的字词组,然后执行将所述新的字 词组加入指定词库的步骤;否则,计算所述N个字词单元之间的上下文关联度,然后判断计 算出的所述N个字词单元之间的上下文关联度,是否大于预设的上下文关联度阈值;如果大于,则确定所述N个字词单元可以组合为新的字词组;否则,确定所述N个字词 单元不可以组合为新的字词组。
6. 根据权利要求1至5中任一权利要求所述的获取新的字词组的方法,其特征在于,所 述获取用户连续N次输入的N个字词单元之后,计算所述N个字词单元之间的语义相关度之前还包括判断现有词库和所述指定词库中是否存在所述N个字词单元;如果所述现有词库和所述指定词库中均不存在所述N个字词单元,则执行计算所述N 个字词单元之间的语义相关度的步骤。
7. —种获取新的字词组的装置,其特征在于,包括获取模块,用于获取用户连续N次输入的N个字词单元,所述N为大于等于2的自然数;处理模块,用于在所述获取模块获取到N个字词单元后,计算所述N个字词单元之间 的语义相关度,根据计算出的所述N个字词单元之间的语义相关度和预设的语义相关度阈 值,确定所述N个字词单元是否可以组合为新的字词组;更新模块,用于当所述处理模块确定所述N个字词单元可以组合为新的字词组时,将 所述新的字词组加入指定词库中。
8. 根据权利要求7所述的获取新的字词组的装置,其特征在于,所述处理模块具体包括第一计算单元,用于在所述获取模块获取到N个字词单元后,计算所述N个字词单元之 间的语义相关度;第一判断单元,用于在所述第一计算单元计算出所述N个字词单元之间的语义相关度 后,判断计算出的所述N个字词单元之间的语义相关度是否大于预设的语义相关度阈值;第一确定单元,用于当所述第一判断单元的判断结果是大于时,确定所述N个字词单 元可以组合为新的字词组;当所述第一判断单元的判断结果是小于等于时,确定所述N个 字词单元不可以组合为新的字词组。
9. 根据权利要求8所述的获取新的字词组的装置,其特征在于,当所述语义相关度包 括上下文关联度、或人名关联度;相应地,所述预设的语义相关度阈值包括预设的上下文关 联度阈值、或预设的人名关联度阈值时所述第一判断单元,具体用于在所述第一计算单元计算出所述N个字词单元之间的上 下文关联度后,判断计算出的所述N个字词单元之间的上下文关联度是否大于预设的语义相关度阈值;或所述第一判断单元,具体用于在所述第一计算单元计算出所述N个字词单元之间的人 名关联度后,判断计算出的所述N个字词单元之间的人名关联度是否大于预设的语义相关 度阈值。
10. 根据权利要求7所述的获取新的字词组的装置,其特征在于,当所述语义相关度包 括上下文关联度和人名关联度,相应地,所述预设的语义相关度阈值包括预设的上下文关 联度阈值和预设的人名关联度阈值时,所述处理模块具体包括第二计算单元,用于在所述获取模块获取到N个字词单元后,计算所述N个字词单元之 间的上下文关联度;第二判断单元,用于在所述第二计算单元计算出所述N个字词单元之间的上下文关联 度后,判断计算出的所述N个字词单元之间的上下文关联度是否大于预设的上下文关联度 阈值;第二确定单元,用于当所述第二判断单元的判断结果是大于时,确定所述N个字词单 元可以组合为新的字词组,然后通知所述更新模块执行将所述新的字词组加入指定词库的 步骤;第三计算单元,用于当所述第二判断单元的判断结果是小于等于时,计算所述N个字 词单元之间的人名关联度;第三判断单元,用于在所述第三计算单元计算出所述N个字词单元之间的人名关联度 后,判断计算出的所述N个字词单元之间的人名关联度是否大于预设的人名关联度阈值;第三确定单元,用于当所述第三判断单元的判断结果是大于时,确定所述N个字词单 元可以组合为新的字词组;当所述第三判断单元的判断结果是小于等于时,确定所述N个 字词单元不可以组合为新的字词组。
11. 根据权利要求7所述的获取新的字词组的装置,其特征在于,当所述语义相关度包 括上下文关联度和人名关联度,相应地,所述预设的语义相关度阈值包括预设的上下文关 联度阈值和预设的人名关联度阈值时,所述处理模块具体包括第四计算单元,用于在所述获取模块获取到N个字词单元后,计算所述N个字词单元之 间的人名关联度;第四判断单元,用于在所述第四计算单元计算出所述N个字词单元之间的人名关联度 后,判断计算出的所述N个字词单元之间的人名关联度是否大于预设的人名关联度阈值;第四确定单元,用于当所述第四判断单元的判断结果是大于时,确定所述N个字词单 元可以组合为新的字词组,然后通知所述更新模块执行将所述新的字词组加入指定词库的 步骤;第五计算单元,用于当所述第四判断单元的判断结果是小于等于时,计算所述N个字 词单元之间的上下文关联度;;第五判断单元,用于在所述第五计算单元计算出所述N个字词单元之间的上下文关联 度后,判断计算出的所述N个字词单元之间的上下文关联度是否大于预设的上下文关联度 阈值;第五确定单元,用于当所述第五判断单元的判断结果是大于时,确定所述N个字词单 元可以组合为新的字词组;当所述第五判断单元的判断结果是小于等于时,确定所述N个字词单元不可以组合为新的字词组。
12.根据权利要求7-11中任一权利要求所述的获取新的字词组的装置,其特征在于, 所述装置还包括判断模块,用于在所述获取模块获取到N个字词单元后,判断现有词库和所述指定词库中是否存在所述N个字词单元;通知模块,用于当所述判断模块的判断结果是所述现有词库和所述指定词库中均不存在所述N个字词单元时,通知所述处理模块执行计算所述N个字词单元之间的语义相关度 的步骤。
全文摘要
本发明公开了一种获取新的字词组的方法和装置,属于输入法技术领域。方法包括获取用户连续N次输入的N个字词单元,N为大于等于2的自然数;计算N个字词单元之间的语义相关度,根据计算出的N个字词单元之间的语义相关度和预设的语义相关度阈值,确定N个字词单元是否可以组合为新的字词组;当确定N个字词单元可以组合为新的字词组时,将新的字词组加入指定词库中。装置包括获取模块、处理模块和更新模块。本发明根据实时计算得到的用户连续输入的N个字词单元之间的语义相关度,组合出新的字词组,并将新的字词组加入指定词库中,使得用户需要再次输入该N个字词单元时,指定词库可以以字词组的形式提供该N个字词单元的候选项,减少了用户的击键次数,大大提高了用户输入字词时的输入速度。
文档编号G06F3/023GK101719020SQ20091024145
公开日2010年6月2日 申请日期2009年12月2日 优先权日2009年12月2日
发明者张靖 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1