一种辅助词库的生成方法和装置的制作方法

文档序号:6615738阅读:153来源:国知局
专利名称:一种辅助词库的生成方法和装置的制作方法
技术领域
本发明涉及计算机字符信息的输入领域,特别是涉及一种用于字符输入的 辅助词库的生成方法和装置。
背景技术
在现代的计算机应用中,汉字输入法已经成为中文用户与计算机交互 的重要手段。汉字输入法技术需要将用户的一连串键盘按键翻译成用户最 可能想要的汉字串。大部分汉字输入方法的规则下,按键串到汉字串并不 是——对应的,特别是被广泛使用的拼音输入法,相同的按键串往往对应 着多种可能的词汇、短语或者句子。要提高用户的输入效率,汉字输入法 就需要带有一个"词库",词库中含有用户最可能会使用的汉字、词语和短 句。
但是,目前输入法的词库一般只能够覆盖人们使用的词汇的一部分, 通常主要包括一些人们普遍的常用词汇,还有一部分词汇输入法词库是不 可能全部包括进来的。因为现有的输入法词库都是通用的,针对的是所有 用户,如果把所有用户用的词汇都加入进来,那么输入法的词库容量将在 数百万的量级。词库过大,同音字过多,候选项增加,不需要使用这些词
的用户会受到干扰,并且,这样一个超大的词库势必大幅占用硬盘、CPU、
内存等计算设备资源,对个人电脑来说是不能接受的。
其次,由于汉语的灵活性,各种词语丰富而多样,每个人都有自己偏 好使用的词汇集合,即使同样一个词汇对于不同的人而言,其使用词频都 可能是不同的。
例如,每个人在^^用输入法时除了输入许多常用词汇之外(例如"现
在"、"时间"、"多少"等),还会输入一小部分人用的词汇,例如 一些游戏 名词"艾泽拉斯""德鲁伊,,,电影名称"云水谣"等等。这些词汇对非常小的群 体来说会经常输入,例如魔兽世界玩家,电影评论家等等;但是这些词 汇在总体用户中的使用比例比较低,为了保证词库的通用性,现有模式下 面向所有用户的输入法词库是不可能把这些词汇全部包括进去的。
5上述现有技术的缺陷,导致用户输入上述这些小群体的常用词汇时的首选词准确率非常低.,严重影响用户的使用体验以及其思想的表达。
总之,需要本领域技术人员迫切解决的一个技术问题就是如何能够创造
性的提出一种获取某个用户群体常用的个性化词汇,并进一步能够根据使用者的具体情况来提供个性化的辅助词库,以提高用户的输入效率。

发明内容
本发明所要解决的技术问题是提供一种辅助词库的生成方法和装置,能够简单方便地获取某个用户群体常用的个性化词汇,当用户采用包括有相应群体个性化词汇的辅助词库进行输入时,可以大大提高其输入相关字词的效率。
为了解决上述问题,本发明公开了一种辅助词库的生成方法,可以包括获取一用户群体的历史输入字词及其词频;分析所述历史输入字词及其词频,获取符合预置条件的字词及其词频;生成针对该用户群体的辅助词库。
优选的,所述历史输入字词及其词频的获取步骤可以包括通过汇集一用
优选的,所述历史输入字词及其词频的获取步骤可以包括通过针对该用户群体的文字素材进行分词统计而获得;或者,通过该用户群体的用户手动添加相应的字词及其词频而获得。
优选的,通过以下方式汇集一用户群体的个人词库收集多个输入法客户端用户的个人词库,并记录用户与其个人词库的对应关系;所述个人词库包括字词及词频;针对各用户的个人词库,计算得到该用户的特征参数;计算各用户特征参数之间的相似度,完成对各个用户的聚类,进而获取所需的个人词库。
优选的,也可以通过以下方式汇集一用户群体的个人词库收集多个输入法客户端用户的个人词库;所述个人词库包括字词及词频;针对各用户的个人词库,计算得到该个人词库的特征参数;计算各词库特征参数之间的相似度,完成对各个词库的聚类,进而获取所需的个人词库。
优选的,所述预置条件包括目标字词在该用户群体的历史语料中的词频高于预设阈值,但是在通用词库中的词频小于预设阈值。
优选的,所述的方法还可以包括发布所述生成的辅助词库。
优选的,通过以下方式完成发布用户请求下载相应用户群的辅助词库;或者,当用户登录一网络空间时,该网络空间向用户发布所述生成的辅助词库;
所述网络空间指向一用户群体。
优选的,所述的方法还可以包括向通过个人词库聚类得到的用户群体发布所述生成的针对该用户群体的辅助词库。
依据本发明的另一优选实施例,还公开了一种辅助词库的生成装置,可以包括
历史信息获取模块,用于获取一用户群体的历史输入字词及其词频;分析才莫块,用于分析所述历史输入字词及其词频,获取符合预置条件的字词及其词步贞;
词库生成模块,用于生成针对该用户群体的辅助词库。优选的,所述历史信息获取模块通过汇集一用户群体的个人词库而获得该用户群体的历史输入字词及其词频。
优选的,所述历史信息获取模块通过针对该用户群体的文字素材进行分词统计而获得;或者,所述历史信息获取模块通过该用户群体的用户手动添加相应的字词及其词频而获得。
优选的,所述历史信息获取^^莫块进一步包括
个人词库收集子模块,用于收集多个输入法客户端用户的个人词库;所述个人词库包括字词及词频;
特征参数计算子模块,用于针对各用户的个人词库,计算得到该个人词库的特征参数;
群体聚类子模块,用于计算各词库特征参数之间的相似度,完成对各个词库的聚类,进而获取所需的个人词库。
优选的,所述历史信息获取模块也可以进一步包括
个人词库收集子模块,用于收集多个输入法客户端用户的个人词库,并记录用户与其个人词库的对应关系;所述个人词库包括字词及词频;
特征参数计算子模块,用于针对各用户的个人词库,计算得到该用户的特征参数;
群体聚类子模块,用于计算各用户特征参数之间的相似度,完成对各个用户的聚类,进而获取所需的个人词库。优选的,所述预置条件包括目标字词在该用户群体的历史语料中的词频高于预设阈值,但是在通用词库中的词频小于预设阈值。
优选的,所述的装置还可以包括发布模块,用于发布所述生成的辅助词库。
优选的,所述发布模块接受用户的下载请求,向用户发布相应用户群的辅助词库;或者,当用户登录一网络空间时,该网络空间触发所述发布模块向用户发布所述生成的辅助词库;所述网络空间指向一用户群体。
优选的,所述的装置还可以包括发布模块,用于向通过个人词库聚类得到的用户群体发布所述生成的针对该用户群体的辅助词库。
与现有^t术相比,本发明具有以下优点
在社会生活中,任何一种社会群体,必然是由相互之间以某种共同基础相互联系的一群人组成的。那么,在他们的语言及文字交流中,必然会有一批在其圈子内部比之一般大众更为常用的特色词汇。那么在这些个体输入文字的历史过程中,就会较多地通过输入法使用这些词汇。
本发明就是通过对这些用户群体所使用的"历史"词汇进行分析,发现适用于圏子成员的特色词汇,从而聚合成辅助词库一一圈子词库。本发明可以将同一用户群体中的特殊词汇迅速共享至各个用户,提高用户的输入效率;尤其对于刚刚加入该用户群体(圈子)的用户而言,完全可以避免前期积累个性词汇的过程。


图l是本发明一种辅助词库的生成方法实施例1的步骤流程图;图2是本发明一种获取一群体个人词库的解决方案的步骤流程图;图3是本发明另一种获取一群体个人词库的解决方案的步骤流程图;图4是本发明一种辅助词库的生成方法实施例2的步骤流程图;图5是本发明一种辅助词库的生成装置实施例的结构框图。
具体实施例方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。
信息以及语音输入等等。即所述输入信息可以包括编码字符串,也可以包括手写输入信息以及语音输入的信息,因为这些输入方式也都需要用到词库进行候选项排序。由于这些输入方式中的信息转换都属于公知技术,在此就不详述了 。下面仅仅以编码字符串输入为例进行详细说明。
本发明可用于众多通用或专用的计算系统环境或配置中。例如个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。 一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然在前述的背景技术中,是以汉语输入为例而引出本发明要解决的技术问题的,但是本领域技术人员易于得知,对于日文、韩文等也需要应用词库进行输入的输入法应用而言,本发明同样可以适用,因为本发明的改进重点在于对词库的改进,而对具体转换规则并不限定。其次,由于本发明在上述几种输入法系统中的应用都是相似的,所以为了方侵j兌明,下面^f义以对本发明应用在中文的情况进行举例说明。
参照图1,示出了本发明一种辅助词库的生成方法实施例1,具体可以包括以下步骤
步骤IOI、获取一用户群体的历史输入字词及其词频;
步骤IOI中所采用的词频信息一词是输入法领域常用的词汇,在计算机内部可以表示为一个或者一系列数据,用来评价(预测)针对某个候选字词被用户选择的可能性。其除了可以包括表示词汇的输入频率信息以外,还包括单字的输入频率信息;其中的输入频率信息可以为绝对值,也可以为相对
值,还可以为经过一定策.略或者算法处理过的间接表示输入频率的其他数
值。 、
步骤102、分析所述历史输入字词及其词频,获取符合预置条件的字词及其词频;
步骤103、生成针对该用户群体的辅助词库。由于得到的辅助词库是针对一特定的用户群体的,因此,本说明书中也将该用户群体的辅助词库称之为圈子词库。而本发明并不需要对用户群体(圈子)的范围大小作限定,例如,通过本发明可以得到面向社会的一个阶层、某行业的从业人员的圈子词库,也可以得到面向某个社区的居民、某运动倶乐部的成员、某明星的爱好者的圏子词库。
实施例l通过收集属于同一群体的用户的历史语料,并对其进行分析,可以得到属于该群体的一些特色字词(即一般用户不常使用的字词),并将其生成辅助词库,帮助用户更高效率的完成输入。
由于本发明的目的就是获取属于该群体的一些特色字词,因此,步骤102中的预置条件可以示例如下当某个字词在该用户群体的历史语料中的词频高于预设阈值,而在通用词库中的词频小于预设阈值时,则确定该目标字词是本发明所需要获取的属于该群体的特色字词。当然,为了实现上述预置条件的判断,具体的可以设定各种复杂的数学判定公式。
如果满足上述预置条件,则说明在满足一般用户的通常使用的通用词库中没有这个目标字词(即词频为零),或者即使在通用词库中存在这个目标字词,但是其词频较低,不属于一般用户的常用字词,但是其又是从一用户群体的历史语料中得到的,因此,就可以认为其属于本发明所需的特色字词。当通用词库中没有该特色字词时,则向辅助词库中添加该特色字词,相当于添加新词以提高用户输入效率;当通用词库中该特色字词的词频相对较低时,则在辅助词库中改变该特色字词的词频,相当于通过改变词频,4吏得该特色字词的位置靠前甚至首选,以提高用户输入效率。
需要说明的是,本领域技术人员完全可以采用其他可行的筛选条件,例如,仅仅判断一个字词在该用户群体的历史语料中的词频高于预设阈值,就确定该字词属于该群体的特色字词。该筛选条件在一定程度上也可以满足本发明的需 求。
步骤103所得到的辅助词库,在本领域中一般用于表示在输7v法系统词库 (通用词库)之外,帮助用户提高完成输入的其他词库,例如,输入法系统中 用户的个人词库就是一种辅助词库,。当然本发明所生成的辅助词库可以与用 户的个人词库相并存,也可以单独存在。
本发明所述的"个人词库,,通常也称之为"用户词库",为了避免和"用 户,, 一词重复,因此主要采用"个人词库,,进行说明。现有输入法系统中的系 统词库就是一种面向大众的通用词库,因此为了符合用词习惯,下面主要釆用 "系统词库" 一词进行说明。
本发明的辅助词库主要用于记录扩展字词及其相关信息;其中,可以包含 词条信息,也可以包含词条的词频或者词序信息。词频信息表达的是用户使用 该词条的可能性,其相对大小能够代表词序。词序信息用来表达词条的相对重 要性,通常可以反映为词条在候选项中的排序位置。某些情况下,也可以直接 指定某词条在候选项中的位置(或者位置范围)。对于中文拼音输入法,辅助 词库中的词条通常与对应的拼音信息进行关联。但也可以直接与字母序列进行 关联,例如,搜狗拼音输入法中的"自定义短语"。
对于一些极端情况,辅助词库中还可以不包括词频信息,例如,词条较少, 并且没有重复对应同一拼音编码的情况。 一般的,辅助词库中需要包括词频信 息,所述词频信息可以直接由历史语料汇集得到(如分词统计),也可以经过 修正调整后确定(如依据权重调整,或者依据一定规则对所有词频进行相同规 律的调整等)。
至于辅助词库如何与系统词库相结合而完成整个输入过程,在现有技术中 个人词库与系统词库的应用中已经有很好的体现,本发明在此不再详述。 一般
的,可以设置辅助词库的优先级高于系统词库,也可以设置辅助词库的优先级 低于系统词库。
本发明可以通过各种方式获取所需的属于一个用户群体的历史输入字词
及其词频。下面给出本发明可能应用的几个具体方式方式l
首先,确认属于一个群体的各个输入法用户;
然后,收集该群体的各个用户的个人词库,由于个人词库中存储有该用户 的个性化词汇,因此,汇集这些信息,就可以获得该用户群体的历史输入字词 及其词频。
其中,可以通过用户自行登记的方式确定属于一个群体的输入法用户;也 可以通过专门人员人工分类的方式确定属于一个群体的输入法用户;还可以通
过收集个人词库,然后通过计算将各个人词库划分为多个群体,从而确定属于 一个群体的输入法用户。
方式2
首先,收集各用户的个人词库;
然后,将所收集的多个个人词库进行归类,每一个类别视为一个用户群体 的历史语料集合;由于个人词库中存储有该用户的个性化词汇,因此,汇集这 些信息,就可以获得该用户群体的历史输入字词及其词频。
方式3
首先,确认属于一个群体的文字素材;例如,某个论坛或某个社区的帖子、 文章等;
其词频。 方式4
首先,确认属于一个群体的各项特征;当然,也可以简单的确定群体名称 即可;
然后,由自认为符合上述特征的用户,手动添加相应的字词及其词频。当
然,所述手动添加的行为也可以不限于用户,如,语言专家或者本领域:技术人
员也可以添加相应的字词及其词频。
对于方式2、 3和4可以事先不确定一个群体的用户,直接获取该群体的 历史语料。
上述三个方式也可以相互补充,组合使用,例如,以方式l为主,并引入 方式2和3以获取更多更完善的历史语料。需要说明的是,本发明的重点之一是针对一群体的历史语料进行分析,对于如何具体划分用户群体或者如何获取 一群体的历史语料,本发明并不需要加以限定,采用人工分类或者计算机自动 分类都是可行的。
下面对上述的方式1的具体分析提取"特色字词"的过程进行示例性描述。 采用其他方式获取以用户群体历史语料后的分析过程基本形似,参照即可。
采用方式1进行步骤102所需的输入是某个圏子的众多个人已经积累的 "个人词库,,;以及, 一个无偏向性的面向所有用户的"通用词库"。这两类词 库各自包含一些互相之间有可能有重叠的词汇,以及这些词汇在各自词库中的 "词频"。最后的输出是获得一个针对该群体的包含词汇和词频的圈子词库。 具体的实现思路可以如下将个人词库中的所有词汇作为备选,选择那些 具有符合下列状况的词汇进入圈子词库1、这个词汇在上述个人词库中普遍 出现;2、这个词汇在"通用词库"中不存在或者具有较低词频。
目标字词被选入圏子词库时所被赋予的词频,是它在每个个人词库中的词 频的和;如果这些被选入的词汇各自的词频和普遍较大,可以对它们按比例进 行降频。
下面举一个具体的实现算法的例子,仅仅作为一个可行性的例证。本领域 技术人员完全可以采用与此例在流程、算式形式、参数等细节上有所不同的其 他过程。
为了说明该示例的计算过程,我们使用以下标记 GK:通用词库的总词频; GM:通用词库的总词汇数;
w:备选词汇,即, 一个出现在某个或某些个人词库中的词汇; GF(w):备选词w在通用词库中的词频,如果w未出现在通用词库中, GF(w)=0;
GP(w) := (GF(w) / (GK/GM)),反映了备选词w在通用词库(系统词库) 中词频的相对高低。如果GP(w)大于l,表示该词的词频大于平均词频。 N:个人词库的数目; Dn:编号为n的一个个人词库;Mn:编号为n的个人词库的总词频; Kn:编号为n的个人词库的总词汇数;
Fn (w):备选词w在第n个个人词库Dn中的词频。若w没有出现在Dn中, 则Fn (w) = 0;
T (w):含有备选词w的个人词库的个数;
O(w) :=T(w) / N,即备选词w在所有个人词库中的出现概率;
P(w) := i:Fn(w) / (SMn/SKn),(其中n取l…N)。反映了备选词在所
首先,依次统计和计算备选词汇和每个个人词库的上述相关各值。 然后,选取同时符合如下条件的词汇进入圈子词库 1, O(w) 〉 oc;2, P(w) >(3;3, GP (w) <y。
其中cc是常量,可行的取值范围在(O,l),取值越大,筛选越严格;p是常 量,可行的取值范围在(O, +00),取值越大,筛选越严格;y是常量,可行的 取值范围在(O, + 0,取值越小,筛选越严格。
对于进入圈子词库的词汇w,它在圈子词库中的词频可以被赋值为(S Fn(w) / N)。
下面对前述的方式1中通过个人词库归类确认属于一个群体的输入法用 户的方法,进行示例性描述。
参照图2,具体可以包括以下步骤
步骤201、收集多个输入法客户端用户的个人词库,并记录用户与其个人 词库的对应关系;所述个人词库包括字词及词频;
步骤202、针对各用户的个人词库,计算得到该用户的特征参数; 步骤203、计算各用户特征参数之间的相似度,完成对各个用户的聚类。 上述方案的核心思想之一在于用户在使用输入法的过程中,会逐渐积累 起输入历史记录,这些用户原始输入文字信息在一定程度上反映了用户的兴趣 爱好,行业归属,使用习惯等个人信息。因此,可以根据个人词库对用户进行 自动的分类,将用户划分为不同的群体;而同一用户群内部的用户,可能具有共同的兴趣爱好、更多的共同语言、相似的语言风格等等。进而,得到用户的 群体信息之后,就可以通过分析同一群体中的用户的个人词库,从而得到本发 明的所需的面向该用户群的辅助词库。
步骤203实际上完成的就是一聚类过程,其中的"聚类" 一词属于本领 域的技术术语, 一般是指在没有样本所属类别信息的情况下,依据样本集数 据的内在结构,将多个样本元素根据相关性合并成多个集合,每个集合称为一 个类,每个类中的元素应当具有一定的共性(所述共性可以通过参数阈值加以 控制)。在同一类别中,个体之间的距离较小,而不同类别上的个体之间的距 离偏大。所述的距离用于表示相似程度,距离越小则表示越相似,例如,在网 页的自动聚类技术中, 一般常用距离函数来表示网页间的相似程度。由于在人 工智能、数据挖掘等领域已有大量关于聚类算法的研究,因此,在此对聚类算 法本身不再进行详述。
在本例中,个人词库的基本数据是词到词频的对应关系,其次还可以包含 软件使用信息、用户分类信息、用户语言风格、用户情感因素等用户隐性属性 信息。 一个具体的优选计算过程如下
首先,将这些信息进行抽象、离散化为特征向量的形式;
然后,需要将各个特征向量转换为权值分数。这样一用户可以表示为如下 的一个模型
(W11 , w 12, w 13…,w21 , w22 ,w23..., w31, w3 2, w3 3..., w41, w42 ,w3 3,..., w51, w 52,w53…)
在得到用户的特征化表示之后,可以采用聚类方法对其聚类。聚类的方法 可以系统的分为分裂法、层次法、基于密度的方法、基于网格的方法、基于模 型的方法等等,本领域技术人员依据需要选用即可。
由于本实施例是在对用户自动聚类的基础上,提取该群体较常用的词汇, 生成辅助词库,其统计结果更为客观和准确;并且,采用现有的各种聚类算法 可以得到各种粒度的用户群体,所以也可以很方便的得到各种粒度的辅助词 库,效率才及高。
实际上,前述的方式2也可以采用上述的聚类方案,即对多个个人词库进行聚类,属于统一类别的个人词库就构成了该群体下的历史语料信息,对其进 行分析即可得到针对该群体的特色字词。因为用户和个人词库之间的对应关系 比较简单,只要将二者的对应关系从图2所示的步骤中忽略,就可以直接应用
在方式2中,例如,参照图3,具体可以包括
步骤301、收集多个输入法客户端用户的个人词库;所述个人词库包括字 词及词步页;
步骤302、针对各用户的个人词库,计算得到该个人词库的特征参数; 步骤303、计算各词库特征参数之间的相似度,完成对各个词库的聚类。
参照图4,示出了本发明一种辅助词库的生成方法实施例2,具体可以包 括以下步骤
步骤401、获取该用户群体的历史输入字词及其词频; 步骤402、分析所述历史输入字词及其词频,获取符合预置条件的字词及 其词频;
步骤403、生成针对该用户群体的辅助词库。本说明书中也将该用户群体 的辅助词库称之为圈子词库;
步骤404、发布所述生成的辅助词库。
相比于实施例l,图4所示的实施例增加了发布所述辅助词库的步骤。所 述发布可以采用各种可行的方式。
例如,依据本发明获得所需的圈子词库之后,将其链接发布在网络上,并 对其相关用户群体进行介绍,如果用户认为其需要该圈子词库,则请求下载即 可完成所述辅助词库的发布。
又例如,现有技术下的一些网络空间(如论坛、博客等)是面向一些特定 群体的,则可以将本发明获得的辅助词库放置在面向相应用户群的网络空间服 务器上,当用户登录一网络空间时,该网络空间向用户主动发布所述生成的辅 助词库。
再例如,如前述,在本发明的一优选实施例中,还可以通过所收集的用户 个人词库,对各个用户进行聚类,得到一些用户群体,则可以将本发明获得的 针对相应用户群的辅助词库,向前述所得的相应用户发布即可。例如,输入法的注册用户向服务器端提供自己的个人词库,经过服务器端的解析处理后,向
该注册用户发布其相应群体的辅助词库,以帮助该用户提高丰ir入效率。_
本实施例中的所述"发布"至少可以通过以下两种方式完成圈子词库向本
地输入法系统的凝:据添加。
一是先将圈子词库下载至本地,然后通过双击打开这个文件,通过特定的 应用程序完成凄t据的添加。
二是通过点击页面上的链接,直接在线完成圈子词库数据的添加。
为了^更于更新,每个圏子词库还可以具有一个唯一的ID,这个唯一ID可
以是一个自然增长的整数,也可以是一个网络地址或者其他信息(只要保证两
个不同的圈子词库具有不同的ID就可以)。每个圏子词库还可以具有一个版本
信息,这个版本信息可以是一个流水号,也可以是最后一次修改的时间。该版 本信息发生了改变,则表明该词库文件需要更新。例如,采用客户端最后一次 更新时间作为版本信息,如果与服务器上保存的文件更新时间相比前者有变 化,那么该词库文件需要更新。
参照图5,示出了一种辅助词库的生成装置实施例,具体可以包括 历史信息获取模块501,用于获取一用户群体的历史输入字词及其词频; 分析模块502,用于分析所述历史输入字词及其词频,获取符合预置条件
的字词及其词频;
词库生成^^莫块503,用于生成针对该用户群体的辅助词库。 所述预置条件可以包括目标字词在该用户群体的历史语料中的词频高于
预设阈值;优选的,所述预置条件可以为目标字词在该用户群体的历史语料
中的词频高于预设阈值,但是在通用词库中的词频小于预设阈值。所述预置条
件还可以采用前述实施例中更为复杂的判定条件。
在本发明的另一优选实施例中,所述历史信息获取模块501可以通过汇集
施例中的方式1和方式2。
在本发明的另一优选实施例中,所述历史信息获取模块501也可以通过针 对该用户群体的文字素材进行分词统计而获得;或者,所述历史信息获取模块通过该用户群体的用户手动添加相应的字词及其词频而获得。
需要说明的是,上述三种方式裤立应用,也可以组合应用,例如,以个人 词库作为主要的历史语料源,以其他方式为次要源。
在本发明的另一优选实施例中,所述历史信息获取^f莫块501可以进一步包

个人词库收集子模块,用于收集多个输入法客户端用户的个人词库;所述 个人词库包括字词及词频;
特征参数计算子模块,用于针对各用户的个人词库,计算得到该个人词库 的特征参数;
群体聚类子模块,用于计算各词库特征参数之间的相似度,完成对各个词 库的聚类,进而获取所需的个人词库。
在本发明的另一优选实施例中,所述历史信息获取模块501也可以进一步 包括
个人词库收集子模块,用于收集多个输入法客户端用户的个人词库,并记
录用户与其个人词库的对应关系;所述个人词库包^:字词及词频;
特征参数计算子模块,用于针对各用户的个人词库,计算得到该用户的特
征参数;
群体聚类子模块,用于计算各用户特征参数之间的相似度,完成对各个用 户的聚类,进而获取所需的个人词库。
在本发明的另一优选实施例中,图5所示的装置还可以包括用于发布所述 生成的辅助词库的发布模块504。
对于发布模块504,可以位于一网络空间的服务器端,所述网络空间指向 一用户群体。当用户登录该网络空间时,该网络空间触发所述发布模块向用户 发布所述生成的辅助词库。
或者,所述发布模块504位于通用服务器端,接受任意用户的下载请求, 向该用户发布所请求的相应用户群的辅助词库。
在本发明的另一优选实施例中,当历史信息获取模块501通过个人词库聚类得到的用户群体时,所述发布模块504还可以采用主动推送的方式,向相应
的注册用户发布所述生成的针对该用户群体的辅助词库。
本说明书中的各个实施例均釆用递进的方式描述,每个实施例重点说明的 都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即 可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简 单,相关之处参见方法实施例的部分说明即可。
以上对本发明所提供的一种辅助词库的生成方法和装置,进行了详细介
例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的 一般技术人员,依据本发明的思想,在具体实施方式
及应用范围上均会有改变 之处,综上所述,本说明书内容不应理解为对本发明的限制。
权利要求
1、一种辅助词库的生成方法,其特征在于,包括获取一用户群体的历史输入字词及其词频;分析所述历史输入字词及其词频,获取符合预置条件的字词及其词频;生成针对该用户群体的辅助词库。
2、 如权利要求l所述的方法,其特征在于,所述历史输入字词及其词频的获取步骤包括通过汇集一用户群体的个人词库而获得该用户群体的历史输入字词及其 词频。
3、 如权利要求1或2所述的方法,其特征在于,所述历史输入字词及其 词频的获取步骤包括
4、 如权利要求2所述的方法,其特征在于,通过以下方式汇集一用户群 体的个人词库收集多个输入法客户端用户的个人词库,并记录用户与其个人词库的对应关系;所述个人词库包括字词及词频;针对各用户的个人词库,计算得到该用户的特征参数; 计算各用户特征参数之间的相似度,完成对各个用户的聚类,进而获取所需的个人词库。
5、 如权利要求2所述的方法,其特征在于,通过以下方式汇集一用户群 体的个人词库收集多个输入法客户端用户的个人词库;所述个人词库包括字词及词频; 针对各用户的个人词库,计算得到该个人词库的特征参数; 计算各词库特征参数之间的相似度,完成对各个词库的聚类,进而获取所需的个人词库。
6、 如权利要求1或2所述的方法,其特征在于,所述预置条件包括目标字词在该用户群体的历史语料中的词频高于预设阈值,但是在通用词 库中的词频小于预设阈值。
7、 如权利要求l所述的方法,其特征在于,还包括 发布所述生成的辅助词库。
8、 如权利要求7所述的方法,其特征在于,通过以下方式完成发布 用户请求下载相应用户群的辅助词库;或者,当用户登录一网络空间时,该网络空间向用户发布所述生成的辅助 词库;所述网络空间指向一用户群体。
9、 如权利要求4或5所述的方法,其特征在于,还包括辅助词库。
10、 一种辅助词库的生成装置,其特征在于,包括历史信息获取模块,用于获取一用户群体的历史输入字词及其词频; 分析模块,用于分析所述历史输入字词及其词频,获取符合预置条件的字 词及其词频;词库生成模块,用于生成针对该用户群体的辅助词库。
11、 如权利要求IO所述的装置,其特征在于,所述历史信息获取模块通过汇集一用户群体的个人词库而获得该用户群 体的历史输入字词及其词频。
12、 如权利要求10或11所述的装置,其特征在于,获得;或者,所述历史信息获取模块通过该用户群体的用户手动添加相应的字词 及其词频而获得。
13、 如权利要求11所述的装置,其特征在于,所述历史信息获取模块进 一步包括个人词库收集子模块,用于收集多个输入法客户端用户的个人词库;所述 个人词库包括字词及词频;特征参数计算子模块,用于针对各用户的个人词库,计算得到该个人词库 的特征参数;群体聚类子模块,用于计算各词库特征参数之间的相似度,完成对各个词库的聚类,进而获取所需的个人词库。
14、 如权利要求11所述的装置,其特征在于,所述历史信息获f^莫块进一步包括个人词库收集子模块,用于收集多个输入法客户端用户的个人词库,并记录用户与其个人词库的对应关系;所述个人词库包括字词及词频;特征参数计算子模块,用于针对各用户的个人词库,计算得到该用户的特 征参数;群体聚类子模块,用于计算各用户特征参数之间的相似度,完成对各个用 户的聚类,进而获取所需的个人词库。
15、 如权利要求10或11所述的装置,其特征在于,所述预置条件包括 目标字词在该用户群体的历史语料中的词频高于预设阈值,但是在通用词库中的词频小于预设阈值。
16、 如权利要求10所述的装置,其特征在于,还包括 发布模块,用于发布所述生成的辅助词库。
17、 如权利要求16所述的装置,其特征在于,所述发布模块接受用户的下载请求,向用户发布相应用户群的辅助词库; 或者,当用户登录一网络空间时,该网络空间触发所述发布模块向用户发 布所述生成的辅助词库;所述网络空间指向一用户群体。
18、 如权利要求13或14所述的装置,其特征在于,还包括发布模块,用于向通过个人词库聚类得到的用户群体发布所述生成的针对 该用户群体的辅助词库。
全文摘要
本发明提供了一种辅助词库的生成方法和装置,所述方法可以包括获取一用户群体的历史输入字词及其词频;分析所述历史输入字词及其词频,获取符合预置条件的字词及其词频;生成针对该用户群体的辅助词库。本发明能够简单方便地获取某个用户群体常用的个性化词汇,当用户采用包括有相应群体个性化词汇的辅助词库进行输入时,可以大大提高其输入相关字词的效率。
文档编号G06F17/30GK101470732SQ200710304280
公开日2009年7月1日 申请日期2007年12月26日 优先权日2007年12月26日
发明者军 张 申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1