在输入法中推荐分类词库的系统、装置及方法与流程

文档序号:15641539发布日期:2018-10-12 22:07阅读:262来源:国知局
在输入法中推荐分类词库的系统、装置及方法与流程

本发明涉及计算机的输入法技术领域,特别涉及一种在输入法中推荐分类词库的系统、装置及方法。



背景技术:

随着计算机的发展,出现了各种输入法用于指令或文本的输入,用户只需要安装一种类型的输入法程序并运行,就可以通过所安装的输入法程序进行指令或文本的输入。计算机在安装输入法程序时,还需要存储对应的基本词表库,以便通过该输入法程序从所存储的基本词表库中调用所输入的指令或文本。基本词表库中包括字、词语和语句的语言模型,是采用大规模训练语料训练统计出来的。计算机在安装输入法程序时,还可以安装分类词库,以提供基本词表库中的字、词语和语句的不足。对应不同专业领域的词库不同,分类词库是面向特定领域、特定地域及特定应用情景的词语集合,比如:城市地名分类词库、汉语常用成语分类词库或游戏分类词库等。用户在特定领域、特定地域或特定应用情景下输入时,如:在玩游戏时,就可以在计算机上存储一些具有游戏专用词条的游戏分类词库,当采用输入法程序输入时,该输入法程序不仅可以调用基本词表库,还可以调用游戏分类词库中的游戏专用词条,为用户提供更加准确的输入体验。

目前,在用户使用的终端上,比如计算机或移动终端上存储分类词库的过程为:终端根据当前的用户使用习惯、或者特定领域、特定地域及特定应用情景等,确定要采用的不同类型分类词库;然后,终端与互联网网络侧的提供所确定的分类词库的服务器建立链接,从该服务器上下载所确定的分类词库,然后安装到终端本地上。

但是,采用上述过程在用户使用的终端上安装分类词库存在两个弊端:第一个弊端,这个过程对于用户来说很繁琐,需要用户停止当前的输入过程,然后再按照上述过程安装分类词库,降低用户的输入体验;第二个弊端,采用这个过程在终端上安装分类词库时需要用户具有一定的计算机技术技能,比如互联网搜索能力及下载能力,对于普通用户来说,这比较难。

综上,采用上述过程在用户使用的终端上安装分类词库比较繁琐,对于普通用户使用不易实现,用户体验度差。



技术实现要素:

有鉴于此,本发明提供一种在输入法中推荐分类词库的系统,该系统在终端上安装分类词库是简单且易于实现,提高用户体验度。

本发明还提供一种在输入法中推荐分词词库的装置,该装置在终端上安装分类词库是简单且易于实现,提高用户体验度。

本发明还提供一种在输入法中推荐分类词库的方法,该方法在终端上安装分类词库是简单且易于实现,提高用户体验度。

为达到上述目的,本发明的技术方案是这样实现的:

一种在输入法中推荐分类词库的系统,该系统包括:在互联网网络侧的分类词库集合单元和分类词库选择单元,以及在终端侧的用户当前使用的终端,其中,

分类词库集合单元,用于存储多个不同的分类词库;

分类词库选择单元,用于通过互联网从用户当前使用的终端获取用户个人信息,从分类词库集合中获取所确定的匹配该用户个人信息的分类词库,发送给用户当前使用的终端,供用户当前使用的终端安装;

用户当前使用的终端,用于存储用户个人信息,将接收到的分类词库进行安装。

一种在输入法中推荐分类词库的装置,该装置包括:基于规则的分类词库推荐器、基于内容的分类词库推荐器及分类词库排序器,其中,

基于规则的分类词库推荐器,用于根据通过互联网从用户当前使用的终端获取用户当前注册信息和用户当前状态信息,从分类词库集合中获取所确定的匹配的分类词库。发送给分类词库推荐器;

基于内容的分类词库推荐器,用于根据用户个人词库获取用户输入习惯信息,从分类词库集合中获取所确定的匹配的分类词库。发送给分类词库推荐器;

分类词库推荐器,用于从基于规则的分类词库推荐器和基于内容的分类词库推荐器接收确定的分类词库,按照设定的规则后排序,得到所确定分类词库列表,将分类词库列表中前设定个数的分类词库发送给用户当前使用的终端。

一种在输入法中推荐分类词库的方法,该方法包括:通过互联网从用户当前使用的终端获取用户个人信息;

从分类词库集合中获取所确定的匹配该用户个人信息的分类词库;

将所确定的分类词库发送给用户当前使用的终端,供用户当前使用的终端安装。

由上述的技术方案可见,本发明在互联网网络侧设置分类词库选择单元,用于通过互联网获取用户个人信息,从分类词库集合中确定匹配该用户个人信息的分类词库,将所确定的分类词库发送给用户当前使用的终端,供用户当前使用的终端安装。进一步地,在发送给用户当前使用的终端之前,还将确定的分类词库排序后,得到所确定分类词库列表,发送给用户当前使用的终端。这样,就不需要像现有技术那样,需要用户通过当前使用的终端与互联网网络侧的提供所确定的分类词库的服务器建立链接,从该服务器上下载所确定的分类词库,然后安装到终端本地,而是由互联网网络侧设置分类词库选择单元确定用户要使用的分类词库列表并推送给用户当前使用的终端,不需要用户繁琐操作且不需要具备计算机技术技能,在终端上安装分类词库是简单且易于实现,提高用户体验度。

附图说明

图1为本发明实施例提供的在输入法中推荐分类词库的系统结构示意图;

图2为本发明实施例提供的在输入法中推荐分类词库的装置结构示意图;

图3为本发明实施例提供的基于规则的分类词库推荐器的结构示意图;

图4为本发明实施例提供的基于内容的分类词库推荐器的结构示意图,包括;

图5为本发明实施例提供的在输入法中推荐分类词库的方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。

为了在用户当前使用的终端安装分类词库时,不需要用户繁琐操作且不需要具备计算机技术技能,本发明在互联网网络侧设置分类词库选择单元,用于通过互联网获取用户个人信息,从分类词库集合中确定匹配该用户个人信息的分类词库,将所确定的分类词库发送给用户当前使用的终端,供用户当前使用的终端安装。进一步地,在发送给用户当前使用的终端之前,还将确定的分类词库排序后,得到所确定分类词库列表,发送给用户当前使用的终端。

这样,本发明实施例在终端上安装分类词库是简单且易于实现,提高用户体验度。

图1为本发明实施例提供的在输入法中推荐分类词库的系统结构示意图,包括:在互联网网络侧的分类词库集合单元、分类词库选择单元及在终端侧的用户当前使用的终端,其中,

分类词库集合单元,用于存储多个不同的分类词库;

分类词库选择单元,用于通过互联网从用户当前使用的终端获取用户个人信息,从分类词库集合中获取所确定的匹配该用户个人信息的分类词库,发送给用户当前使用的终端,供用户当前使用的终端安装;

用户当前使用的终端,用于存储用户个人信息,将接收到的分类词库进行安装。

在该结构中,分类词库选择单元,还用于在发送给用户当前使用的终端之前,将确定的分类词库排序后,得到所确定分类词库列表,将分类词库列表中前设定个数的分类词库发送给用户当前使用的终端。

在该结构中,分类词库选择单元包括分类词库推荐器和分类词库排序器,其中,分类词库推荐器包括基于规则的分类词库推荐器和/或基于内容的分类词库推荐器,分类词库排序器用于根据匹配程序对所确定的分类词库排序。

图2为本发明实施例提供的在输入法中推荐分类词库的装置结构示意图,包括:基于规则的分类词库推荐器、基于内容的分类词库推荐器及分类词库排序器,其中,

基于规则的分类词库推荐器,用于根据通过互联网从用户当前使用的终端获取用户当前注册信息和用户当前状态信息,从分类词库集合中获取所确定的匹配的分类词库。发送给分类词库推荐器;

基于内容的分类词库推荐器,用于根据用户个人词库获取用户输入习惯信息,从分类词库集合中获取所确定的匹配的分类词库。发送给分类词库推荐器;

分类词库推荐器,用于从基于规则的分类词库推荐器和基于内容的分类词库推荐器接收确定的分类词库,按照设定的规则后排序,得到所确定分类词库列表,将分类词库列表中前设定个数的分类词库发送给用户当前使用的终端。

以下对基于规则的分类词库推荐器、基于内容的分类词库推荐器及分类词库推荐器进行详细说明。

基于规则的分类词库推荐器

基于规则的分类词库推荐器是根据用户个人信息中的用户当前注册信息和用户当前状态信息,采用设置的规则,从分类词库集合单元中找到匹配的分类词库。

在这里,用户当前注册信息为用户注册到用户当前使用的终端时的信息,比如:用户住址或/和用户的性别年龄等;用户当前状态信息为用户当前互联网链接信息,比如用户当前使用的终端的地址信息等。设置的规则为设定的条件规则,如条件规则设置为用户当前注册信息中包含某个地址时,就确定对应该地址的分类词库。举一个具体例子说明:条件规则设置为用户当前注册信息中包括某大学时,则为所确定的就是对应该大学地址的该大学分类词库。

图3为本发明实施例提供的基于规则的分类词库推荐器的结构示意图,包括:第一信息获取器,第一分词和过滤器及第一相似度计算器,其中,

第一信息获取器,用于通过互联网从用户当前使用的终端获取用户当前注册信息和用户当前状态信息,得到用户信息描述文本,发送给第一分词和过滤器;从分类词库集合中获得分类词库集合存储的分类词库信息描述文本,发送给第一分词和过滤器;

第一分词和过滤器,用于将用户信息描述文本进行分词,过滤掉停用词,形成用户信息关键词集合,发送给第一相似度计算器,将分类词库信息描述文本进行分词,过滤掉停用词,形成分类词库信息关键词集合,发送给第一相似度计算器;

第一相似度计算器,用于计算用户信息关键词集合和分类词库信息关键词集合的相似程度,当确定用户信息关键词集合中的用户信息关键词与分类词库信息关键词集合中的分类词库信息关键词的相似度大于设定的第一相似度阈值时,就确定对应该分类词库信息关键词的分类词库为匹配的分类词库,从分类词库集合中获取到。

在该结构中,第一分词和过滤器将用户信息描述文本进行分词,比如,用户信息描述文本为:“本科就读于哈尔滨工业大学”,进行分词就得到“本科/就读/于/哈尔滨/工业/大学”,对分词进行过滤,过滤掉停用词,形成用户信息关键词集合为:“本科、哈尔滨、工业、大学”。

在该结构中,停用词为对用户输入习惯的预测较低的词语,可以设置为动词和口语化词语。相应地,第一分词和过滤器将分类词库信息描述文本进行分词,过滤掉停用词,形成分类词库信息关键词集合的过程与上述相似。

在该结构中,设定的第一相似度阈值是根据经验值设置的。

在该结构中,第一相似度计算器为关键组件,计算用户信息关键词集合和分类词库信息关键词集合的相似程度采用公式(1)计算:

公式中的Lud表示用户信息关键词集合和分类词库信息关键词集合的相似程度值,其为用户信息关键词集合与分类词库信息关键词集合的交集和用户信息关键词集合与分类词库信息关键词集合的并集之间的比值。

当然,还可以采用其他的计算方式,比如编辑距离相似程度计算方式,表示通过多少步骤操作就可以将一个用户信息关键词变成分类词库信息关键词,这个相似程度计算方式为现有技术,这里不再赘述。

计算用户信息关键词集合和分类词库信息关键词集合的相似程度是一个双重遍历过程,也就是针对用户信息关键词集合中的每一个用户信息关键词和分类词库信息关键词集合中的每一个分类词库信息关键词进行相似度计算,从而找到匹配的分类词库。

基于规则的分类词库推荐器的优点为推荐速度快,推荐结果准确,缺点是能够获得的用户个人信息比较有限。

基于内容的分类词库推荐器

基于内容的分类词库推荐器是根据用户个人信息中的用户输入习惯信息,该用户输入习惯信息是从用户个人词库中获取的,该用户个人词库存储了用户使用输入法输入的词条,从分类词库集合单元中找到匹配的分类词库。用户个人词库反应了用户的输入习惯,用户在某一时间段输入的词条,反应了该用户在这段时间的、实时的输入兴趣和输入需求。

基于内容的分类词库推荐器弥补了获得的用户个人信息方面的局限性,由于内容的挖掘和计算通常采用统计方法,因此基于内容的分类词库推荐器也经常被称为基于统计的分类词库推荐器。

图4为本发明实施例提供的基于内容的分类词库推荐器的结构示意图,包括:第二信息获取器,第二分词和过滤器及第二相似度计算器,其中,

第二信息获取器,用于根据用户个人词库获取用户输入习惯信息,发送给第二分词和过滤器;从分类词库集合中获得分类词库集合存储的分类词库信息描述文本,发送给第二分词和过滤器;

第二分词和过滤器,用于将用户输入习惯信息进行分词,过滤掉停用词,形成用户输入习惯信息关键词集合,发送给第二相似度计算器,将分类词库信息描述文本进行分词,过滤掉停用词,形成分类词库信息关键词集合,发送给第二相似度计算器;

第二相似度计算器,用于计算用户输入习惯信息关键词集合和分类词库信息关键词集合的相似程度,当确定用户输入习惯信息关键词集合中的用户输入习惯信息关键词与分类词库信息关键词集合中的分类词库信息关键词的相似度大于设定的第二相似度阈值时,就确定对应该分类词库信息关键词的分类词库为匹配的分类词库,从分类词库集合中获取到。

图4所示的结构工作过程与图3所示的结构工作过程很相似,不同点为:1、获取的用户个人信息不同,图3所示的结构获取的为用户当前注册信息和用户当前状态信息,图4所示的结构获取的为用户输入习惯信息;2、相似度计算的实现不同,在用户输入习惯信息关键词中不仅仅包括词条信息,还包括词频信息,而用户信息关键词中只包括词条信息,词频信息的加入有助于更好的计算用户个人信息与分类词库的匹配程度,但是实现比较复杂。

如果不考虑用户输入习惯信息关键词的词频信息,则可以采用上述的公式(1)计算用户输入习惯信息关键词集合和分类词库信息关键词集合的相似程度,也就是用户输入习惯信息关键词集合和分类词库信息关键词集合的相似程度值为用户输入习惯信息关键词集合与分类词库信息关键词集合的交集和用户输入习惯信息关键词集合与分类词库信息关键词集合的并集之间的比值,不同的是不是用户信息关键词集合,而是用户输入习惯信息关键词集合。

如果考虑用户输入习惯信息关键词的词频信息,则由两种方式计算用户输入习惯信息关键词集合和分类词库信息关键词集合的相似程度:

第一种,采用公式(2)计算:

也就是用户输入习惯信息关键词集合与分类词库信息关键词集合的交集的词频数总和与用户输入习惯信息关键词集合与分类词库信息关键词集合的并集的词频数总和之间的比值;

公式(2)的分子可以分解为:

其中,w∈Su表示用户输入习惯信息关键词集合与分类词库信息关键词集合的交集词条,Cs表示该词条的词频信息;

相应地,公式(2)的分母可以分解为:

第二种,采用向量空间模型,向量空间模型将词语集合看作一个向量,不同词语构成了向量中的每一个纬度,每个纬度对应的权重由词语的词频计算得到,采用公式(5)计算:

其中,Cs表示用户输入习惯信息关键词集合的词频信息,公式(5)为一个归一化的权重计算方式,计算出来的结果为[0,1]区间之内,这些数值组织起来,就构成了用户输入习惯信息关键词集合的向量,即:

类似地,可以计算分类词库信息关键词集合的词频信息,即:

用户输入习惯信息关键词集合和分类词库信息关键词集合的相似程度为上述两个向量之间的余弦夹角,采用公式(8)计算得到:

计算用户输入习惯信息关键词集合和分类词库信息关键词集合的相似程度是一个双重遍历过程,也就是针对用户输入习惯信息关键词集合中的每一个用户信息关键词和分类词库信息关键词集合中的每一个分类词库信息关键词进行相似度计算,从而找到匹配的分类词库。

分类词库排序器

从分类词库集合中获取所确定的匹配该用户个人信息的分类词库后可能具有很多个,如果将所有匹配的分类词库都推送给用户当前使用的终端上,一方面会占用互联网带宽,另一方面也会使得用户当前使用的终端将所有匹配的分类词库都安装后,在输入时会依次调用所有的匹配的分类词库,导致输入运行速度变慢。因此,本发明需要进一步对所匹配的分类词库进行排序,选择匹配度最高的设定个数的分类词库,得到分类词库列表,将所得到的分类词库列表中的分类词库安装到用户当前使用的客户端上。

在本发明实施例中,在分类词库排序器上要设置排序规则,该规则要基于以下原则:

第一,基于规则的分类词库推荐器推荐的分类词库优先级高于基于内容的分类词库推荐器推荐的分类词库;

由于基于规则的分类词库推荐器推荐的分类词库更加准确,所以在得到分类词库列表时优先级要高于基于内容的分类词库推荐器推荐的分类词库;

第二,所匹配的分类词库中包含词条容量小的优先级高于所匹配的分类词库中包含词条容量大的;

由于包含词条容量小,也就是词条数目较少的分类词库的内容更加集中,主体更加明确,所以面向的应用领域就更加细致,这些分类词库的优先级别就需要高于包含词条容量大的优先级别。

第三,获取用户当前使用的终端已安装的分类词库信息,将用户当前使用的终端已安装的分类词库不设置在分类词库列表中。

本发明将得到所确定分类词库列表,发送给用户当前使用的终端,供用户当前使用的终端安装,在发送时,可以定期发送。在得到所确定分类词库列表时,该列表中的分类词库数目可以由用户当前使用的终端根据需要进行更改,这里不再限定。

图5为本发明实施例提供的在输入法中推荐分类词库的方法流程图,其具体步骤为:

步骤501、通过互联网从用户当前使用的终端获取用户个人信息;

步骤502、从分类词库集合中获取所确定的匹配该用户个人信息的分类词库;

步骤503、将所确定的分类词库发送给用户当前使用的终端,供用户当前使用的终端安装。

在该方法中,在步骤503之前,该方法还包括:

将确定的分类词库排序后,得到所确定分类词库列表,将分类词库列表中前设定个数的分类词库。

在该方法中,用户个人信息包括:用户当前注册信息和用户当前状态信息,以及用户输入习惯信息,其中,用于当前注册信息和用户当前状态信息是通过互联网从用户当前使用的终端上获取的,用户输入习惯信息是从用户个人词库中获取的,该用户个人词库存储了用户使用输入法输入的词条。

当用户个人信息为用户当前注册信息和用户当前状态信息时,确定的匹配该用户个人信息的分类词库过程为:

根据用户当前注册信息和用户当前状态信息,得到用户信息描述文本,从分类词库集合中获得分类词库集合存储的分类词库信息描述文本;

将用户信息描述文本进行分词,过滤掉停用词,形成用户信息关键词集合,将分类词库信息描述文本进行分词,过滤掉停用词,形成分类词库信息关键词集合;

计算用户信息关键词集合和分类词库信息关键词集合的相似程度,当确定用户信息关键词集合中的用户信息关键词与分类词库信息关键词集合中的分类词库信息关键词的相似度大于设定的第一相似度阈值时,确定对应该分类词库信息关键词的分类词库为匹配的分类词库。

具体相似度的计算采用公式(1)进行。

当用户个人信息为用户输入习惯信息时,确定的匹配该用户个人信息的分类词库过程为:

根据用户输入习惯信息,得到用户输入习惯信息描述文本,从分类词库集合中获得分类词库集合存储的分类词库信息描述文本;

将用户输入习惯信息描述文本进行分词,过滤掉停用词,形成用户输入习惯信息关键词集合,将分类词库信息描述文本进行分词,过滤掉停用词,形成分类词库信息关键词集合;

计算用户输入习惯信息关键词集合和分类词库信息关键词集合的相似程度,当确定用户输入习惯信息关键词集合中的用户输入习惯信息关键词与分类词库信息关键词集合中的分类词库信息关键词的相似度大于设定的第二相似度阈值时,确定对应该分类词库信息关键词的分类词库为匹配的分类词库。

上述计算相似度采用公式(1)、公式(2)或公式(8)计算。

从上述本发明实施例可以看出,本发明根据用户个人喜讯你自动推荐、安装、加载与该用户相关的分类词库,提高用户的输入体用度,该方法能够进一步应用到语音识别、手写识别及光学字符识别等应用软件中。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换以及改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1