词汇的获取方法及装置、推送方法及装置的制造方法_2

文档序号:9349996阅读:来源:国知局
提供的个性化词库的结构示例图;
[0055]图4是本发明实施例所提供的网页中新闻热搜词的示例图;
[0056]图5是本发明实施例所提供的词汇的推送方法的流程示意图;
[0057]图6是本发明实施例所提供的词汇的获取装置的功能方块图;
[0058]图7是本发明实施例所提供的词汇的推送装置的功能方块图。
【【具体实施方式】】
[0059]为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
[0060]应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0061]在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
[0062]应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0063]取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
[0064]本发明实施例给出一种词汇的获取方法,请参考图1,其为本发明实施例所提供的词汇的获取方法的流程示意图,如图所示,该方法包括以下步骤:
[0065]SlOl,获取用户的兴趣分布信息。
[0066]具体的,本发明实施例中,为了获得用户的个性化词汇,服务器需要先获取用户的兴趣分布信息。
[0067]在一个具体的实现过程中,服务器可以利用现有的用户标签库,从该用户标签库,获得每个用户的兴趣分布信息。
[0068]在一个具体的实现过程中,所述用户的兴趣分布信息可以包括但不限于:所述用户的至少一个兴趣标签以及每个所述兴趣标签的权重值。
[0069]请参考图2,其为本发明实施例所提供的获得针对用户的个性化词条的示例图,如图所示,对于每个用户都有对应的至少一个兴趣标签,图2中的用户具有三个标签,即标签1、标签2和标签3,每个标签都有对应的权重值,图2中的标签I的权重值是0.7,标签2的权重值是0.2,标签3的权重值时0.1 ;可以理解的是,对于每个用户而言,用户的所有标签的权重值之和等于I。
[0070]可以理解的是,用户的兴趣分部信息中,每个兴趣标签可以表示一种兴趣类型,例如,汽车、美食、购物、足球、NBA、游戏、股票、音乐和小说等。用户的兴趣标签的权重值越高,表示用户对这类兴趣类型越有兴趣。
[0071 ] S102,生成个性化词库,所述个性化词库包含基础词汇和新词。
[0072]具体的,本发明实施例中,生成个性化词库的方法可以包括但不限于:
[0073]首先,服务器根据已有词库,获取所述基础词汇。然后,服务器根据热门词汇和时效性词汇,获取所述新词。最后,服务器根据所述基础词汇和所述新词,生成所述个性化词库。
[0074]请参考图3,其为本发明实施例所提供的个性化词库的结构示例图,如图所示,现有技术中只有图3中的基础词库,本发明实施例所提供的技术方案,在已有的基础词库的基础上,服务器新生成个性化词库,该个性化词库可以包含基础词汇和新词。
[0075]在一个具体的实现过程中,服务器可以从已有词库,如云输入词库、分类词库、百科词库和神经语言程序学(Neuro-Linguistic Programming,NLP)词库中,获取所述基础词汇。
[0076]在一个具体的实现过程中,很多网页都有提供热门词汇,如图4所示,某网页提供了若干新闻热搜词,因此,服务器可以从互联网的各个网页中抓取当前的热门词汇,并用抓取到的热门词汇构成所述个性化词库。
[0077]举例说明,获取所述时效性词汇的方法可以包括但不限于:
[0078]首先,服务器从网页获取时效性的页面内容,如新闻内容、微博内容等。然后,服务器根据切词词典,对所述时效性的页面内容进行切词处理,以获得至少一个候选词汇。最后,服务器根据用户输入词汇历史记录和每个候选词汇的标签,对所述至少一个候选词汇进行筛选,以获得所述时效性词汇。
[0079]在一个具体的实现过程中,服务器可以预先对用户输入的词汇进行记录,以生成用户输入词汇历史记录,然后利用用户输入词汇历史记录对所述至少一个候选词汇进行筛选,用以筛除干扰词汇。
[0080]例如,可以根据预设的出现阈值,从用户输入词汇历史记录中获取大于该出现阈值的用户输入词汇,然后获取该用户输入词汇与至少一个候选词汇的交集,即在至少一个候选词汇中保留属于所述用户输入词汇的候选词汇。
[0081]例如,所述出现阈值可以等于3。
[0082]在一个具体的实现过程中,对于经过用户输入词汇历史记录筛选后剩余的至少一个候选词汇,需要根据每个候选词汇的标签进一步进行筛选,筛选后剩余的候选词汇将作为本发明实施例中的所述时效性词汇,用以构建个性化词库。
[0083]在一个具体的实现过程中,对于经过用户输入词汇历史记录筛选后剩余的至少一个候选词汇,可以将具有公有标签的候选词汇筛除。例如,候选词条为“不得不”,体育类标签中有该候选词条,物理类标签也有该候选词条,则认为该候选词条具有公有标签,属于通用词汇,因此需要在体育类词汇和物理类词汇中都删除该候选词条。
[0084]需要说明的是,上述SlOl和S102的执行顺序仅为一种实现方式,也可以将SlOl与S102的执行顺序调换,并不影响本发明实施例技术方案的实现。
[0085]S103,根据所述用户的兴趣分布信息和所述个性化词库,获得针对所述用户的个性化词汇。
[0086]具体的,举例说明,本发明实施例中,在获取到用户的兴趣分布信息,并生成所述个性化词库之后,就可以根据所述用户的兴趣分布信息和所述个性化词库,获得针对所述用户的个性化词汇。其方法可以包括但不限于:
[0087]首先,根据预设的词汇总数和每个所述兴趣标签的权重值,确定每个所述兴趣标签对应的个性化词汇数目。然后,根据每个所述兴趣标签和每个所述兴趣标签对应的个性化词汇数目,从所述个性化词库获得每个所述兴趣标签对应的个性化词汇,以作为针对所述用户的个性化词汇。
[0088]在一个具体的实现过程中,可以根据所述词汇总数与每个所述兴趣标签的权重值的乘积,获得每个所述兴趣标签对应的个性化词汇数目。例如,如图2所示,标签I的权重值等于0.7,预设的词汇总数为10000,则标签I对应的个性化词汇数目可以为7000个,以此类推,标签2对应的个性化词汇数目可以为2000,标签3对应的个性化词汇书目可以为1000
[0089]在一个具体的实现过程中,对于每个兴趣标签,在已经生成的个性化词库中,找到该兴趣标签下的所有个性化词汇,然后根据个性化词汇数目,从所有个性化词汇中获取权重值最高的相应数目的个性化词汇,构成了该兴趣标签的个性化词库,所有兴趣标签的个性化词汇就构成了针对该用户的个性化词汇。
[0090]例如,如图2所示,根据标
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1