关键词相似度获取方法、装置及服务器的制造方法

文档序号:6523574阅读:159来源:国知局
关键词相似度获取方法、装置及服务器的制造方法
【专利摘要】本发明公开了一种关键词相似度获取方法、装置及服务器,属于信息【技术领域】。该方法包括:获取用户标签关键词和兴趣类目关键词;根据该用户标签关键词和兴趣类目关键词,查找预设数据库,得到该用户标签关键词中每一个关键词的词向量和该兴趣类目关键词中每一个关键词的词向量;根据该用户标签关键词中每一个关键词的词向量、该兴趣类目关键词中每一个关键词的词向量,计算该用户标签关键词中每一个关键词的词向量与该兴趣类目关键词中每一个关键词的词向量之间的距离;将第一关键词和第二关键词的词向量之间的距离获取为该第一关键词和该第二关键词的相似度。本发明通过词向量获取关键词的相似度,提高推荐信息的准确率。
【专利说明】关键词相似度获取方法、装置及服务器

【技术领域】
[0001] 本发明涉及信息【技术领域】,特别涉及一种关键词相似度获取方法、装置及服务器。

【背景技术】
[0002] 随着信息技术的不断发展,如何将信息推荐给对该信息感兴趣的用户是亟需解决 的问题。在向用户推荐信息时,一般需要获取用户标签中的关键词与用户的兴趣类目中的 关键词之间的相似度,从而基于相似度,获取兴趣类目中的关键词的兴趣值,根据该兴趣值 的大小向用户推荐信息。
[0003] 在获取相似度过程中,可以将搜搜百科全文和问问的问答内容作为语料集,以百 科全文中的每个词条或者问问中的问答内容作为一篇文档,统计用户标签中的关键词与用 户的兴趣类目中的关键词在语料库中出现的文档频率,即将用户的兴趣类目中的每一个关 键词和用户标签中的每一个关键词到搜搜百科和问问的问答内容中进行全文检索,统计用 户的兴趣类目中的每一个关键词和用户标签中的每一个关键词在语料库中共同出现的文 档频率和各自出现的文档频率,并通过词与词结合紧密度的统计量算法,获取用户的兴趣 类目中的每一个关键词和用户标签中的每一个关键词的相似度。
[0004] 在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
[0005] 由于任意两个关键词的相似度完全依赖于它们在语料库中的文档频率,而且关键 词在语料库中出现的文档数目占语料库中所有文档数目的比例大小极为不均,如两个关键 词可能很少会在一个文档中出现,而两个关键词分别在文档中出现的频率却很高,使得获 取到的相似度不能准确描述两个关键词之间的联系,以至于在后续向用户推荐信息的准确 率以及成功率较低。


【发明内容】

[0006] 为了解决现有技术的问题,本发明实施例提供了一种关键词相似度获取方法、装 置及服务器。所述技术方案如下:
[0007] 第一方面,提供了一种关键词相似度获取方法,所述方法包括:
[0008] 获取用户标签关键词和兴趣类目关键词;
[0009] 根据所述用户标签关键词和兴趣类目关键词,查找预设数据库,得到所述用户标 签关键词中每一个关键词对应的词向量和所述兴趣类目关键词中每一个关键词对应的词 向量,所述预设数据库存储有关键词与词向量之间的对应关系,所述词向量由所述关键词 和所述关键词上下文的关键词确定;
[0010] 根据所述用户标签关键词中每一个关键词对应的词向量、所述兴趣类目关键词中 每一个关键词对应的词向量,计算所述用户标签关键词中每一个关键词对应的词向量与所 述兴趣类目关键词中每一个关键词对应的词向量之间的距离;
[0011] 对于所述用户标签关键词的第一关键词和所述兴趣类目关键词中的第二关键词, 将所述第一关键词和所述第二关键词的词向量之间的距离获取为所述第一关键词和所述 第二关键词的相似度,所述第一关键词为所述用户标签关键词中的任一个关键词,所述第 二关键词为所述兴趣类目关键词中的任一个关键词。
[0012] 第二方面,提供了一种关键词相似度获取装置,所述装置包括:
[0013] 关键词获取模块,用于获取用户标签关键词和兴趣类目关键词;
[0014] 查询模块,用于根据所述用户标签关键词和兴趣类目关键词,查找预设数据库,得 到所述用户标签关键词中每一个关键词对应的词向量和所述兴趣类目关键词中每一个关 键词对应的词向量,所述预设数据库存储有关键词与词向量之间的对应关系,所述词向量 由所述关键词和所述关键词上下文的关键词确定;
[0015] 距离获取模块,用于根据所述用户标签关键词中每一个关键词对应的词向量、所 述兴趣类目关键词中每一个关键词对应的词向量,计算所述用户标签关键词中每一个关键 词对应的词向量与所述兴趣类目关键词中每一个关键词对应的词向量之间的距离;
[0016] 相似度获取模块,用于对于所述用户标签关键词的第一关键词和所述兴趣类目关 键词中的第二关键词,将所述第一关键词和所述第二关键词的词向量之间的距离获取为所 述第一关键词和所述第二关键词的相似度,所述第一关键词为所述用户标签关键词中的任 一个关键词,所述第二关键词为所述兴趣类目关键词中的任一个关键词。
[0017] 第三方面提供了一种服务器,所述服务器包括:处理器、存储器,所述处理器与所 述处理器相连接,
[0018] 所述处理器,用于获取用户标签关键词和兴趣类目关键词;
[0019] 所述处理器还用于根据所述用户标签关键词和兴趣类目关键词,查找预设数据 库,得到所述用户标签关键词中每一个关键词对应的词向量和所述兴趣类目关键词中每一 个关键词对应的词向量,所述预设数据库存储有关键词与词向量之间的对应关系,所述词 向量由所述关键词和所述关键词上下文的关键词确定;
[0020] 所述处理器还用于根据所述用户标签关键词中每一个关键词对应的词向量、所述 兴趣类目关键词中每一个关键词对应的词向量,计算所述用户标签关键词中每一个关键词 对应的词向量与所述兴趣类目关键词中每一个关键词对应的词向量之间的距离;
[0021] 所述处理器还用于对于所述用户标签关键词的第一关键词和所述兴趣类目关键 词中的第二关键词,将所述第一关键词和所述第二关键词的词向量之间的距离获取为所述 第一关键词和所述第二关键词的相似度,所述第一关键词为所述用户标签关键词中的任一 个关键词,所述第二关键词为所述兴趣类目关键词中的任一个关键词。
[0022] 本发明实施例提供的技术方案带来的有益效果是:
[0023] 通过用低维向量来表示关键词,并基于关键词的上下文中关键词对词向量的表示 进行学习,从而使得相同语义的关键词在向量空间距离较近,从而可以更好的描述用户标 签和兴趣类目的相似度,提高了后续向用户推荐信息的准确率以及成功率。

【专利附图】

【附图说明】
[0024] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
[0025] 图1是本发明实施例提供的一种关键词相似度获取方法流程图;
[0026] 图2是本发明实施例提供的一种关键词相似度获取方法流程图;
[0027] 图3是本发明实施例提供的一种关键词相似度获取流程图;
[0028] 图4是本发明实施例提供的一种关键词相似度获取装置结构示意图;
[0029] 图5是本发明实施例提供的一种服务器结构示意图。

【具体实施方式】
[0030] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。
[0031] 图1是本发明实施例提供的一种关键词相似度获取方法流程图。参见图1,该实施 例的执行主体为服务器,该方法包括:
[0032] 101、获取用户标签关键词和兴趣类目关键词。
[0033] 102、根据该用户标签关键词和兴趣类目关键词,查找预设数据库,得到该用户标 签关键词中每一个关键词对应的词向量和该兴趣类目关键词中每一个关键词对应的词向 量,该预设数据库存储有关键词与词向量之间的对应关系,该词向量由该关键词和该关键 词上下文的关键词确定。
[0034] 103、根据该用户标签关键词中每一个关键词对应的词向量、该兴趣类目关键词中 每一个关键词对应的词向量,计算该用户标签关键词中每一个关键词对应的词向量与该兴 趣类目关键词中每一个关键词对应的词向量之间的距离。
[0035] 104、对于该用户标签关键词的第一关键词和该兴趣类目关键词中的第二关键词, 将该第一关键词和该第二关键词的词向量之间的距离获取为该第一关键词和该第二关键 词的相似度,该第一关键词为该用户标签关键词中的任一个关键词,该第二关键词为该兴 趣类目关键词中的任一个关键词。
[0036] 本发明实施例提供的方法,通过用低维向量来表示关键词,并基于关键词的上下 文中关键词对词向量的表示进行学习,从而使得相同语义的关键词在向量空间距离较近, 从而可以更好的描述用户标签和兴趣类目的相似度,提高了后续向用户推荐信息的准确率 以及成功率。
[0037] 可选地,该方法还包括:
[0038] 对预设语料库中的文本信息进行分词,得到该文本信息的多个关键词;
[0039] 根据该预设算法模型和该多个关键词的预设初向量,对该多个关键词的向量表示 进行计算,得到多个关键词对应的词向量。
[0040] 可选地,根据预设算法模型和该多个关键词的预设初向量,对该多个关键词的向 量表示进行计算,得到多个关键词对应的词向量包括:
[0041] 根据该多个关键词中每一个关键词的预设初向量和该多个关键词中每一个关键 词上下文的关键词的预设初向量,获取该多个关键词对应的中间量;
[0042] 根据该多个关键词对应的中间量、该多个关键词中的当前关键词的预设初向量和 该当前关键词上下文的关键词的预设初向量,获取该多个关键词对应的词向量。
[0043] 可选地,根据该多个关键词中每一个关键词的预设初向量和该多个关键词中每一 个关键词上下文的关键词的预设初向量,获取该多个关键词对应的中间量包括:
[0044] 针对该多个关键词中的第k个,将该多个关键词的第k个关键词的预设初向量和 该第k个关键词上下文的关键词的预设初向量,
[0045] 应用公式

【权利要求】
1. 一种关键词相似度获取方法,其特征在于,所述方法包括: 获取用户标签关键词和兴趣类目关键词; 根据所述用户标签关键词和兴趣类目关键词,查找预设数据库,得到所述用户标签关 键词中每一个关键词对应的词向量和所述兴趣类目关键词中每一个关键词对应的词向量, 所述预设数据库存储有关键词与词向量之间的对应关系,所述词向量由所述关键词和所述 关键词上下文的关键词确定; 根据所述用户标签关键词中每一个关键词对应的词向量、所述兴趣类目关键词中每一 个关键词对应的词向量,计算所述用户标签关键词中每一个关键词对应的词向量与所述兴 趣类目关键词中每一个关键词对应的词向量之间的距离; 对于所述用户标签关键词的第一关键词和所述兴趣类目关键词中的第二关键词,将所 述第一关键词和所述第二关键词的词向量之间的距离获取为所述第一关键词和所述第二 关键词的相似度,所述第一关键词为所述用户标签关键词中的任一个关键词,所述第二关 键词为所述兴趣类目关键词中的任一个关键词。
2. 根据权利要求1所述的方法,其特征在于,所述方法还包括: 对预设语料库中的文本信息进行分词,得到所述文本信息的多个关键词; 根据所述预设算法模型和所述多个关键词的预设初向量,对所述多个关键词的向量表 示进行计算,得到多个关键词对应的词向量。
3. 根据权利要求2所述的方法,其特征在于,根据预设算法模型和所述多个关键词 的预设初向量,对所述多个关键词的向量表示进行计算,得到多个关键词对应的词向量包 括: 根据所述多个关键词中每一个关键词的预设初向量和所述多个关键词中每一个关键 词上下文的关键词的预设初向量,获取所述多个关键词对应的中间量; 根据所述多个关键词对应的中间量、所述多个关键词中的当前关键词的预设初向量和 所述当前关键词上下文的关键词的预设初向量,获取所述多个关键词对应的词向量。
4. 根据权利要求3所述的方法,其特征在于,根据所述多个关键词中每一个关键词的 预设初向量和所述多个关键词中每一个关键词上下文的关键词的预设初向量,获取所述多 个关键词对应的中间量包括: 针对所述多个关键词中的第k个,将所述多个关键词的第k个关键词的预设初向量和 所述第k个关键词上下文的关键词的预设初向量, 应用公式
得到第k个关键词对应的中间量; 其中,&为所述第k个关键词上下文的关键词的预设初向量,&为所述第k个关键词 的预设初向量,21为所述第k个关键词上下文的关键词的个数; 或, 针对所述多个关键词中的第k个,服务器将所述多个关键词的第k个关键词的预设初 向量和所述第k个关键词上下文的关键词的预设初向量,利用公式\ = A ,得到第k个 关键词对应的中间量。
5. 根据权利要求3所述的方法,其特征在于,根据所述多个关键词对应的中间量、所述 多个关键词中的当前关键词的预设初向量和所述当前关键词上下文的关键词的预设初向 量,获取所述多个关键词对应的词向量包括: 根据得到的所述多个关键词对应的中间量和所述多个关键词上下文的关键词的预设 初向量,得到所述多个关键词对应的词向量; 根据得到的所述多个关键词对应的中间量和所述多个关键词关键词的预设初向量,得 到所述多个关键词上下文关键词的词向量; 基于已经得到的所述多个关键词对应的词向量和所述多个关键词上下文关键词的词 向量,对所述多个关键词对应的词向量进行训练。
6. 根据权利要求5所述的方法,其特征在于,根据得到的所述多个关键词对应的中间 量和所述多个关键词上下文的关键词的预设初向量,得到所述多个关键词对应的词向量包 括: 根据得到的第k个关键词对应的中间量和所述第k个关键词上下文的关键词的预设初 向量,应用公式
,得到第k个关键词的词向量; 或, 根据得到的第k个关键词对应的中间量和所述第k个关键词上下文的关键词的预设初 向量,利用公式= <,得到第k个关键词的词向量; 其中,
,gradhk=f (hk)_yk ; f (hk)为第k个关键词对应的中间量的逻辑回归函数,gradhk为第k个关键词对应的中 间量对应的梯度,为第k个关键词的词向量,为第k个关键词上下文的关 键词的词向量,yk为目标值,k为关键词的标号。
7. 根据权利要求5所述的方法,其特征在于,根据得到的所述多个关键词对应的中间 量和所述多个关键词关键词的预设初向量,得到所述多个关键词上下文关键词的词向量包 括: 根据得到的第k个关键词对应的中间量和所述多个关键词的第k个关键词的预设初向 量,应用公式=grai//vG,得到第k个关键词上下文关键词的词向量。
8. 根据权利要求5所述的方法,其特征在于,基于已经得到的所述多个关键词对应的 词向量和所述多个关键词上下文关键词的词向量,对所述多个关键词对应的词向量进行训 练包括: 所述多个关键词中第k个关键词上下文关键词包括所述多个关键词中第k-Ι个关键词 到第k+Ι个关键词; 对于所述多个关键词中第k+j个关键词,将已获取到的第k+j个关键词的词向量作为 第k+j个关键词的预设初向量,重新获取多个关键词对应的词向量其中,-1 < j < 1。
9. 根据权利要求2-8任一项所述的方法,其特征在于,所述多个关键词的预设初向量 的各个元素的取值范围为0?1。
10. 根据权利要求2所述的方法,其特征在于,根据所述预设算法模型和所述多个关键 词的预设初向量,对所述多个关键词的向量表示进行计算,得到多个关键词对应的词向量 之后,所述方法还包括: 当用户标签和/或兴趣类目中具有新增关键词时,获取当前新闻信息和论坛信息,以 所述当前新闻信息和论坛信息为语料库,获取所述新增关键词对应的词向量。
11. 根据权利要求1所述的方法,其特征在于,根据所述用户标签关键词中每一个关键 词对应的词向量、所述兴趣类目关键词中每一个关键词对应的词向量,计算所述用户标签 关键词中每一个关键词对应的词向量与所述兴趣类目关键词中每一个关键词对应的词向 量之间的距离包括: 根据所述用户标签关键词中每一个关键词对应的词向量、所述兴趣类目关键词中每一 个关键词对应的词向量,计算所述用户标签关键词中每一个关键词对应的词向量与所述兴 趣类目关键词中每一个关键词对应的词向量之间夹角的余弦值; 将词向量之间夹角的余弦值作为所述词向量之间的距离。
12. -种关键词相似度获取装置,其特征在于,所述装置包括: 关键词获取1吴块,用于获取用户标签关键词和兴趣类目关键词; 查找模块,用于根据所述用户标签关键词和兴趣类目关键词,查找预设数据库,得到所 述用户标签关键词中每一个关键词对应的词向量和所述兴趣类目关键词中每一个关键词 对应的词向量,所述预设数据库存储有关键词与词向量之间的对应关系,所述词向量由所 述关键词和所述关键词上下文的关键词确定; 距离获取模块,用于根据所述用户标签关键词中每一个关键词对应的词向量、所述兴 趣类目关键词中每一个关键词对应的词向量,计算所述用户标签关键词中每一个关键词对 应的词向量与所述兴趣类目关键词中每一个关键词对应的词向量之间的距离; 相似度获取模块,用于对于所述用户标签关键词的第一关键词和所述兴趣类目关键词 中的第二关键词,将所述第一关键词和所述第二关键词的词向量之间的距离获取为所述第 一关键词和所述第二关键词的相似度,所述第一关键词为所述用户标签关键词中的任一个 关键词,所述第二关键词为所述兴趣类目关键词中的任一个关键词。
13. 根据权利要求12所述的装置,其特征在于,所述装置还包括: 分词模块,用于对预设语料库中的文本信息进行分词,得到所述文本信息的多个关键 词; 词向量获取模块,用于根据所述预设算法模型和所述多个关键词的预设初向量,对所 述多个关键词的向量表示进行计算,得到多个关键词对应的词向量。
14. 根据权利要求13所述的装置,其特征在于,所述词向量获取模块包括: 中间量获取单元,用于根据所述多个关键词中每一个关键词的预设初向量和所述多 个关键词中每一个关键词上下文的关键词的预设初向量,获取所述多个关键词对应的中间 量; 词向量获取单元,用于根据所述多个关键词对应的中间量、所述多个关键词中的当前 关键词的预设初向量和所述当前关键词上下文的关键词的预设初向量,获取所述多个关键 词对应的词向量。
15. 根据权利要求14所述的装置,其特征在于,所述中间量获取单元用于针对所述多 个关键词中的第k个,将所述多个关键词的第k个关键词的预设初向量和所述第k个关键 词上下文的关键词的预设初向量,应用公式
得到第k个关键词对应 的中间量;其中,f为所述第k个关键词上下文的关键词的预设初向量,&为所述第k个 关键词的预设初向量,21为所述第k个关键词上下文的关键词的个数;或,针对所述多个 关键词中的第k个,服务器将所述多个关键词的第k个关键词的预设初向量和所述第k个 关键词上下文的关键词的预设初向量,利用公式<=& ·&,得到第k个关键词对应的中间 量。
16. 根据权利要求14所述的装置,其特征在于,词向量获取单元用于根据得到的所述 多个关键词对应的中间量和所述多个关键词上下文的关键词的预设初向量,得到所述多个 关键词对应的词向量;根据得到的所述多个关键词对应的中间量和所述多个关键词关键词 的预设初向量,得到所述多个关键词上下文关键词的词向量;基于已经得到的所述多个关 键词对应的词向量和所述多个关键词上下文关键词的词向量,对所述多个关键词对应的词 向量进行训练。
17. 根据权利要求16所述的装置,其特征在于,所述词向量获取单元用于根据得 到的第k个关键词对应的中间量和所述第k个关键词上下文的关键词的预设初向量, 应用公式
,得到第k个关键词的词向量;或,根据得到的 第k个关键词对应的中间量和所述第k个关键词上下文的关键词的预设初向量,利用
公式 & " $得到第k个关键词的词向量;其中, gradCk = gradhj * C- ? gradhk=f (hk)-yk ;f (hk)为第k个关键词对应的中间量的逻辑回归函数,gradhk为第k个关 键词对应的中间量对应的梯度,为第k个关键词的词向量,为第k个关键 词上下文的关键词的词向量,yk为目标值,k为关键词的标号。
18. 根据权利要求16所述的装置,其特征在于,所述词向量获取单元用于根据得到的 第k个关键词对应的中间量和所述多个关键词的第k个关键词的预设初向量,应用公式 grat/f', = ,得到第k个关键词上下文关键词的词向量。
19. 根据权利要求16所述的装置,其特征在于,所述词向量获取单元用于所述多个关 键词中第k个关键词上下文关键词包括所述多个关键词中第k-Ι个关键词到第k+Ι个关键 词;对于所述多个关键词中第k+j个关键词,将已获取到的第k+j个关键词的词向量作为第 k+j个关键词的预设初向量,重新获取多个关键词对应的词向量其中,-1 < j < 1。
20. 根据权利要求13-19任一项所述的装置,其特征在于,所述多个关键词的预设初向 量的各个元素的取值范围为〇?1。
21. 根据权利要求13所述的装置,其特征在于,所述装置还包括: 更新模块,用于当用户标签和/或兴趣类目中具有新增关键词时,获取当前新闻信息 和论坛信息,以所述当前新闻信息和论坛信息为语料库,获取所述新增关键词对应的词向 量。
22. 根据权利要求12所述的装置,其特征在于,所述距离获取模块还用于根据所述用 户标签关键词中每一个关键词对应的词向量、所述兴趣类目关键词中每一个关键词对应的 词向量,计算所述用户标签关键词中每一个关键词对应的词向量与所述兴趣类目关键词中 每一个关键词对应的词向量之间夹角的余弦值;将词向量之间夹角的余弦值作为所述词向 量之间的距离。
23. -种服务器,其特征在于,所述服务器包括:处理器、存储器,所述处理器与所述处 理器相连接, 所述处理器,用于获取用户标签关键词和兴趣类目关键词; 所述处理器还用于根据所述用户标签关键词和兴趣类目关键词,查找预设数据库,得 到所述用户标签关键词中每一个关键词对应的词向量和所述兴趣类目关键词中每一个关 键词对应的词向量,所述预设数据库存储有关键词与词向量之间的对应关系,所述词向量 由所述关键词和所述关键词上下文的关键词确定; 所述处理器还用于根据所述用户标签关键词中每一个关键词对应的词向量、所述兴趣 类目关键词中每一个关键词对应的词向量,计算所述用户标签关键词中每一个关键词对应 的词向量与所述兴趣类目关键词中每一个关键词对应的词向量之间的距离; 所述处理器还用于对于所述用户标签关键词的第一关键词和所述兴趣类目关键词中 的第二关键词,将所述第一关键词和所述第二关键词的词向量之间的距离获取为所述第一 关键词和所述第二关键词的相似度,所述第一关键词为所述用户标签关键词中的任一个关 键词,所述第二关键词为所述兴趣类目关键词中的任一个关键词。
【文档编号】G06F17/30GK104090890SQ201310683046
【公开日】2014年10月8日 申请日期:2013年12月12日 优先权日:2013年12月12日
【发明者】汤煌 申请人:深圳市腾讯计算机系统有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1