关键词相似度获取方法、装置及服务器的制造方法

文档序号：6523574阅读：159来源：国知局

关键词相似度获取方法、装置及服务器的制造方法
【专利摘要】本发明公开了一种关键词相似度获取方法、装置及服务器，属于信息【技术领域】。该方法包括：获取用户标签关键词和兴趣类目关键词；根据该用户标签关键词和兴趣类目关键词，查找预设数据库，得到该用户标签关键词中每一个关键词的词向量和该兴趣类目关键词中每一个关键词的词向量；根据该用户标签关键词中每一个关键词的词向量、该兴趣类目关键词中每一个关键词的词向量，计算该用户标签关键词中每一个关键词的词向量与该兴趣类目关键词中每一个关键词的词向量之间的距离；将第一关键词和第二关键词的词向量之间的距离获取为该第一关键词和该第二关键词的相似度。本发明通过词向量获取关键词的相似度，提高推荐信息的准确率。
【专利说明】关键词相似度获取方法、装置及服务器

【技术领域】
[0001] 本发明涉及信息【技术领域】，特别涉及一种关键词相似度获取方法、装置及服务器。

【背景技术】
[0002] 随着信息技术的不断发展，如何将信息推荐给对该信息感兴趣的用户是亟需解决的问题。在向用户推荐信息时，一般需要获取用户标签中的关键词与用户的兴趣类目中的关键词之间的相似度，从而基于相似度，获取兴趣类目中的关键词的兴趣值，根据该兴趣值的大小向用户推荐信息。
[0003] 在获取相似度过程中，可以将搜搜百科全文和问问的问答内容作为语料集，以百科全文中的每个词条或者问问中的问答内容作为一篇文档，统计用户标签中的关键词与用户的兴趣类目中的关键词在语料库中出现的文档频率，即将用户的兴趣类目中的每一个关键词和用户标签中的每一个关键词到搜搜百科和问问的问答内容中进行全文检索，统计用户的兴趣类目中的每一个关键词和用户标签中的每一个关键词在语料库中共同出现的文档频率和各自出现的文档频率，并通过词与词结合紧密度的统计量算法，获取用户的兴趣类目中的每一个关键词和用户标签中的每一个关键词的相似度。
[0004] 在实现本发明的过程中，发明人发现现有技术至少存在以下问题：
[0005] 由于任意两个关键词的相似度完全依赖于它们在语料库中的文档频率，而且关键词在语料库中出现的文档数目占语料库中所有文档数目的比例大小极为不均，如两个关键词可能很少会在一个文档中出现，而两个关键词分别在文档中出现的频率却很高，使得获取到的相似度不能准确描述两个关键词之间的联系，以至于在后续向用户推荐信息的准确率以及成功率较低。

【发明内容】

[0006] 为了解决现有技术的问题，本发明实施例提供了一种关键词相似度获取方法、装置及服务器。所述技术方案如下：
[0007] 第一方面，提供了一种关键词相似度获取方法，所述方法包括：
[0008] 获取用户标签关键词和兴趣类目关键词；
[0009] 根据所述用户标签关键词和兴趣类目关键词，查找预设数据库，得到所述用户标签关键词中每一个关键词对应的词向量和所述兴趣类目关键词中每一个关键词对应的词向量，所述预设数据库存储有关键词与词向量之间的对应关系，所述词向量由所述关键词和所述关键词上下文的关键词确定；
[0010] 根据所述用户标签关键词中每一个关键词对应的词向量、所述兴趣类目关键词中每一个关键词对应的词向量，计算所述用户标签关键词中每一个关键词对应的词向量与所述兴趣类目关键词中每一个关键词对应的词向量之间的距离；
[0011] 对于所述用户标签关键词的第一关键词和所述兴趣类目关键词中的第二关键词，将所述第一关键词和所述第二关键词的词向量之间的距离获取为所述第一关键词和所述第二关键词的相似度，所述第一关键词为所述用户标签关键词中的任一个关键词，所述第二关键词为所述兴趣类目关键词中的任一个关键词。
[0012] 第二方面，提供了一种关键词相似度获取装置，所述装置包括：
[0013] 关键词获取模块，用于获取用户标签关键词和兴趣类目关键词；
[0014] 查询模块，用于根据所述用户标签关键词和兴趣类目关键词，查找预设数据库，得到所述用户标签关键词中每一个关键词对应的词向量和所述兴趣类目关键词中每一个关键词对应的词向量，所述预设数据库存储有关键词与词向量之间的对应关系，所述词向量由所述关键词和所述关键词上下文的关键词确定；
[0015] 距离获取模块，用于根据所述用户标签关键词中每一个关键词对应的词向量、所述兴趣类目关键词中每一个关键词对应的词向量，计算所述用户标签关键词中每一个关键词对应的词向量与所述兴趣类目关键词中每一个关键词对应的词向量之间的距离；
[0016] 相似度获取模块，用于对于所述用户标签关键词的第一关键词和所述兴趣类目关键词中的第二关键词，将所述第一关键词和所述第二关键词的词向量之间的距离获取为所述第一关键词和所述第二关键词的相似度，所述第一关键词为所述用户标签关键词中的任一个关键词，所述第二关键词为所述兴趣类目关键词中的任一个关键词。
[0017] 第三方面提供了一种服务器，所述服务器包括：处理器、存储器，所述处理器与所述处理器相连接，
[0018] 所述处理器，用于获取用户标签关键词和兴趣类目关键词；
[0019] 所述处理器还用于根据所述用户标签关键词和兴趣类目关键词，查找预设数据库，得到所述用户标签关键词中每一个关键词对应的词向量和所述兴趣类目关键词中每一个关键词对应的词向量，所述预设数据库存储有关键词与词向量之间的对应关系，所述词向量由所述关键词和所述关键词上下文的关键词确定；
[0020] 所述处理器还用于根据所述用户标签关键词中每一个关键词对应的词向量、所述兴趣类目关键词中每一个关键词对应的词向量，计算所述用户标签关键词中每一个关键词对应的词向量与所述兴趣类目关键词中每一个关键词对应的词向量之间的距离；
[0021] 所述处理器还用于对于所述用户标签关键词的第一关键词和所述兴趣类目关键词中的第二关键词，将所述第一关键词和所述第二关键词的词向量之间的距离获取为所述第一关键词和所述第二关键词的相似度，所述第一关键词为所述用户标签关键词中的任一个关键词，所述第二关键词为所述兴趣类目关键词中的任一个关键词。
[0022] 本发明实施例提供的技术方案带来的有益效果是：
[0023] 通过用低维向量来表示关键词，并基于关键词的上下文中关键词对词向量的表示进行学习，从而使得相同语义的关键词在向量空间距离较近，从而可以更好的描述用户标签和兴趣类目的相似度，提高了后续向用户推荐信息的准确率以及成功率。

【专利附图】

【附图说明】
[0024] 为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0025] 图1是本发明实施例提供的一种关键词相似度获取方法流程图；
[0026] 图2是本发明实施例提供的一种关键词相似度获取方法流程图；
[0027] 图3是本发明实施例提供的一种关键词相似度获取流程图；
[0028] 图4是本发明实施例提供的一种关键词相似度获取装置结构示意图；
[0029] 图5是本发明实施例提供的一种服务器结构示意图。

【具体实施方式】
[0030] 为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。
[0031] 图1是本发明实施例提供的一种关键词相似度获取方法流程图。参见图1，该实施例的执行主体为服务器，该方法包括：
[0032] 101、获取用户标签关键词和兴趣类目关键词。
[0033] 102、根据该用户标签关键词和兴趣类目关键词，查找预设数据库，得到该用户标签关键词中每一个关键词对应的词向量和该兴趣类目关键词中每一个关键词对应的词向量，该预设数据库存储有关键词与词向量之间的对应关系，该词向量由该关键词和该关键词上下文的关键词确定。
[0034] 103、根据该用户标签关键词中每一个关键词对应的词向量、该兴趣类目关键词中每一个关键词对应的词向量，计算该用户标签关键词中每一个关键词对应的词向量与该兴趣类目关键词中每一个关键词对应的词向量之间的距离。
[0035] 104、对于该用户标签关键词的第一关键词和该兴趣类目关键词中的第二关键词，将该第一关键词和该第二关键词的词向量之间的距离获取为该第一关键词和该第二关键词的相似度，该第一关键词为该用户标签关键词中的任一个关键词，该第二关键词为该兴趣类目关键词中的任一个关键词。
[0036] 本发明实施例提供的方法，通过用低维向量来表示关键词，并基于关键词的上下文中关键词对词向量的表示进行学习，从而使得相同语义的关键词在向量空间距离较近，从而可以更好的描述用户标签和兴趣类目的相似度，提高了后续向用户推荐信息的准确率以及成功率。
[0037] 可选地，该方法还包括：
[0038] 对预设语料库中的文本信息进行分词，得到该文本信息的多个关键词；
[0039] 根据该预设算法模型和该多个关键词的预设初向量，对该多个关键词的向量表示进行计算，得到多个关键词对应的词向量。
[0040] 可选地，根据预设算法模型和该多个关键词的预设初向量，对该多个关键词的向量表示进行计算，得到多个关键词对应的词向量包括：
[0041] 根据该多个关键词中每一个关键词的预设初向量和该多个关键词中每一个关键词上下文的关键词的预设初向量，获取该多个关键词对应的中间量；
[0042] 根据该多个关键词对应的中间量、该多个关键词中的当前关键词的预设初向量和该当前关键词上下文的关键词的预设初向量，获取该多个关键词对应的词向量。
[0043] 可选地，根据该多个关键词中每一个关键词的预设初向量和该多个关键词中每一个关键词上下文的关键词的预设初向量，获取该多个关键词对应的中间量包括：
[0044] 针对该多个关键词中的第k个，将该多个关键词的第k个关键词的预设初向量和该第k个关键词上下文的关键词的预设初向量，
[0045] 应用公式

【权利要求】
1. 一种关键词相似度获取方法，其特征在于，所述方法包括：获取用户标签关键词和兴趣类目关键词；根据所述用户标签关键词和兴趣类目关键词，查找预设数据库，得到所述用户标签关键词中每一个关键词对应的词向量和所述兴趣类目关键词中每一个关键词对应的词向量，所述预设数据库存储有关键词与词向量之间的对应关系，所述词向量由所述关键词和所述关键词上下文的关键词确定；根据所述用户标签关键词中每一个关键词对应的词向量、所述兴趣类目关键词中每一个关键词对应的词向量，计算所述用户标签关键词中每一个关键词对应的词向量与所述兴趣类目关键词中每一个关键词对应的词向量之间的距离；对于所述用户标签关键词的第一关键词和所述兴趣类目关键词中的第二关键词，将所述第一关键词和所述第二关键词的词向量之间的距离获取为所述第一关键词和所述第二关键词的相似度，所述第一关键词为所述用户标签关键词中的任一个关键词，所述第二关键词为所述兴趣类目关键词中的任一个关键词。
2. 根据权利要求1所述的方法，其特征在于，所述方法还包括：对预设语料库中的文本信息进行分词，得到所述文本信息的多个关键词；根据所述预设算法模型和所述多个关键词的预设初向量，对所述多个关键词的向量表示进行计算，得到多个关键词对应的词向量。
3. 根据权利要求2所述的方法，其特征在于，根据预设算法模型和所述多个关键词的预设初向量，对所述多个关键词的向量表示进行计算，得到多个关键词对应的词向量包括：根据所述多个关键词中每一个关键词的预设初向量和所述多个关键词中每一个关键词上下文的关键词的预设初向量，获取所述多个关键词对应的中间量；根据所述多个关键词对应的中间量、所述多个关键词中的当前关键词的预设初向量和所述当前关键词上下文的关键词的预设初向量，获取所述多个关键词对应的词向量。
4. 根据权利要求3所述的方法，其特征在于，根据所述多个关键词中每一个关键词的预设初向量和所述多个关键词中每一个关键词上下文的关键词的预设初向量，获取所述多个关键词对应的中间量包括：针对所述多个关键词中的第k个，将所述多个关键词的第k个关键词的预设初向量和所述第k个关键词上下文的关键词的预设初向量，应用公式
得到第k个关键词对应的中间量；其中，&为所述第k个关键词上下文的关键词的预设初向量，&为所述第k个关键词的预设初向量，21为所述第k个关键词上下文的关键词的个数；或，针对所述多个关键词中的第k个，服务器将所述多个关键词的第k个关键词的预设初向量和所述第k个关键词上下文的关键词的预设初向量，利用公式\ = A ，得到第k个关键词对应的中间量。
5. 根据权利要求3所述的方法，其特征在于，根据所述多个关键词对应的中间量、所述多个关键词中的当前关键词的预设初向量和所述当前关键词上下文的关键词的预设初向量，获取所述多个关键词对应的词向量包括：根据得到的所述多个关键词对应的中间量和所述多个关键词上下文的关键词的预设初向量，得到所述多个关键词对应的词向量；根据得到的所述多个关键词对应的中间量和所述多个关键词关键词的预设初向量，得到所述多个关键词上下文关键词的词向量；基于已经得到的所述多个关键词对应的词向量和所述多个关键词上下文关键词的词向量，对所述多个关键词对应的词向量进行训练。
6. 根据权利要求5所述的方法，其特征在于，根据得到的所述多个关键词对应的中间量和所述多个关键词上下文的关键词的预设初向量，得到所述多个关键词对应的词向量包括：根据得到的第k个关键词对应的中间量和所述第k个关键词上下文的关键词的预设初向量，应用公式
，得到第k个关键词的词向量；或，根据得到的第k个关键词对应的中间量和所述第k个关键词上下文的关键词的预设初向量，利用公式= <，得到第k个关键词的词向量；其中，
，gradhk=f (hk)_yk ; f (hk)为第k个关键词对应的中间量的逻辑回归函数，gradhk为第k个关键词对应的中间量对应的梯度，为第k个关键词的词向量，为第k个关键词上下文的关键词的词向量，yk为目标值，k为关键词的标号。
7. 根据权利要求5所述的方法，其特征在于，根据得到的所述多个关键词对应的中间量和所述多个关键词关键词的预设初向量，得到所述多个关键词上下文关键词的词向量包括：根据得到的第k个关键词对应的中间量和所述多个关键词的第k个关键词的预设初向量，应用公式=grai//vG，得到第k个关键词上下文关键词的词向量。
8. 根据权利要求5所述的方法，其特征在于，基于已经得到的所述多个关键词对应的词向量和所述多个关键词上下文关键词的词向量，对所述多个关键词对应的词向量进行训练包括：所述多个关键词中第k个关键词上下文关键词包括所述多个关键词中第k-Ι个关键词到第k+Ι个关键词；对于所述多个关键词中第k+j个关键词，将已获取到的第k+j个关键词的词向量作为第k+j个关键词的预设初向量，重新获取多个关键词对应的词向量其中，-1 < j < 1。
9. 根据权利要求2-8任一项所述的方法，其特征在于，所述多个关键词的预设初向量的各个元素的取值范围为0?1。
10. 根据权利要求2所述的方法，其特征在于，根据所述预设算法模型和所述多个关键词的预设初向量，对所述多个关键词的向量表示进行计算，得到多个关键词对应的词向量之后，所述方法还包括：当用户标签和/或兴趣类目中具有新增关键词时，获取当前新闻信息和论坛信息，以所述当前新闻信息和论坛信息为语料库，获取所述新增关键词对应的词向量。
11. 根据权利要求1所述的方法，其特征在于，根据所述用户标签关键词中每一个关键词对应的词向量、所述兴趣类目关键词中每一个关键词对应的词向量，计算所述用户标签关键词中每一个关键词对应的词向量与所述兴趣类目关键词中每一个关键词对应的词向量之间的距离包括：根据所述用户标签关键词中每一个关键词对应的词向量、所述兴趣类目关键词中每一个关键词对应的词向量，计算所述用户标签关键词中每一个关键词对应的词向量与所述兴趣类目关键词中每一个关键词对应的词向量之间夹角的余弦值；将词向量之间夹角的余弦值作为所述词向量之间的距离。
12. -种关键词相似度获取装置，其特征在于，所述装置包括：关键词获取1吴块，用于获取用户标签关键词和兴趣类目关键词；查找模块，用于根据所述用户标签关键词和兴趣类目关键词，查找预设数据库，得到所述用户标签关键词中每一个关键词对应的词向量和所述兴趣类目关键词中每一个关键词对应的词向量，所述预设数据库存储有关键词与词向量之间的对应关系，所述词向量由所述关键词和所述关键词上下文的关键词确定；距离获取模块，用于根据所述用户标签关键词中每一个关键词对应的词向量、所述兴趣类目关键词中每一个关键词对应的词向量，计算所述用户标签关键词中每一个关键词对应的词向量与所述兴趣类目关键词中每一个关键词对应的词向量之间的距离；相似度获取模块，用于对于所述用户标签关键词的第一关键词和所述兴趣类目关键词中的第二关键词，将所述第一关键词和所述第二关键词的词向量之间的距离获取为所述第一关键词和所述第二关键词的相似度，所述第一关键词为所述用户标签关键词中的任一个关键词，所述第二关键词为所述兴趣类目关键词中的任一个关键词。
13. 根据权利要求12所述的装置，其特征在于，所述装置还包括：分词模块，用于对预设语料库中的文本信息进行分词，得到所述文本信息的多个关键词；词向量获取模块，用于根据所述预设算法模型和所述多个关键词的预设初向量，对所述多个关键词的向量表示进行计算，得到多个关键词对应的词向量。
14. 根据权利要求13所述的装置，其特征在于，所述词向量获取模块包括：中间量获取单元，用于根据所述多个关键词中每一个关键词的预设初向量和所述多个关键词中每一个关键词上下文的关键词的预设初向量，获取所述多个关键词对应的中间量；词向量获取单元，用于根据所述多个关键词对应的中间量、所述多个关键词中的当前关键词的预设初向量和所述当前关键词上下文的关键词的预设初向量，获取所述多个关键词对应的词向量。
15. 根据权利要求14所述的装置，其特征在于，所述中间量获取单元用于针对所述多个关键词中的第k个，将所述多个关键词的第k个关键词的预设初向量和所述第k个关键词上下文的关键词的预设初向量，应用公式
得到第k个关键词对应的中间量；其中，f为所述第k个关键词上下文的关键词的预设初向量，&为所述第k个关键词的预设初向量，21为所述第k个关键词上下文的关键词的个数；或，针对所述多个关键词中的第k个，服务器将所述多个关键词的第k个关键词的预设初向量和所述第k个关键词上下文的关键词的预设初向量，利用公式<=& ·&，得到第k个关键词对应的中间量。
16. 根据权利要求14所述的装置，其特征在于，词向量获取单元用于根据得到的所述多个关键词对应的中间量和所述多个关键词上下文的关键词的预设初向量，得到所述多个关键词对应的词向量；根据得到的所述多个关键词对应的中间量和所述多个关键词关键词的预设初向量，得到所述多个关键词上下文关键词的词向量；基于已经得到的所述多个关键词对应的词向量和所述多个关键词上下文关键词的词向量，对所述多个关键词对应的词向量进行训练。
17. 根据权利要求16所述的装置，其特征在于，所述词向量获取单元用于根据得到的第k个关键词对应的中间量和所述第k个关键词上下文的关键词的预设初向量，应用公式
，得到第k个关键词的词向量；或，根据得到的第k个关键词对应的中间量和所述第k个关键词上下文的关键词的预设初向量，利用
公式 & " $得到第k个关键词的词向量；其中， gradCk = gradhj * C- ? gradhk=f (hk)-yk ;f (hk)为第k个关键词对应的中间量的逻辑回归函数，gradhk为第k个关键词对应的中间量对应的梯度，为第k个关键词的词向量，为第k个关键词上下文的关键词的词向量，yk为目标值，k为关键词的标号。
18. 根据权利要求16所述的装置，其特征在于，所述词向量获取单元用于根据得到的第k个关键词对应的中间量和所述多个关键词的第k个关键词的预设初向量，应用公式 grat/f', = ,得到第k个关键词上下文关键词的词向量。
19. 根据权利要求16所述的装置，其特征在于，所述词向量获取单元用于所述多个关键词中第k个关键词上下文关键词包括所述多个关键词中第k-Ι个关键词到第k+Ι个关键词；对于所述多个关键词中第k+j个关键词，将已获取到的第k+j个关键词的词向量作为第 k+j个关键词的预设初向量，重新获取多个关键词对应的词向量其中，-1 < j < 1。
20. 根据权利要求13-19任一项所述的装置，其特征在于，所述多个关键词的预设初向量的各个元素的取值范围为〇?1。
21. 根据权利要求13所述的装置，其特征在于，所述装置还包括：更新模块，用于当用户标签和/或兴趣类目中具有新增关键词时，获取当前新闻信息和论坛信息，以所述当前新闻信息和论坛信息为语料库，获取所述新增关键词对应的词向量。
22. 根据权利要求12所述的装置，其特征在于，所述距离获取模块还用于根据所述用户标签关键词中每一个关键词对应的词向量、所述兴趣类目关键词中每一个关键词对应的词向量，计算所述用户标签关键词中每一个关键词对应的词向量与所述兴趣类目关键词中每一个关键词对应的词向量之间夹角的余弦值；将词向量之间夹角的余弦值作为所述词向量之间的距离。
23. -种服务器，其特征在于，所述服务器包括：处理器、存储器，所述处理器与所述处理器相连接，所述处理器，用于获取用户标签关键词和兴趣类目关键词；所述处理器还用于根据所述用户标签关键词和兴趣类目关键词，查找预设数据库，得到所述用户标签关键词中每一个关键词对应的词向量和所述兴趣类目关键词中每一个关键词对应的词向量，所述预设数据库存储有关键词与词向量之间的对应关系，所述词向量由所述关键词和所述关键词上下文的关键词确定；所述处理器还用于根据所述用户标签关键词中每一个关键词对应的词向量、所述兴趣类目关键词中每一个关键词对应的词向量，计算所述用户标签关键词中每一个关键词对应的词向量与所述兴趣类目关键词中每一个关键词对应的词向量之间的距离；所述处理器还用于对于所述用户标签关键词的第一关键词和所述兴趣类目关键词中的第二关键词，将所述第一关键词和所述第二关键词的词向量之间的距离获取为所述第一关键词和所述第二关键词的相似度，所述第一关键词为所述用户标签关键词中的任一个关键词，所述第二关键词为所述兴趣类目关键词中的任一个关键词。
【文档编号】G06F17/30GK104090890SQ201310683046
【公开日】2014年10月8日申请日期:2013年12月12日优先权日:2013年12月12日
【发明者】汤煌申请人:深圳市腾讯计算机系统有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汤煌
技术所有人：深圳市腾讯计算机系统有限公司
我是此专利的发明人

上一篇：一种流量控制方法及系统的制作方法
上一篇：一种自动调整光标位置的方法、装置及移动终端的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。