查询词相似度计算方法及装置、查询词搜索方法及装置的制造方法

文档序号:9326867阅读:200来源:国知局
查询词相似度计算方法及装置、查询词搜索方法及装置的制造方法
【技术领域】
[0001] 本申请涉及计算机技术领域,尤其涉及查询词相似度计算方法及装置、查询词搜 索方法及装置。
【背景技术】
[0002] 随着科学技术的进步,搜索应用的种类逐渐增加。在使用搜索应用的过程中,一般 需要计算两个查询词之间的相似度。例如,当用户在搜索栏中输入一个语义较少的查询词 (stnb)时,需要在该查询词(stnb)具有较高相似度的查询词中,获得一个语义较为丰富的 查询词(神偷奶爸),以便处理器可以依据语义较为丰富的查询词(神偷奶爸)快速准确地 检索到与该查询词(stnb)对应的网页。
[0003]目前,计算两个查询词相似度的方式有多种,例如:按两个查询词中每个汉字是否 相同的方式来计算两个查询词之间的相似概率,两个查询词之间的相似概率越大则代表两 个查询词的相似度越高,两个查询词之间相似概率越小,则代表两个查询词之间的相似度 越小。可见,现有计算查询词相似度的方式均停留在计算两个查询词的字样是否相同的阶 段。
[0004] 但是在一些情况下,两个查询词的字样相差很多但语义却高度一致;如,一个查询 词为"stnb",另一查询词为"神偷奶爸"(神偷奶爸的拼音的首字母为stnb)。理论上两个 查询词相似度应该非常高,但是利用现有技术计算这两个查询词的字样相似度时,却得到 非常低的相似度。这会导致计算得到两个查询词相似度有误,进而导致处理器在使用相似 度进行相关搜索时,无法快速、准确地检索与查询词相关的网页。
[0005] 所以,现在需要一种新的查询词相似度的计算方法,从而来准确确定两个查询词 之间的相似度,以便处理器依据相似度可以快速准确的检索与查询词相关的网页。

【发明内容】

[0006] 本申请提供了查询词相似度计算方法,本方法可以准确确定两个查询词之间的相 似度,以便处理器依据相似度可以快速准确的检索与查询词相关的网页。
[0007] 为了实现上述目的,可以采用以下技术手段:
[0008] -种查询词相似度的计算方法,包括:
[0009] 确定与第一查询词对应的第一特征向量集合,及,与第二查询词对应的第二特征 向量集合;其中,所述第一特征向量集合和所述第二特征向量集合依据历史搜索日志确定, 所述历史搜索日志包含真实用户针对所述第一查询词而发生的点击网页行为的日志数据, 以及,在真实用户针对所述第二查询词而发生的点击网页行为的日志数据;
[0010] 计算所述第一特征向量集合和所述第二特征向量集合的特征相似度;
[0011] 在所述第一查询词和所述第二查询词均满足预设条件的情况下,将所述特征相似 度确定为所述第一查询词和第二查询词之间的查询词相似度。
[0012] 优选的,还包括:
[0013] 计算所述第一查询词和所述第二查询词之间的字样相似度;
[0014] 在所述第一查询词和所述第二查询词均不满足预设条件的情况下,将所述字样相 似度确定为所述第一查询词与所述第二查询词之间的查询词相似度。
[0015] 优选的,还包括:
[0016] 计算所述第一查询词和所述第二查询词之间的字样相似度;
[0017] 在所述第一查询词和所述第二查询词其中一个不满足预设条件的情况下,将所述 特征相似度和所述字样相似度的结合结果,确定为所述第一查询词与所述第二查询词之间 的查询词相似度。
[0018] 优选的,所述计算所述第一特征向量集合和所述第二特征向量集合的相似度,包 括:
[0019] 在所述第一特征向量集合和所述第二特征向量集合中,计算每对相同类型的特征 向量之间的夹角余弦,得到一个或多个夹角余弦;其中,所述第一特征向量集合包括由历史 搜索日志中提取的、与所述第一查询词对应的一个或多个类型的特征向量;所述第二特征 向量集合包括由所述历史搜索日志中提取的、与所述第二查询词对应的所述一个或多个类 型的特征向量;
[0020] 计算所述一个或多个夹角余弦之间的拟合结果;
[0021] 将所述拟合结果确定为所述第一特征向量集合和所述第二特征向量集合的特征 相似度。
[0022] 优选的,所述第一特征向量集合包括:由第一标题词语集合中每个标题词语的点 击次数所构建的第一标题特征向量;
[0023] 相应的,所述第二特征向量集合包括:由第二标题词语集合中每个标题词语的点 击次数所构建的第二标题特征向量;
[0024] 其中,所述第一标题词语集合为在所述历史搜索日志中由所述第一查询词对应的 所有点击网页中提取到的所有网页标题的集合,所述第二标题词语集合为在所述历史搜索 曰志中由所述第二查询词对应的所有点击网页中提取到的所有网页标题的集合;或者,所 述第一标题词语集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页中 提取到的所有网页标题,并将所有网页标题进行二元分词后得到的分词结果的集合;所述 第二标题词语集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页中提 取到的所有网页标题,并将所有网页标题进行二元分词后得到的分词结果的集合。
[0025] 优选的,所述第一特征向量集合包括:由第一网页网址集合中每个网页网址的点 击次数所构建的第一网址特征向量;其中,所述第一网页网址集合为在所述历史搜索日志 中由所述第一查询词对应的所有点击网页的网址的集合;
[0026] 相应的,所述第二特征向量集合包括:由第二网页网址集合中每个网页网址的点 击次数所构建的第二网址特征向量;其中,所述第二网页网址集合为在所述历史搜索日志 中由所述第二查询词对应的所有点击网页的网址的集合。
[0027] 优选的,所述第一特征向量集合包括:由第一相关查询词词语集合中每个相关查 询词词语的点击次数所构建的第一相关查询词特征向量;
[0028] 相应的,所述第二特征向量集合包括:由第二相关查询词词语集合中每个相关查 询词词语的点击次数所构建的第二相关查询词特征向量;
[0029] 其中,所述第一相关查询词词语集合为与所述第一查询词相关联的相关查询词的 集合,所述第二相关查询词词语集合为:与所述第二查询词相关联的相关查询词的集合; 或者,所述第一相关查询词词语集合为与所述第一查询词相关联的相关查询词进行二元分 词后得到分词结果的集合;与所述第二查询词相关联的相关查询词进行二元分词后得到分 词结果的集合;其中,在所述历史搜索日志中所述第一查询词和所述第一查询词的相关查 询词对应的点击网页相同,在所述历史搜索日志中所述第二查询词和所述第二查询词的相 关查询词对应的点击网页相同。
[0030] 优选的,所述计算所述第一查询词和所述第二查询词之间的字样相似度,包括:
[0031] 确定与所述第一查询词对应的第一查询词集合,及,与所述第二查询词对应的第 二查询词集合;
[0032] 将所述第一查询词集合和所述第二查询词集合之间的字样重叠度,确定为所述第 一查询词和所述第二查询词的字样相似度。
[0033] 优选的,所述计算所述第一查询词和所述第二查询词之间的字样相似度,包括:
[0034] 确定与所述第一查询词对应的第一查询词集合中每个词语的出现次数所构建的 第一查询词特征向量,和,与所述第二查询词对应的第二查询词集合中每个词语的出现次 数所构建的第二查询词特征向量;
[0035] 将所述第一查询词特征向量和所述第二查询词特征向量之间的夹角余弦,确定为 所述第一查询词和所述第二查询词的字样相似度。
[0036] 优选的,所述第一查询词集合包含所述第一查询词或所述第一查询词进行二元分 词的分词结果,相应的,所述第二查询词特征向量中包含所述第二查询词或所述第二查询 词进行二元分词的分词结果;
[0037] 和 / 或,
[0038] 所述第一查询词集合包含与所述第一查询词相关联的相关查询词或相关查询词 进行二元分词后的分词结果,所述第二查询词集合包含与所述第二查询词相关联的相关查 询词或相关查询词进行二元分词后的分词结果;
[0039] 和 / 或,
[0040] 所述第一查询词集合包含所述第一查询词的近义词集或该近义词集进行二元分 词后的分词结果;所述第二查询词集合包含所述第二查询词的近义词集或该近义词集进行 二元分词后的分词结果。
[0041] 优选的,所述预设条件包括:
[0042] 查询词的搜索次数大于预设次数。
[0043] -种查询词搜索方法,其特征在于,包括:
[0044] 获取待查询查询词;
[0045] 在查询词相似度数据库中,查找与所述待查询查询词相似度最大的目标查询词; 其中,所述查询词相似度数据库包含各个查询查询词之间查询词相似度,各个查询查询词 之间的查询词相似度为依据权利要求1所述的方法得到的;
[0046] 将所述目标查询词代替所述待查询查询词,搜索与所述待查询查询词相关的网 页。
[0047] -种查询词相似度的计算装置,包括:
[0048] 确定集合单元,用于确定与第一查询词对应的第一特征向量集合,及,与第二查询 词对应的第二特征向量集合;其中,所述第一特征向量集合和所述第二特征向量集合依据 历史搜索日志确定,所述历史搜索日志包含真实用户针对所述第一查询词而发生的点击网 页行为的日志数据,以及,在真实用户针对所述第二查询词而发生的点击网页行为的日志 数据;
[0049] 计算特征相似度单元,用于计算所述第一特征向量集合和所述第二特征向量集合 的特征相似度;
[0050] 第一确定相似度单元,用于在所述第一查询词和所述第二查询词均满足预设条件 的情况下,将所述特征相似度确定为所述第一查询词和第二查询词之间的查询词相似度。
[0051] 优选的,还包括:
[0052] 计算字样相似度单元,用于计算所述第一查询词和所述第二查询词之间的字样相 似度;
[0053] 第二确定相似度单元,用于在所述第一查询词和所述第二查询词均不满足预设条 件的情况下,将所述字样相似度确定为所述第一查询词与所述第二查询词之间的查询词相 似度。
[0054] 优选的,还包括:
[0055] 计算字样相似度单元,用于计算所述第一查询词和所述第二查询词之间的字样相 似度;
[0056] 第三确定相似度单元,用于在所述第一查询词和所述第二查询词其中一个不满足 预设条件的情况下,将所述特征相似度和所述字样相似度的结合结果,确定为所述第一查 询词与所述第二查询词之间的查询词相似度。
[0057] 优选的,所述计算特征相似度单元,包括:
[0058] 计算余弦单元,用于在所述第一特征向量集合和所述第二特征向量集合中,计算 每对相同类型的特征向量之间的夹角余弦,得到一个或多个夹角余弦;其中,所述第一特征 向量集合包括由历史搜索日志中提取的、与所述第一查询词对应的一个或多个类型的特征 向量;所述第二特征向量集合包括由所述历史搜索日志中提取的、与所述第二查询词对应 的所述一个或多个类型的特征向量;
[0059] 拟合单元,用于计算所述一个或多个夹角余弦之间的拟合结果;
[0060] 确定特征相似度单元,用于将所述拟合结果确定为所述第一特征向量集合和所述 第二特征向量集合的特征相似度。
[0061] 优选的,所述第一特征向量集合包括:由第一标题词语集合中每个标题词语的点 击次数所构建的第一标题特征向量;
[0062] 相应的,所述第二特征向量集合包括:由第二标题词语集合中每个标题词语的点 击次数所构建的第二标题特征向量;
[0063] 其中,所述第一标题词语集合为在所述历史搜索日志中由所述第一查询词对应的 所有点击网页中提取到的所有网页标题的集合,所述第二标题词语集合为在所述历史搜索 曰志中由所述第二查询词对应的所有点击网页中提取到的所有网页标题的集合;或者,所 述第一标题词语集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页中 提取到的所有网页标题,并将所有网页标题进行二元分词后得到的分词结果的集合;所述 第二标题词语集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页中提 取到的所有网
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1