一种基于语义的查询推荐方法和系统的制作方法

文档序号:9489511阅读:516来源:国知局
一种基于语义的查询推荐方法和系统的制作方法
【技术领域】
[0001] 本发明涉及信息检索领域,特别涉及一种基于语义的查询推荐方法和系统。
【背景技术】
[0002] 随着时代的发展,互联网也在世界范围内得到了蓬勃的发展,越来越多的人开始 在互联网上找寻所需要的信息。随着互联网上的信息越来越多,搜索引擎逐渐成为用户访 问网络资源所必不可少的工具,用户通过向搜索引擎输入查询,来反映自己的信息需求,搜 索引擎获取并分析用户查询,返回给用户需要的信息。但是并不是每一次的查询,用户都 能得到想要的结果。这是因为一方面用户在查询某样信息时,本身就这一方面知识缺乏了 解,难以构造出合适的查询;另一方面,由于搜索引擎技术方面原因,搜索引擎自身有时也 会混淆用户的查询;最后,由于自然语言的多义性,有些查询本身在不同语境下具有不同的 语义。比如,当用户输入"苹果"时,用户有可能是想搜索苹果科技公司,用户也有可能是想 搜索水果苹果,用户还有可能是想搜索一部叫《苹果》的电影。由于以上的种种原因,搜索 引擎很难保证在用户第一次输入时就能够给出让用户满意的结果。为了更好地了解用户的 查询意图,帮助用户构造好的查询,现代搜索引擎都提供了查询推荐的技术。
[0003]目前主流的查询推荐的方法有三种:一种是基于文档的方法,这类方法是通过处 理查询搜索出来的文档,以此作为反馈,进一步地理解用户意图,来扩充查询的语义。第二 种是基于查询日志的方法,是利用查询日志来获取相似的查询,利用查询日志记录的用户 信息,可以挖掘出查询词直接的联系。第三种是基于会话的方法,首先对搜索日志进行会话 划分,然后对每个会话利用关联规则、互信息和相似度算法度量查询间相关性。
[0004]目前,北京大学提出了一种基于用户日志进行查询推荐的方法及系统,根据用户 日志中的数据集得到相关的查询日志,并选择一些查询串作为训练集进行查询推荐;国际 商业机器公司根据用户输入的查询,从不同的搜索引擎中获得相对应的查询推荐集合进行 推荐;百度公司利用用户分组来进行推荐;百度公司还通过用户等级来构建查询推荐,该 方法根据用户的查询生成交互式问题,并将交互式问题提供到用户,根据用户对于交互式 问题的答案确定用户的等级,最后再利用用户的等级和搜索词生成查询推荐结果并提供至 用户。
[0005] 虽然查询推荐技术已经较为成熟,但是仍然存在着一些问题:
[0006] 第一,基于文档的方法需要外部文档,而且全局文档分析的时间复杂度高,受自然 语言处理技术限制,效果也不是很好,局部文档分析对于如何准确获取查询相关文档也是 一个难题,计算开销依然很大。
[0007] 第二,基于会话的方法需要先对查询日志进行准确的会话划分,而会话比查询更 少,直接依据统计信息依然存在着信息稀疏的问题。而基于点击信息的方法则非常依赖搜 索引擎的效果,而且用户点击结果中也存在着许多的噪音和偏向性,而且查询日志中的查 询也存在着稀疏性的问题。
[0008] 第三,传统的查询推荐方法一般只考虑点击信息或者只是查询词本身,很少会考 虑到查询词后的深层语义。这导致推荐出来的结果存在着准确度不高的情况。
[0009] 第四,由于查询日志的稀疏性,很多查询词在查询日志中出现的次数很少甚至都 没有出现。对于这些查询,传统的方法也很难给出好的查询推荐。

【发明内容】

[0010] 针对以上问题,本发明专利目的在于设计了一种基于语义的查询推荐方法和系 统,旨在增强推荐出的查询与原始查询的语义关联性,给用户推荐出更好的查询,满足用户 的查询需求。
[0011] 本发明是通过以下技术方案实现的:
[0012] 本发明提供一种基于语义的查询推荐方法,包括:
[0013] 根据用户历史查询日志数据得到历史查询词,将历史查询词映射成维基百科概 念,建立查询概念二元图;
[0014] 根据用户历史查询日志数据,将历史查询日志与点击URL对应起来,构建查询点 击URL二兀图,将用户的历史查询和点击行为记录在查询点击URL二兀图中;
[0015] 将所述查询概念二元图和查询点击URL二元图按照查询节点进行合并,形成概念 查询点击URL三元图,并建立三层随机游走模型;
[0016] 根据用户的输入查询词,利用所述三层随机游走模型计算输入查询词节点与概念 节点和URL节点之间的游走概率,将输入查询词节点按照游走概率从高到低排列,得到查 询推荐列表。
[0017] 进一步,本发明所述将历史查询词映射成维基百科概念,进一步包括:
[0018] 将维基百科文档进行加权的倒排索引,构造语义解释器;
[0019] 利用语义解释器将历史查询词映射成维基百科中的概念。
[0020] 进一步,本发明所述利用语义解释器将历史查询词映射成维基百科中的概念,进 一步包括:
[0021] 将历史查询词进行分词,每个分词与维基百科文档按照TF-IDF值来进行对应。
[0022] 进一步,本发明所述TF-IDF值计算公式如下:
[0024] 其中,TF-IDF值代表词i在文档j中出现的次数,nij是词i在文档j中出现的次 数,化是在文档j中所有字词的出现次数;Id|为语料库中的文件总数,| 屯} |为 包含了词i的文档个数。
[0025] 进一步,本发明所述在所述概念查询点击URL三元图上计算查询节点与概念节点 和URL节点之间的游走概率,计算公式如下:
[0027] 为一类节点A里的一个节点i一步转移到另一类节点B里的一个节点j的概 率,h为节点i和节点j连接的权值。
[0028] 进一步,本发明所述用户历史查询日志数据包括用户名称信息、用户查询内容信 息、点击的URL、查询的时间和点击的URL。
[0029] 进一步,本发明所述三层随机游走模型为三层马尔科夫随机游走模型.
[0030] 本发明还提供一种基于语义的查询推荐系统,包括:
[0031] 概念映射模块,用来根据用户历史查询日志数据得到历史查询词,将历史查询词 映射成维基百科概念,建立查询概念二元图;
[0032] 查询与点击URL对应模块,用来根据用户历史查询日志数据,将历史查询日志与 点击URL对应起来,构建查询点击URL二元图;
[0033] 三层随机游走模块,用来将所述查询概念二元图和查询点击URL二元图按照查询 节点进行合并,形成概念查询点击URL三元图,并建立三层随机游走模型;
[0034] 用户输入模块,用来输入用户查询词;
[0035] 查询推荐模块,用来利用所述三层随机游走模型计算输入查询词节点与概念节点 和URL节点之间的游走概率,将输入查询词节点按照游走概率从高到低排列得到查询推荐 列表对用户进行查询推荐。
[0036] 本发明提供的一种基于语义的查询推荐方法和系统,通过将查询映射成维基百科 的概念,扩展了查询的语义性,并将它与点击URL信息相结合,利用三层随机游走模型,将 查询推荐结果依游走概率从高到低进行排序,使得推荐结果在语义信息和点击URL信息上 都与原始的查询保持相关性,最终推荐出更为准确、相关性更好的查询,供用户使用,提高 用户的满意度。
【附图说明】
[0037] 以下参照附图对本发明实施例作进一步说明,其中:
[0038] 图1是本发明一种基于语义的查询推荐方法的查询概念二元图;
[0039] 图2是本发明一种基于
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1