一种基于TFIDF的迭代查询扩展方法与流程

文档序号:12121363阅读:376来源:国知局
一种基于TFIDF的迭代查询扩展方法与流程

本发明涉及一种迭代查询方法,具体为一种基于TFIDF的迭代查询扩展方法。



背景技术:

目前,查询扩展可以分为以下几种,基于用户反馈,基于关键词排名,基于全局分析和基于搜素引擎日志。

基于用户反馈的查询扩展是根据用户反馈来分析查询意图。用户使用搜索功能时,系统会返回相关的所有文档,根据用户的标记来分析返回结果,根据用户的标记可以从文档中选出用户认为相关的文档,作为用户查询词的扩展。

基于局部分析的查询扩展是根据搜索引擎搜索査询词的返回结果来进行扩展,和基于用户反馈的查询扩展相似。

基于全局分析的査询扩展是根据所有网络资源来做查询扩展,局部査询扩展是利用局部文档来做查询扩展。基于全局分析的查询扩展主要有两种:基于相似词典的査询扩展和基于统计词典的查询扩展。

基于搜索引擎日志的查询扩展是根据搜索引擎日志进行査询扩展。基于搜索引擎日志的査询扩展与其他几种査询扩展方法相比更直接,更能很好的反映用户的需求,因为搜索引擎中的查询词都是搜索引擎用户查询时使用的关键词。

基于局部分析的查询扩展在现有的研究中取得了较好的结果,因此本发明也是基于局部分析的查询扩展。

基于局部分析的查询扩展虽然取得了较好的结果,但是对搜索结果进行处理时不能很好的处理噪音,不能区分相关结果和相关结果,这对产生的扩展词的准确度有不好的影响。



技术实现要素:

本发明的目的在于提供一种基于TFIDF的迭代查询扩展方法及其制作方法,以解决上述背景技术中提出的问题。

本发明的目的是通过下述技术方案予以实现:一种基于TFIDF的迭代查询扩展方法,包括原始数据的输入、数据分析和数据特征提取以及数据的迭代,具体步骤如下:

(1)定义用户原查询词为Q,用户通过输入装置输入查询词Q;

(2)通过微博搜索功能搜索查询词Q;

(3)随后查询装置对搜索结果进行聚类、标记;

(4)随后统计聚类、标记中的每个词的TFIDF值,选取TFIDF值最大的前N个词作为扩展次Qt1。

在本发明一个较佳的实施例中,具体步骤如下:

(1)将上步骤得出的Qt1当作新的查询搜索词,重复以上的步骤,并的到新的查询词Qt2,得出Qt2后经搜索引擎判断是否满足迭代条件;

(2)上述搜索引擎进行迭代终止的条件是Qt1与Qt2相同,或者是迭代次数达到最大,最终得出Qtn。

在本发明一个较佳的实施例中,上述得出的Qtn为用户查询关键词最终的准确结果,随后检索引擎会根据Qtn扩展出若干个相似的结果,作为推荐查询结果。

本发明的有益效果是:发明目的是给出一种查询扩展方法,可以更好的理解用户查询意图,返回给用户相关合理的微博查询结果,在微博系统中,查询词通常很短,而一篇微博的字数通常在20~40之间,这很容易造成相关的微博由于没有包含查询词而丢失,因此查询扩展的目的是提高查询的召回率。

附图说明

图1为本发明实施例所公开的一种基于TFIDF的迭代查询扩展方法及其制作方法的整体流程图;

图2为本发明实施例所公开的一种基于TFIDF的迭代查询扩展方法及其制作方法的推特数据流示意图。

具体实施方式

下面结合具体实施方式进一步的说明,但是下文中的具体实施方式不应当做被理解为对本体发明的限制。本领域普通技术人员能够在本发明基础上显而易见地作出的各种改变和变化,应该均在发明的范围之内。

实施例1

一种基于TFIDF的迭代查询扩展方法,包括原始数据的输入、数据分析和数据特征提取以及数据的迭代,具体步骤如下:

(1)定义用户原查询词为Q,用户通过输入装置输入查询词Q;

(2)通过微博搜索功能搜索查询词Q;

(3)随后查询装置对搜索结果进行聚类、标记;

(4)随后统计聚类、标记中的每个词的TFIDF值,选取TFIDF值最大的前N个词作为扩展次Qt1。

在本发明一个较佳的实施例中,具体步骤如下:

(1)将上步骤得出的Qt1当作新的查询搜索词,重复以上的步骤,并的到新的查询词Qt2,得出Qt2后经搜索引擎判断是否满足迭代条件;

(2)上述搜索引擎进行迭代终止的条件是Qt1与Qt2相同,或者是迭代次数达到最大,最终得出Qtn。

在本发明一个较佳的实施例中,上述得出的Qtn为用户查询关键词最终的准确结果,随后检索引擎会根据Qtn扩展出若干个相似的结果,作为推荐查询结果。

上述得出的Qtn为用户查询关键词最终的准确结果,随后检索引擎会根据Qtn扩展出若干个相似的结果,作为推荐查询结果。

应用第一次迭代的查询的准确度为46.95%,应用最后一次迭代的查询的准确度为56.3%。迭代的查询扩展方法取得了较好的结果。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1