一种过滤搜索引擎查询结果的方法

文档序号:6609973阅读:173来源:国知局
专利名称:一种过滤搜索引擎查询结果的方法
技术领域
本发明涉及一种搜索技术,尤其涉及一种过滤搜索引擎查询结果的方法。
技术背景目前,用户通过互联网进行查询的过程通常为首先,在搜索引擎中直接 键入查询关键字,然后,在搜索引擎返回的众多查询结果中,选择用户当前所 需要的查询结果。但是这种单一地依赖查询关键字来获取查询结果的方式,获 得的查询结果不仅数量很大,而且往往搜索出很多用户并不需要的查询结果, 不能很好地匹配用户当前的查询需要。发明内容有鉴于此,本发明的主要目的在于提供一种过滤搜索引擎查询结果的方法, 对搜索引擎返回的查询结果进行了过滤和重新排序,用户能获得与当前查询需 要相匹配的查询结果。为达到上述目的,本发明的技术方案是这样实现的 一种过滤搜索引擎查询结果的方法,该方法包括以下步骤A、 用户端根据查询关键字发起查询请求;B、 从所述用户端的当前操作窗口中提取数据信息后,通过在所述查询关 键字与所述数据信息之间建立的关联,对所述搜索引擎返回的查询结果进行过 滤和重新排序。其中,步骤A进一步为用户端向搜索引擎发起查询请求;所述搜索引擎 将从其网络端数据库中查询到的查询结果返回给所述用户端; 相应的,步骤B具体为Bll、在所述查询关键字与所述数据信息之间建立关联,并将与所述查询关键字相关联的所述数据信息确定为用户当前的查询需要;B12、计算所述搜索引擎返回的査询结果与所述当前查询需要之间的相似 匹配程度,根据该相似匹配程度,对所述搜索引擎返回的查询结果进行过滤和 重新排序。其中,所述用户端向搜索引擎发起查询请求具体为在用户端设置有搜索代理单元,搜索代理单元设定不同的搜索引擎,用户 端通过所述搜索代理单元,向一个或一个以上搜索引擎发起查询请求。其中,在用户端设置有搜索代理单元,步骤A进一步为用户端向所述搜 索代理单元发起查询请求; 相应的,步骤B具体为B21、在所述查询关键字与所述数据信息之间建立关联,并将其他从用户 当前操作窗口数据信息中提取的关键信息确定为附加信息,将相关联的所述查 询关键字与所述数据信息以及所述附加信息相结合,设置为查询条件;B22、根据所述查询条件,所述用户端向所述搜索引擎发起查询请求;所 述搜索引擎将查询结果返回所述用户端,完成用户查询。其中,在所述查询关键字与所述数据信息之间建立关联进一步为计算所 述搜索引擎返回的査询结果与提取的所述数据信息之间的相似匹配程度;对所 述数据信息进行聚类处理。其中,所述聚类处理具体包括以下步骤XI、对当前操作窗口分类,提取所述操作窗口中的主题数据信息,获得对应各类操作窗口主题数据信息的向量特征;X2、计算所述主题数据信息与所述搜索引擎返回的查询结果的相似匹配程度并聚类;X3、对聚类得到的每类主题数据信息进行所述向量特征的合并,提取出这一类主题数据信息的特征向量。其中,步骤X1中提取所述操作窗口中的主题数据信息具体釆用的算法为 t"IDF;其中,tf为所述主题数据信息在所述当前操作窗口出现的频率,以统计方式获得的通用参数IDF为倒排文献频率。其中,步骤X2中所述计算相似匹配程度采用基于向量空间模型VSM的 VSM算法,VSM算法具体为其中,W、 V分别表示一个特征向量;W为从所述主题数据信息中提取出的向量,V为从所述搜索引擎返回的查询结果中提取出的向量,e为向量间夹角。其中,步骤X2进一步为X21、对相似匹配程度计算结果进行精确性校验,计算并获得精确的相似 匹配程度。其中,所釆用的精确性校正函数为凡,^tyv^ + li^以及y f(文本各特征词对应的类向量频率)2) ~"Z(类向量各维频率)2 /其中,T为待计算的主题数据信息;C为当前操作窗口中,聚类中心的主 题数据信息;Subjrela为当前搡作窗口中,聚类中心主题数据信息的相关系数; R为主题数据信息相关系数;P为向量相似匹配程度精确性校正系数;则所述精确的相似匹配程度为S一w,v,)x兄.x由于,用户进行的搜索操作通常与其当前正在从事的操作有关。比如,正 在编写文档,需要相关的文档材料;正在编写程序,需要相关的程序资料;正 在以即时通讯方式与别人谈论事情,需要针对某个具体问题搜索相关的详细信 息。因此,本发明根据用户搜索操作与其当前正在从事操作的相关性,在用户 输入的查询关键字与用户当前操作窗口中的数据信息之间建立关联,对搜索引 擎返回的查询结果进行过滤和重新排序。釆用本发明,对单一地依赖查询关键 字来获取查询结果的方式进行了完善,并对搜索引擎返回的查询结果进行了过滤和重新排序,过滤掉了很多用户并不需要的查询结果,这样的查询结果会更 加接近于用户当前的查询需求,用户能获得与当前查询需要相匹配的查询结果, 从而,降低了用户的查询工作量,大大提高了用户的查询效率。


图1为本发明的一个实施例的实现流程图。
具体实施方式
本发明的核心思想是在用户输入的查询关键字与用户当前操作窗口中的 数据信息之间建立关联,对搜索引擎返回的查询结果进行过滤和重新排序。釆 用本发明,用户能获得与当前查询需要相匹配的查询结果。为使本发明的目的、技术方案和优点更加清楚明白,以下举实施例并参照 附图,对本发明进一步详细说明。实施例一图l所示的过滤搜索引擎查询结果的方法,该方法包括以下步骤步骤101、在用户端,用户输入查询关键字,并根据查询关键字向搜索引 擎发起查询请求;搜索引擎在其网络端数据库中进行查询,并将从网络端数据 库中查询到的查询结果返回给用户端。其中,在用户端,用户根据查询关键字向搜索引擎发起查询请求具体为 在用户端设置有搜索代理单元,并根据搜索代理单元所设定的不同搜索引擎, 用户端通过搜索代理单元,向一个或一个以上搜索引擎发起查询请求。这里,搜索代理单元可以为一个搜索代理程序,用于向不同的搜索引擎发 起查询请求。比如,用户将"搜索"这一查询关键字输入至搜索代理程序中, 根据搜索代理程序所设定的不同搜索引擎,就能实现用户向搜索引擎发起的查 询请求。搜索引擎包括目前广泛应用的各种互联网搜索引擎以及用户桌面搜 索引擎。用户桌面搜索引擎是通过其对用户硬盘中所有文件建立的索引,根据 查询关键字,完成对用户硬盘的搜索功能。步骤102、搜索代理单元从用户端的当前操作窗口中提取数据信息后,在 用户输入的查询关键字与用户当前操作窗口中的数据信息之间建立关联,并将 与所述查询关键字相关联的所述数据信息确定为用户当前的查询需要。所谓建立关联指计算用户输入的查询关键字与用户当前操作窗口中的数 据信息的相关性。步骤103、将搜索引擎返回的查询结果与用户当前的查询需要进行相似度 匹配,并计算出两者之间的相似匹配程度;根据该相似匹配程度,对搜索引擎 返回的查询结果进行过滤和重新排序。这里,重新排序指釆用用户查询时, 搜索引擎返回的查询结果和提取出的用户当前的查询需要进行相似匹配程度计 算并根据这个相似匹配程度进行排序。其中,所谓排序指将最匹配的查询结果排在第一位,其他查询结果按照 相似匹配程度,由大到小呈降序排列,相似匹配程度越高的优先排序。实施例二一种过滤搜索引擎査询结果的方法,该方法包括以下步骤步骤201、在用户端,用户输入查询关键字,并向在用户端设置的搜索代 理单元发出查询请求。步骤202、搜索代理单元从用户端的当前操作窗口中提取数据信息后,在 用户输入的查询关键字与用户当前操作窗口中的数据信息之间建立关联,并将 其他从用户当前操作窗口数据信息中提取的关键信息作为附加信息,将相关联 的所述查询关键字与所述数据信息以及附加信息相结合,设置为查询条件。这里,关键信息指关键词,结合以关键词为附加信息的查询条件,缩小 了查询范围,能取得比实施例一更好的效果,提高了用户查询的效率。比如,用户当前正在看《绿茶》电影相关的信息,如果用户再次输入"绿 茶"作为查询关键词进行搜索,则搜索代理会发现"绿茶"与用户正在看的电 影相关信息有关,将"电影"这一关键信息作为附加信息,并把查询条件更改 为"绿茶"+ "电影"从而达到更准确检索的目的。实际上,用户当前操作窗口中的数据信息也是由关键词组成的,与用户输入查询关键词的区别仅仅在于查询关键词是由用户输入,数据信息由搜索代 理单元提取。步骤203、根据査询条件,用户端向搜索引擎发起查询请求,搜索引擎将查询结果返回用户端,完成用户查询。在实施例一中,步骤102中在所述查询关键字与所述数据信息之间建立关 联进一步为计算所述搜索引擎返回的查询结果与提取的所述数据信息之间的 相似匹配程度;对所述数据信息进行聚类处理。这里,聚类的数据信息的表现 形式是以类型划分的特征向量。相应的,根据查询关键字获得搜索引擎返回的 查询结果的表现形式也是特征向量。由于在用户桌面上,用户当前打开操作窗口的类型有很多,比如,当前打 开搡作窗口的类型包括word文档、邮件、网页,而且,每个类型有多个操作 窗口。那么,从所述操作窗口中提取出的数据信息会有很多。因此,需根据相 似匹配程度,对所述数据信息进行聚类处理,数据信息进行聚类处理后,把属 于相同类型的数据信息聚成类,并形成特征向量,得到聚类的数据信息。所述聚类处理具体包括以下步骤步骤al、对当前操作窗口分类,提取所述操作窗口中的主题数据信息,获 得对应各类操作窗口主题数据信息的向量特征。其中,提取所述操作窗口中的主题数据信息具体采用的算法可为tf x IDF; 其中,tf ( Term Frequency)为所述主题数据信息在所述当前操作窗口出现的频 率,以统计方式获得的通用参数IDF为倒排文献频率。倒排文献频率(IDF, Inverse Document Frequency )是以统计方式获得的一 个通用参数IDF,可以用于对操作窗口中数据信息的处理,IDF算法为<formula>formula see original document page 10</formula>其中,N为文献集中总文献数,n为出现特征词的文献频率 这里,文献集特指一个训练集, 一般是一个大规模的标注语料库,这些语 料库中的文献都是一定时期内具有时代特征的普遍性的文献,这样在大规模的训练库中训练出的词的IDF值就是比较符合统计规律的通用参数。这里,所述主题数据信息也可以称为关键词或主题词,所谓IDF指信息 检索中计算主题数据信息与文献的相关权重的经典算法,它不仅可以用于计算 关键字检索中关键字与相关文献的相关权重,而且可以用于计算文献自动分类 中主题词与相关文献的相关权重。IDF是计算主题数据信息与文献相关权重的 概率性表示方法。此外,另有一种信息论的表示法,就是基于香农(Shannon) 信息熵的表示方法。通过IDF算法可以去掉那些常用而不具备分类特征的词,如介词、副词等, 并获得词所具备的分类意义的概率,从而找出具有分类意义的词。通常在某些 文本中出现而在另外文本中不出现的词IDF值较高,也就是说这些词具有更髙 的类别特征。通过分析可以发现文本中具有意义特征的词是实词,并且主要是 名词、动词和动名词,可以通过训练的方法提取对分类和聚类特征具有较好效 果的关键词或主题词。所谓权重的计算指以词频、词长、词的文本IDF值作为权重计算因子, 计算当前操作窗口中每一特征、主题词的权重,用于确定主题词在文章中所蕴 含的信息量。步骤a2、计算所述主题数据信息与所述搜索引擎返回的查询结果的相似匹 配程度并聚类。其中,所述计算相似匹配程度釆用基于向量空间模型(VSM, VectorSpace Model)的VSM算法,VSM算法具体为若&'—w,,v;^义(义为一阈值),则认为两者是相似的。其中,W、 V分别表示一个特征向量;W为从所述主题数据信息中提取出的向量,V为从所述搜索引擎返回的查询结果中提取出的向量;e为向量间夹 角。e越大,Cose越小,所以当两个向量之间的夹角越小时,cose越大,说明向量之间的夹角越小,即相似匹配程度最大。这里,聚类算法有很多可以选择,如K近邻(K-means)、模糊聚类(Fuzzy C画means)、层次聚类(Hierarchical clustering )、高斯矩阵(Mixture of Gaussians )等。而且,单一的聚类算法并不能很好的满足要求,釆用复合的聚类算法才能 达到最佳的聚类效果。 步骤a2进一步为步骤a21、对相似匹配程度计算结果进行精确性校验,计算并获得精确的 相似匹配程度。这里,所釆用的精确性校正函数为<formula>formula see original document page 12</formula>其中,T为待计算的主题数据信息;C为当前操作窗口中,聚类中心的主 题数据信息;Subjrda为当前操作窗口中,聚类中心主题数据信息的相关系数; R为主题数据信息相关系数。尸为向量相似匹配程度精确性校正系数。 则精确的相似匹配程度为:S/—W,v》x凡x尸,。步骤a3、对聚类得到的每类主题数据信息进行向量特征的合并,提取出这 一类主题数据信息的特征向量。如果属于不同向量特征的主题数据信息之间的相似度很高,则需要把这些 向量合并成为一个向量来作为过滤和重排结果的依据,这个过程类似于找重心 的过程,合并的方法可以是简单的取各维向量平均值的方法。这样,可以有效 的对特征向量进行降维处理,并保持向量相似匹配程度计算的准确度。以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范
权利要求
1、一种过滤搜索引擎查询结果的方法,其特征在于,该方法包括以下步骤A、用户端根据查询关键字发起查询请求;B、从所述用户端的当前操作窗口中提取数据信息后,通过在所述查询关键字与所述数据信息之间建立的关联,对所述搜索引擎返回的查询结果进行过滤和重新排序。
2、 根据权利要求1所述的方法,其特征在于,步骤A进一步为用户端 向搜索引擎发起査询请求;所述搜索引擎将从其网络端数据库中查询到的查询 结果返回给所述用户端;相应的,步骤B具体为Bll、在所述査询关键字与所述数据信息之间建立关联,并将与所述查询 关键字相关联的所述数据信息确定为用户当前的查询需要;B12、计算所述搜索引擎返回的査询结果与所述当前查询需要之间的相似 匹配程度,根据该相似匹配程度,对所述搜索引擎返回的查询结果进行过滤和 重新排序。
3、 根据权利要求2所述的方法,其特征在于,所述用户端向搜索引擎发起 查询请求具体为在用户端设置有搜索代理单元,搜索代理单元设定不同的搜索引擎,用户 端通过所述搜索代理单元,向一个或一个以上搜索引擎发起查询请求。
4、 根据权利要求l所述的方法,其特征在于,在用户端设置有搜索代理单 元,步骤A进一步为用户端向所述搜索代理单元发起査询请求;相应的,步骤B具体为B21、在所述査询关键字与所述数据信息之间建立关联,并将其他从用户 当前操作窗口数据信息中提取的关键信息确定为附加信息,将相关联的所述查 询关键字与所述数据信息以及所述附加信息相结合,设置为查询条件;B22、根据所述查询条件,所述用户端向所述搜索引擎发起查询请求;所述搜索引擎将查询结果返回所述用户端,完成用户查询。
5、 根据权利要求l、 2或3所述的方法,其特征在于,在所述查询关键字与所述数据信息之间建立关联进一步为计算所述搜索引擎返回的查询结果与 提取的所述数据信息之间的相似匹配程度;对所述数据信息进行聚类处理。
6、 根据权利要求5所述的方法,其特征在于,所述聚类处理具体包括以下 步骤XI、对当前操作窗口分类,提取所述操作窗口中的主题数据信息,获得对 应各类操作窗口主题数据信息的向量特征;X2、计算所述主题数据信息与所述搜索引擎返回的查询结果的相似匹配程 度并聚类;X3、对聚类得到的每类主题数据信息进行所述向量特征的合并,提取出这 一类主题数据信息的特征向量。
7、 根据权利要求6所述的方法,其特征在于,步骤X1中提取所述操作窗 口中的主题数据信息具体釆用的算法为tfxIDF;其中,tf为所述主题数据信 息在所述当前操作窗口出现的频率,以统计方式获得的通用参数IDF为倒排文 献频率。
8、 根据权利要求6所述的方法,其特征在于,步骤X2中所述计算相似匹 配程度釆用基于向量空间模型VSM的VSM算法,VSM算法具体为其中,W、 V分别表示一个特征向量;W为从所述主题数据信息中提取出 的向量,V为从所述搜索引擎返回的查询结果中提取出的向量,e为向量间夹 角。
9、根据权利要求8所述的方法,其特征在于,步骤X2进一步为 xa、对相似匹配程度计算结果进行精确性校验,计算并获得精确的相似 匹配程度。
10、根据权利要求9所述的方法,其特征在于,所采用的精确性校正函数为义=一油+ 1^以及p.S f(文本各,!词^^,频率):Au y c, L X(类向量各维频率)其中,T为待计算的主题数据信息;C为当前操作窗口中,聚类中心的主 题数据信息;Subjrda为当前操作窗口中,聚类中心主题数据信息的相关系数; R为主题数据信息相关系数;尸为向量相似匹配程度精确性校正系数;则所述精确的相似匹配程度为S/m(w,,v.)x凡.x尸,。
全文摘要
本发明公开了一种过滤搜索引擎查询结果的方法,该方法包括以下步骤用户端根据查询关键字发起查询请求;从所述用户端的当前操作窗口中提取数据信息后,通过在所述查询关键字与所述数据信息之间建立的关联,对所述搜索引擎返回的查询结果进行过滤和重新排序。采用本发明,对搜索引擎返回的查询结果进行了过滤和重新排序,这样的查询结果会更加接近于用户当前的查询需求,用户能获得与当前查询需要相匹配的查询结果,从而,降低了用户的查询工作量,大大提高了用户的查询效率。
文档编号G06F17/30GK101334773SQ20071011808
公开日2008年12月31日 申请日期2007年6月28日 优先权日2007年6月28日
发明者昂 范 申请人:联想(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1