煤矿搜索引擎中检索结果聚类系统的制作方法

文档序号:6541432阅读:181来源:国知局
煤矿搜索引擎中检索结果聚类系统的制作方法
【专利摘要】本发明提出了一种煤矿搜索引擎中检索结果聚类系统,包括检索结果聚类及类别标签抽取装置,该装置包括搜索引擎服务器、文本检索结果聚类模块和类别标签抽取模块,煤矿搜索引擎服务器处理用户提交的查询请求,产生的初始检索结果经文本检索结果聚类模块后返回给用户。采用该系统后,可有效提高文本集的聚类速度,还可避免在选择相似度计算方法时的主观随意性。在数据对象合并成簇时,通过计算合并时产生的互信息损失来度量数据对象之间的相似关系,并在此基础上,提供检索结果文档的高质量分组。
【专利说明】煤矿搜索引擎中检索结果聚类系统
【技术领域】
[0001]本发明属于煤矿安全领域。
【背景技术】
[0002]在煤矿领域中,Internet信息总量的爆炸式增长为信息的使用和管理带来了一定挑战。准确、快捷的从如此庞杂无序的海量数据中发现用户需要的煤矿领域信息,成为一种极为迫切的需求。于是,信息检索技术在煤矿领域得到了深入的研究和广泛的应用。
[0003]搜索引擎是煤矿用户经常使用的工具性应用之一。在用户与Web搜索引擎之间一次典型的交互过程中,用户将特定的信息需求表达为一个查询,提交给Web搜索引擎;服务器对检索请求处理之后,返回一列检索结果。在这些结果中,一部分可能与用户的检索意图相关,一部分则可能完全无关。通常,用户希望最相关的结果排在检索结果的最前面。而事实上,相关结果与不相关结果往往混杂在一起,甚至是相关结果出现在不相关结果之后。
[0004]文档聚类技术能够揭示隐藏在Web数据之后具有潜在价值的信息或结构,是一种非常有效的检索结果再组织方法。文档聚类是Web挖掘领域中最重要的工具之一,其目的是将一个文档集合分成若干个簇,要求同一个簇内的文本内容具有较高的相似度,而不同簇之间的相似度尽可能小。每个聚类过程主要包括相似度计算方法和聚类算法两个部分。目前,研究者已经提出多种文档聚类算法,大致可分为4个类别,即层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法和其它聚类算法。
[0005]目前,在搜索引擎引擎的使用过程中,搜索的结果显示缺乏清晰的结构。搜索引擎得到的结果量非常巨大,然而显示结果却是一个线性列表,在这些结果中,一部分可能与用户的检索意图相关,一部分则可能完全无关。通常,用户希望最相关的结果排在检索结果的最前面。而事实上,相关结果与不相关结果往往混杂在一起,甚至是相关结果出现在不相关结果之后。用户如果想要通过搜索引擎找到需要的信息则必须逐个浏览返回的查询结果,这样不仅会浪费很多时间,而且不一定能够准确地找到相关的资料。
[0006]针对检索结果的聚类与普通的文档聚类有所不同,主要表现在检索结果聚类除了完成聚类过程之外,还需要抽取类别标签,前者对文本检索结果进行分组,后者则生成每个分组的描述信息。
[0007]基于以上分析,对于检索结果而言,仅仅提供一个按相关性排序的文档列表的传统显示方式表现出一定的不足,迫切需要对检索结果展开深入分析和加工。

【发明内容】

[0008]基于以上分析,本发明提出了一种煤矿搜索引擎中检索结果聚类系统,包括检索结果聚类及类别标签抽取装置,该装置包括搜索引擎服务器、文本检索结果聚类模块和类别标签抽取模块,煤矿搜索引擎服务器处理用户提交的查询请求,产生的初始检索结果经文本检索结果聚类模块后返回给用户;其中文本检索结果聚类模块中,采用以下方法进行数据分析:(I)初始化:将检索结果文档集合表示成
【权利要求】
1.煤矿搜索引擎中检索结果聚类系统,包括检索结果聚类及类别标签抽取装置,该装置包括搜索引擎服务器、文本检索结果聚类模块和类别标签抽取模块,煤矿搜索引擎服务器处理用户提交的查询请求,产生的初始检索结果经文本检索结果聚类模块后返回给用户;其中文本检索结果聚类模块中,采用以下方法进行数据分析:

(1)初始化:将检索结果文档集合表示成;
【文档编号】G06F17/30GK103886072SQ201410110171
【公开日】2014年6月25日 申请日期:2014年3月24日 优先权日:2014年3月24日
【发明者】刘永利, 赵珊, 王建芳, 雒芬, 赵建贵 申请人:河南理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1