一种基于水利对象分类标签的分面检索系统及方法

文档序号:9200463阅读:774来源:国知局
一种基于水利对象分类标签的分面检索系统及方法
【技术领域】
[0001] 本发明涉及一种基于水利对象分类标签的分面检索系统及方法,属于智能信息检 索领域。
【背景技术】
[0002] 传统的水利领域信息搜索引擎对数据集中的关键词建立索引,当用户向搜索引擎 提交关键词查询请求时,搜索引擎通过关键词匹配的方式在数据库中进行检索,并将结果 反馈给用户。这种检索方式要求用户具有较高的专业领域知识背景,对于大众用户的支持 度不高;而用户的检索意图往往并不明确,用户需要的是探索式的检索,系统应该对用户的 检索进行引导;关键字检索只是采取关键字匹配,在关键字无匹配时会出现搜索结果为空 的情况,用户体验不好;检索结果是系统中全部记录的关键字匹配查询结果,无法聚焦于用 户所关注的领域,信息过载问题严重,容易使用户在检索过程中迷失。
[0003] 分面检索技术是一种基于分面理论的在数据集上进行探索性的检索技术,它具有 很强的检索结果分类能力,用户可以仅关注所感兴趣类别中的检索结果,忽略其它类别的 检索结果,从而能有效缓解信息过载问题。用户可以通过与分面目录的交互不断对检索结 果进行细化或泛化,无需用户关于数据集的先验知识,即可获得良好的检索结果,大大降低 了用户对相关领域知识的要求。同时分面检索的导航功能也可以引导用户进行检索,有效 避免检索结果为空的情况。但是,当前的分面检索技术大部分只关注分面与分面之间的关 系,对分面值与分面之间的关系考虑甚少,而水利业务系统用户往往对分面值关注较多,这 不能满足水利业务的需求,因此,在水利领域亟需一种能够满足用户业务需求的分面检索 方法。

【发明内容】

[0004] 发明目的:针对现有系统中存在的问题,本发明提出一种基于水利对象分类标签 的分面检索系统及方法,经分面检索技术引入到水利领域,以提高水利信息资源目录服务 系统的检索效率。
[0005] 本发明的思路是:利用资源分类标签构建分类标签库,由系统业务人员对注册录 入系统的元数据资源贴加标签,维护资源标签库以及索引库;获取用户查询请求后,首先基 于关键字检索得到初步检索结果集,通过频率统计以及相关性计算推荐分面,逐步细化,得 到精炼查询结果集,最后对检索结果进行排序返回用户,提高用户的查询效率。
[0006] 技术方案:一种基于水利对象分类标签的分面检索系统,包括如下模块:标签模 块,用于对水利数据资源元数据库中的元数据对象进行分类贴标签处理,同时对系统中的 分类标签进行管理;存储模块,用于存储水利数据资源元数据、分类标签库以及索引信息; 检索模块,用于根据用户的检索请求以及分面选择对元数据信息进行检索查询;
[0007] 所述标签模块,用于对分类标签库中的标签和索引库中的分类标签索引进行管 理,具体包括对多级分类标签的查询、添加、修改、删除等的管理操作,对元数据创建分类标 签索引,查询、修改、删除分类标签索引等的管理操作;
[0008] 所述存储模块,包含水利数据资源元数据库、分类标签库、索引库;其中水利数据 资源元数据库用于存储水利数据资源的元数据信息,元数据是数据的数据,采用XML文件 格式存储;分类标签库用于存储水利元数据对象的多级分类标签信息,该分类标签采用分 级策略,且至少包含两级;索引库用于存储对元数据信息构建的索引信息和元数据对应的 分类标签索引信息;
[0009] 所述检索模块,包含关键字检索模块,分面检索模块和检索结果排序模块;其中关 键字检索模块,用于根据用户的检索请求在系统索引库中进行全文关键字匹配,匹配结果 为初步结果集;分面检索模块,用于根据用户的选择对初步结果集进行精炼,结果为精炼结 果集;检索结果排序模块,用于对精炼结果集中的检索结果进行排序操作。
[0010] 进一步的,所述关键字检索模块,从用户的检索请求中提取用户输入的关键字,将 该关键字与索引库中的元数据索引信息进行匹配,取出全部匹配的元数据信息作为初步结 果集返回展示;
[0011] 所述分面检索模块,包含分面推荐单元和分面排序单元,分面推荐单元基于分面 推荐原则把最有价值的分面推荐给用户,分面排序单元基于水利领域的特殊性把用户最期 望获取的检索结果优先排列给用户显示;在未选定分面的情况下,系统首先推荐结果集中 覆盖率高的分面,当用户的分面选择产生后,该模块将基于用户选择的分面进行分面相关 性计算,把相关性高的分面推荐给用户,得到精炼查询结果。
[0012] 一种基于水利对象分类标签的分面检索方法,包含如下步骤:
[0013] S-I :根据业务需求制定水利对象分类标签,通过标签管理模块将水利对象分类标 签录入分类标签库;
[0014] S-2 :对注册录入的元数据进行贴加标签操作,构建分类标签索引;
[0015] S-3:获取用户查询请求,并进行分词处理,基于关键字查询对元数据资源进行查 询,得到初步检索结果集,具体包括如下步骤:
[0016] 步骤S-3-1 :获取用户查询请求,并进行分词处理,得到查询词集合;
[0017] 步骤S-3-2 :根据查询词集合,利用Iucene查询方法进行关键字查询;
[0018] 步骤S-3-3 :将匹配的结果即初步检索结果集高亮返回用户显示;
[0019] S-4 :根据覆盖率计算公式优先推荐覆盖率高的分面,用户选择分面后根据分面相 关性计算公式推荐相关性高的分面,逐步精炼,得到精炼检索结果集,具体包括如下步骤:
[0020] 步骤S-4-1 :由步骤S-3检索得到的初步结果集,计算初步检索结果集中的分面 数;
[0021] 步骤S-4-2 :根据关键字在分面中的匹配度推荐匹配度高的m个分面;
[0022] 步骤S-4-3 :根据分面相关性计算公式,计算每个分面的相关度,推荐相关度高的 m个分面显示;
[0023] 步骤S-4-4 :在推荐的每个分面中分别计算分面值的覆盖率,推荐覆盖率高的η个 分面值显示;
[0024] 步骤S-4-5 :获取用户选择分面检索请求,若是精炼结果请求,即选择某个特定 分面值,则转向步骤S-4-6 ;若是扩大结果请求,即取消某个分面值的选定,则转向步骤 S-4-7 ;
[0025] 步骤S-4-6 :获取用户选定的分面值,根据分面值检索结果集,得到精炼结果集; 转向步骤S-4-8 ;
[0026] 步骤S-4-7 :获取用户取消的分面值,根据分面值扩大结果集;转向步骤S-4-8 ;
[0027] 步骤S-4-8 :判断用户对精炼结果集是否满意,若是,转向步骤S-4-9,否则,转向 步骤S-4-3 ;
[0028] 步骤 S-4-9:结束。
[0029] S-5 :根据分面检索的精炼,对检索结果进行排序,将检索结果返回用户。
[0030] 所述步骤S-I中,分类标签采用分级策略,分类标签共分K级,各级标签存储于标 签库中。
[0031] 所述步骤S-4-2中,分面相关性计算公式如下:
[0032]

[0033] 其中,C(B)表示分面B所包含的数据集数量,C(B|A = p)表示在条件(A = P)JP 用户在A分面中选定分面值p的情况下,分面B所包含的数据集数量,Rab表示某一分面(分 面B)在用户选定特定的分面值(分面A中的分面值p)后的保持率,也即分面B与分面A 之间的相关性。保持率越高说明用户所选分面值对于该分面的影响越小,则该分面与用户 所选分面的相关性越大,优先推荐;反之,保持率越低说明用户所选分面值对于该分面的影 响越大,则该分面与用户所选分面的相关性越小,不推荐。
[0034] 所述步骤S-4-3中,分面值的覆盖率计算公式如下:
[0035]
(2)
[0036] 其中,ns(p)表示包含分面值p的元数据信息总数,113表示元数据信息总数,f (p) 代表分面值P的覆盖率。
[0037] 本发明采用上述技术方案,具有以下有益效果:采用分级标签对水利对象进行分 类,采用分面检索扩展基本的关键字检索,使用户聚焦于关注的领域,解决信息过载问题, 同时,采用分面推荐算法,提高检索效率。
【附图说明】
[0038] 图1为本发明实施例的基于水利对象分类标签的分面检索系统及方法;
[0039] 图2为本发明实施例的关键字检索的流程图;
[0040] 图3为本发明实施例的分面推荐的流程图。
【具体实施方式】
[0041] 下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明 而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价 形式的修改均落于本申请所附权利要求所限定的范围。
[0042] 如图1所示,基于水利对象分类标签的分面检索系统由标签模块、存储模块和检 索模块组成。
[0043] 标签模块包括标签管理模块,用于对水利对象分类标签的管理;存储模块包含水 利数据资源元数据库、分类标签库、索引库,水利数据资源元数据库是对水利业务长期实践 中积累的水利数据的描述,是关于水利数据的数据,采用XML文件格式存储,在索引库中建 有这些元数据的索引,并对其进行维护;分类标签是根据从不同维度对水利数据资源信息 的分类成果,在本发明实施例中采用如表1所示的分类标签形式。在建立了基本的分类标 签后,领域工程师还可以根据实际需要对水利对象分类标签进行管理,包括对多级分类标 签的查询、添加、修改、删除等的管理操作,对元数据创建分类标签索引,查询、修改、删除分 类标签索引等的管理操作。
[0044] 表 1
[0045]
[0046]
[0047] 检索模块,包含关键字检索模块,分面检索模块和检索结果排序模块;其中关键字 检索模块,用于根据用户的检索请求在系统索引库中进行全文关键字匹配,匹配结果为初 步结果集;分面检索模块,用于根据用户的选择对初步结果集进行精炼,结果为精炼结果 集;检索结果排序模块,用于对精炼结果集中的检索结果进行排序操作。
[0048] 关键字检索模块,从用户的检索请求中提取用户输入的关键字,将该关键字与索 引库中的元数据索引信息进行匹配,取出全部匹配的元数据信息作为初步结果集返回展 示;
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1