一种计算全文检索查全率的方法及装置的制造方法

文档序号:8380993阅读:167来源:国知局
一种计算全文检索查全率的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及计算机软件测试技术领域,具体涉及一种计算全文检索查全率的方法 及装置。
【背景技术】
[0002] 信息时代产生了大量数字信息,其中文本信息是最基本和常用的一种形式。为了 能在海量的文本信息中找到自己的所需,人们迫切需要一个高效的检索工具,因此全文检 索技术成为国内外学者研宄的热点。全文检索(Full-text Retrieval)技术起源于20世 纪50年代末,以各类数据为处理对象,提供依照数据资料的内容而不是外在特征来实现的 信息检索手段,其主旨在于将与用户查询最相关的结果最先呈现给用户,提高用户体验,典 型应用如各类搜索引擎。
[0003] 随着大数据时代的到来及互联网的兴起,全文检索技术与云计算、分布式等技术 相结合,提供基于海量数据的即时查询,得到广泛的应用。当前与全文检索相关的研宄大都 集中在如何提高排序靠前数据的相关性方面,现有自然语言的切词方面会舍弃一些虚词等 以提高索引效率,其结果将会导致部分数据失真。
[0004] 目前,搜索引擎主要针对提高普通的使用自然语言的用户体验,但是应用于一些 比较反常规的领域,如国安、情报等领域,就会导致部分信息不能出现在结果集中,而且对 查全率的计算并没有一种有效可靠的方法。当前全文检索的查全率一般是通过估算方式给 出,与实际有较大偏差,不能准确评价被测系统。因此需要建立一种准确的计算全文检索查 全率的方法,为系统改进提供依据。

【发明内容】

[0005] 本发明提供一种计算全文检索查全率的方法及装置,以解决现有技术中有效且可 操作的计算全文检索查全率的方法的缺失问题。
[0006] 第一方面,本发明实施例公开了一种计算全文检索查全率的方法,该方法包括: 获取被测系统中的至少一个测试元素,以及存储于数据库系统的所述至少一个测试元 素; 根据所述至少一个测试元素,创建至少一个查询关键词及其扩展关键词; 根据每个所述查询关键词及其扩展关键词,对应从所述被测系统中的至少一个测试元 素中获取一个第一查询结果,对应从所述存储于数据库系统的所述至少一个测试元素中获 取一个第二查询结果; 根据所述第一查询结果和所述第二查询结果,计算所述被测系统的查全率。
[0007] 结合第一方面,在第一种可能的实现方式中,所述获取被测系统中的至少一个测 试元素,以及存储于数据库系统的所述至少一个测试元素包括: 获取被测系统中的至少一个测试元素; 转换所述测试元素的存储类型,生成适合数据库系统存储的测试元素; 将所述适合数据库存储的至少一个测试元素存储于数据库系统中。
[0008] 结合第一方面,在第二种可能的实现方式中,所述根据所述至少一个测试元素,创 建至少一个查询关键词及其扩展关键词包括: 根据至少一个测试元素,收集至少一个查询的常用关键词; 排除所述查询的常用关键词中的相关性词语,确定查询关键词,所述相关性词语包括 同义词和近义词; 获取每个所述查询关键词的同义词,确定所述查询关键词的扩展关键词。
[0009] 结合第一方面,在第三种可能的实现方式中,所述根据每个所述查询关键词及其 扩展关键词,对应从所述被测系统中的至少一个测试元素中获取一个第一查询结果,对应 从所述存储于数据库系统的所述至少一个测试元素中获取一个第二查询结果包括: 根据每个查询关键词及其扩展关键词,对被测系统中的至少一个测试元素进行查询, 对应获取与所述查询关键词及其扩展关键词匹配的测试元素,所述匹配的测试元素的个数 记为第一查询结果; 根据每个查询关键词及其扩展关键词,对存储于数据库系统的所述至少一个测试元素 进行查询,对应获取与所述查询关键词及其扩展关键词匹配的测试元素,所述匹配的测试 元素的个数记为第二查询结果。
[0010] 结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述根据 所述第一查询结果和所述第二查询结果,计算所述被测系统的查全率包括: 计算每个查询关键词及其扩展关键词对应的查全率
【主权项】
1. 一种计算全文检索查全率的方法,其特征在于,所述方法包括: 获取被测系统中的至少一个测试元素,以及存储于数据库系统的所述至少一个测试元 素; 根据所述至少一个测试元素,创建至少一个查询关键词及其扩展关键词; 根据每个所述查询关键词及其扩展关键词,对应从所述被测系统中的至少一个测试元 素中获取一个第一查询结果,对应从所述存储于数据库系统的所述至少一个测试元素中获 取一个第二查询结果; 根据所述第一查询结果和所述第二查询结果,计算所述被测系统的查全率。
2. 根据权利要求1所述的方法,其特征在于,所述获取被测系统中的至少一个测试元 素,以及存储于数据库系统的所述至少一个测试元素包括: 获取被测系统中的至少一个测试元素; 转换所述测试元素的存储类型,生成适合数据库系统存储的测试元素; 将所述适合数据库存储的至少一个测试元素存储于数据库系统中。
3. 根据权利要求1所述的方法,其特征在于,所述根据所述至少一个测试元素,创建至 少一个查询关键词及其扩展关键词包括: 根据至少一个测试元素,收集至少一个查询的常用关键词; 排除所述查询的常用关键词中的相关性词语,确定查询关键词,所述相关性词语包括 同义词和近义词; 获取每个所述查询关键词的同义词,确定所述查询关键词的扩展关键词。
4. 根据权利要求1所述的方法,其特征在于,所述根据每个所述查询关键词及其扩展 关键词,对应从所述被测系统中的至少一个测试元素中获取一个第一查询结果,对应从所 述存储于数据库系统的所述至少一个测试元素中获取一个第二查询结果包括: 根据每个查询关键词及其扩展关键词,对被测系统中的至少一个测试元素进行查询, 对应获取与所述查询关键词及其扩展关键词匹配的测试元素,所述匹配的测试元素的个数 记为第一查询结果; 根据每个查询关键词及其扩展关键词,对存储于数据库系统的所述至少一个测试元素 进行查询,对应获取与所述查询关键词及其扩展关键词匹配的测试元素,所述匹配的测试 元素的个数记为第二查询结果。
5. 根据权利要求4所述的方法,其特征在于,所述根据所述第一查询结果和所述第二 查询结果,计算所述被测系统的查全率包括: 计算每个查询关键词及其扩展关键词对应的查全率W =&,其中I),.表示第丨个查询关 a(
键词及其扩展关键词对应的第一查询结果,£i;.表示第i个查询关键词及其扩展关键词对应 的第二查询结果; 计算被测系统的平均查全s 库中w表示所述查询关键词的总个数。
6. -种装置,其特征在于,所述装置包括: 获取单元,用于获取被测系统中的至少一个测试元素,以及存储于数据库系统的所述 至少一个测试元素; 创建单元,用于根据所述至少一个测试元素,创建至少一个查询关键词及其扩展关键 词; 查询单元,用于根据每个所述查询关键词及其扩展关键词,对应从所述被测系统中的 至少一个测试元素中获取一个第一查询结果,对应从所述存储于数据库系统的所述至少一 个测试元素中获取一个第二查询结果; 计算单元,用于根据所述第一查询结果和所述第二查询结果,计算所述被测系统的查 全率。
7. 根据权利要求6所述的装置,其特征在于,所述获取单元具体用于: 获取被测系统中的至少一个测试元素; 转换所述测试元素的存储类型,生成适合数据库系统存储的测试元素; 将所述适合数据库存储的至少一个测试元素存储于数据库系统中。
8. 根据权利要求6所述的装置,其特征在于,所述创建单元具体用于: 根据至少一个测试元素,收集至少一个查询的常用关键词; 排除所述查询的常用关键词中的相关性词语,确定查询关键词,所述相关性词语包括 同义词和近义词; 获取每个所述查询关键词的同义词,确定所述查询关键词的扩展关键词。
9. 根据权利要求6所述的装置,其特征在于,所述查询单元具体用于: 根据每个查询关键词及其扩展关键词,对被测系统中的至少一个测试元素进行查询, 对应获取与所述查询关键词及其扩展关键词匹配的测试元素,所述匹配的测试元素的个数 记为第一查询结果; 根据每个查询关键词及其扩展关键词,对存储于数据库系统的所述至少一个测试元素 进行查询,对应获取与所述查询关键词及其扩展关键词匹配的测试元素,所述匹配的测试 元素的个数记为第二查询结果。
10. 根据权利要求9所述的装置,其特征在于,所述计算单元具体用于: 计算每个查询关键词及其扩展关键词对应的查全率W 其中6,表示第;个查询关 键词及其扩展关键词对应的第一查询结果,g表示第丨个查询关键词及其扩展关键词对应 的第二查询结果; 计算被测系统的平均查全」
$中W表示所述查询关键词的总个数。
【专利摘要】本发明提供一种计算全文检索查全率的方法及装置,属于计算机软件测试技术领域,以解决现有技术中有效且可操作的计算全文检索查全率的方法的缺失问题。本发明提供的方法计算出的查全率是相对数据库系统查全率的对比值,在数据库系统查全率一定的情况下,与数据库系统查全率成正比关系。相比其他以估算方式给出查全率的方法,本发明的查全结果更有效且更具有操作性,在实际使用过程中提供有效的改进依据。
【IPC分类】G06F17-30, G06F11-36
【公开号】CN104699733
【申请号】CN201410586251
【发明人】吝斌, 马妤晨, 王欣
【申请人】电信科学技术第十研究所
【公开日】2015年6月10日
【申请日】2014年10月28日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1