一种大数据检索方法与流程

文档序号:11199332阅读:1132来源:国知局
一种大数据检索方法与流程
本发明涉及计算机信息处理领域,更具体地涉及一种大数据检索方法。
背景技术
:现代的检索技术逐渐向语意理解、特定领域等方向发展。科学家都在不遗余力的建设“本体库”,如wordnet、hownet等本体字典。通过本体库将数据转化为语义集合,从提炼数据的语义,以提供语义层次的检索。此外,对于生物、医学、法律、新闻、以及博客等领域,都出现了转门针对单个领域的检索技术,并且得到了迅猛发展。大数据是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等四大特征。大数据检索与文本检索、图象检索、声音检索、图片检索等都是信息检索的一部分,是指根据数据特征,如关键字、语意、内容等对大数据集合进行检索、分类、过滤等。随着数据量的增加,运用第一代检索技术已经很难检索出精确的检索结果,于是根据特征的第二代检索技术应运而生。即根据系统对数据和语句的理解,计算数据和检索语句的相似度,根据相似度对检索结果排序,将相似度最高的检索结果呈现给用户。在现有的研究成果和公开文献中,尚未发现利用lucene的索引模块,适合云存储的大数据检索方法。技术实现要素:发明目的本发明提出了一种适合云存储的大数据检索方法,利用lucene的索引模块,并对其进行改进,利用遗传算法对检索结果优化排序,以提高其查全率和查准率等指标。本发明所采用的技术方案本发明提出的一种大数据检索方法,包括如下三个步骤:步骤1;数据预处理;步骤2:数据检索匹配;步骤3:检索结果优化排序。进一步的,数据预处理包括如下五个步骤:步骤1:对文档分词,删除停用词;步骤2:统计剩余词的词频,如果索引的文档数量大于10篇跳转到步骤4,小于10篇下一步;步骤3:选取词频排前50-100的词作文档特征项;步骤4:计算每个词的tf值,根据值的大小降序排列,选取排名前50-100的词作为文档特征项;步骤5:将选取出的特征项代替文档内容来建立索引。其中,tf表示向量由每个词在文档中出现的次数。进一步的,数据检索匹配包括如下五个步骤:步骤l:对于用户输入的查询语句使用queryparse进行解析;步骤2:利用lucene在索引文件中找出包含特征项的文档集合;步骤3:计算检索表达式中特征项的tf权重以及文档集合中每篇文档中特征项的tf权重,分别构成查询特征向量和文档特征向量;步骤4:根据向量空间模型,计算文档与查询表达式之间的相似度,得分越高表示相似度越大;步骤5:对相似度最大的前n个文档进行输出。进一步的,检索结果优化排序包括如下五个步骤:步骤1:机产生的p个假设;步骤2:对于p中的每—个h,计算fitness(h);步骤3:用概率方法选择p的(1-r)p个成员加入ps;步骤4:从p中按概率选择rp/2对假设,把所有的后代加入ps;步骤5:更新pßps,输出结果并返回。本发明所产生的技术效果本发明提出的一种大数据检索方法,利用lucene的索引模块,通过索引数据预处理提高索引质量,利用查询语句与lucene得到检索结果,利用遗传算法对检索结果优化排序。附图说明图1为本发明的大数据检索方法步骤示意图。具体实施方式实施例(1)数据预处理:步骤1:对文档分词,删除停用词;步骤2:统计剩余词的词频,如果索引的文档数量大于10篇跳转到步骤4,小于10篇下一步;步骤3:选取词频排前80的词作文档特征项;步骤4:计算每个词的tf值,根据值的大小降序排列,选取排名前80的词作为文档特征项;步骤5:将选取出的特征项代替文档内容来建立索引。(2)数据检索匹配包括如下五个步骤:步骤l:对于用户输入的查询语句使用queryparse进行解析;步骤2:利用lucene在索引文件中找出包含特征项的文档集合;步骤3:计算检索表达式中特征项的tf权重以及文档集合中每篇文档中特征项的tf权重,分别构成查询特征向量和文档特征向量;步骤4:根据向量空间模型,计算文档与查询表达式之间的相似度,得分越高表示相似度越大;步骤5:对相似度最大的前n个文档进行输出。(3)检索结果优化排序包括如下五个步骤:步骤1:机产生的p个假设;步骤2:对于p中的每—个h,计算fitness(h);步骤3:用概率方法选择p的(1-r)p个成员加入ps;步骤4:从p中按概率选择rp/2对假设,把所有的后代加入ps;步骤5:更新pßps,输出结果并返回。实验数据是从百度搜索引擎下载了涉及100个主题的原始数据,然后从部分原始数据随机抽取段落合并后形成50个大数据集(分别标记为docl、doc2……doc50,每个大数据集不少于50k)。同时从原始文本剩余的段落中随机抽取段落形成50个查询集(分别标记为key1、key2……key50),且查询集与大数据集的对应关系提前做好标记。将lucene方法与本发明方法进行对比,查全率、查准率指标如表1所示,显然本发明较lucence方法更优。表1本发明方法与lucene方法对比lucene本发明方法查全率88%97%查准率54%68%以上实施方式仅用于说明本发明,而并非对本发明的限制,有关
技术领域
的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1