面向语义搜索引擎的高效混合存储结构的构建方法

文档序号:6358000阅读:190来源:国知局
专利名称:面向语义搜索引擎的高效混合存储结构的构建方法
技术领域
本发明涉及一种存储结构的构建方法,特别是涉及一种面向语义搜索引擎的高效混合 存储结构的构建方法。背景技术
搜索引擎是互联网中最重要的一类应用,搜索引擎处理互联网每天产生的海量网页信 息、深网数据、音视频等泛媒体信息,并进行高效的组织和索引,以向海量用户提供一站式、 个性化、智能化的并发检索服务。搜索引擎的应用特点是海量数据存储、海量数据处理、海 量用户并发访问、对查询的准确性和实时性都有较高要求。随着互联网用户和网页数量的急剧膨胀,搜索引擎系统在计算、I/O及存储等方面 的压力越来越大。基于关键词向量结构化表示网页信息的传统搜索引擎,需要对〈关键词, 文档,词率〉三元组进行匹配及评分,返回最接近搜索结果。这种搜索方式的优点是便于 实现,查找速度快,查全率高。但对关键词的简单匹配导致传统搜索引擎有着查准率偏低, 无法反映文章领域知识等缺点。用户的单次查询请求将导致搜索引擎系统内部产生多次访 存操作。伴随着搜索引擎索引网页数量的迅速增长,现有硬件访存能力无法满足在全部索 引数据中进行实时查询,现有解决方案是通过分布式存储方式和分级缓存技术提高索引数 据的访问效率。另一方面,云计算环境的不断发展也孕育云数据挖掘技术及云搜索引擎技术,以 满足云环境下用户的新型服务需求,从而使面向云的语义搜索成为云环境的一个重要应用。基于文档语义的搜索具有较好的查准率,现有的语义索引数据是通过对传统索引 数据的二次计算得到,对海量文档的语义索引数据的存储还没有很好的解决方案。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种面向语义搜索引擎的高 效混合存储结构的构建方法,在互联网系统中使用该方法构建的存储结构可提高用户的查 询效率。本发明的技术方案
一种面向语义搜索引擎的高效混合存储结构的构建方法,该高效混合存储结构含有内 存、专用控制器1、固态硬盘、专用控制器2和混合硬盘;一般数据放置在混合硬盘上,混合 硬盘含有一个闪存存储器,闪存存储器具备对经常访问的数据的简单计数功能,闪存存储 器中用于记录经常访问的数据,经常访问的数据属于热点数据区,热点数据区含有系统生 成的中间变量;专用控制器2位于固态硬盘和混合硬盘之间,专用控制器2的作用是压缩数 据、解压缩数据和固态硬盘中的热点数据区更新,专用控制器2对混合硬盘上的一般数据 进行访问、存储,并对热点数据进行发现,专用控制器2通过记录数据块的访问频次将常用 数据中经常访问的数据放置到固态硬盘中的热点数据区,并按照设定的更新周期对该热点 数据区域进行更新;固态硬盘作为速度、数据存储需求、内存容量和成本之间的过渡,固态 硬盘中存放热点队列中不能完整存放在内存中的那些热点队列,当用户提交查询请求时,专用控制器1将用户查询的热点数据由固态硬盘中的热点队列中读取到内存中,并将热点 数据进行计数、加压缩,当需要生成热点队列时,专用控制器1将内存中的热点数据的计数 信息读取到固态硬盘中,汇总热点队列中的暂存数据队列中的拍书,由专用控制器2进行 重新排序后更新热点队列。根据热点数据的可信度维护一个热点队列,热点队列含有热点数据队列和暂存 数据队列,热点数据队列中存放当前的热点数据,后台推送的数据先由专用控制器2从 混合硬盘存放入固态硬盘上的暂存数据队列中,再按照设定的时间窗口,每隔一段时间 由专用控制器2对热点数据队列和暂存数据队列中的可信度进行计算,并排序更新热点 队列,专用控制器2还通过离线聚类对新生成索引数据进行聚类,得到相关度比较高的 m个相关领域,对每个相关领域进行分桶存储,减少查询的计算量。当用户提交查询请求时,该查询请求到达搜索引擎系统中的查询代理模块,查询 代理模块首先查询热点队列,如果查询到热点队列,则将热点队列从其存储区中调出,如果 没有查询到热点队列,就将查询请求送至搜索引擎系统中的查询索引模块进行查询,查询 索引模块查询到热点队列后,首先将查询结果返回,然后将查询结果传递到存储数据索引 元数据的名称服务器,由名称服务器上运行的名称服务管理模块读取文档并返回给查询代 理模块,同时更新索引次数,把计算结果推送到热点数据的存储区,并更新热点队列,更新 热点队列是隔一段时间进行一次,主要的操作是对热点数据的排序和计算热点数据的可信 度。热点数据的可信度通过五元组描述,五元组含有新鲜度、访问次数、访问频度、领 域权威评分和时间阈值;新鲜度指事件在系统中留存的时间长短,访问次数记录文档数据 被访问的总的次数,访问频度为一个时间窗口内的访问次数,时间窗口由计数能力允许的 系统根据访问量进行设定,领域权威评分为百分制,由专业人员通过人工标注对文档进行 评分,因文档量较大,领域权威评分仅适用于突发性的热点数据,时间阈值为设定的热点数 据的生存周期,对于超过时间阈值的热点数据,需要重新更新其可信度。如果根据事件发生的时间记录新鲜度的初始评分,随着事件在系统中留存的时间 增加,新鲜度呈指数衰减。本发明的有益效果
1、本发明采用多级存储结构,并定义了数据的访存协议和控制策略,能够有效地实现 传统索引数据的分级存储、可信热点数据发现及语义索引数据的压缩存储。本发明采用热 点数据广播推送、索引压缩编码与常用数据高速缓存查询相结合的方式,有效地较少数据 的搬移次数,降低系统对存储器的访问代价。对索引数据采用分领域、分目录、分级别进行 组织,支持热点数据发现,数据关联发现,通过维护热点数据队列和访存队列优先策略动态 调整数据的访问带宽和访存方式,结合在数据拓扑网络上的推送方式,提高用户的查询效 率。2、本发明通过引入混合硬盘、固态硬盘和内存等多种存储容量和I/O速度不同的 存储设备,配合与之相对应的数据存储结构。通过专用控制器1和专用控制器2对混合硬 盘、固态硬盘和内存之间的数据交换进行记录,并通过引入自定义权重系统和聚类处理,生 成和维护适合语义索引的热点数据队列,一方面缩小数据的查询范围,另一方面提升数据 热度度量的准确性,从而达到高效访问语义索引数据的目的。


图1为面向语义搜索引擎的高效混合存储结构的结构示意图; 图2为热点队列的维护示意图; 图3为分级数据队列的结构示意图4为对面向语义搜索引擎的高效混合存储结构的访存流程图。具体实施例方式
参见图1 图4,图中,面向语义搜索引擎的高效混合存储结构的构建方法为该高效 混合存储结构含有内存、专用控制器1、固态硬盘、专用控制器2和混合硬盘;一般数据放置 在混合硬盘上,混合硬盘含有一个闪存存储器,闪存存储器具备对经常访问的数据的简单 计数功能,闪存存储器中用于记录经常访问的数据,经常访问的数据属于热点数据区,热点 数据区含有系统生成的中间变量;专用控制器2位于固态硬盘和混合硬盘之间,专用控制 器2的作用是压缩数据、解压缩数据和固态硬盘中的热点数据区更新,专用控制器2对混合 硬盘上的一般数据进行访问、存储,并对热点数据进行发现,专用控制器2通过记录数据块 的访问频次将常用数据中经常访问的数据放置到固态硬盘中的热点数据区,并按照设定的 更新周期对该热点数据区域进行更新;固态硬盘作为速度、数据存储需求、内存容量和成本 之间的过渡,固态硬盘中存放热点队列中不能完整存放在内存中的那些热点队列,当用户 提交查询请求时,专用控制器1将用户查询的热点数据由固态硬盘中的热点队列中读取到 内存中,并将热点数据进行计数、加压缩,当需要生成热点队列时,专用控制器1将内存中 的热点数据的计数信息读取到固态硬盘中,汇总热点队列中的暂存数据队列中的拍书,由 专用控制器2进行重新排序后更新热点队列。根据热点数据的可信度维护一个热点队列,热点队列含有热点数据队列和暂存数 据队列,热点数据队列中存放当前的热点数据,后台推送的数据先由专用控制器2从混合 硬盘存放入固态硬盘上的暂存数据队列中,再按照设定的时间窗口,每隔一段时间由专用 控制器2对热点数据队列和暂存数据队列中的可信度进行计算,并排序更新热点队列,专 用控制器2还通过离线聚类对新生成索引数据进行聚类,得到相关度比较高的m个相关领 域,对每个相关领域进行分桶存储,减少查询的计算量。当用户提交查询请求时,该查询请求到达搜索引擎系统中的查询代理模块,查询 代理模块首先查询热点队列,如果查询到热点队列,则将热点队列从其存储区中调出,如果 没有查询到热点队列,就将查询请求送至搜索引擎系统中的查询索引模块进行查询,查询 索引模块查询到热点队列后,首先将查询结果返回,然后将查询结果传递到存储数据索引 元数据的名称服务器,由名称服务器上运行的名称服务管理模块读取文档并返回给查询代 理模块,同时更新索引次数,把计算结果推送到热点数据的存储区,并更新热点队列,更新 热点队列是隔一段时间进行一次,主要的操作是对热点数据的排序和计算热点数据的可信 度。热点数据的可信度通过五元组描述,五元组含有新鲜度、访问次数、访问频度、领 域权威评分和时间阈值;新鲜度指事件在系统中留存的时间长短,访问次数记录文档数据 被访问的总的次数,访问频度为一个时间窗口内的访问次数,时间窗口由计数能力允许的 系统根据访问量进行设定,领域权威评分为百分制,由专业人员通过人工标注对文档进行 评分,因文档量较大,领域权威评分仅适用于突发性的热点数据,时间阈值为设定的热点数据的生存周期,对于超过时间阈值的热点数据,需要重新更新其可信度。如果根据事件发生的时间记录新鲜度的初始评分,随着事件在系统中留存的时间 增加,新鲜度呈指数衰减。热点队列的维护方法为现有的存储设备无法满足对所有索引数据的实时匹配要 求,为降低数据访问的代价,提高数据访问速度,结合用户对网络数据需求的80/20原则, 我们设计了图2中的分级数据结构,主要数据包括语义索引数据、语义索引表头、次热点数 据队列和热点数据队列等。按照可能被访问的频率,以上数据依次存放在混合硬盘的普通 扇区、混合硬盘的Flash芯片、固态硬盘和内存中。索引数据存储区1到索引数据存储区η 中包含的是分桶存放的语义索引条目。系统响应用户查询请求时,按热点数据队列、次热点 数据队列、语义索引表头、语义索引数据的热度依次递减的次序进行查询,可有效减少数据 搬移路径的平均长度。热点数据队列中维护的是一段时期内受访问热度最高的语义索引条目,按照数据 的热点可信度进行排序。语义索引数据进入热点数据队列的方法如图3中所示,当语义索 引数据的热点可信度达到一定阈值后,经专用控制器读入暂存区,进行进一步的热点可信 度积累,直至达到阈值,可以参与下一次的热点数据队列更新。
权利要求
1.一种面向语义搜索引擎的高效混合存储结构的构建方法,其特征是该高效混合存 储结构含有内存、专用控制器1、固态硬盘、专用控制器2和混合硬盘;一般数据放置在混合 硬盘上,混合硬盘含有一个闪存存储器,闪存存储器具备对经常访问的数据的简单计数功 能,闪存存储器中用于记录经常访问的数据,经常访问的数据属于热点数据区,热点数据区 含有系统生成的中间变量;专用控制器2位于固态硬盘和混合硬盘之间,专用控制器2的作 用是压缩数据、解压缩数据和固态硬盘中的热点数据区更新,专用控制器2对混合硬盘上 的一般数据进行访问、存储,并对热点数据进行发现,专用控制器2通过记录数据块的访问 频次将常用数据中经常访问的数据放置到固态硬盘中的热点数据区,并按照设定的更新周 期对该热点数据区域进行更新;固态硬盘中存放热点队列中不能完整存放在内存中的那些 热点队列,当用户提交查询请求时,专用控制器1将用户查询的热点数据由固态硬盘中的 热点队列中读取到内存中,并将热点数据进行计数、加压缩,当需要生成热点队列时,专用 控制器1将内存中的热点数据的计数信息读取到固态硬盘中,汇总热点队列中的暂存数据 队列中的拍书,由专用控制器2进行重新排序后更新热点队列。
2.根据权利要求1所述的面向语义搜索引擎的高效混合存储结构的构建方法,其特 征是根据所述热点数据的可信度维护一个热点队列,热点队列含有热点数据队列和暂 存数据队列,热点数据队列中存放当前的热点数据,后台推送的数据先由专用控制器2从 混合硬盘存放入固态硬盘上的暂存数据队列中,再按照设定的时间窗口,每隔一段时间 由专用控制器2对热点数据队列和暂存数据队列中的可信度进行计算,并排序更新热点 队列,专用控制器2还通过离线聚类对新生成索引数据进行聚类,得到相关度比较高的 m个相关领域,对每个相关领域进行分桶存储,减少查询的计算量。
3.根据权利要求2所述的面向语义搜索引擎的高效混合存储结构的构建方法,其特 征是当用户提交查询请求时,该查询请求到达搜索引擎系统中的查询代理模块,查询代理 模块首先查询热点队列,如果查询到热点队列,则将热点队列从其存储区中调出,如果没有 查询到热点队列,就将查询请求送至搜索引擎系统中的查询索引模块进行查询,查询索引 模块查询到热点队列后,首先将查询结果返回,然后将查询结果传递到存储数据索引元数 据的名称服务器,由名称服务器上运行的名称服务管理模块读取文档并返回给查询代理模 块,同时更新索引次数,把计算结果推送到热点数据的存储区,并更新热点队列,更新热点 队列是隔一段时间进行一次,主要的操作是对热点数据的排序和计算热点数据的可信度。
4.根据权利要求2所述的面向语义搜索引擎的高效混合存储结构的构建方法,其特征 是所述热点数据的可信度通过五元组描述,五元组含有新鲜度、访问次数、访问频度、领域 权威评分和时间阈值;新鲜度指事件在系统中留存的时间长短,访问次数记录文档数据被 访问的总的次数,访问频度为一个时间窗口内的访问次数,时间窗口由计数能力允许的系 统根据访问量进行设定,领域权威评分为百分制,由专业人员通过人工标注对文档进行评 分,时间阈值为设定的热点数据的生存周期,对于超过时间阈值的热点数据,需要重新更新 其可信度。
全文摘要
本发明涉及一种面向语义搜索引擎的高效混合存储结构的构建方法;高效混合存储结构含有内存、专用控制器1、固态硬盘、专用控制器2和混合硬盘,专用控制器2位于固态硬盘和混合硬盘之间,专用控制器2的作用是压缩数据、解压缩数据和固态硬盘中的热点数据区更新,固态硬盘中存放热点队列中不能完整存放在内存中的那些热点队列,当用户提交查询请求时,专用控制器1将用户查询的热点数据由固态硬盘中的热点队列中读取到内存中,当需要生成热点队列时,专用控制器1将内存中的热点数据的计数信息读取到固态硬盘中;本发明提供了一种面向语义搜索引擎的高效混合存储结构的构建方法,在互联网系统中使用该方法构建的存储结构可提高用户的查询效率。
文档编号G06F17/30GK102129472SQ20111009309
公开日2011年7月20日 申请日期2011年4月14日 优先权日2011年4月14日
发明者刘超, 斯雪明, 曹伟, 罗兴国, 谈满堂, 邬江兴, 陈韬, 雷咏梅, 魏晓, 齐宁 申请人:上海红神信息技术有限公司, 中国人民解放军信息工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1