一种高维环境中模糊数据的概率窗口查询方法

文档序号:6442948阅读:167来源:国知局
专利名称:一种高维环境中模糊数据的概率窗口查询方法
技术领域
本发明涉及数据库系统、信息检索、高维模糊数据的压缩和查询技术,特别是涉及一种高维环境中模糊数据的概率窗口查询方法。
背景技术
在越来越多的应用中,数据都展现了模糊性。并且,很多模糊数据都处于一个高维环境当中。这样的应用数据包括传感器数据库中多维数据、城市人口普查数据、以及图像处理数据等。这一类型的应用中,每个物体由一个模糊区域和一个概率分布函数来表示。概率分布函数可以为连续的概率分布函数,也可以是离散的概率分布函数。在实际应用当中,窗口查询是最为基础且最为重要的查询类型。此外,窗口查询还经常被用作各种复杂的多维查询在查询处理时的过滤机制。一个概率窗口查询指定一个查询窗口和一个概率阈值,它从数据库中查找处于该查询窗口的概率大于给定阈值的所有物体。现有的可以处理概率窗口查询的方法多针对低维环境中的数据所设计,无法在数据维度较高时仍保持良好的查询性能。而传统的能够在高维情况下仍保持良好查询性能的方法都无法在模糊数据集上使用。在这种情况下,设计一种可以有效管理各种海量高维数据的索引结构和概率窗口查询处理方法是十分重要。

发明内容
本发明的目的在于提供一种高维环境中模糊数据的概率窗口查询方法。本发明解决其技术问题采用的技术方案的步骤如下
1)将物体的模糊区域信息用网格划分方法进行压缩;
2)将物体的概率分布函数信息用柱状图方法进行压缩;
3)将步骤2)中的柱状图的信息用小波变换方法进行压缩;
4)将步骤I)和步骤3)中每一个物体的全部压缩信息保存在索引文件中;
5)在查询处理时,利用每一个物体的全部压缩信息计算每一个物体成为查询结果的概率的上界;
6)利用每一个物体的概率上界对不合格的物体进行剪枝,从而得到一个候选答案集
合;
7)根据候选答案集合中每一个候选物体的未被压缩的模糊区域信息和概率分布函数信息,判断每一个候选物体是否是真正的查询结果。所述的步骤I)利用网格划分方法对物体的模糊区域信息进行压缩,从而使用比特值来表示物体的模糊区域。所述的步骤2)利用柱状图方法对物体的概率分布函数信息进行压缩,得到一个概率的序列。
所述的步骤3)中对步骤2)中得到的概率的序列进行小波变换,然后从得到的所有小波系数中删除绝对值大于零的小波系数。所述的步骤4)中将每一个物体的全部压缩信息保存在索引文件中,使得物体在索引文件中的存储顺序和物体在数据库中的存储顺序相同。所述的步骤5)中利用每一个物体的全部压缩信息,计算每一个物体出现在概率窗口查询的查询窗口中的概率的最紧上界。所述的步骤6)中如果一个物体的概率的最紧上界小于概率窗口查询指定的概率阈值,则该物体是不合格物体,将在这一步骤中被剪枝掉。所述的步骤7)中根据候选答案集合中每一个候选物体的未被压缩的模糊区域信息和概率分布函数信息,计算每一个候选物体出现在概率窗口查询的查询窗口中的精确概率;如果一个候选物体的精确概率大于概率窗口查询指定的概率阈值,则这个候选物体成为最终的查询结果。本发明具有的有益效果是
本发明充分利用了数据库和信息检索的现有研究和实现成果,基于已有的压缩方法的扩展和融合可以非常方便快捷的提供模糊数据的概率窗口查询能力,并且不依赖于模糊数据的维度,为使用者提供最好的性能。本发明可以用于多维传感器数据、城市人口普查数据、以及图像数据等各种海量数据的管理与查询。


图I是概率窗口查询方法示意图。图2是用网格划分方法压缩物体模糊区域信息的示意图。图3是用柱状图方法压缩物体概率分布函数信息的示意图。
具体实施例方式下面结合附图和具体实施例对本发明作进一步说明。本发明具体实施过程和工作原理,如图I所示
1)将物体的模糊区域信息用网格划分方法进行压缩;
2)将物体的概率分布函数信息用柱状图方法进行压缩;
3)将步骤2)中的柱状图的信息用小波变换方法进行压缩;
4)将步骤I)和步骤3)中每一个物体的全部压缩信息保存在索引文件中;
5)在查询处理时,利用每一个物体的全部压缩信息计算每一个物体成为查询结果的概率的上界;
6)利用每一个物体的概率上界对不合格的物体进行剪枝,从而得到一个候选答案集
合;
7)根据候选答案集合中每一个候选物体的未被压缩的模糊区域信息和概率分布函数信息,判断每一个候选物体是否是真正的查询结果。步骤I)中如图2所示,将高维空间的每一个维度划分成若干个区间,然后用一个长度为匕的比特串来标记维度中的每一个区间;这样,第i个维度被分成了 #个区间。令 B等于所有维度对应的匕之和,则整个值域空间划分成2B个单元格。而且,每个单元格可以用B个比特值来标记。例如,在图2中,每个单元格可以由6个比特值标记。网格划分好之后,一个模糊区域的四个顶点可以近似的用它所在的单元格的对应的比特值来表示。步骤2)中如图3所示,采用柱状图方法对物体的概率分布函数信息进行压缩。给定一个物体X的概率分布函数,在每一个维度,该方法在每个维度内将X的模糊区域均匀划分为H个存储桶。然后用一个概率的序列Sx = {Po, P1, ... ,pH J来表示X对应在一个柱状图的每个存储桶中的概率值。例如,图3中,用柱状图方法对物体的概率分布函数信息进行压缩后,得到了一个概率的序列{O. 07,O. 05,0,0. 2,0. 1,0. 1,0. 3,0. 18}。步骤3)中将步骤2)中得到的概率序列Sx用Haar小波进行小波变化,从而得到一个小波系数的序列。该小波系数序列中系数的个数和Sx中概率的个数是相同的。为了达到压缩的目的,该方法从小波系数序列中删除所有绝对值等于零的小波系数。步骤4)中每个物体的压缩信息成为了一个独立的索引条目。然后,所有物体对应的索引条目被存储在一个索引文件当中。并且,物体的索引条目在索引文件中的存储顺序和物体在数据库中的存储顺序是相同的。步骤5)逐一扫描索引文件中的每一个索引条目。根据概率窗口查询的指定查询窗口和每个索引条目中物体的压缩信息,该方法计算每一个物体处于查询窗口之内的概率的上界。具体地,如果一个物体的近似模糊区域和查询窗口没有交集,则该物体处于查询窗口之内的概率的上界为零。否则,该方法根据这个物体的概率分布函数的压缩信息,计算该物体处于查询窗口之内的概率的最紧上界。步骤6)中如果一个物体的概率的上界小于概率窗口查询指定的概率阈值,则该物体为不合格物体,将被剪枝掉,并不会在后面的查询过程中再次访问;如果一个物体的概率的上界大于或等于概率窗口查询指定的概率阈值,则该物体有可能成为查询的结果,将会被放入一个候选答案集合当中。步骤7)根据候选答案集合中每一个候选物体的未被压缩的模糊区域信息和概率分布函数信息,计算每一个候选物体出现在概率窗口查询的查询窗口中的精确概率;如果一个物体的精确概率大于或等于概率窗口查询指定的概率阈值,则该物体成为最终的查询结果;如果一个物体的精确概率小于概率窗口查询指定的概率阀值,则该物体不是最终的查询结果。
权利要求
1.一种高维环境中模糊数据的概率窗口查询方法,其特征在于,该方法的步骤以下1)将物体的模糊区域信息用网格划分方法进行压缩;2)将物体的概率分布函数信息用柱状图方法进行压缩;3)将步骤2)中的柱状图的信息用小波变换方法进行压缩;4)将步骤I)和步骤3)中每一个物体的全部压缩信息保存在索引文件中;5)在查询处理时,利用每一个物体的全部压缩信息计算每一个物体成为查询结果的概率的上界;6)利用每一个物体的概率上界对不合格的物体进行剪枝,从而得到一个候选答案集合;7)根据候选答案集合中每一个候选物体的未被压缩的模糊区域信息和概率分布函数信息,判断每一个候选物体是否是真正的查询结果。
2.根据权利要求I所述的一种高维环境中模糊数据的概率窗口查询方法,其特征在于所述的步骤I)利用网格划分方法对物体的模糊区域信息进行压缩,从而使用比特值来表示物体的模糊区域。
3.根据权利要求I所述的一种高维环境中模糊数据的概率窗口查询方法,其特征在于所述的步骤2)利用柱状图方法对物体的概率分布函数信息进行压缩,得到一个概率的序列。
4.根据权利要求I所述的一种高维环境中模糊数据的概率窗口查询方法,其特征在于所述的步骤3)中对步骤2)中得到的概率的序列进行小波变换,然后从得到的所有小波系数中删除绝对值大于零的小波系数。
5.根据权利要求I所述的一种高维环境中模糊数据的概率窗口查询方法,其特征在于所述的步骤4)中将每一个物体的全部压缩信息保存在索引文件中,使得物体在索引文件中的存储顺序和物体在数据库中的存储顺序相同。
6.根据权利要求I所述的一种高维环境中模糊数据的概率窗口查询方法,其特征在于所述的步骤5)中利用每一个物体的全部压缩信息,计算每一个物体出现在概率窗口查询的查询窗口中的概率的最紧上界。
7.根据权利要求I所述的一种高维环境中模糊数据的概率窗口查询方法,其特征在于所述的步骤6)中如果一个物体的概率的最紧上界小于概率窗口查询指定的概率阈值, 则该物体是不合格物体,将在这一步骤中被剪枝掉。
8.根据权利要求I所述的一种高维环境中模糊数据的概率窗口查询方法,其特征在于所述的步骤7)中根据候选答案集合中每一个候选物体的未被压缩的模糊区域信息和概率分布函数信息,计算每一个候选物体出现在概率窗口查询的查询窗口中的精确概率; 如果一个候选物体的精确概率大于概率窗口查询指定的概率阈值,则这个候选物体成为最终的查询结果。
全文摘要
本发明公开了一种高维环境中模糊数据的概率窗口查询方法。该方法用网格划分、柱状图和小波变换方法将每一个物体的模糊区域信息和概率分布函数信息进行压缩。然后,将物体的全部压缩信息存储于索引文件中。在查询处理时,首先利用每一个物体的全部压缩信息计算物体成为查询结果的概率的上界。然后利用每一个物体的概率上界对不合格的物体进行剪枝,得到一个候选答案集合。该方法根据候选答案集合中每一个候选物体的未被压缩的信息,判断该候选物体是不是真正的查询结果。本发明利用数据库和信息检索的现有研究和实现成果,基于已有的压缩方法的扩展和融合非常方便快捷的提供模糊数据的概率窗口查询能力,不依赖于模糊数据的维度,提供最好的性能。
文档编号G06F17/30GK102609439SQ20111043713
公开日2012年7月25日 申请日期2011年12月23日 优先权日2011年12月23日
发明者寿黎但, 胡天磊, 陈刚, 陈珂, 马春洋 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1