一种不确定数据流概率求和阈值查询方法与流程

文档序号:20440802发布日期:2020-04-17 22:23阅读:218来源:国知局
一种不确定数据流概率求和阈值查询方法与流程

本发明涉及不确定数据流查询处理技术领域,具体涉及一种不确定数据流概率求和阈值查询方法。



背景技术:

随着传感和网络技术的发展,数据流可以被广泛获取。由于设备的固有误差,环境噪声的干扰,通过推理来恢复丢失的信息等,数据流中的数据通常是基于概率的表示。简单地计算这些不确定数据的统计信息(例如:均值和方差)将丢失有用的信息,甚至得出不正确的结论。不确定数据流管理通过采用不确定数据模型来支持概率查询,可以解决这些问题,其中概率求和查询(probabilisticsumquery)是重要的查询类型,该查询以大量的不确定数据(如概率分布函数)为输入,返回概率分布作为结果。在许多监控应用中,只需要知道结果分布是否超过用户定义的阈值。下面给出一个例子。

示例1:温度监测。六个传感器同时测量一物体的温度。由于传感器的固有误差和噪声信号的干扰,温度读数会产生误差。使用数据融合技术(如密度估计)将六个传感器的温度读数转换为概率分布。然后,聚合不同时刻的概率分布来检测异常。为此,监视应用程序设计了如下查询:

查询:在最近的10分钟内,平均温度超过60度的概率大于80%吗?

当查询结果为“true”时,将触发报警。

上述查询明确考虑最近10分钟集群整体的负载波动,并将两个阈值引入概率求和查询,一个是概率阈值,另一个是得分阈值。该查询即为不确定数据流概率求和阈值查询,是不确定数据流概率求和查询的扩展。

虽然已有大量不确定数据流上概率求和查询的研究工作,这些不确定数据流概率求和查询方法大多侧重于通过提出空间和时间高效的算法来获得基于无界数据流模型的近似结果。还有一些方法通过滑动窗口模型来处理新到来和过期的元组,实现结果的增量式更新。此外,已有的概率阈值查询方法中,虽然设计了各种过滤策略(例如:基于距离的过滤和基于概率的过滤),但这些查询的过滤策略是针对其特定的查询类型设计的,不同查询类型的阈值语义在本质上存在区别(例如,概率范围阈值查询中的两个阈值:范围阈值和概率阈值;概率求和阈值查询中的两个阈值:得分阈值和概率阈值)。目前未见不确定数据流概率求和阈值查询方法。朴素的解决方案是在执行概率求和查询之后再考虑阈值约束,得到最终的结果。由于将查询处理和阈值计算分离,该方案的计算效率十分低下(即计算任意给定滑动窗口的结果分布不是必须的)。



技术实现要素:

为了解决如何高效处理不确定数据流概率求和阈值查询的技术问题。本发明提供了一种不确定数据流概率求和阈值查询方法。

本发明的技术方案为:

一种不确定数据流概率求和阈值查询方法,所述方法包括以下步骤:

(1)将连续不确定数据进行滑动窗口的划分以及对每个窗口内的随机变量进行高斯混合模型建模,即利用高斯分布表示随机变量;

(2)基于滑动窗口内随机变量之和的第一阶矩和第一阶方差、第二阶矩和第二阶方差对随机变量进行两次过滤判断,在依据第一阶矩和第一阶方差进行第一次过滤判断能够得到获得查询结果时,输出查询结果并返回到步骤(1),在依据第一阶矩和第一阶方差进行第一次过滤判断不能够得到获得查询结果时,依据第二阶矩和第二阶方差进行第二次过滤判断,在能够得到获得查询结果时,输出查询结果并返回到步骤(1),不能够得到获得查询结果时,进入步骤(3);

(3)将滑动窗口内的随机变量转换为特征函数,基于特征函数进行概率求和,依据求和的概率值与得分阈值和概率阈值的大小关系,判断查询结果为“是”或“否”,并输出查询结果。

本发明在处理不确定数据流概率求和阈值查询时,充分利用高斯混合模型性质和概率理论,并结合特征函数、剪枝策略和基于滑动窗口的增量式处理,提高计算效率。与现有的方法相比,其优点在于:

1)将不确定数据建模为高斯混合模型,更具有灵活性和高效性。

2)设计基于高斯混合模型性质和概率理论的剪枝策略,减少了不必要的计算。

3)在精确计算阶段,引入特征函数,降低了算法的复杂度,同时利用增量式处理进一步提高计算效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。

图1是本发明实施例一种不确定数据流概率求和阈值查询方法的流程框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。

图1为本发明实施例一种不确定数据流概率求和阈值查询方法的流程框图。如图1所示,实施例提供的不确定数据流概率求和阈值查询方法使用连续型随机变量而不是离散型随机变量来表示不确定数据;采用高斯混合模型作为基础模型以提高计算效率并提供高度的灵活性;在查询处理中集成过滤策略和精确计算,使用基于高斯混合模型性质和概率理论的过滤策略快速做出判断,当过滤策略无效时,使用滑动窗口模型对准确的值进行增量式计算。具体包括初始化阶段、基于过滤策略的快速判断阶段以及基于滑动窗口模型的精确计算阶段。下面针对每阶段进行详细说明。

初始化阶段

初始阶段主要用于滑动窗口的划分以及对每个窗口内的随机变量进行高斯混合模型建模,即利用高斯分布表示随机变量,具体包括以下步骤:

s101,获取不确定数据流中新的第j条不确定数据tj,以最新的w条数据形成滑动窗口其中w∈r+为滑动窗口长度,并以随机变量xm表示滑动窗口中的第m个元组tj-w+m(1≤m≤w);

s102,设定得分阈值τ(τ∈r+)和概率阈值δ(δ∈(0,1)),不确定数据流概率求和阈值查询可表示为:随机变量y大于τ的概率pr(y>τ)是否大于δ,即不等式pr(y>τ)>δ是否成立。若不等式成立,则查询结果为“是”,否则为“否”。

s103,采用单变量的高斯混合模型对随机变量xm进行建模,即用连续型随机变量来表示不确定数据,模型包含k个高斯变量以及对应的非负概率(p1,p2,…,pk)。

随机变量x的概率密度函数为:

其中,μi和σi2为高斯变量的期望和方差,即:

这样经过s101~s103将每个滑动窗口内的所有数据用混合高斯模型进行表示,采用高斯混合模型作为基础模型以提高计算效率并提供高度的灵活性。

基于过滤策略的快速判断阶段

基于过滤策略的快速判断阶段主要用于基于滑动窗口内随机变量之和的第一阶矩和第一阶方差、第二阶矩和第二阶方差对随机变量进行两次过滤判断,在依据第一阶矩和第一阶方差进行第一次过滤判断能够得到获得查询结果时,输出查询结果并返回到初始化阶段,重新获得新不确定数据,在依据第一阶矩和第一阶方差进行第一次过滤判断不能够得到获得查询结果时,依据第二阶矩和第二阶方差进行第二次过滤判断,在能够得到获得查询结果时,输出查询结果并返回到初始化阶段,不能够得到获得查询结果时,进入基于滑动窗口模型的精确计算阶段。具体包括以下步骤:

s201,根据随机变量的期望和方差计算滑动窗口内所有随机变量之和的第一阶矩、第二阶矩、第一阶方差和第二阶方差;

s201具体包括以下步骤:

s2011计算随机变量xm的期望e(x)和方差var(x);

具体地,根据高斯分布的期望和方差计算期望e(x),具体公式如下:

s2012,计算滑动窗口内所有随机变量之和的第一阶矩e(y)和第二阶矩e(y2)。

具体地,根据期望e(xm)和方差var(xm)计算滑动窗口内所有随机变量之和y的第一阶矩e(y)和第二阶矩e(y2),具体公式如下:

s2013,计算滑动窗口内所有随机变量之和y的方差var(y)。

具体地,根据第一阶矩e(y)和第二阶矩e(y2)计算滑动窗口内所有随机变量之和y的方差var(y),具体公式如下:

var(y)=e(y2)-(e(y))2(7)

s2014,计算滑动窗口内所有随机变量之和y的第四阶矩e(y4)和第二阶方差var(y2)。

具体地,根据第一阶矩e(y)、第二阶矩e(y2)以及第一阶方差var(y)计算滑动窗口内所有随机变量之和y的第四阶矩e(y4)和第二阶方差var(y2),具体公式如下:

e(y4)=e(y)4+6(e(y))2var(y)+3(var(y))4(8)

var(y2)=e(y4)-(e(y2))2(9)

为了减少计算量,上述前四阶矩和前两阶方差可利用前一个滑动窗口的结果,实现增量式计算。对于新的滑动窗口变量y′=xj-w+2+xj-w+3+…+xj+1的前四阶矩可通过如下公式计算:

e(y′)=e(y)-e(xj-w+1)+e(xj+1),(10)

e(y′2)=e(y2)-var(xj-w+1)+var(xj+1)+(e(y))2(11)

var(y′)=e(y′2)-(e(y′))2(12)

e(y′4)=e(y′)4+6(e(y′))2var(y′)+3(var(y′))4(13)

var(y′2)=e(y′4)-(e(y′2))2(14)

s202,根据滑动窗口内所有随机变量之和的第一阶矩e(y)和第一阶方差var(y)与得分阈值和概率阈值的大小关系进行第一次过滤判断查询结果;

s202具体包括以下步骤:

s2021,若τ>e(y)且δ>0.5,则能输出查询结果,输出的查询结果为“否”,跳至初始化阶段的s101;

由于τ>e(y),则随机变量y大于τ的概率pr(y>τ)小于pr(y≥e(y)),而pr(y≥e(y))=0.5,则pr(y>τ)的值一定小于0.5。不等式pr(y>τ)>δ一定不成立,故输出的查询结果为“否”。

s2022,若τ>e(y)且δ≤0.5,当满足条件:时,则能输出查询结果,输出的查询结果为“否”,跳至初始化阶段的s101;

根据单边切比雪夫不等式可得到:当条件:满足时,pr(y>τ)>δ不成立,故输出的查询结果为“否”。

s2023,若τ≤e(y)且δ<0.5,则能输出查询结果,输出的查询结果为“是”,跳至初始化阶段的s101;

由于pr(y>τ)>pr(y≥e(y))=0.5,则pr(y>τ)的值一定大于等于0.5。

s2024,若τ≤e(y)且δ≥0.5,当满足条件:时,则能输出查询结果,则输出查询结果为“是”,跳至初始化阶段的s101;

根据单边切比雪夫不等式可得到:当满足条件:时,pr(y>τ)>δ成立。

s203,在不能输出查询结果时,根据滑动窗口内所有随机变量之和的第二阶矩e(y2)和第二阶方差var(y2)与得分阈值和概率阈值的大小关系进行第二次过滤判断查询结果;

s203具体包括以下步骤:

s2031,若τ2>e(y2)且δ>0.5,则能输出查询结果,输出的查询结果为“否”,跳至初始化阶段的s101;

s2032,若τ2>e(y2)且δ≤0.5,当满足条件:时,则能输出查询结果,输出的查询结果为“否”,跳至初始化阶段的s101;

pr(y>τ)可等价转换为pr(y22)。根据单边切比雪夫不等式可得到:当满足条件:时,pr(y>τ)>δ不成立。

s2033,若τ2≤e(y2)且δ<0.5,则能输出查询结果,输出的查询结果为是,跳至初始化阶段的s101;

s2034,若τ2≤e(y2)且δ≥0.5,当满足条件:时,则能输出查询结果,输出的查询结果为“是”,跳至初始化阶段的s101;

根据单边切比雪夫不等式可得到:当满足条件:时,pr(y>τ)>δ成立。

基于滑动窗口模型的精确计算阶段

基于滑动窗口模型的精确计算阶段主要用于将滑动窗口内的随机变量转换为特征函数,基于特征函数进行概率求和,依据求和的概率值与得分阈值τ(τ∈r+)和概率阈值δ的大小关系,判断查询结果为“是”或“否”,并输出查询结果。具体过程为:

s301,将每条随机变量xm用特征函数表示;

随机变量xm建模为高斯混合模型,该高斯混合模型由k个期望为(μ1,μ2,…,μk)、方差为以及对应的概率为(p1,p2,…,pk)的高斯分量组成,则随机变量xm的特征函数表示如下:

其中,

s302,对于滑动窗口内所有不确定数据所有随机变量之和y用特征函数表示;

随机变量之和y是w个随机变量(x1,x2,…,xw)的和,即则随机变量之和y的特征函数表示如下:

从式(16)可见,对于多个随机变量的线性组合,利用特征函数计算非常高效,而利用概率密度函数则需要多重积分,会消耗大量的计算资源。

s303,对于当前滑动窗口内的随机变量,基于旧的滑动窗口和旧的求和结果增量式更新当前滑动窗口内的随机变量之和的特征函数值。

针对当前滑动窗口内的数据基于旧的滑动窗口的特征函数处理新元组tj,新结果可按如下公式增量式计算:

与此同时,剔除旧元组tj-w,新结果可按如下公式增量式计算:

s304,根据概率求和的特征函数计算大于得分阈值τ的概率pr(y>τ),若pr(y>τ)>δ,则输出查询结果为是,否则为否;当前滑动窗口的查询过程结束,跳至初始化阶段的s101。

当前滑动窗口的特征函数可表示为高斯分量集合φc,则有:

其中,fc(τ)为高斯分布c的累积密度函数。若pr(y>τ)>δ,则输出查询结果为是,否则为否。当前滑动窗口的查询过程结束,跳至初始化阶段的s101。

上述不确定数据流概率求和阈值查询方法中,将不确定数据建模为高斯混合模型,更具有灵活性和高效性;同时,设计基于高斯混合模型性质和概率理论的剪枝策略,减少了不必要的计算,此外,在精确计算阶段,引入特征函数,降低了算法的复杂度,同时利用增量式处理进一步提高计算效率。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1