一种基于抽样的物联网大数据近似聚集方法与流程

文档序号:29575339发布日期:2022-04-09 06:09阅读:95来源:国知局

1.本发明涉及物联网大数据技术领域,尤其涉及一种基于抽样的物联网大数据近似聚集方法。


背景技术:

2.整体聚集查询(holistic aggregations)是用户从物联网收集的数据中获取摘要信息的常用查询,例如查询分位数、频率、位次(rank)。由于整体聚集不能在物联网中分布式执行,因此需要将所有采集到的数据发送到数据中心,以获得准确的查询结果。上述过程消耗了大量的能量。
3.近似范围计数聚集在数据流、传统数据库系统等许多领域得到广泛的应用。基于采样的数据聚集算法已经被提出并广泛应用于近似数据聚集。然而,这些工作并不是为物联网大数据的范围计数查询而设计的,这意味着这类查询并没有提供性能保证。
4.基于采样的算法也已应用于通过连续数据收集的长期查询。考虑到时间维度和空间维度的高度相关性,现有工作提出了一种分布式近似聚集算法,大大降低了聚集开销。也有工作提出了一些算法来实现聚集开销和聚集精度之间的权衡,从而通过为网络中的每个传感器节点分配可容忍的误差边界来延长网络生存期。现有工作也提出了对大规模时空数据集进行空间在线采样和数据聚集的索引结构,作为一种基于采样的算法,所提出的结构对于动态数据集具有良好的性能。然而,这些工作主要集中在减少长期带宽消耗。它们无法保证本发明中讨论的一个示例多个查询的性能。
5.因此,现有技术存在缺陷,需要改进。


技术实现要素:

6.本发明的目的是克服现有技术的不足,提供一种基于抽样的物联网大数据近似聚集方法。
7.本发明的技术方案如下:提供一种基于抽样的物联网大数据近似聚集方法,包括如下步骤:
8.步骤1:假设网络组织为一个平面模型,其中每个节点直接与基站通信;
9.步骤2:在从底层节点中收集样本后,如果需要的精确度能够满足,则将样本用于回答未来的范围计数聚合;
10.步骤3:如果不能满足需要的精确度,基站将通知底层节点从网络中收集更多的样本;
11.步骤4:利用抽烟数据元素的位次来表示rankcounting估计器;具体为:设si为节点i收集的样本集,di为节点i采集的数据集,i=1,...,k;
12.设分别为样本和数据的全局集。设ni为第i个节点收集的数据数,n为总共k个节点收集的数据总数。fst和lst分别表示节点i收集的第一个和最后一个数据。已知上下界范围l,u;
13.首先使用si计算即对节点i收集的数据的(l,u)-范围计数,然后得到针对s的范围计数,也即为
14.采用上述方案,本发明提出了基于采样的近似整体聚集算法,成功实现了对整体聚集结果的无偏估计,并且给出并证明了查询结果方差的紧致上界。相比于传统的查询算法,本发明提出的算法只要求每个节点传输样本的平均数大于16个,查询结果的方差就比传统聚集算法更低。在这种情况下,节点可以将样本打包成普通的心跳消息给中心,也不会产生更多的通信成本。提出的算法提高了传统算法的延展性,能够保证对一系列整体聚集查询有着较低的紧致上界,包括分位数、中位数、频率、位次等。此算法提高了物联网中大数据处理的效率。
具体实施方式
15.以下结合具体实施例,对本发明进行详细说明。
16.本发明提供一种基于抽样的物联网大数据近似聚集方法,包括如下步骤:
17.步骤1:假设网络组织为一个平面模型,其中每个节点直接与基站通信;
18.步骤2:在从底层节点中收集样本后,如果需要的精确度能够满足,则将样本用于回答未来的范围计数聚合;
19.步骤3:如果不能满足需要的精确度,基站将通知底层节点从网络中收集更多的样本;
20.步骤4:利用抽烟数据元素的位次来表示rankcounting估计器;具体为:设si为节点i收集的样本集,di为节点i采集的数据集,i=1,...,k;
21.设分别为样本和数据的全局集。设ni为第i个节点收集的数据数,n为总共k个节点收集的数据总数。fst和lst分别表示节点i收集的第一个和最后一个数据。已知上下界范围l,u;
22.首先使用si计算即对节点i收集的数据的(l,u)-范围计数,然后得到针对s的范围计数,也即为
23.物联网被视为大数据平台的新范式。例如,部署智慧城市应用程序,对大量物理数据进行及时监控、分析和响应。作为基本的数据分析操作,范围计数(range counting)是这些应用程序的关键组件。例如,数据分析通过获取范围技术统计信息来估计环境中颗粒物水平,交通流量或天气数据,以监测环境污染水平。这些聚集分析不仅对数据所有者有价值,而且对其他具有商业目的的社区也有吸引力。然而,如果收集所有物联网数据来计算精确的范围计数,将产生相当大的通信和计算开销。然而,在许多情况下,开销较小的近似范围计数结果实际上足以让数据客户执行满足精度要求的数据分析任务。为解决该问题,本发明提出了一种基于采样的近似范围计数聚集算法,该算法给出了保证有界较小方差的范围计数的无偏估计器。
24.物联网由大规模的智能设备组成,这些设备收集由传感模块或其他输入通道产生的数据。d表示物联网中所有智能设备收集数据集。每个智能设备只向基站发送其本地收集的数据样本,而不是将整个d传输到基站。这将大大降低数据传输的通信成本。然后将d的样
本s存储在基站中,向数据代理开放数据访问api。本发明考虑对智能设备收集的数据集进行范围计数查询,范围计数的定义如下:
25.定义1:范围计数。在给定范围参数l和u(l≤u)以及数据集d的情况下,具有下界l和上界u的范围计数为|{x|l≤x≤u,x∈d}|。
26.就物联网中的实时通信而言,计算精确的范围计数是非常昂贵的。在许多情况下,具有可接受精度的近似范围计数足以满足客户的要求。定义 2.2提出了(α,δ)-范围计数的概念,用客户指定的精度参数来量化范围计数的查询精度。
27.定义2:(α,δ)-范围计数。给定0≤α≤1和0≤δ≤1,对于任何范围参数l和u,l≤u,数据集d的(α,δ)-范围计数,记为满足
28.数据客户发送(α,δ)-范围计数请求∧(α,δ)给数据代理。数据代理可以访问s来响应这些请求。
29.基于采样(α,δ)-范围计数。高查询精度和低通信成本对整个系统的性能至关重要。为此,本发明提出了一种用于(α,δ)-范围计数聚集的估计器。假设网络组织为一个平面模型,其中每个节点直接与基站通信。值得注意的是平面模型上的算法可以很容易地扩展到一般的树模型。在从底层节点中收集样本后,如果需要的精确度能够满足,它们将被用于回答未来的范围计数聚合。否则,基站将通知底层节点从网络中收集更多的样本。
30.对范围计数的一个简单估计(记作basiccounting)是这个估计量是无偏的,它的方差是当查询一个大范围的计数时,该方差可以增长到这反过来又增加了样本传输的通信成本,因为需要收集更多的样本来保证查询的准确性。
31.为了降低通信成本,本发明利用抽样数据元素的位次来表示 rankcounting估计器。设si为节点i收集的样本集,di为节点i采集的数据集,i=1,...,k。设分别为样本和数据的全局集。设ni为第i个节点收集的数据数,n为总共k个节点收集的数据总数。fst和lst 分别表示节点i收集的第一个和最后一个数据。已知上下界范围l,u。首先使用si计算即对节点i收集的数据的(l,u)-范围计数,然后得到针对s的范围计数,也即为以此基于采样的方法生成近似技术结果,极大的降低了物联网大数据聚集分析过程中的计算及传输开销,贡献了物联网大数据分析的新方法。
32.综上所述,本发明提出了基于采样的近似整体聚集算法,成功实现了对整体聚集结果的无偏估计,并且给出并证明了查询结果方差的紧致上界。相比于传统的查询算法,本发明提出的算法只要求每个节点传输样本的平均数大于16个,查询结果的方差就比传统聚集算法更低。在这种情况下,节点可以将样本打包成普通的心跳消息给中心,也不会产生更多的通信成本。提出的算法提高了传统算法的延展性,能够保证对一系列整体聚集查询有着较低的紧致上界,包括分位数、中位数、频率、位次等。此算法提高了物联网中大数据处理
的效率。
33.以上仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1