边缘计算架构下的差分私有多源无线信号指纹融合室内定位方法与流程

文档序号:23065477发布日期:2020-11-25 17:51阅读:180来源:国知局
边缘计算架构下的差分私有多源无线信号指纹融合室内定位方法与流程

本发明涉及室内定位的服务领域,为了获得更好的定位服务,用户自愿提供自己拥有或收集的数据参与定位模型的训练,并逐层经过适当的差分私有扰动后,在云服务器生成安全可信的室内定位模型,从而保护用户的位置隐私。



背景技术:

在传统以云为中心的计算方法中,移动设备收集的数据将被全部上传并存储在云端的服务器上进行集中的计算与处理。然而,随着物联网、群智感知、社交网络等技术和领域的飞速发展。无处不在的移动设备、传感器持续产生海量数据、数以亿计的用户在享受互联网服务时产生巨量的交互,使得边缘侧数据出现爆炸式增长,云计算在处理这些数据的时候,会消耗大量的计算和存储资源,其能力就会显得捉襟见肘。边缘计算可以迁移云计算的压力,高效地处理这些海量数据(例如图片、视频、位置信息等),促使以数据为驱动的人工智能成为可能。

另一方面,室内定位技术作为人工智能发展中的一大领域,学术界和工业界对该技术做了大量的研究。基于wi-fi指纹的室内定位技术被认为是现今最流行的方法之一,该技术采用机器学习方法利用来自多个无线传感器信标和接入点(ap)的无线信息强度(rss)来确保定位的准确性,但该技术潜在的隐私问题也不容忽视,在定位过程中可能会泄露用户端的位置信息以及服务器数据库的数据隐私。一些重大的用户数据泄露事件逐渐成为人们关注的焦点,例如近期facebook的数据泄露事件就曾引起了不小的社会恐慌。目前,各国都在加强对数据安全和隐私的保护。2018年5月25日,欧盟开始实施《通用数据保护条例》旨在保护用户的个人隐私和数据安全,对于经营方也进行了明确的约束。

传统的人工智能数据处理模式有着相对固定的流程,一般是一方收集数据,再转移到另一方进行处理、清洗、建模,再将最终的模型销售给第三方。不过,在相关法律完善之后,监督管理也会更加严格,当数据离开收集方,或是用户不了解模型的具体用途时,经营者就会伴随着触犯法律的风险。如果无法合法地解决用户数据隐私泄露的问题,那么大数据的这个遗留问题就很有可能会成为人工智能的健康发展的瓶颈之一。

针对上述问题与挑战,学术界和工业界对潜在可行的解决方法进行了探索,成果如下:专利cn107222851a,名称为“一种利用差分隐私保护wififingerprint室内定位系统隐私的方法”,在保证数据可用性的同时也保护了数据隐私,对于用户端来说,该发明可以保护用户的位置隐私,但是该发明并未考虑到云服务器的不可信性,增加了用户隐私泄露的风险。本发明提出了一种边缘计算架构下多源无线信号融合室内定位方法,它首先将基于机器学习的指纹融合室内定位技术fselm扩展到边缘计算范式下,然后同时使用wi-fi和ble指纹进行稀疏校准的位置估计,以实现低成本,高准确度的室内定位,最后对云服务器中训练模型的激活函数进行适当的差分隐私保护,以使得在云端可以生成可信的室内定位模型;专利cn105530609a,名称为“基于wi-fi指纹的高效隐私保护的室内定位方法”的解决方案是首先收集室内每个位置的指纹并生成索引集合,然后将索引集合通过无线网络传给用户端,以待用户完成对自己位置信息的查找,所述的指纹是指每个位置对应每个wi-fi接入点的rss信号。所述的索引集合包括:若干个哈希表、每个哈希表的对应函数组的参数以及用指纹序号标记的每个指纹的位置坐标,但该发明的不足之处在于攻击者可以通过暴力攻击的方式获取数据库的近似信息,即攻击者伪造尽量多合法范围内的wifi指纹,使用该方案得到所有wifi指纹的定位结果,当与索引集合中参考点位置相同时,这些定位结果和对应的伪wifi指纹组成的数据库和原数据库就非常相似了。本发明考虑了恶意攻击者的最大背景知识,着重研究边缘计算下指纹融合室内定位的隐私保护问题,通过分配多级隐私预算,自适应地将差分隐私扩展到在边缘计算下wi-fi和ble指纹融合室内定位中,从而可以提供ε-隐私保护并且保证高精度和低时间开销的室内定位。



技术实现要素:

本发明提出一种边缘计算架构下的差分私有多源无线信号指纹融合室内定位方法,利用拉普拉斯机制、图拉普拉斯流形约束特征融合和多级隐私预算分配等方法实现了差分隐私保护的室内定位模型训练,从而为用户提供安全可信的指纹融合室内定位服务。

本发明所采用的技术方案为:

一种边缘计算架构下的差分私有多源无线信号指纹融合室内定位方法,假设和用户关联的边缘设备拥有大量从室内区域的不同热点,即accesspoint,ap,收集到的大量wi-fi和蓝牙ble接收信息强度,即receivedsignalstrength,rss数据,包含带标记和未带标记的样本,并且为了能够获取期望的室内定位服务,都愿意给室内定位模型提供数据进行训练;

假设边缘服务器是不可信的,所有未经隐私保护处理的rss数据都将被暴露给边缘服务器,恶意攻击者会通过俘获边缘服务器,获取到用户的私人数据集,造成用户的隐私泄露。要避免将未经隐私保护处理的数据集直接暴露给边缘服务器;

假设云服务器是不可信的,它会接收由边缘服务器发送过来的所有处理后的数据集,通过分析数据集以及模型训练参数来推理出用户的敏感信息,因此,要避免将未经隐私保护处理的训练参数以及数据集直接暴露给云服务器;具体包括下列步骤:

步骤a:边缘设备在将自己拥有的rss数据发送给半可信边缘节点之前,先将原始的rss数据切分为标记的数据和无标记的数据,并将适当可控的拉普拉斯噪声添加到标记的样本数据中对数据进行模糊化处理,处理完后再将扰动后的rss数据随机发送到附近的边缘节点进行wifi和ble的rss数据聚合操作。

步骤b:边缘节点接收到来自边缘设备的数据后,先将相同位置收集到的wifi和ble的rss数据进行聚合,并对其进行统一标定后发送给边缘服务器。

步骤c:边缘服务器将接收到的训练噪声标记和未标记样本整合在一起,并利用图拉普拉斯流行约束对wifi和ble的rss数据进行特征融合,因为边缘服务器是不可信的,为了保证融合过程中数据隐私安全性,边缘服务器需要向wifi和ble的rss数据特征融合过程添加可控拉普拉斯噪声,并将所有经过差分隐私保护处理后的数据集发送到云服务器。

步骤d:云服务器首先从边缘服务器接收经过差分私有扰动且融合后的rss数据集,并利用云服务器强大的学习能力,拟合学习参数,进行满足ε-差分隐私的室内定位机器学习模型训练,并生成安全可信的室内定位模型。

本发明首先将wifi和ble指纹融合室内定位半监督极限学习机方法fselm扩展到边缘计算范式下以解决云计算架构下室内定位模型在处理大量网络边缘产生的数据时带来的高延迟和定位效率低的问题。同时,为了克服边缘计算架构下定位服务中的用户位置隐私问题,本发明通过向室内定位模型训练过程中的每个步骤中添加可控制的拉普拉斯噪声,构建可信的定位模型训练过程和提供安全高效的指纹融合室内定位模型。

本发明主要解决了三个方面的问题:(1)考虑恶意攻击者的最大背景知识,着重研究边缘计算架构下多源无线信号指纹融合室内定位的隐私泄露问题。(2)考虑针对无标记和有标记的训练样本,通过分配多级隐私预算自适应地将ε-差分隐私扩展到在边缘计算架构下多源无线信号指纹融合室内定位中。(3)在两个真实数据集上进行了全面的实验,与半监督学习的定位方法fselm比较,内容包括:模型训练能力、定位效果和时间开销。

附图说明

图1为本发明的指纹融合差分私有室内定位结构图。

具体实施方式

下面结合附图对本发明及其效果进一步说明。

如图1所示,本发明系统模型由四个实体构成:终端设备、边缘节点、边缘服务器和云服务器。这些系统描述如下:

(1)终端设备:用户的终端设备从室内区域(例如,大型购物中心,地下停车场,展览厅等)的多个无线传感器信标收集无线信号强度rss数据。为了解决隐私泄露问题,终端设备先独立地对原始rss数据进行满足差分隐私的隐私保护处理,然后将处理后的数据发送到附近的边缘节点,在边缘节点处进行的rss数据聚合。在此模型中认为终端设备是可信的。

(2)边缘节点:边缘节点是对边缘网关、边缘控制器、边缘服务器等边缘侧多种产品形态的基础共性能力的逻辑抽象,这些产品形态具备边缘侧实时数据分析、本地数据存储、实时网络联接等共性能力。边缘节点首先接收处理后的rss数据进行聚合,然后对其进行统一标定,最后,各个边缘节点将隐私保护处理结果发送给边缘服务器;在此模型中边缘节点是半可信的。

(3)边缘服务器:边缘服务器指为用户提供一个进入网络的通道和与其它服务器设备通讯的功能,通常边缘服务器是一组完成单一功能的服务器,如防火墙服务器,高速缓存服务器,负载均衡服务器,dns服务器等。边缘服务器接受来自n个不同边缘节点上传的聚合后的rss数据,为了对基于l个有标记的样本和u个未标记的样本构建一个差分私有的半标记高维特征无向图g,分别向图拉普拉斯算子l1和l2添加噪声laplace(δf/ε2)和laplace(δf/ε3)来进行wi-fi和ble的rss数据的特征融合(ε2=ε3)。

(4)云服务器:存储在大型数据中心中的云服务器具有强大的数据计算和存储能力,首先将fselm网络的激活函数看作一个对rss操作的特殊查询函数,向其添加可控随机噪声laplace(δf/ε4)来满足差分隐私保护,得到差分私有的激活函数g′,本发明方法将这些模型训练所需参数和中间计算结果输入云端,在满足差分隐私的标准下进行机器学习模型训练,并生成安全可信的室内定位模型。在此模型中认为云服务器是不可信的。

为了验证本发明的性能,设计了集中式初始云端模型训练模式,通过在两个采集的真实数据集officearea和mallarea上的实验来验证本发明方法的有效性。实验对未考虑隐私保护的fselm定位模型与本发明方法的定位效果进行了全面的对比。为了与fselm模型进行性能对比,本发明采用算法执行10次后的平均值作为该方法的最终结果(见表1)。

表1不同ε下fselm和本发明所提方法定位效果对比

从表1中可以观察到,随着ε的减小,训练和测试过程准确度的平均绝对误差(meanabsoluteerror,mae)显著升高。这种现象是因为,此时在训练过程的每个数据处理阶段添加的噪声过大,严重影响数据可用性,造成二者的mae升高。例如,当ε=0.0001时,mae大于70%,这表示样本的可用性已损坏,定位失败。当ε≥0.001时,定位精度的mae随ε的增加不断下降,逐渐变化至可接受的误差范围并严格限制在10%以内。通常,分配较大的隐私保护预算ε可以获得较高的定位精度,但是当ε达到一定阈值时,mae将逐渐保持稳定或略有上升。当ε=0.01和ε=0.1时,本发明方法和fselm模型相关实验表现非常相近,平均模型训练时间为2.27s,测试时间为0.15s,在室内定位应用中几乎可以忽略不计,因此,当选择ε=0.01时本发明方法可以提供满足ε-差分隐私的隐私保护,并且在隐私保护强度、定位准确性和时间开销之间获得较好的平衡。

该方法将结合拉普拉斯机制、图拉普拉斯流形约束特征融合和多级隐私预算分配实现的差分隐私应用到了边缘计算架构下多源无线信号指纹融合室内定位领域。

实现本发明的详细步骤如下:

步骤a:将从用户的边缘设备收集来的rss训练样本xn切分为两部分:有标记的样本xl和无标记的样本xu,对rss数据中的有标记样本xl添加样本自适应的可控随机噪声n0/n×laplace(δf/ε1),用来模糊xl与其真实标签向量t的关联,进而降低边缘节点与rss信息敏感记录的耦合度,这样,就得到了经过差分私有隐私保护处理的有标记样本。x′l可表示为:

x′l=xl+n0/n×laplace(δf/ε1)

其中,n0表示有标记样本的数量,n表示训练样本总数,n0/n表示训练样本的标定比例,将x′l、xu和t组合在一起就能得到隐私保护处理后的训练集[t,,[x′l,xu]];ε1是全局隐私保护预算ε的一个子预算,这一处理阶段可提供(ε1=ε/4)-差分隐私保护。δf计算如下:

x′l=reshape(x′l,wtdth,height)

δf=|max(min(mean(x′l,axis=1))-min(mean(x′l,axis=1))|

其中reshape(,)表示在不改变列表内容的情况下对列表进行重新排列。reshape(x′l,width,height)表示将一维的数组x′l转换为一个widht*height的二维数组。max(·)表示求元素中的最大值、min(·)表示求元素中的最小值、mean(·)表示求元素的均值,当axts=1,表示对二维列表中的每行元素求均值。

步骤b:边缘节点(具有数据计算和存储功能的智能网关)接收到来自边缘设备的经过差分隐私保护处理的rss数据后,先将相同位置收集到的wifi和ble的rss数据进行聚合,然后对其进行统一标定后发送给边缘服务器。由于边缘节点是半可信且无法串谋,因此任何边缘节点都不能获取到完整的rss训练样本。

步骤c:边缘服务器接受来自n个不同边缘节点上传的聚合后的rss数据,为了对基于l个有标记的样本和u个未标记的样本构建一个差分私有的半标记高维特征无向图g,分别向图拉普拉斯算子l1和l2添加噪声laplace(δf/ε2)和laplace(δf/ε3)来进行wi-fi和ble的rss数据的特征融合(ε2=ε3)。因此,图拉普拉斯流形约束特征融合的目标函数可表示为:

其中,h表示隐层节点的输出矩阵,其维数大小为(l+u)×n~,可以看出在该模型中,所有的标记样本和未标记样本都被考虑在内。其次,是一个对角矩阵,当δi=1时,表示第i个样本是有标记的,否则δi=0。在模型中,位置坐标向量t的维度被扩展至l+u,其中l个元素来自于用户标定的真实位置,其余的u个元素则全部设置为0。

通过对该室内定位模型的优化,可以得到如下的可微凸优化目标函数:

其中,β可被推导为

通过调整两个流形约束项的权重系数λ1和λ2,本发明方法可以控制wi-fi和ble信号对模型的相对影响。这个阶段的操作旨在通过添加可控随机噪声来保证wi-fi和ble信号向量特征的融合安全,这一处理阶段可以提供(ε/2)-差分隐私保护。

步骤d:云服务器上将融合半监督极限学习机网络的激活函数看作一个对rss操作的特殊查询函数,向其添加可控随机噪声laplace(δf/ε4)来满足差分隐私保护,得到差分私有的激活函数g′:

g′(ak,bk,xi)=g(ak·xi+bk+laplace(δf/ε4))

g′(ak,bk,xi)代替g(ak,bk,xi)作为本发明方法的定位模型隐层节点的输出来对最终上传的数据进行混淆,防止云服务器获取用户隐私信息,并为云端定位模型的训练提供支持。这一处理阶段可以提供(ε/4)-差分隐私保护。

最后,将这些模型训练所需参数和经过差分私有扰动处理后的数据集输入到本发明方法的定位模型网络,在满足差分隐私的标准下进行机器学习模型训练,因此,网络输出的学习参数及定位模型满足差分隐私。

对本发明安全性的分析

对本发明提出的方法进行安全性分析:

引理1:设有随机算法其隐私保护预算分别为ε1,ε2,…,εn,那么对于统一数据集d,由这些算法构成的组合算法提供差分隐私保护。

理论1:本发明方法是ε-差分私有的。

证明:根据上述说明和分析,本发明方法包含三个差分私有操作阶段:

(1)标记样本混淆;

(2)私有指纹融合;

(3)指纹扰动。

根据差分隐私定义,标记样本混淆阶段和指纹扰动阶段分别保证(ε/4)-差分隐私,而私有指纹融合阶段保证(ε/2)-差分隐私,应用引理1,可以得出本发明方法能够提供ε-差分隐私。

由于本发明方法使用基于差分隐私的激活函数g′(x)和拉普拉斯算子l1和l2,因此,后续计算由先前计算的结果聚合而来,满足差分隐私的序列组合性。对于整个方法流程来说,应用引理1可以得出该方法能够提供(εu+εs)-差分隐私保护,即对于任何一对相邻的训练数据集x和x′,都满足:

此外,半可信的边缘节点无法互相串通,它们仅使用未标记和混淆后的rss数据样本中的一部分来独立执行隐私保护策略。

本发明方法预设了几个隐私保护预算参数εi,其中i=1,2…,m,m为整个训练过程中执行差分隐私保护处理阶段的数量,并在整个模型训练过程的每个操作阶段进行可控随机噪声的添加,因此,当边缘节点接收到隐私保护处理后的样本时,后续的处理过程将为最终生成的室内定位模型提供-差分隐私保护。

综上,本发明方法是ε-差分隐私保护算法。

引理2:本发明方法在ε-满足差分隐私保护下,能够抵御贝叶斯推理攻击。

证明:根据上述隐私威胁模型,假设恶意攻击者具有有关边缘设备基于rss的实际区域t的概率分布π(t)。同时,恶意攻击者还知道任意用户所处源区域t和目标区域t*的训练目标结果概率p[t,t*],一旦恶意攻击者能够观察到目标区域t*,他就可以根据贝叶斯规则预测用户真实位置的后验分布σ(t):

恶意攻击者可以通过对比后验分布和先验分布实施贝叶斯推理攻击。理论上,基于ε-差分隐私有效地限制恶意攻击者的攻击背景知识增益在一个极小的范围内,因此,无论对手的先验知识π(t)是多少,他得到的后验知识σ(t)都满足:

如果两个区域t和t′具有相似的映射到t*的概率,恶意攻击者就无法通过观察t*,并以相似的概率区分真实区域是t还是t′。在这种情况下,ε的值越小,提供的隐私保护强度就越高,这样,本发明方法可以保证在隐私保护处理之后,即使恶意攻击者拥有足够的历史定位请求,使用这些历史rss数据训练出定位模型的定位效果与使用当前真实定位模型的效果是非常相近的,那么,恶意攻击者就无法通过删去任意一条用户定位记录,来观察两个定位模型效果差异,从而判断删去的记录是否参与了模型的训练,并逆转算法来获得用户的真实位置和定位样本。

综上,本发明方法在满足ε-差分隐私保护下,能够抵御贝叶斯推理攻击。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1