一种面向博弈控制的隐私保护方法、系统及可读存储介质

文档序号:26006261发布日期:2021-07-23 21:24阅读:135来源:国知局
一种面向博弈控制的隐私保护方法、系统及可读存储介质

本发明涉及机器学习安全技术领域,特别涉及一种面向博弈控制的隐私保护方法、系统及可读存储介质。



背景技术:

博弈论是研究以自我利益为主的智能体或参与者之间互动行为的标准工具,因其广泛的应用和技术挑战而受到了广泛的关注。当参与者无法直接观察到非临近参与者的行为时,基于领导者-追随者共识协议和基于隐含消息的协议,学者们提出了分布式纳什均衡寻求策略。非合作博弈中的热点研究为聚合博弈,其中参与者的收益或损失取决于他自己的行为以及其他参与者采取的行为的总和。聚合博弈中最显著的例子是经济学上的古诺(cournot)竞争,插电式电动汽车的充电控制和道路网络上的路线选择等。

现有研究提出了聚合博弈的分布式算法,以研究多用户优化问题和具有随机凸目标的nash博弈。但如果智能体的训练数据中包含敏感信息(例如工资或病历信息),这些方法可能导致智能体之间的通信会带来隐私问题,参与者或窃听者可以通过观察上述算法在计算均衡过程中的变量来推断其他参与者有关损失函数的敏感信息,造成通信过程中的隐私泄露,比如:

(1)经济学中的古诺竞争

在古诺寡头垄断中,企业们以提供产品的形式进行竞争,目标是利润最大化。每个企业的利润取决于其生产成本和市场价格,而市场价格取决于所有企业在市场上提供的产品总量。在实际应用中,生产成本和市场价格都是不确定的,每个供应商的成本信息都是其商业机密,而对手试图利用观察到的信息序列来推断其他参与者的敏感信息,推断出私人成本函数。

(2)电动汽车充电

在未来几年中,电动汽车有望大量进入市场,因此,协调它们的充电时间是个很重要的问题。通过假设电价取决于总消费,有学者将电动汽车的充电问题公式化为一个聚合博弈,并提出了基于最优响应或梯度步长的分散方案。但当对手对所有通信都具有潜在访问权时,这一方法可能会导致隐私泄露。

(3)道路网络上的路线选择

在人口稠密的城市中,交通拥堵是个常见的经济成本较高的问题。由于每个驾驶员都追求自己的利益偏好(比如最大限度地减少旅程时间)且会受到其他驾驶员行为的影响,因此经典方法是将交通问题建模为一种博弈。具体而言,通过将道路通行限制表示为耦合约束,学者们研究了具有耦合约束的聚合博弈中的纳什均衡求解问题。但驾驶员的出发地和目的地很容易被用作推断其活动路径的基础,这种时空信息非常敏感,迫切需要加以保护。

综上,目前迫切需要一种隐私保护方法来确保通信过程中不会泄露隐私。



技术实现要素:

本发明的目的在于克服上述背景技术中的不足,以在博弈收敛到唯一纳什均衡点的同时保护每个参与者的隐私不被泄露。

为实现以上目的,一方面,采用一种初始化博弈参与者在初始时刻的策略和局部估计状态信息;

采用基于输入扰动或输出扰动的随机聚合博弈的差分隐私分布式算法对每个参与者的下一时刻的局部估计状态和策略进行更新;

利用更新后的策略完成差分隐私保护。

进一步地,所述采用基于输入扰动的随机聚合博弈的差分隐私分布式算法对每个参与者的下一时刻的局部估计状态和策略进行更新,包括:

在时刻k,对于参与者定义重复以下更新τk次:

其中,aij,k为参与者i在时刻k分配给邻近参与者的非负权重,vi,k为参与者i在时刻k的局部估计状态,博弈参与者之间的通信被建模为无向图其中包含一个非空结点集和一个边集为参与者j在时刻k的局部估计状态;

对于每一个参与者在时刻k+1的局部估计状态进行更新:

其中,xi,k+1为参与者i在时刻k+1的策略,xi,k为参与者i在时刻k的策略,αk为算法的步长,为目标函数的梯度信息,表示在时间k时参与者i的邻域,随机变量ni,k是均值为0,方差为的高斯噪声,为参与者i的动作集合,vj,k为参与者j在时刻k的局部估计状态,vi,k+1参与者i在时刻k+1的局部估计状态。

进一步地,所述采用基于输出扰动的随机聚合博弈的差分隐私分布式算法对每个参与者的下一时刻的局部估计状态和策略进行更新,包括:

在时刻k,对于参与者定义

其中,aij,k为参与者i在第k步分配给邻近参与者的非负权重,vi,k为参与者i在时刻k的局部估计状态,博弈参与者之间的通信被建模为无向图其中包含一个非空结点集和一个边集为参与者j在时刻k的局部估计状态;

对于每一个参与者在时刻k+1的局部估计状态进行更新:

其中,sk是第k步使用的采样梯度数,xi,k+1为参与者i在时刻k+1的策略,xi,k为参与者i在时刻k的策略,为目标函数的梯度信息,α为算法的步长,为随机变量ξi的采样,pj,k=vj,k+nj,k,表示在时间k时参与者i的邻域,随机变量nj,k是均值为0,方差为的高斯噪声,为参与者i的动作集合,vj,k为参与者j在时刻k的局部估计状态,vi,k+1参与者i在时刻k+1的局部估计状态。

进一步地,还包括采用小批量方法对所述基于输出扰动的随机聚合博弈的差分隐私分布式算法的差分隐私进行优化,包括:

令时刻k=0,对每个参与者令α>0,sk为确定性序列;

在时刻k时,对于参与者定义重复以下更新τk次:

其中,aij,k为参与者i在第k步分配给邻近参与者的非负权重,vi,k为参与者i在时刻k的局部估计状态,博弈参与者之间的通信被建模为无向图其中包含一个非空结点集和一个边集为参与者j在时刻k的局部估计状态;

对于每一个参与者在时刻k+1的局部估计状态进行更新:

其中,sk是第k步使用的采样梯度数,xi,k+1为参与者i在时刻k+1的策略,xi,k为参与者i在时刻k的策略,为目标函数的梯度信息,α为算法的步长,为随机变量ξi的采样,表示在时间k时参与者i的邻域,ni,k是均值为0,方差为的高斯噪声,为参与者i的动作集合,vi,k+1参与者i在时刻k+1的局部估计状态。

进一步地,所述基于输出扰动的随机聚合博弈的差分隐私分布式算法在时刻k迭代时的灵敏度满足:

其中,sk-1为第k-1步使用的采样梯度数,c为梯度函数的上界,α为算法的步长。

第二方面,采用一种面向博弈控制的隐私保护系统,包括:初始化模块、更新模块以及差分隐私保护模块,其中:

初始化模块用于初始化博弈参与者在初始时刻的策略和局部估计状态信息;

更新模块用于采用基于输入扰动或输出扰动的随机聚合博弈的差分隐私分布式算法对每个参与者的下一时刻的局部估计状态和策略进行更新;

差分隐私保护模块用于利用更新后的策略完成差分隐私保护。

进一步地,所述更新模块包括第一更新单元和第二更新单元,其中:

第一更新单元用于采用基于输入扰动的随机聚合博弈的差分隐私分布式算法对每个参与者的下一时刻的局部估计状态和策略进行更新,包括:

在时刻k,对于参与者定义重复以下更新τk次:

其中,aij,k为参与者i在时刻k分配给邻近参与者的非负权重,vi,k为参与者i在时刻k的局部估计状态,博弈参与者之间的通信被建模为无向图其中包含一个非空结点集和一个边集为参与者j在时刻k的局部估计状态;

对于每一个参与者在时刻k+1的局部估计状态进行更新:

其中,xi,k+1为参与者i在时刻k+1的策略,xi,k为参与者i在时刻k的策略,αk为算法的步长,为目标函数的梯度信息,表示在时间k时参与者i的邻域,随机变量ni,k是均值为0,方差为的高斯噪声,为参与者i的动作集合,vj,k为参与者j在时刻k的局部估计状态,vi,k+1参与者i在时刻k+1的局部估计状态;

第二更新单元用于采用基于输出扰动的随机聚合博弈的差分隐私分布式算法对每个参与者的下一时刻的局部估计状态和策略进行更新,包括:

在时刻k,对于参与者定义

其中,aij,k为参与者i在第k步分配给邻近参与者的非负权重,vi,k为参与者i在时刻k的局部估计状态,博弈参与者之间的通信被建模为无向图其中包含一个非空结点集和一个边集为参与者j在时刻k的局部估计状态;

对于每一个参与者在时刻k+1的局部估计状态进行更新:

其中,sk是第k步使用的采样梯度数,xi,k+1为参与者i在时刻k+1的策略,xi,k为参与者i在时刻k的策略,为目标函数的梯度信息,α为算法的步长,为随机变量ξi的采样,pj,k=vj,k+nj,k,表示在时间k时参与者i的邻域,随机变量nj,k是均值为0,方差为的高斯噪声,为参与者u的动作集合,vj,k为参与者j在时刻k的局部估计状态,vi,k+1参与者i在时刻k+1的局部估计状态。

进一步地,还包括差分隐私性能优化模块,用于采用小批量方法改对所述基于输入扰动的随机聚合博弈的差分隐私分布式算法的差分隐私进行优化,包括:

令时刻k=0,对每个参与者令α>0,sk为确定性序列;

在时刻k时,对于参与者定义重复以下更新τk次:

其中,aij,k为参与者i在第k步分配给邻近参与者的非负权重,vi,k为参与者i在时刻k的局部估计状态,博弈参与者之间的通信被建模为无向图其中包含一个非空结点集和一个边集为参与者j在时刻k的局部估计状态。

对于每一个参与者在时刻k+1的局部估计状态进行更新:

其中,sk是第k步使用的采样梯度数,xi,k+1为参与者i在时刻k+1的策略,xi,k为参与者i在时刻k的策略,为目标函数的梯度信息,α为算法步长,为随机变量ξi的采样,表示在时间k时参与者i的邻域,ni,k是均值为0,方差为的高斯噪声,为参与者i的动作集合,vi,k+1参与者i在时刻k+1的局部估计状态。

进一步地,所述基于输出扰动的随机聚合博弈的差分隐私分布式算法在时刻k迭代时的灵敏度满足:

其中,sk-1为第k-1步使用的采样梯度数,c为梯度函数的上界,α为算法的常步长。

第三方面,采用一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行可实现上述的面向博弈控制的隐私保护方法。

与现有技术相比,本发明存在以下技术效果:本发明采用分布式算法来计算随机聚合博弈中的均衡,每个参与者都通过添加随时间变化的随机噪声来保护自己的敏感信息,保持(∈,δ)-差分隐私性,不会被对手通过访问通信所推测。

附图说明

下面结合附图,对本发明的具体实施方式进行详细描述:

图1是一种面向博弈控制的隐私保护方法的流程图;

图2是一种面向博弈控制的隐私保护系统的结构图;

图3是网络拓扑结构图;

图4是输出扰动法求得纳什均衡的期望均方误差;

图5输入扰动法求得纳什均衡的期望均方误差;

图6是小批量法得纳什均衡的期望均方误差;

图7是市场经济博弈中存在网络纳什古诺均衡示意图。

具体实施方式

为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。

本文使用符号的含义如下:x≥0(x>0)表示对称矩阵x为半正定(正定)矩阵。1表示所有元素均为1的适当维数的向量。分别表示n维欧几里得空间和所有m×n维实矩阵的集合。‖x‖2是指向量x的欧几里得范数。i,0分别是具有适当维数的单位矩阵和零矩阵。另外,diag{a1,…,an}为对角元素分别为a1,…,an的对角矩阵。随机变量x的期望值由表示。

本文中涉及的相关名词解释如下:

(1)图论

在本文中,博弈参与者之间的通信被建模为无向图其中包含一个非空结点集和一个边集的邻接矩阵,当(i,j)∈ε时ai,j,k>0,否则ai,j,k=0。表示在时间k时结点i的邻域,我们假设(i,i)不存在。如果任何结点对(i1,il)都存在路径(i1,i2),(i2,i3),…,(il-1,il),则将称为相连通。的拉普拉斯矩阵定义为其中度矩阵

(2)博弈论

考虑一个随机聚合博弈,在该博弈中玩家i试图达到以下目标:

其中随机变量以下为与博弈相关的一些定义:

定义1:标准式博弈。标准式博弈被定义为三元组其中为参与者集合,其中为参与者i的动作集合,f=(f1,f2,…,fn),其中fi为玩家i的损失函数。

定义2:纳什均衡。纳什均衡是一种动作组合,任何参与者都无法通过单方面改变其行为来降低成本,即当参与者满足以下条件时动作组合是一个纳什均衡:

其中x-i=[x1,…,xi-1,xi+1,…,xn]t。直观上来说,当其他参与者的策略都固定时,如果没有任何参与者能通过单方面偏离策略来改善成本,则该策略就是纳什均衡。

定义3:聚合博弈。如果存在一个集合函数是连续的、可加的、可分离的,则该博弈为聚合博弈。此时存在函数满足条件其中

(3)差分隐私

在正式提出问题之前,我们先介绍一些差异性隐私的初步知识。在差异隐私中,保留隐私等效于隐藏数据库中的变化。在形式上,数据库中的变化可以由两个数据库之间的对称二元关系定义,称为邻接关系,用adj(dk,d′k)表示。满足adj(dk,d′k)的两个数据库dk和d′k称为相邻数据库。

定义4:差分隐私。给定∈,δ≥0,当所有邻接数据集dk和d′k和所有输出的子集满足条件时,称随机算法是(,)-差分隐私的。

差分隐私所使用的基本思想是在发布之前“干扰”确切的结果。即它保证了对手不能从dk的输出中以很高的可能性判断数据库中对应于单个用户的数据是否已更改。常数∈衡量随机算法的隐私级别,较小的∈意味着较高的隐私级别。∈一般被认为是个较小的常数,例如∈≈0.1,或者甚至是ln2或ln3。

在差分隐私中,每次迭代要添加多少噪声是个关键数据,我们称之为所提算法的灵敏度。

定义5:灵敏度。输出映射q在第k次迭代时的灵敏度为:

其中dk和d′k为第k次迭代中的输入数据集。

本文基于以下假设建立方法和结果:

假设1:玩家的目标函数是两次连续可微的函数,并且满足全局利普希茨连续条件,即存在正常数li对于满足:

假设2:强单调性。存在正常数m使满足:

(x-y)t(g(x)-g(y))≥m||x-y||2

其中

假设3:严格单调。对于满足:

(x-y)t(g(x)-g(y))>0

假设4:均匀有界,即存在正常数c使

假设5:存在正整数z,使得对于所有非负整数k,满足相连通,其中为时间为l时的无向通信图,εl为l时的边集。

假设6:令为图的权重矩阵,满足如下条件:

(1)存在正常数η使得时ai,j,k>η,时ai,j,k=0;

(2)为双随机矩阵,即

假设7:步长{αk}k≥0满足如下条件:

(1)不会增长,即0≤αk+1≤αk≤1,

(2)无法求和,即∑k≥0αk=∞;

(3)可以平方求和,即∑k≥0αk2<∞。

比如步长为αk=(k+1),时,满足假设7的要求。

如图1所示,本实施例公开了一种面向博弈控制的隐私保护方法,包括如下步骤s1至s3:

s1、初始化博弈参与者在初始时刻的策略和局部估计状态信息;

s2、采用基于输入扰动或输出扰动的随机聚合博弈的差分隐私分布式算法对每个参与者的下一时刻的局部估计状态和策略进行更新;

s3、利用更新后的策略完成差分隐私保护。

需要说明的是,本实施例提出差分隐私分布式算法求解聚合博弈中的纳什均衡问题,这一算法的关键步骤为:

(1)向其邻近参与者发送已被噪声破坏的信息:

在每次迭代中,每个参与者i都会将其当前的有噪声估计pi,k发送给其邻近参与者特别地,结点广播为pi,k=vi,k+ni,k,其中vi,k是参与者i在时间k时的估计状态,ni,k是均值为0,方差为的高斯噪声,即

(2)策略更新,即用来自邻近参与者的有噪声的信息来更新估计状态,然后使用估计信息的梯度来更新策略状态:

定义pi,k=vi,k+ni,k,然后按如下公式更新xi,k和vi,k:

本实施例与传统的聚合博弈的分布式算法不同,为了确保算法的(∈,δ)-差分隐私性,在广播时将高斯噪声添加到局部估计状态vi,k中,即再实现随机聚合博弈中的均衡,同时保持(∈,δ)-差分隐私性,不会被对手通过访问通信所推测,通过添加随机噪声来保证个人隐私,即输入扰动方法和输出扰动方法。

作为进一步优选的技术方案,上述步骤s2中的采用基于输入扰动的随机聚合博弈的差分隐私分布式算法对每个参与者的下一时刻的局部估计状态和策略进行更新,包括:

参与者i在初始时刻的策略为状态为vi,0=xi,0;

在时刻k,对于参与者定义重复以下更新τk次:

其中,aij,k为参与者i在时刻k分配给邻近参与者的非负权重,vi,k为参与者i在时刻k的局部估计状态,博弈参与者之间的通信被建模为无向图其中包含一个非空结点集和一个边集为参与者j在时刻k的局部估计状态。

对于每一个参与者在时刻k+1的局部估计状态进行更新:

其中,xi,k+1为参与者i在时刻k+1的策略,xi,k为参与者i在时刻k的策略,αk为算法的步长,为目标函数的梯度信息,表示在时间k时参与者i的邻域,随机变量ni,k是均值为0,方差为的高斯噪声,为参与者i的动作集合,vj,k为参与者j在时刻k的局部估计状态,vi,k+1参与者i在时刻k+1的局部估计状态。

作为进一步优选的技术方案,上述步骤s2中的采用基于输出扰动的随机聚合博弈的差分隐私分布式算法对每个参与者的下一时刻的局部估计状态和策略进行更新,包括:

参与者i在初始时刻的策略为状态为vi,0=xi,0;

在时刻k,对于参与者定义

其中,aij,k为参与者i在第k步分配给邻近参与者的非负权重,vi,k为参与者i在时刻k的局部估计状态,博弈参与者之间的通信被建模为无向图其中包含一个非空结点集和一个边集为参与者j在时刻k的局部估计状态。

对于每一个参与者在时刻k+1的局部估计状态进行更新:

其中,sk是第k步使用的采样梯度数,xi,k+1为参与者i在时刻k+1的策略,xi,k为参与者i在时刻k的策略,为目标函数的梯度信息,α为算法步长,为随机变量ξi的采样,pj,k=vj,k+nj,k,表示在时间k时参与者i的邻域,随机变量nj,k是均值为0,方差为的高斯噪声,为参与者i的动作集合,vj,k为参与者j在时刻k的局部估计状态,vi,k+1参与者i在时刻k+1的局部估计状态。

作为进一步优选的技术方案,对于输出扰动情况,这一算法不能保证均方收敛,本实施例使用调整后的批量方法来削弱这一限制,具体为:

采用小批量方法对所述基于输出扰动的随机聚合博弈的差分隐私分布式算法的差分隐私进行优化,包括:

令时刻k=0,对每个参与者令α>0,sk为确定性序列;

在时刻k时,对于参与者定义重复以下更新τk次:

其中,aij,k为参与者i在第k步分配给邻近参与者的非负权重,vi,k为参与者i在时刻k的局部估计状态,博弈参与者之间的通信被建模为无向图其中包含一个非空结点集和一个边集为参与者j在时刻k的局部估计状态。

对于每一个参与者在时刻k+1的局部估计状态进行更新:

其中,sk是第k步使用的采样梯度数,xi,k+1为参与者i在时刻k+1的策略,xi,k为参与者i在时刻k的策略,为目标函数的梯度信息,α为算法的步长,为随机变量ξi的采样表示在时间k时参与者i的邻域,ni,k是均值为0,方差为的高斯噪声,为参与者i的动作集合,vi,k+1参与者i在时刻k+1的局部估计状态。

需要说明的是,本实施例采用小批量方法改善(∈,δ)-差分隐私的性能,从而保证相同级别的隐私性且噪声较小。

作为进一步优选的技术方案,所述基于输出扰动的随机聚合博弈的差分隐私分布式算法在时刻k迭代时的灵敏度满足:

其中,sk-1为第k-1步使用的采样梯度数,c为梯度函数的上界,α为算法的常步长。

如图2所示,本实施例公开了一种面向博弈控制的隐私保护系统,包括:初始化模块、更新模块以及差分隐私保护模块,其中:

初始化模块用于初始化博弈参与者在初始时刻的策略和局部估计状态信息;

更新模块用于采用基于输入扰动或输出扰动的随机聚合博弈的差分隐私分布式算法对每个参与者的下一时刻的局部估计状态和策略进行更新;

差分隐私保护模块用于利用更新后的策略完成差分隐私保护。

作为进一步优选的技术方案,所述更新模块包括第一更新单元和第二更新单元,其中:

第一更新单元用于采用基于输入扰动的随机聚合博弈的差分隐私分布式算法对每个参与者的下一时刻的局部估计状态和策略进行更新,包括:

在时刻k,对于参与者定义重复以下更新τk次:

其中,aij,k为参与者i在时刻k分配给邻近参与者的非负权重,vi,k为参与者i在时刻k的局部估计状态,博弈参与者之间的通信被建模为无向图其中包含一个非空结点集和一个边集为参与者j在时刻k的局部估计状态。

对于每一个参与者在时刻k+1的局部估计状态进行更新:

其中,xi,k+1为参与者i在时刻k+1的策略,xi,k为参与者i在时刻k的策略,αk为算法的步长,为目标函数的梯度信息,表示在时间k时参与者i的邻域,随机变量ni,k是均值为0,方差为的高斯噪声,为参与者i的动作集合,vj,k为参与者j在时刻k的局部估计状态,vi,k+1参与者i在时刻k+1的局部估计状态;

第二更新单元用于采用基于输出扰动的随机聚合博弈的差分隐私分布式算法对每个参与者的下一时刻的局部估计状态和策略进行更新,包括:

在时刻k,对于参与者定义

其中,aij,k为参与者i在第k步分配给邻近参与者的非负权重,vi,k为参与者i在时刻k的局部估计状态,博弈参与者之间的通信被建模为无向图其中包含一个非空结点集和一个边集为参与者j在时刻k的局部估计状态。

对于每一个参与者在时刻k+1的局部估计状态进行更新:

其中,sk是第k步使用的采样梯度数,xi,k+1为参与者i在时刻k+1的策略,xi,k为参与者i在时刻k的策略,为目标函数的梯度信息,α为算法的步长,为随机变量ξi的采样,pj,k=vj,k+nj,k,表示在时间k时参与者i的邻域,随机变量nj,k是均值为0,方差为的高斯噪声,为参与者i的动作集合,vj,k为参与者j在时刻k的局部估计状态,vi,k+1参与者i在时刻k+1的局部估计状态。

作为进一步优选的技术方案,还包括差分隐私性能优化模块,用于采用小批量方法改对所述基于输入扰动的随机聚合博弈的差分隐私分布式算法的差分隐私进行优化,包括:

令时刻k=0,对每个参与者令α>0,sk为确定性序列;

在时刻k时,对于参与者定义重复以下更新τk次:

其中,aij,k为参与者i在第k步分配给邻近参与者的非负权重,vi,k为参与者i在时刻k的局部估计状态,博弈参与者之间的通信被建模为无向图其中包含一个非空结点集和一个边集为参与者j在时刻k的局部估计状态。

对于每一个参与者在时刻k+1的局部估计状态进行更新:

其中,sk是第k步使用的采样梯度数,xi,k+1为参与者i在时刻k+1的策略,xi,k为参与者i在时刻k的策略,为目标函数的梯度信息,α为算法的步长,为随机变量ξi的采样表示在时间k时参与者i的邻域,ni,k是均值为0,方差为的高斯噪声,为参与者i的动作集合,vi,k+1参与者i在时刻k+1的局部估计状态。

作为进一步优选的技术方案,所述基于输出扰动的随机聚合博弈的差分隐私分布式算法在时刻k迭代时的灵敏度满足:

其中,sk-1为第k-1步使用的采样梯度数,c为梯度函数的上界,α为算法的常步长。

本实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行可实现上述实施例所述的面向博弈控制的隐私保护方法。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是,在市场经济博弈中,企业们以提供产品的形式进行竞争,目标是其利润最大化。每个企业的利润取决于其生产成本和市场价格,而市场价格取决于所有企业在市场上提供的产品总量。在实际应用中,生产成本和市场价格都是不确定的,每个供应商的成本信息都是商业机密,而对手则试图利用观察到的信息序列来推断其成本函数。本算法便可用于保护其成本函数不被泄露。

本实施例提出的差分隐私分布式随机逼近算法,使每个参与者在均方意义下收敛到平衡点。通过在目标函数和通信图上使用一组标准假设,对所提算法进行了严格的收敛性和保密性分析,表明该算法是抗噪声的并且是可证明收敛的,还利用矩量法计算了端到端的隐私损失。此外,本实施例首次计算了步长逐渐减小的收敛速度,显示了均方意义上的最优收敛速度为o(1/k)。逐渐减小的步长通常会导致尽可能地接近最佳点,但收敛速度较慢,而恒定的步长会导致平衡点附近的波动,因此步长的选择通常需要在收敛速度和收敛精度之间进行权衡。对于恒定步长,通过使用自适应批处理大小,不仅可以使聚合博弈的纳什均衡达到均方收敛,而且有更优的收敛速度。具体论证过程如下:

(1)关于采用基于输出扰动的随机聚合博弈的差分隐私分布式算法(以下简称输出扰动方法):

(1-1)输出扰动法隐秘性论证:

本实施例中为了保护隐私,每个代理i通过将噪声矢量添加到本地估计信号vi,k,即pi,k=vi,k+ni,k,来产生噪声信号。为了满足(∈,δ)-差分隐私,该机制的输出应满足定义4。在差异性隐私的背景下,所提算法的相应机制应将映射到消息序列这种保证差异隐私的方法被称为输出扰动。接下来得出关于噪声方差的条件,在这种条件下分布式算法可以解决本文提出的隐私问题。

引理1:采用输出扰动方法对每个参与者的下一时刻的局部估计状态和策略进行更新在第k次迭代时的灵敏度满足:

证明:基于dk计算vi,k,基于d′k计算v′i,k,则有对于数据集dk和d′k,有:

定理1:令∈∈(0,1]为任意数,ni,k为方差为的高斯分布函数,其中

则输出扰动方法的每次迭代都具有(∈,δ)-差分隐私性。

特别地,对于任何邻接数据集dk和d′k和任意输出pi,k,有以下不等式成立:

证明:由于从pi,k到ni,k线性变换的雅可比矩阵为恒等矩阵,因此pi,k的隐私损失为:

此外,用表示的ni,k彼此独立,对于任何l都有:

基于上述两式可以得出:

基于引理1,代入后可以得到:

时,以∈为界。

接下来证明:

其中此外,该式等价于

使用正态分布的尾边界可以得到

其中δ≤0.01,0<∈≤1,则有

则有式(5)成立,因此可推出式(4)成立。

通过设置:

可得到:

由此,定理1成立。

(1-2)泄露隐私总量评估:

基于以上论述,使用矩量会计方法来评估其总隐私泄漏,主要结果总结如下:

定理2:令∈∈(0,1]为任意数,则输出扰动法具有-差分隐私性,其中

本文给出了两种特殊的采样方法,即独立同分布采样和无替代采样。基于定理2,可得出以下结果。

推论1:令∈∈(0,1]为任意数,批尺寸sk=b,如果采用独立同分布采样,则输出扰动法为-差分隐私,其中l为是采样样本总数。

推论2:令∈∈(0,1]为任意数,如果采用无替代抽样方法,则输出扰动法为(∈,δ)-差分隐私。

(1-3)收敛性分析:

为了分析输出扰动法的收敛性,定义以下向量:

用以下形式重写公式(1)和(2):

在讨论所提出算法的收敛性之前,给出以下引理:

引理2:令vk,uk,βk,ζk为非负随机变量,如果对于所有k≥0有成立,其中为给定v0,…,vk,u0,…,uk,β0,…,βk,ζ0,…,ζk的条件数学期望,则vk几乎肯定收敛,并且几乎确定有成立。

引理3:令为非负标量序列,如果0<ρ<1,则

引理4:1)如果假设4和5成立,则存在常数θ>0和ρ∈(0,1)使得对于任意成立,其中转换矩阵

2)倘若yk=1tvk,则有yk=1txk。

引理5:如果假设5和6成立,共识时间τk=k+1,k≥1,则

引理6:如果假设5和6成立,且则对于任意非负整数k有成立。

证明:假设它适用于l=1,…,k,即根据策略更新可以得到

其中xi,0=vi,0,则从上式开始运行迭代,可以得到

根据式(12)和(13)可知

引理7:如果假设4、5、6成立,且q∈(0,1),则对于每个正整数k有:

证明:根据式(11)可知

通过该式迭代计算可得

其中转移矩阵ψk,s根据引理4定义。则上式可重写为以下形式

根据式(14)有

根据(16)和(17)可得

其中第一个不等式来自柯西-舒瓦兹不等式,第二个不等式当时成立。接下来估计||xs-xs-1||。

根据式(11)知

||xs-xs-1||=α||||[gi(xi,s-1,vi,s-1)]vec||||≤cnα(19)

根据式(3)、(18)和(25)可得

其中为一个紧凑集合,存在常数使式(26)中最后一个不等式成立。

接下来,计算输出扰动法的均方收敛误差。

定理3:如果假设1-4对于任意∈>0和σk都成立,且恒定步长α满足0<2αm<1,则算法2生成的序列xi,k满足以下形式

其中:

证明:根据式(11)可知:

则根据式(20)可得:

由于均匀有界,因此有此外集合可知:

的强单调性可知

根据gi(.)的利普希茨连续性,使用柯西-施瓦兹不等式可得:

根据式(21)和(23)可知:

根据式(24)和引理7可得:

基于步长条件并重复上述过程,获得定理3成立,证明完成。

(2)梯度扰动

定理4:令∈∈(0,1]为任意数,ni,k为方差为的高斯分布中采样的噪声,其中则算法3的每次迭代均为(∈,δ)-差分隐私。

证明:与定理1的证明相似,因此在此省略。

(2-1)计算输入扰动法的泄露隐私总量:

与定理2相似,给出输入扰动法的隐私泄漏总量如下:

定理5令∈∈(0,1]为任意数,则算法3的为-差分隐私,其中

引理8如果假设4-6成立,则对于每个正整数k,都有成立。

证明:与引理7的证明类似。根据式(11)可得

根据式(3)、(18)和(25)可得:

其中为一个紧凑集合,存在常数使式(26)中最后一个不等式成立。

接下来计算的收敛性。根据式(26)可知:

接下来证明(27)右边的每个项都是可加的,因此成立。

αk≤α0,时有成立,其中0<ρ<1。此外,因为αk≤αs,故对于序列有下式成立

根据引理3和可得至此,证明完成。

(2-2)计算输入扰动法的均方收敛:

接下来,使用随机近似类型条件计算输入扰动法的均方收敛,如下所示:

定理6如果假设1,3-7成立,则对于任意∈>0和σi,k,由逐渐减小步长的输入扰动法生成的序列xi,k几乎肯定收敛到

证明:根据式(11)可知:

nk为零均值的噪声,即由式(20)可得

可得:

根据gi(x*)=0和具有严格单调性(假设3)可得:

此外,根据gi(.)的利普希茨连续性并使用柯西-施瓦茨不等式可得:

根据式(30)、(35)和(33)可得:

由于可得:

引用定理2:

vk:=||xk-x*||2

从引理8和式(34)可见然后引用引理2可得||xk-x*||2收敛,以及由于αk序列不可加,可得:

xk序列有界,考虑其有限子序列满足这个子序列为一个收敛子序列。g的严格单调性意味着这个子序列收敛于x*,即limk→∞xk=x*。至此,定理已完成证明。

由定理6可知,策略更新状态xk在均方意义上收敛于nash均衡状态x*

(2-3)计算输入扰动法的收敛速度:

定理7如果假设1、2、4-6成立,并且步长满足共识时间τk=k+1,则算法3的收敛速度为:

其中m为假设2中的正常数。

证明:通过使用(a+b)2≤2(a2+b2)可得

根据式(33)和假设2可得:

根据式(35)和(36)可得

引用定理5,当时,存在k>k0和β>0满足

进而可得:

迭代以上过程可得:

当γ=1时,可得:

根据式(40)和(42)可得:

通过代入可得:

因此该结果对于γ=1成立。

时可得:

对于足够大的k0和k0≤l,有因此由式(40)可得:

对于较大的k0有因此:

此外,有以下公式成立:

由(46)可得:

证明完成。

(3)基于最小批量的随机聚合博弈隐私保护分布算法的梯度摄动(输入摄动)方法(简称最小批量法)的收敛性质:

定理8令∈∈(0,1]为任意数,ni,k为方差为的高斯分布中采样的噪声,其中则算法4的每次迭代均为(∈,δ)-差分隐私。

(3-1)计算最小批量法的泄露隐私总量:

定理9令∈∈(0,1]为任意数,则算法4为-差分隐私,其中

由于没有给出抽样方法,因此我们考虑了定理9中最坏的情况。我们采用两种特殊的采样方法,即独立同分布采样和无替代采样,算法4的总隐私泄漏量也分别满足推论1和推论2。

定理10如果假设1、2、4-7成立,则可得出以下结果:

当c0≠γ时,有

当c0=γ时,有其中

证明:根据式(21)和(23)可得:

基于引理5并迭代上述过程可得:

其中γ=max{ρ,q}。

当c0≠γ时,对于γ<c0可得:

类似地,当γ>c0时有因此可得

当γ=c0时,通过使用可得

以下提供一具体仿真示例:

本实施例提供了一个数值模拟来验证本文所提算法的有效性。本实施例考虑5人的能量消耗博弈,参与人i的目标函数如下:

其中,此时博弈具有唯一一个纳什均衡点x*=(41.5,46.4,51.3,56.2,61.6)。假设参与人之间的拓扑图在以下图之间切换,如图3所示。由图4可知,使用输出扰动法时收敛到零的小邻域内;使用输入扰动法和小批量法,完全收敛于零。此外,对比图5和图6可以看出,通过小批量法,参与者可以更快地达到唯一的纯策略纳什均衡,这与理论分析一致。

需要说明的是,随机聚合博弈中的差分私有纳什均衡求解问题。为了保护每个参与人的敏感信息,本实施例使用了(∈,δ)-差分隐私方法。在差分隐私引入附加噪声的情况下,设计了三种保护隐私的分布式算法来计算随机集合博弈的均衡。特别地,本实施例利用随机逼近型条件,保证了策略更新序列收敛到均方意义上的均衡。然后,分析了所提算法的(∈,δ)差分隐私性和收敛速度。使用小批量方法改进了随机聚合博弈的差分私有分布算法的性能。特别的是,提出的算法使用小批量,保证了相同的隐私水平和更少的噪声,在性能上优于一批的差分隐私分布算法。最后我们通过仿真实例验证了所提算法的有效性。

以下为本实施例算法应用到具体场景的实例:

在市场经济博弈中存在网络纳什古诺均衡问题,如下图7所示:

厂家以提供产品的形式进行竞争,目标是其利润最大化。每个厂家的利润取决于其生产成本和产品单价,如厂家的生产成本函数为:

其中,指厂家i在市场l=1,2,…,l上的销售额,ci为常数,ξi为均值为零的随机变量,l表示市场总数。

单价函数为:

其中,dl为当销售量为零时的单价,bl为反需求函数的斜率,ζl为均值为零的随机变量,为在市场l上的销售总量,n是厂家总数。

则该厂家的利润函数为:

网络中存在攻击者,即参与的个体或窃听者,试图利用观察到的信息序列来推断厂家的成本函数,即以下过程:

对于固定的每一次采样而言:

成本函数的梯度信息被泄露,厂家的单价函数为公开信息;导致窃听者得知成本函数ci(xi,ξi)的导数;

窃听者知道厂家成本函数的结构;

最终导致厂家的成本信息被泄露。

应用本实施例方法便可用于保护厂家的成本函数,解决隐私泄露问题。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1