基于区块链和联邦学习的数据共享方法及装置与流程

文档序号：27126917发布日期：2021-10-27 20:17阅读：来源：国知局

技术特征：
1.一种基于区块链和联邦学习的数据共享方法，其特征在于，包括：对用户数据资产进行数据分布特征提取建立高斯混合模型；对高斯混合偏离较大的数据进行剔除操作并发布计算任务；对发布的计算任务进行资源和模块的调度，并进行任务分解，以便于训练联邦学习模型；采用贝叶斯决策理论，对训练生成的联邦学习模型进行评价，生成模型的误差评价矩阵；利用误差评价矩阵获得的最小损失决策权重对各用户参与联邦学习的数据资产进行价值评价，获得用户资产价值，并将计算得到的各用户数据资产价值和用户哈希id及联邦模型一并作为内容打包为区块进行上链存证。2.根据权利要求1所述的基于区块链和联邦学习的数据共享方法，其特征在于，所述对用户数据资产进行数据分布特征提取建立高斯混合模型包括：高斯混合模型通过多个单一高斯模型拟合复杂的数据特征分布，随机变量符合高斯分布则有：对多个高斯分布加权形成的混合分布进行充分的描述总体分布的多模态，则有：当变量为多位数据样本时，存在：其中，μ为均值，∑为协方差矩阵，d为变量的维度；那么高斯混合模型计算为：其中，为第i个单高斯模型的权重，且存在3.根据权利要求2所述的基于区块链和联邦学习的数据共享方法，其特征在于，所述对高斯混合偏离较大的数据进行剔除采用策略进行样本的剔除包括：a.求各变量均值之间的归一化均值距离权重：其中x
i
为第i个高斯回归分布，为第i个回归的均值与其他回归均值的距离之和，为所有样本间均值距离之和；b.对数据的峰度进行距离分析，计算样本的归一化峰度距离权重：
筛选后各样本的覆盖度2σ
i
，求样本在全局的归一化覆盖度权重：那么对于所有样本的均值距离、峰值距离和覆盖度即形成三个集合c.计算w
lμ
和d
lk
的中位数、均值、四分位数，并筛选出w
′
lμ
、d
′
lk
和s
′
lσ
；d.将筛选后的w
′
lu
中的距离权重作为标准，获得实际选择的数据分布样本x
i
，由和各自经过筛选后构成的集合w
″
lμ
、d
″
lk
和s
″
lσ
；e.根据用户id、原始样本特征、筛选后的特征、剔除的距离权重峰度权重样本覆盖权重以生成对用户数据特征的描述，用于进行最终联邦模型利益的分配和激励存证；f.将筛选后的样本特征作为进行组合，形成针对各参与方差异化的初始参数集合，构成联邦学习的预训练特征。4.根据权利要求3所述的基于区块链和联邦学习的数据共享方法，其特征在于，所述对发布的计算任务进行资源和模块的调度，并进行任务分解，以便于训练联邦学习模型包括：对不同初始化参数集进行解密，利用初始化参数采样本地设备中的数据，剔除的进行对应单一高斯特征用户数据的相应筛出，其余部分为参与联邦学习的数据集，联邦学习的优化问题可定义为：其中，n
ck
是用户设备ck上数据数量，ω
ck
是来自用户设备ck的参数，ck∈s，s为每个通信轮次中含有m个参与方的特征子集；假设建立在独立同分布的基础之上，通过数据特征筛选后，得到面向不同用户数据特征的独立训练数据资产，因此，在联邦学习中的优化问题转为：征的独立训练数据资产，因此，在联邦学习中的优化问题转为：为针对客户设备ck上每个单一高斯分布样本覆盖度的权重。5.根据权利要求1所述的基于区块链和联邦学习的数据共享方法，其特征在于，所述采用贝叶斯决策理论，对训练生成的联邦学习模型进行评价，生成模型的误差评价矩阵包括：采用各参与方的本地数据，进行模型精度和误差的计算；将各参与方中除参与联邦模型训练之外的数据用作联邦模型的验证，获得模型精度和误差损失，采用如下方式计算：
precision＝tp/(tp+fp)recall＝tp/(tp+fn)其中，tp为真正例，tn为真负例，s为验证的样本总量，p为精度，r为召回率；建立用户数据评价联邦学习的损失矩阵；设用户数据x
i
在全局的条件错误率为p(ε|x
i
)，则有：其中，其中，为某一用户数据在联邦模型中f
‑
score在全局的归一化权重，为ω
′
j
；因为归一化后的f
‑
score体现了样本在全局的正确性，所以误差为1
‑
p(ω
i
|x
i
)；建立损失矩阵，描述所有联邦学习参与者数据资产的损失特征：δ(a
i
,ω
′
j
)；贝叶斯最小风险决策；贝叶斯最小损失决策的目标函数为：min p(e)＝∫p(ε|x)p(x)dx＝∑p(ε|x)p(x)利用贝叶斯计算后验概率：利用损失矩阵则有：最优决策为：α＝argmin
i＝1,
…
,k
r(a
i
|x)则针对每个用户数据的后验概率权重则为a
i
。6.根据权利要求5所述的基于区块链和联邦学习的数据共享方法，其特征在于，所述利用误差评价矩阵获得的最小损失决策权重对各用户参与联邦学习的数据资产进行价值评价包括：先验概率，即训练前用户数据资产的分布特征获得的评价权重和后验概率，即在获得联邦模型状况下进行了贝叶斯决策后的特征权重则用户的数据资产价值即为：参与联邦学习的价值+验证精度的价值，表示为：其中，为综合三个权重的先验概率函数，为后验概率函数，
为参与联邦学习模型训练的数据占比，为验证联邦模型的数据占比；a,b为价值评价的综合占比，依据训练数据和验证数据的使用情况，设置为0.8和0.2。7.一种应用如权利要求1至6任一所述的基于区块链和联邦学习的数据共享方法的装置，其特征在于，该装置包括区块链交互模块、设备通信模块和资源管理模块；区块链交互模块，用于提供用户数据资产使用的存证，并初始化参数；设备通信模块，用于存储用户数据资产，数据资产的采用；资源管理模块，用于为联邦学习提供资源调度、任务分发、训练参数加密共享和容错保障联邦学习中的协调管理控制部分。8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于区块链和联邦学习的数据共享方法的步骤。9.一种计算机终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述基于区块链和联邦学习的数据共享方法的步骤。

技术总结
本发明提供一种基于区块链和联邦学习的数据共享方法及装置，该方法包括：对用户数据资产进行数据分布特征提取建立高斯混合模型；对高斯混合偏离较大的数据进行剔除操作并发布计算任务；对发布的计算任务进行资源和模块的调度，并进行任务分解，以便于训练联邦学习模型；采用贝叶斯决策理论，对训练生成的联邦学习模型进行评价，生成模型的误差评价矩阵；对各用户参与联邦学习的数据资产进行价值评价，并将各用户数据资产价值和用户哈希ID及联邦模型打包为区块进行上链存证。与相关技术相比，本发明提供的基于区块链和联邦学习的数据共享方法及装置，其能够促进和推动公平激励机制的可计量、可存证。可存证。可存证。

技术研发人员：杨征王云丽尹海波谭林冯斌
受保护的技术使用者：湖南天河国云科技有限公司
技术研发日：2021.07.21
技术公布日：2021/10/26

完整全部详细技术资料下载

当前第2页1 2