去标志神经网络模块、去标志方法、电子设备、存储介质

文档序号:31863382发布日期:2022-10-19 07:03阅读:87来源:国知局
去标志神经网络模块、去标志方法、电子设备、存储介质

1.本发明属于物联网技术领域,尤其涉及一种去标志神经网络模块、去标志方法、电子设备、存储介质。


背景技术:

2.物联网(internet of things,iot)作为连接物理世界和数字世界的桥梁,在交通、家居、环境、商业等领域发挥着至关重要的作用,与人类的日常生活息息相关。物联网的一大特点是全面感知,采用射频识别、传感器、定位器和二维码随时收集万物的信息。鉴于iot设备感知到的海量数据,如何有效地组织和管理这些数据,并提取有用信息是iot面临的挑战。
3.近年来,深度学习技术突飞猛进,具备了处理大数据的能力,这促使它们在iot中得到广泛应用。万物互联是iot的另一个重要特征,其分布式结构推动了iot之间的连续数据传输。数据在传输过程中面临泄漏的危险,这对用户设备(user equipment,ue)的安全构成巨大威胁。
4.一些研究计划通过使用不同的加密算法保护隐私免受攻击,如同态加密、量子行走、联邦学习、差分隐私技术等等。
5.但是,本发明申请人在实施上述技术方案中发现,上述技术方案至少存在以下缺陷:
6.作为一种新兴技术,iot设备面临着运行环境不稳定和计算能力差等诸多问题,在iot中训练和部署深度学习模型,昂贵的通讯成本和大规模的计算消耗是不可避免的问题,而额外的加密计算使情况变得更糟。


技术实现要素:

7.本发明实施例的目的在于提供一种去标志神经网络模块,旨在解决背景技术中所提到的问题。
8.本发明实施例是这样实现的,一种去标志神经网络模块,包括:
9.输入层,用于从原始iot数据中提取特征数据,并对提取的特征数据进行去标志处理;
10.传输层,用于将去标志处理后的特征数据传输到输出层;
11.输出层,用于基于输入的特征数据获得深度模型的估计结果。
12.优选的,所述传输层的神经元数量小于输入层的神经元数量。
13.优选的,所述去标志神经网络模块还包括:
14.数据预处理单元,用于对原始iot数据进行清洗和归一化处理。
15.优选的,所述去标志神经网络模块还包括:
16.相关性单元,用于将传输层的神经元与输入层的神经元之间的相关系数作为惩罚项添加到损失函数中。
17.优选的,所述去标志神经网络模块还包括:
18.优化单元,用于通过反向算法结合两阶段训练法将损失函数优化至收敛;所述两阶段训练法是对所述输入层对提取的特征数据进行去标志处理过程中的权重和所述输出层基于输入的特征数据获得深度模型的估计结果过程中的权重进行优化。
19.本发明实施例的另一目的在于提供一种去标志方法,包括以下步骤:
20.获取原始iot数据;
21.基于上述中任意一项所述的去标志神经网络模块对所述原始iot数据进行处理。
22.本发明实施例的另一目的在于提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述中的去标志方法。
23.本发明实施例的另一目的在于提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述中的去标志方法。
24.本发明实施例提供的一种去标志神经网络模块,通过将神经网络以传输层为界分为输入层和输出层,即划分为去标志和估计两个阶段,从而构建得到了去标识神经网络,输入层在提取特征数据的同时对特征数据进行了去标志处理,从而减轻深度模型在ue中的正向传播计算压力,并消除额外的加密操作。
附图说明
25.图1为本发明实施例提供的一种去标志神经网络模块的结构框图;
26.图2为本发明实施例提供的去标志神经网络的结构图;
27.图3为本发明实施例提供的一种电子设备的结构示意图;
28.图4为本发明实施例提供的基于deinn的深度指纹定位方法的示意图;
29.图5为本发明实施例提供的基于deinn的深度智慧医疗诊断模型的示意图。
具体实施方式
30.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
31.以下结合具体实施例对本发明的具体实现进行详细描述。
32.实施例1
33.如附图1和2所示,为本发明一个实施例提供的一种去标志神经网络模块,包括:
34.输入层100,用于从原始iot数据中提取特征数据,并对提取的特征数据进行去标志处理。
35.在本实施例中,原始iot数据可以由相应的采集设备采集后输入到输入层 100内。输入层100是整体的去标志神经网络的一部分,可以采用不同的神经网络算法,比如全连接神经网络、递归神经网络、卷积神经网络和图神经网络等。
36.传输层200,用于将去标志处理后的特征数据传输到输出层300。
37.在本实施例中,传输层200也是由神经元构成的。
38.输出层300,用于基于输入的特征数据获得深度模型的估计结果。
39.在本实施例中,输出层300也是由神经元构成的。
40.在本实施例中,输入层100可以部署在ue内,输出层300可以部署在云端服务器内,数据由传输层200从ue传输到云端服务器。
41.在现有技术中,无论是将训练好的深度模型移植到ue还是直接留在云服务器上,ue都面临着巨大的计算或通信挑战。在本实施例中,通过将神经网络以传输层200为界分为输入层100和输出层300,即划分为去标志和估计两个阶段,从而构建得到了去标识神经网络(de-identification neural network,deinn)(如附图2所示),输入层100在提取特征数据的同时对特征数据进行了去标志处理,从而减轻深度模型在ue中的正向传播计算压力,并消除额外的加密操作。
42.此外,在本实施例中,通过输入层100进行去标志处理,可以确保攻击者无法匹配和推断原始iot数据,并提高了通过可能截获的传输层数据推断输出层数据的难度。
43.本实施例中的去标志神经网络模块可以应用在各种物联网领域的隐私保护中,比如深度指纹定位、智慧医疗等等。
44.在本实施的一种情况中,所述传输层200的神经元数量小于输入层100的神经元数量。
45.在本实施例中,通过将传输层200的神经元个数设置为远小于输入层100 的神经元个数,即使攻击者掌握了ue中网络(去标志阶段)的权重参数,也可以保证攻击者无法通过传输层数据推导出输入层数据。
46.换句话说,数据恢复可以想象为求解多元方程,其中原始iot数据表示未知数,传输层数据表示已知数。根据联立方程组的原理,需要p方程来求解p 个未知数,但是攻击者无法利用获得的信息形成需要的方程组。
47.此外,由于传输层200的神经元数量较少,少量的传输层200神经元大大减小了数据的计算和通讯量,即可以缓解ue中的计算和通讯压力,也减轻了后续云端服务器的计算压力。
48.在本实施的一种情况中,所述去标志神经网络模块还包括:
49.数据预处理单元,用于对原始iot数据进行清洗和归一化处理。
50.数据的归一化处理,即将数据统一映射到[0,1]区间上。
[0051]
在本实施例中,原始iot数据经过清洗和归一化处理后能够加快收敛速度。
[0052]
归一化处理可以采取如下公式:
[0053][0054]
其中,和表示标准化后的iot数据和原始iot数据第n个样本的第p 个特征,q表示特征的类别。sq表示数据样本s中的第q个特征。原始iot数据的每个数据都会被相应的的最大值和最小值特征所标准化。标准化后的iot数据集按一定的比例划分为训练集和测试集。
[0055]
在本实施的一种情况中,所述去标志神经网络模块还包括:
[0056]
相关性单元,用于将传输层200的神经元与输入层100的神经元之间的相关系数作为惩罚项添加到损失函数中。
[0057]
在本实施例中,提出了一种新颖的损失函数来权衡网络的估计精度和去标识度。
[0058]
异或运算是逻辑运算的一种,在异或运算中,当且仅当其参数值不同时,其值才为真。假设异或的两个自变量和因变量分别为,a1、a2和b,如果列出一系列异或运算,可以观察到一个神奇的现象,即序列a1和b或者a2和b之间的相关系数为零,但通过两个与结果无关的自变量却能够获得正确的结果。
[0059]
一个至少具有激活函数的两层神经网络能对异或函数进行建模。借鉴神经网络建模异或函数的思想,本实施例通过构建一个神经网络,其输入数据与输出层数据的相关性较低,但可以使用这些输入数据获得令人满意的估计结果。将该神经网络作为所提出deinn的估计阶段,传输层数据对应于该网络的输入层数据,如图2所示。这样,可以实现传输层数据相对于输出层数据的去标识。
[0060]
为了降低传输层数据和输出层数据之间的相关性(即,提高去标识度),相关系数作为惩罚项添加到损失函数中,损失函数loss计算如下:
[0061]
loss=loss
mse
+αmax|loss
cor
|,
[0062]
其中,α表示去标识部分损失值的系数,loss
mse
和loss
cor
分别表示平均平方误差和相关系数;
[0063][0064][0065]
其中,n、m和k分别表示训练集样本的个数,传输层200神经元个数和输出层300神经元个数,和分别表示真实数据和输出数据第n个样本的第k个特征,表示传输层数据第n个样本的第j个特征,和分别表示和的均值。
[0066]
此外,考虑到传输层200的一个神经元与输出层300的神经元相关系数非常高,攻击者也许可以通过这个神经元推断输出层数据。因此,该损失函数选择loss
cor
中值最大的一个,考虑到相关系数的取值区间为[-1,1],loss
cor
对取绝对值。
[0067]
在本实施例的一种情况中,所述去标志神经网络模块还包括:
[0068]
优化单元,用于通过反向算法结合两阶段训练法将损失函数优化至收敛;所述两阶段训练法是对所述输入层100对提取的特征数据进行去标志处理过程中的权重和所述输出层300基于输入的特征数据获得深度模型的估计结果过程中的权重进行优化。
[0069]
在本实施例中,考虑到在整个训练阶段采用两种损失值组合的损失函数,会增加计算量,而且导致值较大的模型过分关注相关性,从而错过一些可行的解决方案。因此实施例提出了优化单元,所述优化单元能够实现一种两阶段训练方法,如下所示:
[0070][0071]
其中,β表示第β次训练所有的样本,threshold表示切换训练阶段的时机。
[0072]
损失函数关于权重w和u的优化过程如下:
[0073]
采取w和u分别表示去标识阶段和估计阶段的权重,其中h
(n)
=fw(x
(n)
)且 y
(n)
=gu(h
(n)
),x
(n)
,h
(n)
,y
(n)
分别表示去标识阶段的输入,去标识阶段的输出 (即估计阶段的输入),估计阶段的输出。fw和gu分别表示去标识阶段和估计阶段的映射函数。为方便推导,省去了对偏差系数的梯度推导。损失函数对于和的偏导数按照链式法则可表示成如下形式:
[0074][0075][0076][0077]
和表示层l-1层与l层之间第p个输入和第q个输出对应的权重,h 表示隐藏层特征,l1和l2分别表示去标识阶段和估计阶段的神经网络层数,和是链式法则的连乘项,计算如下:
[0078][0079][0080]
[0081][0082][0083]
其中,假设p和q是前一层隐藏层和后一层隐藏层的神经元个数,σ表示激活函数。由于w和u分别存在于去标识阶段和估计阶段,因此它们在其余层的偏导数不存在。
[0084]
至此,链式法则所有的连乘项都已经获得,反向算法结合两阶段训练方法用于优化损失函数直到它收敛为止。
[0085]
实施例2
[0086]
为本发明一个实施例提供的一种去标志方法,包括以下步骤:
[0087]
获取原始iot数据;
[0088]
基于实施例1中任意一项所述的去标志神经网络模块对所述原始iot数据进行处理。
[0089]
在本实施例中,通过实施例1中构建得到的去标识神经网络对原始iot数据进行处理,输入层在提取特征数据的同时对特征数据进行了去标志处理,从而减轻深度模型在ue中的正向传播计算压力,并消除额外的加密操作。
[0090]
本实施例中的方法可以应用在各种物联网领域的隐私保护中,比如深度指纹定位、智慧医疗等等。
[0091]
实施例3
[0092]
本发明一个实施例提供的一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现实施例2中提供的去标志方法。
[0093]
在本实施例中,存储器与处理器之间通过通信接口实现数据传输。存储器可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。处理器,用于执行计算机程序时实现上述实施例中提供的中文语音合成方法。如果存储器、处理器和通信接口独立实现,则通信接口、存储器和处理器可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(industry standard architecture,简称为isa)总线、外部设备互连(peripheral component,简称为pci)总线或扩展工业标准体系结构(extended industry standard architecture,简称为eisa)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0094]
可选的,在具体实现上,如果存储器、处理器及通信接口,集成在一块芯片上实现,则存储器、处理器及通信接口可以通过内部接口完成相互间的通信。
[0095]
处理器可能是一个中央处理器(central processing unit,简称为cpu),或者是特定集成电路(application specific integrated circuit,简称为asic),或者是被配置成实施本实施例的一个或多个集成电路。
[0096]
实施例4
[0097]
本发明一个实施例提供的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例2中提供的去标志方法。
[0098]
实施例5
[0099]
以深度指纹定位为例,在离线阶段,云端的定位服务器(location serve,lcs) 需要ue采集海量相关数据作为指纹以训练深度定位模型,这些数据可以是信道状态信息(channel state information,csi)、接收信号强度指示(received signalstrength indication,rssi),通道脉冲响应(channel impulse response,cir)等等。
[0100]
在线阶段,有两种选择方案:
[0101]
(a)将经过训练的模型移植到ue,ue估计当前位置并将其传输到云端的 lcs。受到传感器的采样频率控制,ue需要不断计算整个网络的正向传播过程,并将估计结果传输到云服务器,这大大增加了ue的计算压力。
[0102]
(b)ue采集的数据直接传输到云lcs进行定位,但由于原始iot数据的稀疏性和冗余性,数据传输和加密的成本大大增加。
[0103]
在本实施例中,将去标志神经网络模块和去标志方法应用到深度指纹定位中。
[0104]
图4展示了基于deinn的深度指纹定位方法的框架。其中圆圈虚线a和圆圈虚线b分别表示wi-fi可接入点和基站的覆盖范围。该模型的正向传播过程如下:
[0105]
(a)当ue进入网络覆盖范围内,其接收并处理来自wi-fi可接入点和基站的接收信号强度指示数据,处理后的数据传输到ue中的定位模型中;
[0106]
(b)去标识阶段提取接收信号强度指示数据的特征,并降低传输层数据与输入层数据之间的标识程度,在保留原始语义的情况下降低数据泄漏的风险;
[0107]
(c)数据经过去标识阶段的处理之后,将获得的特征数据传输到云端的lcs 以估计ue当前的位置信息。
[0108]
实施例6
[0109]
在智慧医疗领域中,ue通过拍摄影像数据,并传输至云端的医疗服务器对深度模型进行训练以及估计,同样会面临着与深度定位一样的问题。然而,在在线阶段,无论采用何种技术,传输的数据都需要加密,这无疑进一步增加了 ue的计算压力。
[0110]
在本实施例中,将去标志神经网络模块和去标志方法应用到智慧医疗中。
[0111]
图5展示了基于deinn的深度智慧医疗诊断模型,其正向传播过程如下:
[0112]
(a)ue通过摄像头拍摄医疗影像,经过处理后传输到ue中的诊断模型的去标识部分;
[0113]
(b)去标识阶段提取医疗影像的特征,并降低传输层数据与输入层数据之间的标识程度,在保留原始语义的情况下降低数据泄漏的风险;
[0114]
(c)数据经过去标识阶段的处理之后,将获得的特征数据传输到云端的医疗服务器以对患者进行初步的诊断。
[0115]
实施例7
[0116]
实验环境对于深度神经网络有着重要的影响,在本实施例中,实验环境如下所示:硬件设备为英特尔(r)核心(tm)i7-10700cpu@2.90ghz和nvidiageforce rtx 3070 8gb。对于模型的结构,去标识阶段输入层的神经元数量为 wi-fi可接入点和基站个数的总和。此外,传输层中的神经元数量非常重要,采用实验的方法获得,评价的标准为计算消耗和估
计的精度。最后,估计阶段由两个隐藏层和一个输出层组成。去标识阶段的神经网络可以采用全连接神经网络、循环神经网络、长短期记忆以及门控循环单元等而估计部分的结构保持不变。关于模型训练,本实施例采用自适应矩估计作为优化算法,需要设置学习率、所有数据训练的次数和批量大小设置。
[0117]
实施例8
[0118]
本实施例利用相关系数来评估传输层数据和输出层数据之间的相关性。
[0119]
此外,在深度指纹定位应用中,实际距离dis用于测量定位性能,其计算如下:
[0120]
dis=r
×
arccos[cos(y
lat
)
×
arccos(y
lat
)
ꢀ×
cos(y
lon-y
lon
)+sin(y
lat
)
×
sin(y
lat
)],
[0121]
其中,r表示地球的半径,y
lat
和y
lat
表示模型估计和真实的纬度数据,y
lon
和 y
lon
模型估计和真实的经度数据。
[0122]
在智慧医疗应用中,正确率(accuracy)、准确率(precision)、召回率(recall)、 f1值(f-score)被用作评价指标,其计算如下:
[0123][0124][0125][0126][0127]
其中,tp为真正例,表示为预测类别为正例,实际类别同样为正例;fp为假正例,表示预测类别为正例,实际类别为负例;fn为假负例,表示预测类别为负例,实际类别为正例;tn为真负例,表示为预测类别为负例,实际类别同样为负例。
[0128]
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0129]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom (eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram 以多种形式可得,诸如静态ram
(sram)、动态ram(dram)、同步dram (sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram (rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态 ram(rdram)等。
[0130]
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0131]
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
[0132]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1