一种面向人工智能模型的自主认证方法和系统

文档序号:38035665发布日期:2024-05-17 13:20阅读:9来源:国知局
一种面向人工智能模型的自主认证方法和系统

本发明主要涉及为防止现实世界部署的深度神经网络被恶意窃取和滥用,提出一种神经网络的自认证技术,不依赖于密码和口令等传统技术,设计一种新型的模型参数嵌入式认证机制,神经网络在执行原有任务的同时对当前输入进行身份鉴别,带有特殊身份标记的输入将得到正确预测结果,而非法输入将导致随机结果输出。


背景技术:

1、近年来,在机器学习即服务的商业模式趋势下,深度学习模型有了更多落地应用。训练一个良好的ai模型需要消耗大量的数据和计算资源。这些模型在实际部署过程中容易受到窃取和滥用。例如,攻击者可以通过模型窃取攻击,以较小的代价窃取这些模型,牟取非法利益。模型信息的泄露不仅对拥有者造成商业利益损失,还可能使得已部署的模型遭受对抗性攻击。因此,如何保障模型的隐私安全成为人工智能的部署和应用中的重要议题。

2、然而,现有的防御方法通常是基于外部验证,没有解决人工智能算法本身的脆弱性问题,也无法防御窃取攻击。即使有外部验证方法的支持,深度学习模型参数在部署端依然面临着泄露风险。一旦攻击者获取模型的api访问权限,模型的决策边界、功能等信息便可以使用自建数据集进行推理拟合。此外,倘若攻击者在部署端获取了一定系统权限,模型的参数文件有可能面临着白盒微调攻击、模型文件物理复制及二次分发等攻击威胁。由此可见,如何防止人工智能模型被恶意窃取和滥用是必要且紧迫的。


技术实现思路

1、针对上述问题,本发明提出了一种针对深度学习模型的自主认证机制,帮助模型服务提供商创建安全的人工智能算法,以抵御部署端的模型窃取、滥用等攻击威胁,在维护了模型拥有者的合法利益同时,提供了模型隐私保护,并获得具有高可用性的模型。

2、本发明采用的技术方案如下:

3、一种面向人工智能模型的自主认证方法,包括以下步骤:

4、在神经网络的合法输入中嵌入认证信息;

5、从神经网络的输入中提取认证信息;

6、对提取的认证信息进行验证以判断神经网络的输入是否为合法输入,若为合法输入则得到正确的输出结果,若为非法输入则得到高随机性的输出结果。

7、进一步地,所述认证信息由{mask,bias}的形式提供给神经网络模型的合法用户进行图像预处理,其中mask表示对图像的像素矩阵做伸缩,bias即偏置δa,表示对图像的像素矩阵做平移;对于原始数据域图像x,嵌入认证信息后的图像为x′,满足:x′=x·mask+bias。

8、进一步地,所述神经网络包括认证信息提取器h、认证信息验证器g、结果混淆器t,其中仅有结果混淆器t需要进行微调训练;所述认证信息验证器g中设置验证位ab,所述验证位ab是指用于认证信息验证功能的神经元,验证位的前端连接认证信息提取器h,后端连接结果混淆器t;嵌入认证信息的合法图像在验证位处表现出高激活态,非法图像在验证位处表现出低激活态。

9、进一步地,所述对提取的认证信息进行验证以判断神经网络的输入是否为合法输入,包括:

10、若输入包含正确的认证信息,则验证位ab处于有偏置δa的激活状态a+δa,即说明认证成功,神经网络的输入为合法输入;

11、若输入不包含认证信息或包含错误的认证信息,则验证位ab处于沉默状态a,即说明认证失败,神经网络的输入为非法输入。

12、进一步地,对于合法输入,结果混淆器t执行正常的推理功能;对于非法输入,结果混淆器t执行混淆性的随机输出功能。

13、进一步地,所述结果混淆器t的训练过程包括:

14、准备差异性数据集x和x′,其中x′为原始数据集x经过正确的认证信息嵌入之后的结果,并被赋以真实标签y,x中图像的标签将使用均匀分布的随机标签yrandom;

15、将包含x、x′、y、yrandom的数据集作为混淆数据集,记作s={xmix,ymix}={(x,yrandom)}∪{(x′,y)},采用最优化算法以最小化交叉熵损失,对于k分类问题,优化目标如下:

16、min loss=crossentropy(f(xmix),ymix)

17、其中,f表示神经网络,xmix表示原始图像数据集x和嵌入认证信息后的图像数据集x′的并集,ymix表示对应于原数据集x的随机分类标签yrandom与对应于嵌入认证信息后的数据集x′的正确分类标签y的并集;

18、通过梯度回传算法更新结果混淆器的模型参数,以实现在差异性数据集x和x′上的拟合。

19、一种面向人工智能模型的自主认证系统,其包括:

20、预处理模块,用于在神经网络的合法输入中嵌入认证信息;

21、认证信息提取器,用于从神经网络的输入中提取认证信息;

22、认证信息验证器,用于对提取的认证信息进行验证以判断神经网络的输入是否为合法输入;

23、结果混淆器,用于对于合法输入执行正常的推理功能,对于非法输入执行混淆性的随机输出功能。

24、本发明的原理是:通过对神经网络进行结构重构和参数调整,嵌入身份认证逻辑使之能够鉴别不同权限用户的输入,带有合法用户认证信息的输入将获得网络的推理性能,而非法输入将无法得到正确输出。具体地,本发明将认证的逻辑与验证位的激活程度关联。认证信息提取器可以将合法输入中的扰动提取为认证层的输出特征,只有验证层的神经元的激活表现出合法的激活特性,才能使得结果混淆器正常执行推理行为,否则,结果混淆器的输出结果将为高随机性的错误结果。

25、本发明的有益效果是:

26、本发明提供了一种普遍适用于卷积神经网络的自主认证机制并实现了一套自动化的模型加固系统,将“提取信息-认证-混淆”的认证逻辑隐式地嵌入在了深度学习模型算法中,模型针对非法输入将给出错误的推理结果,并利用模型的难解释性增加该验证逻辑的移除难度,能够有效地遏制针对模型的窃取攻击,从而保障模型的隐私性。



技术特征:

1.一种面向人工智能模型的自主认证方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述认证信息由{mask,bias}的形式提供给神经网络模型的合法用户进行图像预处理,其中mask表示对图像的像素矩阵做伸缩,bias即偏置δa,表示对图像的像素矩阵做平移;对于原始数据域图像x,嵌入认证信息后的图像为x′,满足:x′=x·mask+bias。

3.根据权利要求2所述的方法,其特征在于,采用以下步骤得到所述{mask,bias}:

4.根据权利要求1所述的方法,其特征在于,所述神经网络包括认证信息提取器h、认证信息验证器g、结果混淆器t,其中仅有结果混淆器t需要进行微调训练;所述认证信息验证器g中设置验证位ab,所述验证位ab是指用于认证信息验证功能的神经元,验证位的前端连接认证信息提取器h,后端连接结果混淆器t;嵌入认证信息的合法图像在验证位处表现出高激活态,非法图像在验证位处表现出低激活态。

5.根据权利要求4所述的方法,其特征在于,所述对提取的认证信息进行验证以判断神经网络的输入是否为合法输入,包括:

6.根据权利要求5所述的方法,其特征在于,对于合法输入,结果混淆器t执行正常的推理功能;对于非法输入,结果混淆器t执行混淆性的随机输出功能。

7.根据权利要求4所述的方法,其特征在于,所述结果混淆器t的训练过程包括:

8.一种面向人工智能模型的自主认证系统,其特征在于,包括:

9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~7中任一项所述方法的指令。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~7中任一项所述的方法。


技术总结
本发明涉及一种面向人工智能模型的自主认证方法和系统。该方法通过对神经网络进行结构重构和参数调整,嵌入身份认证逻辑使之能够鉴别不同权限用户的输入,带有合法用户认证信息的输入将获得网络的推理性能,而非法输入将无法得到正确输出。本发明提供了一种普遍适用于卷积神经网络的自主认证机制,将“提取信息‑认证‑混淆”的认证逻辑隐式地嵌入在了深度学习模型算法中,模型针对非法输入将给出错误的推理结果,并利用模型的难解释性增加该验证逻辑的移除难度,能够有效地遏制针对模型的窃取攻击,从而保障模型的隐私性。

技术研发人员:孟国柱,蔡毓灵,向凡
受保护的技术使用者:中国科学院信息工程研究所
技术研发日:
技术公布日:2024/5/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1