一种基于Transformer的电磁超材料复杂光谱高精度预测方法

文档序号:29621731发布日期:2022-04-13 13:29阅读:252来源:国知局
一种基于Transformer的电磁超材料复杂光谱高精度预测方法
一种基于transformer的电磁超材料复杂光谱高精度预测方法
技术领域
1.本发明涉及电磁超材料与人工智能技术领域,具体为一种基于transformer的电磁超材料复杂光谱高精度预测方法。


背景技术:

2.电磁超材料超是具有微结构的人造复合材料,它们具有天然材料所不具备的非凡物理特性,能够在纳米尺度实现对电磁波相位、振幅和偏振灵活有效的调控。基于电磁超材料的器件具备体积小、灵敏度高、灵活度高等优势,广泛应用于传感、检测、能量存储和热辐射等。
3.电磁超材料器件尺寸在纳米级别,其制备依赖精密的加工手段,需要在加工前对光学响应进行精确模拟以优化器件结构。时域有限差分法(fdtd)或者有限元法(fem)是两种模拟电磁超材料光学响应的通用数值计算方法。这些方法往往需要较大的计算时间成本和硬件成本,且随着器件结构复杂度增加,计算过程将变得越来越困难。
4.随着机器学习的发展,深度学习在语音识别、图像识别、自然语言处理等领域已经展现出其强大的能力,深度学习是一种数据驱动算法,通过大量数据的训练,可以表示数据之间复杂的非线性关系,与数值计算方法相比可以在毫秒级时间内给出计算结果,且计算时间成本和硬件不随器件结构复杂度增加而增加。
5.深度学习辅助电磁超材料设计引起了不少研究者关注,并且已经成功被应用于电磁学多个领域。目前基于深度学习的电磁超材料设计方案主要有两类网络:1.根据电磁超材料结构参数预测光学响应,即正向网络;2.根据目标光学响应预测电磁超材料结构参数,即逆向网络。正向网络不仅可以替代数值计算方法高效快速的预测光学响应而且对逆向网络的训练至关重要,例如通过训练好的正向网络协助逆向网络来训练以解决光谱和结构参数之间存在的非唯一映射问题。目前常用于正向网络的深度学习模型包括多层感知机(mlp)、卷积神经网络(cnn)、自编码器(ae)等。这些模型在训练样本量充足或光谱复杂度不高的情况下通常具有较好的预测精度。
6.特别的,电磁超材料训练数据的收集不可避免的会使用到数值计算方法,可获得的数据量有限,这要求神经网络模型要在低样本量的情况下,尽可能多的提升学习能力,充分利用已有训练集。针对复杂的光谱曲线,传统的神经网络模型在光谱变化较大的位置往往具有较大的预测误差,而这些位置往往蕴含着重要的物理信息,提升正向网络对复杂光谱的预测精度是至关重要的。


技术实现要素:

7.针对现有技术存在的不足,本发明提出了一种基于transformer的电磁超材料复杂光谱高精度预测方法,旨在解决现有技术对复杂光谱预测一致性不高的问题。
8.本发明提供了如下的技术方案:一种基于transformer的电磁超材料复杂光谱高
精度预测方法,所述预测方法的构建基于transformer神经网络模型,利用严格耦合波分析法rcwa在给定的电磁超材料物理模型结构参数范围内随机组合计算得到样本数据,将样本数据按照4:1分为训练集和验证集,用于神经网络模型的训练和验证,输入训练集至transformer神经网络模型进行训练,验证集用于验证神经网络模型性能,根据训练完成的transformer神经网络模型预测得到电磁超材料结构参数对应的光学响应。
9.优选的,使用严格耦合波分析法rcwa在给定的层状金属/电介质结构参数范围内随机组合计算得到对应的反射率,用于transformer神经网络模型的训练与验证,使transformer神经网络模型能得到层状金属/电介质结构参数与反射率之间复杂的非线性映射关系。
10.优选的,所述的层状金属/电介质结构由多层垂直周期性交替金属/电介质层状纳米结构单元构成,几何形状是长方形、椭圆形、三角形几何图案中的任意一种,每个单元中的左右柱子宽度分别为w1和w2,基底的金属层厚度为h,所述金属为氧化铝、二氧化硅、氟化镁、锗、金、银、铝、或钛中的任一种或多种复合,所述电介质层的材质为二氧化硅、一氧化硅、氟化镁、氧化铝中的任意一种材料,该结构能在近红外波段实现丰富的滤波电路功能。
11.优选的,所述transformer神经网络模型包括依次设置的输入层、位置编码层、8个串联transformer编码器、非线性层、输出层;
12.输入层作用为矩阵维度变化,输入的10个结构参数分别通过10个长度为512的全连接层,输入数据的矩阵维度由64
×
10变为64
×
10
×
512;
13.位置编码层由维度为1
×
10
×
512的可学习矩阵构成,与每个输入矩阵相加,为输入数据添加位置信息;
14.transformer编码器包括多头注意力机制模块、残差连接、归一化层、dropout随机丢弃层、前向反馈层;
15.多头注意力机制模块的输出表达式为:
[0016][0017]
其中q、k、v为三个可学习矩阵w
iq
、w
ik
、w
iv
分别与位置编码层的输出相乘得到,wq、wk、wv均为一个整体的标识符号,i表示多头注意力机制中第几个头;dk表示一个整体的标识符,代表一个缩放因子;q、k、v不是一个单独的参量,分别与wq、wk、wv组成符号;
[0018]
非线性层由一个长度为1024的全连接层和一个relu激活函数构建;
[0019]
输出层由一个长度为100的全连接层构建,将输出数据变为与光谱采样点大小一致的矩阵。
[0020]
具体训练方法如下:
[0021]
初始化参数,批次大小batch size设置为64,总的学习次数epoch设置为600,学习率设置为0.0001,每30个epoch学习率下降80%,使用adam作为梯度下降优化器,均方差作为损失函数,整个神经网络模型使用relu作为激活函数;
[0022]
在输入层,输入的64
×
10二维矩阵被扩张为64
×
10
×
1的三维矩阵,然后经过10个1
×
512全连接层得到64
×
10
×
512的三维矩阵,然后送入位置编码层;
[0023]
所述位置编码层由一个三维的可学习矩阵构建,矩阵大小为1
×
10
×
512,与输入
数据相加得到位置编码层输出;
[0024]
所述位置编码层输出被送入上述transformer编码器,经过n个串联的所述transformer编码器后会再经过一个由1024大小的全连接层和relu激活函数组成的非线性单元,最终计算结果将被送入最后的输出层;
[0025]
使用一层全连接网络作为输出层,输出层输出单元个数为100,使用均方差作为损失函数,通过链式求导法则反向传递梯度到每个神经元中,以优化神经元中的参数。
[0026]
测试时,将未在训练时出现过的验证集送入深度学习模型t中,使用均方差计算预测光谱与实际光谱之间的误差,验证模型的预测能力;
[0027]
重复上述步骤,直到训练次数epoch达到600左右,验证集损失不再下降,训练完成;
[0028]
本发明的有益效果是:transformer中的多头自注意力机制能充分挖掘输入结构参数之间存在的特征关系,基于提取到的丰富特征信息,提高了其对复杂光谱的预测精度。对于训练好的深度学习模型,预测一个光谱所耗费的时间仅是毫秒级的。克服了传统数值模拟方法求解麦克斯韦方程组复杂耗时的缺点,极大的降低了时间成本和硬件成本。与常用的深度学习模型相比,对光谱预测准确率有一个数量级的提升,对于通常较难预测的光谱起伏变化较强部分,本发明所述方法依然能够准确预测。满足了电磁超材料准确快速的设计需求。
附图说明
[0029]
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0030]
图1为本发明实施例提供的基于transformer神经网络模型结构示意图,其中n为8;
[0031]
图2为本发明实施例提供的双曲等离激元超材料结构横截面示意图;
[0032]
图3为本发明实施例提供的训练样本示意图,谱线上方为其对应的结构参数,其中用于训练的结构参数个数为10,谱线的采样点个数为100;
[0033]
图4为基于transformer神经网络模型与多层感知机神经网络模型对本发明实施例所使用的双曲等离激元超材料光谱的预测结果对比。
具体实施方式
[0034]
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
[0035]
如图1-4所示,本发明一种基于transformer的电磁超材料复杂光谱高精度预测方法,一方面克服了传统方法依赖于数值模拟求解麦克斯韦方程繁杂耗时的缺点,极大的降低了硬件成本和时间成本;另一方面本发明方法所使用的深度学习模型与传统的多层感知机相比,在相当的训练数据及网络模型大小的条件下,本方法进一步提升了对复杂光谱的预测精度,在预测误差上有一个数量级的下降,可用于准确快速的模拟电磁超材料的光学响应。
[0036]
具体步骤如下:
[0037]
步骤一,数据收集及预处理
[0038]
如图2所示为本发明实施例所使用的双曲电磁超材料单元结构示意图,作为超材料家族中非常重要的一员,具有层状金属/电介质混合纳米结构的等离子体超材料因其广泛的应用而备受关注,包括传感、检测、能量存储和热辐射,基于等效电路理论,其能在近红外波段能产生丰富的电路模拟功能,本发明实施例所使用的电磁超材料单元结构由10层垂直周期性交替金属/电介质层状纳米结构组成。数据收集过程中,在限定范围内随机生成结构参数,采用严格耦合波分析法(rcwa)对物理模型进行建模并计算波长从1000nm到2500nm之间的反射率,不同于使用商业仿真软件,为提高收集效率最大程度提高计算机利用率,使用matlab的并行计算功能并行运行多个生成样本的rcwa计算代码,一共获取三万组数据作为神经网络训练以及验证的数据。如图3所示每组数据包括10个结构参数(t1到t
10
)和100个离散点的反射率谱,不同于单一吸收峰,本发明所使用的电磁超材料可具有多个吸收峰,因此反射率谱具有较高复杂度。对收集的三万个样本按照4:1的比例随机分出24000个作为训练集和6000个作为验证集,训练集用于神经网络模型的训练,未在训练集中出现过的验证集用于验证模型的预测能力,防止过拟合。根据事先限定好的结构参数范围对t1到t
10
归一化处理,并将每个样本转换为神经网络输入所需的矩阵格式。
[0039]
步骤二,基于transformer神经网络模型构建
[0040]
如图1所示为本发明实施例所使用神经网络模型t,模型的输入层为矩阵变化层。在矩阵变化层,输入的10个结构参数分别通过10个神经元大小为512的全连接层后得到维度大小为10
×
512的矩阵。位置编码层由维度为1
×
10
×
512大小的可训练参数构成,为矩阵变化层的输出添加位置信息。随后使用n=8个transformer编码器串联,编码器中多头注意力机制模块head的个数设置为8,注意力机制模块的输出表达式为:
[0041][0042]
其中q、k、v为三个可学习矩阵w
iq
、w
ik
、w
iv
分别与位置编码层的输出相乘得到,wq、wk、wv均为一个整体的标识符号,i表示多头注意力机制中第几个head。dk表示一个整体的标识符,代表一个缩放因子;q、k、v不是一个单独的参量,分别与wq、wk、wv组成符号;为防止训练过程中由于神经网络过深可能出现的梯度消失问题,多头注意力机制模块的输出会经过一个残差连接和归一化组成的处理模块。然后会经过前向反馈层进行非线性处理,前向反馈层由两层神经元大小为1024的全连接层和relu激活函数构成,在两个全连接层之间添加丢弃率为0.1的dropout随机丢弃层以防止过拟合,前向反馈层的输出同样会传入一个残差连接和归一化组成的处理模块最终得到transformer编码器的输出。在连续经过8个上述transformer编码器后,输出会经过一个长度为1024的全连接层和relu激活函数构成的非线性模块,之后通过一个长度为100的全连接层将输出数据变换成与光谱采样点大小一致的矩阵。
[0043]
步骤三,神经网络模型训练及验证
[0044]
根据上述描述可完成基于transformer神经网络模型的构建。在神经网络训练过程中,以64个训练集样本为一组,分批次输入神经网络中,adam作为梯度下降优化器,均方误差作为损失函数。每个训练批次结束后,根据损失函数反向传递梯度并更新可训练参数,
经过600个epoch左右,验证集损失不再下降,神经网络模型训练结束。未在训练样本中出现过的验证集被用来验证基于transformer神经网络模型的预测能力,同样使用均方差作为误差计算方式,最终的到的验证集误差为0.000142。如图4(a)所示,与普通的多层感知机深度学习模型相比,本发明的方法对复杂光谱的预测准确率更高。如图4(b)中1200nm到2200nm之间光谱所示,传统的深度学习模型对光谱起伏变化较为强的部分的预测能力有限,不能准确的表达该部分光谱的变化信息,而这些部分光谱往往蕴含着丰富的物理信息,与多层感知机模型相比本发明的方法对光谱起伏变化较为强的部分的预测一致性较高。能根据输入的电磁超材料结构参数准确快速的预测光学响应,克服了传统数值模拟方法求解麦克斯韦方程组复杂耗时的缺点,可以做到对光谱实时准确的预测,极大的降低了时间成本和硬件成本。与传统的深度学习模型相比,预测精度更高,更适用于复杂光谱的预测。方法实现简单,能极大的降低电磁超材料的设计周期,且易于推广到其它电磁超材料模型中。
[0045]
最后应说明的是:在本发明的描述中,需要说明的是,术语“竖直”、“上”、“下”、“水平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0046]
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0047]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1