一种元强化学习优化拓扑微腔激光器的方法

文档序号:37907468发布日期:2024-05-09 21:56阅读:21来源:国知局
一种元强化学习优化拓扑微腔激光器的方法

本发明涉及光电器件,尤其涉及的是一种元强化学习优化拓扑微腔激光器的方法。


背景技术:

1、拓扑绝缘体(topological insulator)是一种全新的物质相,其具有显着的特性,包括电子的传导仅发生在其表面而不是内部,并且传导受到拓扑保护(topologicalprotection)。拓扑保护(即电子波无序散射的完全消失)可能是这种材料最诱人和技术上最重要的方面:它提供了只有超导体(superconductor)才拥有的鲁棒性。然而,与需要低温或磁场的超导和量子霍尔效应(quantum hall effect)不同,拓扑绝缘体对无序的免疫存在于室温条件且没有任何外部磁场的情况下。出于这个原因,拓扑保护预计将在容错量子计算和自旋电子学中具有广泛的应用。最近,大量的理论工作致力于将该概念引入光子学领域--实现光频率下的光拓扑保护。除了涉及有趣的物理概念之外,光子拓扑绝缘体还有望应用于光学隔离和稳健的光子传输。2013年,科学家在理论上提出并通过实验证明了第一个光子拓扑绝缘体:一个光子晶格,其在晶格边缘表现出拓扑保护的光传输,同时不需要任何外部场。该系统由螺旋波导阵列组成,彼此渐逝耦合,并排列在类似石墨烯的蜂窝六角晶格中(如图1所示)。波导的手性导致无散射的单向边缘态,而这些边缘态收到拓扑保护因此不存在散射。此外,带磁场的二维结构中的带电粒子表现出了各种各样的宏观量子现象,包括整数和分数量子霍尔效应、量子自旋霍尔效应,以及对分数统计粒子出现的理论预测(即所谓的任意子,anyon)。尽管此类电子系统取得了巨大成功,但实验工作的进展受到纯度等严格实验要求的阻碍。同时,强有效磁场仍然难以完全实现。相比之下,光子减轻了许多这些实验的困难,为室温下的量子霍尔物理学研究提供了新的途径。在量子模拟的背景下,耦合光学谐振腔阵列提供了一个有效的工具来设计几类哈密顿量(hamiltonian)并允许直接观察波函数。此外,通过利用拓扑鲁棒性,这种光子系统可能会在诸如激光器、滤波器、开关和延迟线等光学器件中得到进一步的应用。2015年,科学家报告了在二维光子系统中首次实现类磁哈密顿量,并展示了对鲁棒边缘态的直接观察。这也是拓扑有序的经典标志。

2、光子晶体(photonic crystals)是常规晶体的类似物,其原子晶格被周期性介电常数或磁导率的介质所取代。超材料(meta-materials)旨在产生电磁(em)特性,例如负指数、磁透镜等,而且这些特性在自然界中是不存在的。最近,人们已经认识到,以电磁波独特的边缘传播为特征的拓扑态可以在基于外部磁场下的旋磁材料的光子晶体中实现,具有耦合电场和磁场的双各向异性超材料,其中双各向异性充当有效的自旋轨道耦合和耦合谐振腔光波导(coupled resonator optical waveguide,crow)。2015年科学家提出了一种由传统介电材料制成的二维(2d)光子晶体。六角蜂窝晶格等效于由六个相邻位点组成的六边形簇(图1和图3)的三角形晶格,并且采用这个更大的六边形晶胞而不是两个位点的原始菱形晶胞狄拉克锥(dirac cone)可以在蜂窝晶格的第一个布里渊区的k和k’点处折叠以在γ点处产生双重退化(double degenerate)狄拉克锥。基于这些特性,学者建议通过以保持六边形簇并保持c6对称性的方式使蜂窝晶格变形来打开拓扑的带隙。通过求解麦克斯韦方程,学者明确地揭示了由六角形簇承载的谐波横向磁(tm)模式,其有效地展现了“人造原子”的作用,并且表现出了电子轨道状的p和d波形状并形成了光子带。最后,传统电子系统中实现非阿贝尔巴里相(non-abelian berry phase)的一条途径是研究零模式物理学。局部零能费米子(zero-energy fermion)态可以与有序参数中的拓扑缺陷结合,例如典型的一维扭结态和二维涡旋态。在电荷是一个有效量子数的系统中,这些零模式携带的电荷是“基本”电子电荷的一部分。在手性超导体中,电荷守恒被破坏,这些局部模式是具有非阿贝尔分布的马约拉纳束缚态(majorana bound states)。在平均场水平上,电子之间的相互作用可以近似被忽略,这种非阿贝尔分布可以理解为非阿贝尔巴里相的积累(在缺陷彼此绝热交换的前提假设下)。该过程的非阿贝尔特性体现在这些相对缺陷交换顺序的高度依赖性,这与通常的“阿贝尔”巴里相不同。

3、2016年,科学家提出了一种在光子而不是电子系统中实现拓扑零模式(topological zero mode)的新方法,并直接展示了它们的非阿贝尔编织(braid)效应。所提出的设计包括在具有位置可控的拓扑缺陷光子晶格的背景中传播的非相互作用光子。被引导到位于这些缺陷处的“拓扑导模”的光可以被编织,导致非阿贝尔相的持续积累(积累取决于编织的发生顺序)。学者证明,由于非相互作用光的运动方程的线性,这种效应在量子和经典水平上都表现出来。学者实现的零模式是基于石墨烯中kekulé零模式(图3)的原理,它们与描述六角晶格中二聚化模式的复杂有序参数δr中的涡流相关。电子和光子之间的转换是通过用嵌入在块状光学介质(例如熔融石英)中的波导来替代每个晶格的位置来实现的,它在z方向上延伸并且其x-y位置近似于2d扭曲态下的石墨烯晶格中的碳原子位置。这种波导阵列中光的近轴传播的波动方程直接被映射到时间依赖的薛定谔方程(se),其中se中的时间坐标t被沿光传播方向的坐标z代替。垂直腔面发射激光器(vcsel)采用一维(1d)中间间隙设计,可以选择单一纵模,其被广泛地用于本地通信、计算机鼠标和人脸识别。后来向二维(2d)周期性发展,光子晶体表面发射激光器(pcsel)最近已被商业化,因为它比一维激光器具有更宽的面积和更高的亮度,同时保持了单模发光模式。然而,pcsel仍然具有至少两个高品质因数(q)带边发光模式的彼此竞争。因此,拥有一个具有单一中间间隙模式的2d激光腔体显然很重要,同时这是自dfb(distributed feedback laser,分布式反馈激光器)概念首次引入以来一直严重缺乏的。2020年,基于上述拓扑方向的诸多理论,科学家提出了一种狄拉克涡旋(dirac-vortex)拓扑微腔激光器(图2),以提供二维的最佳单模发光模式和高功率、大面积的特性。学者将这种新型、独特的激光器命名为拓扑腔面发射激光器(topological cavity surface emitting laser,tcsel)。本专利将致力于优化tcsel的品质因数(quality factor,即q-factor)。

4、基于光子晶体的光电器件通常需要通过较高的品质因子(q-factor)来体现其高性能,例如本专利探讨的拓扑微腔激光器(tcsel)。因此在设计过程中,科研人员常常花费大量的时间、精力和计算资源来优化光子晶体的结构,但这也并不意味着理想的最优结构能够被找到;这一难题一直困扰着业界和科研人员。以基于数值模拟的电磁场建模为例,常见的器件设计方法有矩量法、时域有限差分法(fdtd)、有限积分技术或有限元法(fem),这些器件设计方法可以在常用的商业仿真软件中实现。一般情况下,这些仿真软件是从某些初始和边界条件出发,设置足够的网格和迭代次数,在空间和时间上解离散麦克斯韦方程组来精确计算出特定结构的光学特性(如电磁场分布、激射频谱、散射关系等等)。在设计与搜索最优结构的过程中,为了获得目标参数(如较高的q-factor),需要微调器件的几何结构,使其不断地迭代进行模拟运算,而这个过程非常依赖先前设计模板和前人积累的经验。与此同时,由于时间和仿真算力的限制,可调节的设计参数也非常有限。此外,随着器件结构的复杂度和设计问题的维度越来越大,现有基于物理场的人工仿真优化方法已逐渐失去其可行性,很难在合理的时间内搜索到器件的期望最优结构。

5、因此,现有技术还有待于改进和发展。


技术实现思路

1、本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种元强化学习优化拓扑微腔激光器的方法,旨在解决现有技术中拓扑微腔激光器的优化难度大的问题。

2、本发明解决技术问题所采用的技术方案如下:

3、一种元强化学习优化拓扑微腔激光器的方法,其中,包括步骤:

4、进行当前片段的优化,基于当前片段的序号的奇偶性,将拓扑微腔激光器的当前状态输入策略神经网络以得到所述当前状态对应的动作;所述拓扑微腔激光器的当前状态包括所述拓扑微腔激光器的几何结构参数;

5、在环境中执行所述动作,并得到所述环境反馈的奖励和下一状态;

6、将所述当前状态、所述动作以及所述奖励存入经验回放函数中;

7、将所述下一状态作为当前状态,并继续执行基于当前片段的序号的奇偶性,将拓扑微腔激光器的当前状态输入策略神经网络以得到所述当前状态对应的动作的步骤,直至满足当前片段的限制条件时,基于当前片段的序号的奇偶性,根据所述当前状态和所述经验回放函数,计算优势函数值;

8、基于当前片段的序号的奇偶性,根据所述优势函数值、所述策略神经网络的网络参数以及元参数计算代理目标函数值,并更新所述策略神经网络的网络参数或元参数;

9、进行下一片段的优化,直至所述当前状态满足终止条件时,将所述当前状态作为终止状态;所述终止条件包括:所述拓扑微腔激光器在当前状态下的光学参数达到目标光学参数。

10、所述的元强化学习优化拓扑微腔激光器的方法,其中,所述拓扑微腔激光器的几何结构参数包括:六角晶格的边长、三角孔洞的位移距离、涡旋半径、形状因数以及三角孔洞的边长;

11、所述光学参数包括:品质因数,所述目标光学参数为2×106;

12、所述限制条件包括:当前片段的步数大于预设步数、几何结构参数超过预设范围、奖励值大于预设奖励值中的至少一种。

13、所述的元强化学习优化拓扑微腔激光器的方法,其中,所述动作包括:六角晶格的边长增加或减小0.5nm、三角孔洞的位移距离增加或减小0.5nm、涡旋半径增加或减小1nm、形状因数增加或减小1以及三角孔洞的边长增加或减小0.5nm;

14、所述预设范围如下:六角晶格的边长范围为-50nm~50nm、三角孔洞的位移距离范围为-50nm~50nm、涡旋半径范围为-50nm~50nm、形状因数范围为1~6以及三角孔洞的边长范围为-30nm~30nm。

15、所述的元强化学习优化拓扑微腔激光器的方法,其中,所述基于当前片段的序号的奇偶性,根据所述优势函数值、所述策略神经网络的网络参数以及元参数计算代理目标函数值,并更新所述策略神经网络的网络参数或元参数,包括:

16、当所述当前片段为奇数片段时,根据所述优势函数值、所述策略神经网络的网络参数以及元参数计算代理目标函数值,并基于所述代理目标函数值相对于所述策略神经网络的网络参数的梯度,更新所述策略神经网络的网络参数;

17、当所述当前片段为偶数片段时,根据所述优势函数值、所述策略神经网络的更新的网络参数以及元参数计算代理目标函数值,并基于所述代理目标函数值相对于所述策略神经网络的元参数的梯度,更新所述策略神经网络的元参数,将所述更新的网络参数作为所述策略神经网络的网络参数。

18、所述的元强化学习优化拓扑微腔激光器的方法,其中,所述基于当前片段的序号的奇偶性,将拓扑微腔激光器的当前状态输入策略神经网络以得到所述当前状态对应的动作,包括:

19、当所述当前片段为奇数片段时,将拓扑微腔激光器的当前状态输入策略神经网络,以输出策略函数;

20、对所述策略函数进行采样,得到所述当前状态对应的动作;

21、所述基于当前片段的序号的奇偶性,根据所述当前状态和所述经验回放函数,计算优势函数值,包括:

22、当所述当前片段为奇数片段时,将所述当前状态输入价值网络,以输出价值函数值;

23、根据所述经验回放函数中的数据序列确定回报函数值;

24、根据所述价值函数值和所述回报函数值确定优势函数值。

25、所述的元强化学习优化拓扑微腔激光器的方法,其中,所述基于当前片段的序号的奇偶性,将拓扑微腔激光器的当前状态输入策略神经网络以得到所述当前状态对应的动作,包括:

26、当所述当前片段为偶数片段时,将拓扑微腔激光器的当前状态输入网络参数更新后的策略神经网络,以输出策略函数;

27、对所述策略函数进行采样,得到所述当前状态对应的动作;

28、所述基于当前片段的序号的奇偶性,根据所述当前状态和所述经验回放函数,计算优势函数值,包括:

29、当所述当前片段为偶数片段时,将所述当前状态输入网络参数更新后的价值网络,以输出价值函数值;

30、根据所述经验回放函数中的数据序列确定回报函数值;

31、根据所述价值函数值和所述回报函数值确定优势函数值。

32、所述的元强化学习优化拓扑微腔激光器的方法,其中,所述优势函数值为:

33、;

34、其中,表示优势函数值,表示回报函数,表示第步经验回放函数中的数据序列,表示价值网络,表示网络参数更新后的价值网络,表示第步的当前状态;

35、所述代理目标函数值相对于所述策略神经网络的网络参数的梯度为:

36、;

37、其中,表示代理目标函数值相对于所述策略神经网络的网络参数 θ的梯度,表示比值相对于所述策略神经网络的网络参数 θ的梯度,表示价值网络的函数相对于所述策略神经网络的网络参数 θ的梯度,表示代理目标函数,表示比值,表示将目标函数值卡在某个区间内以此来限制策略被更新的幅度,min表示最小值函数,表示常数因子,σ表示求和;

38、所述代理目标函数值相对于所述策略神经网络的元参数的梯度为:

39、;

40、;

41、;

42、其中,表示代理目标函数值相对于网络参数更新后的策略神经网络的元参数的梯度,表示代理目标函数值相对于网络参数更新后的策略神经网络的更新的网络参数的梯度,表示学习率,表示代理目标函数值相对于所述策略神经网络的网络参数和元参数的梯度,表示当前状态下的策略函数,表示上一次状态下的策略函数。

43、一种拓扑微腔激光器,其中,采用如上任意一项元强化学习优化拓扑微腔激光器的方法得到的拓扑微腔激光器的终止状态,并基于所述终止状态制备得到拓扑微腔激光器。

44、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中,所述处理器执行所述计算机程序时实现如上任一项所述方法的步骤。

45、一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上任一项所述的方法的步骤。

46、有益效果:本发明采用mgrl-ppo算法优化设计tcsel,优化速度远远超过任何经验丰富的科研人员手动优化的速度,充分体现了本发明的强化学习算法超强的智能化水准,并降低了拓扑微腔激光器的优化难度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1