首页›新闻资讯›资讯详情

多层光学薄膜设计

2026/4/20

Multilayer Optical Thin Film Design with Deep Q Learning

作者： Anqing Jiang, Yoshie Osamu, Liangyao Chen

机构：

Graduate School of IPS, Waseda University, Japan
Department of Optical Science and Engineering, Fudan University, China

原文来源： Scientific Reports, Nature Publishing Group

DOI： https://doi.org/10.1038/s41598-020-69754-w

PMC链接： https://pmc.ncbi.nlm.nih.gov/articles/PMC7392768/

转载许可声明：

本文为开放获取文章，采用 Creative Commons Attribution 4.0 International License（http://creativecommons.org/licenses/by/4.0/）。允许在注明原作者和来源、提供Creative Commons许可证链接并指明是否进行更改的前提下，自由使用、共享、改编和分发。

摘要

多层光学薄膜在光学应用的各个领域发挥着重要作用。由于光学材料的色散特性与光学薄膜实际性能参数之间的非线性关系，使用传统模型优化光学薄膜结构具有挑战性。本文提出了一种深度Q学习（Deep Q-learning）的实现方法，非常适合光学薄膜设计。作为具体演示，我们优化了太阳能吸收器。该最优程序可以在500个epoch（约每epoch 200步）内自动优化该太阳能吸收器，无需任何人工干预。搜索结果优于研究人员的手动搜索。

关键词： 深度学习；强化学习；光学薄膜；薄膜设计；优化

1. 引言

自1970年代以来，随着计算机技术的发展，各种数值数据处理方法层出不穷。许多数值优化算法，如线性规划、单纯形解搜索、最小二乘或阻尼最小二乘误差缩减等，被研究和应用于光学薄膜设计。其中最小二乘误差缩减是最成功的方法之一。然而，这些传统方法往往存在局限性，只能聚焦于复杂多层薄膜系统的局部最优解。光学薄膜研究人员还开发了各种全局优化方法用于薄膜结构设计。Tikhonravov和Trubetskov开发了基于针优化技术的 optical coating design software[1]。Sullivan和Dobrowolski通过定义由相当复杂的光谱量组成的优值函数，改进了针优化方法，使其更加灵活[2]。Chang和Lee将广义模拟退火方法（GSAM）应用于薄膜系统设计，发现在设计过程中不会出现局部最小值陷阱的问题[3]。近年来，该领域的研究人员也将粒子群优化（PSO）[4]、遗传算法（GA）[5,6]、蚁群算法[7]和深度学习算法[8-12]等光学镀膜优化方法应用于实践中。

在上述传统方法中，大多数优化算法都是基于薄膜材料不具有光学色散的假设。即传统算法仅考虑与材料折射率和厚度相关的参数。随着光谱带宽的增加，材料的色散特性将显著影响薄膜的光学性能。由于宽带宽，所有材料的折射率都随波长变化。在某些条件下，如太阳能吸收应用中的薄膜，需要考虑材料的消光系数。随着需要优化的参数增加，上述经典算法的优化性能将显著降低，甚至通常无法正常工作。光学薄膜优化领域需要一种具有强搜索能力和更好鲁棒性的优化算法框架。自2014年以来，随着计算机科学特别是人工智能的快速发展，深度学习被广泛应用于许多研究领域。深度学习已被开创性地应用于许多物理问题[13-15]。虽然上述研究解决了相关的物理问题，但需要大量已知数据。这种监督学习模型无法很好地解决某些材料和结构的未知组合问题。特别是在优化问题中，由于搜索空间广阔，有监督学习无法充分预测和优化光学薄膜结构。光学薄膜优化方法可以视为马尔可夫决策过程（MDP），可以通过强化学习（RL）来解决。作为强化学习的重要分支之一，深度Q学习（DQN）在优化和控制领域取得了巨大成功，并在与人类的对抗中展现出显著优势[16,17]。

在本文中，提出了一种基于DQN的新型多层薄膜优化方法。该算法将自动搜索各层薄膜厚度以最小化目标函数。每层薄膜的材料将从一组预选材料中选择。在下文中，我们将展示算法公式的细节，并作为演示，我们将深度Q学习算法应用于太阳能吸收器和抗反射薄膜结构的优化。

2. 优化目标

对于光学薄膜，决定薄膜光学性能的三个主要相关因素分别是透射率（T）、反射率（R）和吸收率（A）。透射率、反射率和吸收率之间的关系由能量守恒决定，即：

R + T + A = 1

对于进入材料和结构的光子能量守恒，这意味着理想太阳能吸收器对应于T=0、R=0和A=1的特性。对于抗反射薄膜，特性为T=1、R=0和A=0。滤光片在不同波长范围对特性有不同要求：在特定波长范围内透射率为0以阻挡入射光，在其他波长范围内透射率为1。

对于多层光学薄膜优化，特别是宽带优化，薄膜的目标光学性能是材料的光学性能常数，包括折射率n(λ)=[n₁(λ),...,nK(λ)]和消光系数k(λ)=[k₁(λ),...,kK(λ)]，以及K层材料的厚度d=[d₁,...,dK]。此外，为了设计多层结构，我们表达包含透射率、反射率和吸收率的目标光谱为S*(λ,θ)=[A*(λ,θ),T*(λ,θ),R*(λ,θ)]，其中θ是入射角，λ是波长。为了搜索最佳薄膜结构，我们旨在最小化给定结构的光谱与目标光谱之间的残差。绝对误差优值函数AE(n,k,d)定义为：

d* = argmin{d∈RK} AE(d)

其中d*代表最优层厚度。一般来说，找到离散优化的精确全局最优解是NP难题。该优化问题只能用指数时间求解。

3. 深度Q学习的实现

3.1 环境

DQN的环境基于一种称为传输矩阵法（TMM）[18]的多层光学薄膜模拟算法。TMM的效率高于另一种光学薄膜环境FDTD。在这个环境中，薄膜厚度d可以通过策略中的动作进行修改。该环境可以模拟薄膜的光学性能：A、T和R。

3.2 状态

在强化学习中，我们将两类信息作为状态输入，分别是薄膜的光学性能和厚度。薄膜的光学性能代表目标波长范围内的吸收率、透射率和反射率。由于每个波长处的光学参数不同，这部分状态的输入形状为波长×波长分辨率。状态的第二部分是各层的厚度。对于厚度状态，薄膜厚度限制在1-300 nm范围内。当状态超出此范围时，模型会收到负奖励并开始新一轮优化。

3.3 动作

动作表示在优化薄膜结构过程中每一步的操作。这些动作以不同尺度调整薄膜厚度。对于具有四层需要优化的薄膜厚度的薄膜，最小优化尺度为0.1 nm。动作空间包含3×4×2=24个不同的动作。

3.4 Q网络

在移植DQN时，我们使用多输入神经网络代替全连接神经网络作为DQN的主干网络。网络的输入分为两部分，分别代表薄膜性能状态和厚度状态的信息。对于薄膜性能，我们实现了一个Conv1D块来提取不同的光学性能。每个Conv1D块由2个不同的卷积核组成，核大小分别为3和5。为了保持Conv1D块的输出一致性并减少网络参数数量，最大池化层被用作该块的最后一层。状态网络由三层全连接神经网络组成。在DQN的最后部分，两个子网络被组合构建完整的Q网络。通过128个隐藏单元的密集层将拼接信息传递到最终动作。我们使用relu函数作为Q网络的激活函数。

3.5 奖励

奖励是衡量强化学习中智能体性能的重要反馈。它表示在状态S中执行动作A后单一步骤中的下一个增益。在我们的应用中，奖励值R表示薄膜结构的修改是否有助于优化薄膜参数。

3.6 探索与利用

最初，Q网络被随机初始化，一系列预测也是随机的。如果我们选择具有最高Q值的动作，动作本质上是随机的。此时，智能体正在执行"探索"。随着Q函数收敛，返回的Q值将趋于相同。这允许模型更快收敛，但也可能在局部最优搜索过程中错误地受到影响。可以加快模型的收敛速度，但也会导致模型陷入局部陷阱。一个简单而有效的解决方案是ε-greedy探索，它使用概率ε来选择是继续探索还是直接基于经验做出决策。

4. 实验

4.1 太阳能选择性吸收器

太阳能选择性吸收器在太阳能利用领域发挥着重要作用。对于薄膜，需要全吸收带宽和更高的吸收效率来提高薄膜性能。优化薄膜结构变得非常重要，但使用遗传算法或单纯形法的优化方法在实践中通常需要一个出色的初始薄膜结构。我们使用DQN算法优化选择性太阳能吸收器以验证算法的有效性。

首先，我们定义优化的目标函数。太阳辐射的光谱范围很广，而能量主要集中在可见光和近红外光谱（300-1400 nm）。基于斯特藩-玻尔兹曼定律，黑体的总发射功率与温度的四次方成正比，这一定律表明黑体辐射在不同温度下存在峰值。随着温度升高，最大辐射增加，相应的波长减小。

我们使用深度Q学习来优化薄膜的太阳能选择性吸收性能。太阳能量的主要功率集中在300-1400 nm波长范围内。因此，我们设计了一种多层薄膜结构，以在300-1400 nm波长范围内获得更高的太阳能吸收效率。组成薄膜结构的层状材料分别为Ti和SiO₂。使用200 nm厚的Cu层作为基底结构，以确保薄膜器件不透明，在整个工作波长范围内透射为零。各层的厚度用随机值初始化。我们使用深度Q学习按顺序优化薄膜结构各层的厚度。为验证算法的有效性，我们优化了三种不同层数的薄膜结构：（1）4层；（2）6层；（3）8层。优化器分别获得了最佳结果：87.4%、90.15%和94.55%。薄膜中层数越多，可以搜索到更好的优化结果。

5. 结论

我们提出了一种新颖的算法来优化选择性太阳能吸收器的厚度，这种强化学习方法易于扩展到其他多层薄膜。该算法显著提高了薄膜厚度的优化速度，研究人员无需提供任何薄膜结构初始化。使用1D-Conv网络作为主干的网络结构从模拟环境中提取观测特征。我们还注意到总耗时优化是可控的，在配备AMD 3600X CPU和NVIDIA GTX-1080Ti GPU的PC上，总迭代次数可以在500个epoch内搜索到满意结果。整体优化时间成本约为20分钟。由于整体操作时间主要集中在系统模拟阶段，引入多进程模拟可能会进一步缩短整体优化时间。

参考文献

Tikhonravov AV, Trubetskov MK. Optical Interference Coatings. vol. 2253; 1994. p. 10-21.
Sullivan BT, Dobrowolski J. Appl. Opt. 1996;35:5484-5492.
Martin S, et al. Appl. Opt. 1995;34:2247-2254.
Yang C, et al. Opt. Express. 2013;21:9315-9323.
Chang C, et al. Opt. Lett. 1990;15:595-597.
Paszkowicz W. Mater. Manuf. Process. 2013;28:708-725.
Guo X, et al. Opt. Express. 2014;22:A1137-A1144.
Sajedian I, et al. Sol. Energy. 2020;195:670-676.
Sajedian I, Rho J. Nano Converg. 2019;6:27.
So S, et al. Nanophotonics. 2020.
Sajedian I, et al. Opt. Express. 2019;27:5874-5883.
Liu D, et al. ACS Photonics. 2018;5:1365-1369.
Peurifoy J, et al. Sci. Adv. 2018;4:eaar4206.
Malkiel I, et al. arXiv:1702.07949; 2017.
Mnih V, et al. Nature. 2015;518:529.
Silver D, et al. Nature. 2017;550:354-359.
Pettersson LAA, et al. J. Appl. Phys. 1999;86:487-496.
Johnson PB, Christy RW. Phys. Rev. B. 1974;9:5056-5070.

更多新闻