起步

起步

导师公众号内容

一、基于深度强化学习的像素材料设计

英文原题:Deep reinforcement learning for digital materials design

1.1 关键词

深度神经网络(Deep Neural Network, DNN)

深度强化学习(Deep Reinforcement Learning, DRL)

深度Q网络(Deep Q Network, DQN)

遗传算法(genetic algorithm, GA)

1.2 关键内容

深度学习相关理论也应用在其他自然学科的研究,例如新材料研发与生物高分子解析,而近期热议的Alphafold2就很好的展示了深度学习在学科交叉方面的优势。在材料与结构设计优化领域,深度强化学习(Deep Reinforcement Learning, DRL)有着巨大的应用潜力,或将有效降低传统设计过程中的人工成本。

通过试错自动迭代算法找到解决问题的最优决策,结合深度神经网络对问题的强大感知与泛化能力,深度强化学习得以解决现实世界中更加复杂的实际问题。

加州大学伯克利分校的研究团队针对像素材料(Digital Materials, DMs)首次提出了基于深度强化学习的自动化设计方法

如图1所示,深度强化学习算法可自动提升复合材料的某一物理属性(如平均杨氏模量 Emean)。区别于传统的参数化设计(Parametric Design),像素化设计思想将设计空间看做由材料微元组合而成,将提供更高的设计自由度以及结构复杂性。

图1. 基于深度强化学习的像素材料设计系统概要

文中使用了像素复合材料作为主体研究对象,系统执行方式如图2所示。复合材料由可3D打印的硬材料(数位0表示)与软材料(数位1表示)组成。起始状态下,系统将按照一定的硬软材料比例随机生成图案。图案的当前状态(state)可以转化为一维二进制数组并传递至深度Q网络(Deep Q Network, DQN), 由其可能带来最大未来回报(reward)的动作(action)做出下一步决策,图案状态发生改变,随后有限元仿真软件得出新状态的平均杨氏模量。新旧状态的图案和物理信息都将记录在经验回放池(replay buffer)中,用于更新深度Q网络。经过不断更新迭代,最终得到的图案将在保证初始限定的硬软材料比例不变的条件下拥有最大的平均杨氏模量。

图2. 基于深度强化学习的像素材料设计系统执行路线

文中决策器的实际执行过程中用到了一对协同运作的深度Q网络(collaborative DQN),其工作机制如图3 所示。两个深度Q网络分别代表了两个不同智能体(agent)的执行方式负责找到其最大Q值对应的原图案位置并将对应的软材料翻转为硬材料,而负责对本身判断的最大Q值位置执行硬材料向软材料的翻转。经过这一对动作过程,设计图案的硬软材料比例便可维持不变。

图3. 深度Q协同网络运行机制

针对相对复杂的设计问题,该系统相较传统智能设计方法,如遗传算法(genetic algorithm, GA)在运行效率和最终结果上都有较大的优势。如图4a下排所示,尽管在3 X 3的设计空间中,深度Q协同网络的实际表现并不如如遗传算法。当设计空间的自由度提升到5 X 5和7 X 7时,如4b-c下排所示,深度Q协同网络将反超遗传算法得到更高杨氏模量的图案。

图4. 比较深度Q协同网络与如遗传算法在不同设计空间大小下的算法表现

本文总共研究了3 X 3,5 X 5和7 X 7三种设计空间大小下的11个硬软材料比例。所有条件下的深度Q协同网络提出的最优设计方案如图5所示。就最终结果而言,深度Q协同网络可以在所有条件下实现等同或优于遗传算法的结果。尤其是在硬软材料比例为[15:10], [10:15], [30:19], [20:19] 的条件下,本文提出的方法相较遗传算法给出的设计有着更显著的性能,平均杨氏模量有最高15.9%的提升。

图5. 深度Q学习网络在不同设计空间大小下提出的最优图案

由于深度Q学习网络是逐步更新实现设计优化,其间也使用了批量训练(batch training)的方法,每步更新的过程中样本的Emean分布都可视。如图6便展示了在7 X 7设计空间下硬软材料比例为 [24:25] 时的样本性能分布的逐步更新。从图中可以看出,经过24歩的翻转动作,新的样本性能分布已经大大优于原本随机的初始分布,并且超半数的样本都拥有比初始分布最优值更高的性能,体现了较高的优化效率。

图6. 深度Q学习网络样本性能随更新步数的变化

本文所提出的基于深度强化学习的结构设计方法是关于智能制造的一次创新性尝试,该团队未来计划将本工作的核心思想推广至更高自由度、更多材料组合的情形,并期望本工作所提出的相关方法能够更加广泛的应用于智能材料领域的探索。

评论