本文约4400字,建议阅读10+分钟本文为打算流体力学中的前向建模引入了一种新的分类方法。
[ 导语 ]近日,来自北京大学、 UCLA、中科院、马里兰大学、斯坦福大学、西湖大学等6个机构的作者互助撰写了一篇关于机器学习在打算流体力学中近期运用的重磅综述。文献首先详细先容了根本观点、传统方法和基准数据集。在系统地回顾了近五年的论文后,本文为打算流体力学中的前向建模引入了一种新的分类方法:数据驱动的替代模型、物理信息驱动的替代模型和机器学习赞助的数值办理方案。此外,本文还回顾了逆向设计和掌握中的最新机器学习方法,并供应了一种新的分类方法。在运用层面,本文梳理了机器学习在空气动力学、燃烧、大气与海洋科学、生物流体、等离子体、符号回归和降阶建模(Reduced order modeling)等关键科学和工程学科中的实际运用。最主要的是,本文磋商了该领域的关键寻衅,并提出了战胜这些寻衅的未来研究方向,如多尺度表示、物理知识编码、科学根本模型和自动科学创造。这篇综述作为快速扩展的AI for Science社区的指南之一,旨在引发研究职员对付推动未来科学领域中的创造的洞察力。
研究领域:AI for Science,机器学习,打算流体力学,替代模型
汪海昕、吴泰霖 | 作者
论文题目:Recent Advances on Machine Learning for Computational Fluid Dynamics: A Survey
论文链接:https://arxiv.org/pdf/2408.12171
图1. 基于机器学习技能的打算流体动力学方法分类。我们首先研究前向建模方法,包括数据驱动的替代模型、物理信息驱动的替代模型和机器学习赞助方法。此外,我们对逆向问题进行了深入剖析。我们还回顾了这些方法在各个领域的实际运用。
先容
只管经由数十年的研究和工程实践进展,打算流体动力学(Computational Fluid Dynamics,CFD)技能仍面临诸多寻衅如打算本钱高昂、难以捕获湍流等亚尺度特色,以及数值算法的稳定性问题等。另一方面,机器学习(ML)以其从不雅观测数据中学习模式和动力学的能力而著称,最近已具有可以重塑或增强任何一样平常科学领域的趋势。将ML技能与大量流体动力学数据结合,为促进CFD领域的发展供应了一种全新的变革性的方法。现有的ML方法在CFD领域运用的综述文章大多存在两个限定:一是只涉及早期的文章,二是缺少系统性概述。本篇文献是第一篇系统地回顾了根本知识、数据、近期的方法论、运用、寻衅和未来方向,并将其整合成一个连贯框架的综述。
本文首先先容了打算流体动力学的基本观点和背景知识,然后系统回顾了近五年的文献,对前向建模这一预测流体在给定条件下的行为和特性的主要方法分为三个种别,分别是:数据驱动的替代模型(依赖不雅观测数据演习)、物理信息驱动的替代模型(将选定的物理先验融入机器学习建模)和机器学习赞助的数值办理方案(部分替代传统数值求解器,以平衡效率、精度和泛化能力)。此外,本文还先容了逆向设计和掌握问题的设置,这是将CFD运用于实际运用时的两个基本问题。前者优化设计参数,如初始和边界条件,以实现特定设计目标;后者通过施加时变外力掌握物理系统以实现特定目标。更主要的是,本文谈论了在关键科学和工程学科中的运用,并谈论了当前最前辈技能中的关键寻衅、限定以及未来的研究方向。
与现有综述比较本文具有四个特点:1. 聚焦于2020至2024年间最新的论文;2. 首次为CFD领域的前向建模和逆向问题设计的方法引入了系统的全新的分类方法。3. 总结了CFD领域的最新进展,4. 为未来的研究供应辅导,有助于物理和机器研究职员及机器学习研究者运用这些知识于实际科学问题。
图2. 机器学习用于打算流体动力学仿真的概述。左栏包括模型中利用的各种类型的输入数据,包括物理定律。中间栏包含了用机器学习构建前向模型的三种系统性分类。右栏涉及到各种情境中的运用。
数据驱动的替代模型数据驱动的替代模型完备依赖不雅观测数据来演习算法,这些算法能够仿照繁芜的流体动力学,且发展迅速。这些模型具有重大影响力,并可以根据其空间离散化的方法进行广泛分类,分为:1)依赖离散化,2)独立于离散化。前者须要将数据域划分为特定的网格、网状或粒子构造,并设计模型架构,而后者不依赖离散化技能,而是直接在连续空间中学习办理方案。个中依赖于离散化的方案可以根据离散化的类型将这些方法分为三类:1)在规则网格上,2)在不规则网格上,3)在拉格朗日粒子上。独立于离散化方法紧张是基于神经算子的思想进行函数空间的映射,本文根据实现积分函数近似的不同将现有方法分为:1)深度算子网络,2)物理空间中的方法,3)傅里叶空间中的方法。
图3. 打算流体动力学中数据驱动替代模型方法概述
物理信息驱动的替代模型
只管数据驱动模型在打算流体动力学仿真中显示出潜力,但它们也面临寻衅,如数据网络的显著本钱以及对其泛化能力和鲁棒性的担忧。因此,融入基于物理的先验知识至关主要,可以利用物理定律的力量来增强模型的可靠性和适用性。本文根据嵌入的知识类型将它们分类为:1)物理信息化,2)约束信息化。前者将物理知识转化为神经网络的约束,确保预测遵照已知的物理原则;后者从传统的偏微分方程求解器中汲取灵感,将这些方法整合到神经网络的演习过程中。
图4. 物理信息驱动的替代模型方法概述
机器学习赞助的数值办理方案
只管在端到真个替代模型建模方面取得了一定的进展,但它们尚未达到现有数值求解器的精确度哀求,特殊是在长期推演中会涌现偏差累积显著的征象,以及在演习期间未见工况下泛化性能差。因此,研究职员正在探索机器学习与数值求解器的结合,只更换数值求解器的部分部件以平衡速率、精度和泛化能力。
我们将这些方法分为三个紧张种别:1)在更粗糙的分辨率或较少的自由度下实现精确仿照,包括学习离散化方案、通量、封闭建模和简化建模;2)利用学习到的预处理器加速线性系统的办理方案;3)范围广泛的杂项技能,从超分辨率到纠正迭代步骤。
图5. 用于机器学习探索的打算流体力学常用数据集可视化
逆向设计
逆向设计问题旨在为物理系统找到一组高维设计参数(例如,边界和初始条件),以优化一组指定的目标和约束。逆向设计问题面临以下寻衅:1)它须要对偏微分方程系统进行精确和高效的仿真;2)设计空间常日是高维的,带有繁芜的约束;3)在数据驱动的逆向设计任务中,比不雅观测样本更繁芜的场景中的泛化能力。随着机器学习在偏微分方程仿真中的迅速进展,近年来机器学习在逆向设计中也日益受到关注。现有事情常日可以分为基于偏微分方程约束的方法和数据驱动的方法。
图6.逆向设计用于优化参数的演示
掌握问题
偏微分方程系统的掌握问题也是基本问题并具有广泛的运用。掌握问题的紧张目标是通过施加时变外力来掌握一个物理系统以实现特定目标。外力项的时变性增加了这个问题的繁芜性,使其比逆向设计更具寻衅性。在过去几十年中,用于办理偏微分方程掌握问题的广泛利用的传统方法存在一定的缺陷,包括高打算本钱和有限的适用性。因此,机器学习技能已成为办理这些问题的盛行方法。在流体动力学领域,各种特定问题,如减阻、共轭热通报和拍浮等,已经通过机器学习技能得到办理。现有事情常日可以分为基于监督学习的方法,基于强化学习的方法和基于偏微分方程约束的方法。
图7.掌握物理系统实现特定目标的演示
寻衅及未来方向1. 多尺度动力学特色
多尺度建模的寻衅在于准确捕捉从微不雅观分子运动到宏不雅观流动行为的不同尺度之间的相互浸染,这一过程受限于有限的高保真数据和打算资源。幸运的是,机器学习在弥合由有限的高保真数据可用性造成的差距方面起到了关键浸染。这一寻衅还因多尺度系统的内在繁芜性而加剧,不同尺度的征象可能以非线性且常常不可预测的办法相互影响。例如,微不雅观分子动力学可以显著影响流体流动中的宏不雅观属性,如粘度和湍流。
未来方向:开拓无缝结合数据驱动方法和传统物理根本仿照的稠浊模型,提升其在不同尺度和情景下的泛化能力。迁移学习技能的持续改进也将发挥关键浸染,使模型能够利用干系问题和数据集的知识,以提高在有限高保真数据下的性能。此外,探索新型架构将进一步提升捕捉跨尺度繁芜相互浸染的能力。这些架构可以通过更繁芜的汇聚和聚合策略以及改进的可阐明性得到增强,确保学习模型遵照已知的物理定律。其余,打算硬件的进步,如利用专用途理器和分布式打算框架,将使实行更繁芜和大规模的仿照成为可能。
2. 物理知识编码另一个紧张寻衅是有效地将掌握流体动力学的基本物理定律从多种来源明确地整合到一个连贯的高维非线性框架中。明确整合物理知识与物理信息神经网络不同,前者直接将物理定律和约束整合到模型中,而物理信息神经网络则将这些定律嵌入到神经网络的丢失函数中以辅导学习过程。
未来方向:未来故意义的研究方向包括开拓更多新颖的隐式网络架构。这些架构该当被设计为无缝嵌入物理知识。此外,结合流形学习和图关系学习技能的机器学习可以帮助提取潜在的物理关系和定律。这种方法旨在增强机器学习模型理解和整合繁芜物理系统的能力,从而导致更准确的预测。
3. 多物理学习 & 科学根本模型科学机器学习的一个紧张目标是开拓能够泛化并超越演习数据的方法。替代模型常日只在其演习的事情条件或几何形状下表现良好。详细来说,物理信息神经网络常日只办理单一实例的偏微分方程,而神经算子只能泛化到特定的参数化偏微分方程族。同样,如封闭建模等机器学习赞助方法,其性能每每受到演习时事情条件或墙面形状的限定。
未来方向:一个有前景的未来方向是设计网络以同时处理不同的繁芜几何形状。这须要一个能够处理异质数据的网络,以及大量高质量(真实和合成)的演习数据。此外,虽然预演习的大型措辞模型不直接适用于科学打算任务,但整合它们弘大的预演习知识库将是有益的,尤其是在数据稀缺的情形下。此外,配备可扩展演习策略的小型措辞模型可以供应一种有效且高效的方法。
4. 自动数据天生与科学创造
现有的所有运用的成功,极大地依赖于演习数据集的规模和覆盖范围。这在多物理模型中尤其如此,这一点通过大型措辞模型中涌现的效应得到了证明。与在线上随意马虎得到的文本或视觉数据不同,CFD数据像许多科学领域一样,因繁芜的系统参数组合而具有大量样本且涵盖多种不同模型,并常日须要高昂的本钱才能得到。这种组合为天生足够大且多样化的数据集带来了重大寻衅。在前面的章节中,我们提到了整合对称性和物理知识以减少对演习数据集大小的依赖。然而,自动且高效地辅导机器学习模型天生数据仍旧面临寻衅。
未来方向:自动化实验已成为自动数据天生和科学创造的未来希望。通过利用演习好的替代模型(验证器),自动化实验演习另一个机器学习模型来提出实验(发起者),这些实验可以由验证器高效筛选,只保留成功率高的实验。真实实验或高保真仿照仅在筛选过的实验上进行。所得到的结果逐步丰富数据集并重新演习机器学习模型,以突出显示成功率更高的实验方向。这一流程方向于自动化和扩大传统实验的规模,并已在材料科学、超材料、蛋白质构造、机器人技能等领域得到运用。在CFD及干系领域,类似的事情也具有很大的潜力。