banner
Nachrichtenzentrum
Lassen Sie uns zusammenarbeiten, um eine für beide Seiten zufriedenstellende Lösung zu finden.

Optimierung der Flüssigkeitsmischung mit Verstärkungslernen

May 14, 2023

Wissenschaftliche Berichte Band 12, Artikelnummer: 14268 (2022) Diesen Artikel zitieren

2479 Zugriffe

2 Zitate

103 Altmetrisch

Details zu den Metriken

Das Mischen von Flüssigkeiten ist in verschiedenen industriellen Prozessen von entscheidender Bedeutung. In dieser Studie konzentrieren wir uns auf die Eigenschaften, die Verstärkungslernen (RL) für die globale Optimierung in der Zeit geeignet macht, und schlagen die Verwendung von RL für die Fluidmischungsoptimierung passiver Skalarfelder vor. Für das zweidimensionale Fluidmischungsproblem, das durch die Advektions-Diffusionsgleichungen beschrieben wird, realisiert ein trainierter Mischer ohne Vorkenntnisse eine exponentiell schnelle Mischung. Das Strecken und Falten durch den geschulten Mischer um Stagnationspunkte herum ist für den optimalen Mischvorgang unerlässlich. Darüber hinaus stellt diese Studie eine physikalisch sinnvolle Übertragungslernmethode des trainierten Mischers vor: die Wiederverwendung eines mit einer bestimmten Péclet-Zahl trainierten Mischers für das Mischproblem bei einer anderen Péclet-Zahl. Basierend auf den Optimierungsergebnissen des laminaren Mischens diskutieren wir Anwendungen der vorgeschlagenen Methode auf industrielle Mischprobleme, einschließlich turbulentem Mischen.

Das Mischen von Flüssigkeiten spielt in verschiedenen industriellen Prozessen eine grundlegende Rolle. Die meisten Mischprozesse werden jedoch empirisch mithilfe von Versuch-und-Irrtum-Methoden durch physikalische Experimente und nicht durch mathematische Optimierung entworfen. Obwohl Turbulenz ein „effektiver Mischer“1 ist, ist turbulentes Mischen in einigen Fällen (z. B. in einem Bioreaktor oder einem Mischer in Prozessen der Lebensmittelindustrie) nicht geeignet, da starke Scherströmungen die zu mischenden Materialien beschädigen. Darüber hinaus ist es aufgrund der niedrigen Reynolds-Zahlen schwierig, turbulente Strömungen in Mikromischern aufrechtzuerhalten; Dies erfordert eine verstärkte Durchmischung durch laminare Strömungen. Daher ist die Mischungsoptimierung durch laminare Strömungen von entscheidender Bedeutung. Mehrere analytische Studien haben die Effizienz laminarer Mischprotokolle2,3,4,5 bewertet, z. B. den Nachweis der exponentiellen Grenzen der Mischgeschwindigkeit; Die Forschung zu konstruktiven Optimierungsmethoden bleibt jedoch begrenzt.

Diese Studie schlägt eine Mischungsoptimierung basierend auf Reinforcement Learning (RL) als konstruktive Methode vor. Um die Wirksamkeit des RL-Algorithmus zur Optimierung der Flüssigkeitsmischung zu veranschaulichen, fassen wir zunächst seinen mathematischen Rahmen zusammen. Der RL-Algorithmus wird in Bezug auf den Markov-Entscheidungsprozess (MDP)6,7 formuliert: \(M= \{ {S}, {A}, p_{0}, P, R\}\), wobei S die bezeichnet Menge von Zuständen, \({S}=\{s_1, \cdots s_{|{S}|} \}\); A bezeichnet die Menge der Aktionen, \({A}=\{ a_{1}, \cdots a_{|{A}|} \}\); \(p_{0}\) bezeichnet die Wahrscheinlichkeitsverteilung des Anfangszustands, \(p_{0}: {S} \rightarrow [0,1]\); P bezeichnet die Übergangswahrscheinlichkeit, \(P: {S} \times {S}\times {A} \rightarrow [0,1]\); und R bezeichnet die Belohnungsfunktion, \(R:{S} \times {A} \rightarrow \mathbb {R}\). Der Anfangszustand \(s_{0}\) wird durch \(p_{0}(\cdot )\) bestimmt, und im nächsten Schritt wird der Zustand durch die Übergangswahrscheinlichkeit \(P(\cdot) bestimmt |s_{0},a_{0})\), was die Aktion \(a_0\) erfordert. Die Aktion wird durch die Richtlinie \(\pi : {S} \rightarrow {A}\) als \(a=\pi (s)\) bestimmt. Der RL-Algorithmus wird implementiert, um die optimale Richtlinie \(\pi ^*\) für den gegebenen MDP zu bestimmen, die die Erwartung der kumulativen Belohnung \(\sum _{t=0}^{\infty } \ maximiert. Gamma ^{t} R_{t+1}\). Dabei bezeichnet \(\gamma \in (0,1)\) den Abzinsungsfaktor und \(R_{t+1}:=R(s_{t},a_{t})\).

Der RL-Algorithmus maximiert die kumulative Belohnung (dh global in der Zeit) und nicht die sofortige Belohnung \(R_{t}\) (dh lokal in der Zeit). Daher eignet es sich für globale Optimierungsprobleme in der Zeit. Das Entwerfen effizienter Mischprotokolle ist eines der globalen Optimierungsprobleme in der Zeit, da das endgültige Skalarfeld von der zeitlichen Reihenfolge der Aktionen im gesamten Mischprozess abhängt, einschließlich Streckung und Faltung durch Flüssigkeitsströme und deren Kopplung mit molekularer Diffusion. Ein anschauliches Beispiel wurde in History Affairs of Villermaux8 vorgestellt. Trotz der Wirksamkeit der RL-Algorithmen bei der Lösung einer Vielzahl von Problemen in der Strömungsmechanik9,10,11, einschließlich Kernfusion12 und Turbulenzmodellierung13, bleibt das Problem der Flüssigkeitsmischung unerforscht.

Der RL-Algorithmus eignet sich für globale Optimierungsprobleme in der Zeit, jedoch nicht für Probleme mit einem hochdimensionalen Zustandsraum im Allgemeinen, der als Fluch der Dimensionalität6 bekannt ist. Insbesondere die hohe Dimensionalität des Zustandsraums für die Flüssigkeitsmischung macht die Implementierung des RL-Algorithmus zu einer Herausforderung. Diese Studie untersucht ein von Mathew et al.2 formuliertes Optimierungsproblem, bei dem das Geschwindigkeitsfeld durch die Überlagerung der vorgeschriebenen Felder gegeben ist. Dies reduziert die Dimension des Zustandsraums für die Flüssigkeitsbewegung auf eins2; Ein einzelner Parameter, der später mit \(\theta\) bezeichnet wird, bestimmt den Zustand der Flüssigkeitsbewegung. Dieses Optimierungsproblem basierte auf einem physikalischen Experiment unter Verwendung der elektromagnetisch angetriebenen Strömung14. Die konjugierte Gradientenabstiegsmethode wurde als Prototyp der Fluidmischungsoptimierung2 eingeführt. Um sicherzustellen, dass der RL-Algorithmus das Strömungsfeld mit einem reduzierten Freiheitsgrad verarbeiten kann, konzentrieren wir uns auf dasselbe Optimierungsproblem.

In diesem Artikel zeigen wir zum ersten Mal, dass der RL-Algorithmus für Optimierungen der Flüssigkeitsmischung geeignet ist. Dieser Algorithmus identifiziert eine effektive Flusskontrolle, die ohne Vorkenntnisse zu exponentiell schnellem Mischen führt. Die Mechanismen hinter effizientem Mischen werden aufgedeckt, indem man sich aus der Sicht der dynamischen Systemtheorie auf die Strömung um die Fixpunkte konzentriert15,16. Diese Studie schlägt außerdem eine effektive Transfer-Lernmethode für den geschulten Mischer vor, indem der Diffusionseffekt beim Mischen berücksichtigt wird. Basierend auf den Optimierungsergebnissen des laminaren Mischens diskutieren wir im Abschnitt „Schlussfolgerung und Diskussion“ Anwendungen der vorgeschlagenen Methode auf industrielle Mischprobleme, einschließlich turbulentem Mischen.

Wir betrachten das folgende von Mathew et al.2 formulierte Optimierungsproblem als Benchmark-Problem, bei dem das Geschwindigkeitsfeld \(u(x,y,t) = \alpha _{1}(t) u_{1}(x ,y) + \alpha _{2}(t) u_{2}(x,y)\), verwendet. Hier ist \(u_1(x,y) = (-\sin (2 \pi x)\cos (2 \pi y), \cos (2 \pi x) \sin (2 \pi y))\) und \(u_2(x,y) = u_1(x-0.25,y-0.25)\) (siehe Abb. 1a). Die zeitliche Entwicklung des passiven Skalars c(x, y, t) wird durch die Advektions-Diffusionsgleichungen auf dem zweidimensionalen Torus \(\mathbb {T}^2\) (der periodischen Randbedingung) beschrieben:

wobei \(\text {Pe} \in (0,\infty ]\) die Péclet-Zahl darstellt. Als Einschränkung für die Flusssteuerung gilt das Zeitintegral der kinetischen Energie, \(\frac{1}{2} \ int _0^{1} \int _{\mathbb {T}^2} u^{2} d\mathbf{x} dt = \int _0^{1} \alpha _i(t) R_{ij} \alpha _j (t) dt =:\mathscr {E}\), ist fest, wobei \(R_{ij}:= \frac{1}{2} \int _{\mathbb {T}^2} u_i \cdot u_j d\mathbf{x}~~(i=1,2,~j=1,2)\). Wir setzen \(\alpha (t)=2\sqrt{\mathscr {E}} (\cos \ theta (t), \sin \theta (t))\), wodurch die Einschränkung immer erfüllt ist. Wir setzen auch \(\mathscr {E}=1,25\) wie in Mathew et al.2. In diesem Problem gilt: Das Geschwindigkeitsfeld u(x, y, t) wird durch einen einzigen Parameter, \(\theta (t)\), bestimmt, der als Strömungsparameter bezeichnet wird.

Optimierung der Flüssigkeitsmischung mithilfe des Reinforcement Learning (RL)-Algorithmus: (a) Geschwindigkeitsvektorfelder von \(u_{1}(x,y)\) (links) und \(u_{2}(x,y)\) (rechts) auf dem zweidimensionalen Torus, \(\mathbb {T}^2\); (b) Schnappschüsse der zeitlichen Entwicklung des Skalarfeldes c(x, t), unterstützt durch den optimierten Fluss; (c) Mix-Varianz, \(\Phi _{n}(t)~(t \in [0,1])\), für die n-te Episode (\(n=1\), 800, 1600, 2400 , 3200 und 4000); (d) Mix-Varianz, \(\Phi _{n}(t=1)\), am Ende jeder Episode.

Die Varianz des Skalarfeldes wird häufig zur Messung des Mischgrads verwendet. Da es sich jedoch in Abwesenheit einer Diffusion um eine Erhaltungsgröße handelt (d. h. \(\frac{d}{dt} \int _{\mathbb {T}^2} c^{p}dx \equiv 0~~( \forall p \in \mathbb{N})\)) ist als Maß für den Mischungsprozess ungeeignet. Stattdessen verwenden wir die durch \(\Phi (c)=\Vert c \Vert ^2_{H^{-1/2}} := \sum _{k} \frac{1}{\ sqrt{1+ (2 \pi \Vert k \Vert )^2}} | c_k |^2\), wobei \(c_k\) den Fourier-Koeffizienten des Skalarfeldes bezeichnet17. Die Mix-Varianz entspricht der Mix-Norm, die ursprünglich eingeführt wurde, um die Multiskaleneigenschaft des gemischten Skalarfeldes zu charakterisieren17. Darüber hinaus zeigten Mathew et al.17 die Äquivalenz zwischen dem Zerfall von \(\Phi (c)\), der schwachen Konvergenz in \(L^{2}\) und der Mischung ergodischer dynamischer Systeme in Satz 3.2 (siehe auch Lin et al.3 zur Erweiterung des Satzes). Um das Optimierungsproblem zusammenzufassen, verwenden wir den RL-Algorithmus, um die Funktion \(\theta : [0,1] \rightarrow \mathbb {R}\) zu bestimmen, die die Mischungsvarianz am Ende des Mischungsprozesses minimiert. \(\Phi ( c (\cdot , t=1))\).

Wir führen eine numerische Simulation der Advektions-Diffusionsgleichungen (Gl. 1) unter Verwendung des Runge-Kutta-Schemas vierter Ordnung für die zeitliche Integration mit \(\Delta t=0,001\) und der Fourier-Spektralmethode für die räumliche Diskretisierung mit einem Gitter durch von \(250 \times 250\), der mit dem in Mathew et al.2 verwendeten identisch ist.

Hier betrachten wir die Optimierung der Aktionswertfunktion (Q-Funktion) \(Q^{\pi }(s,a):= \mathbb {E}[ \sum _{t=0}^{\infty } \gamma ^{t} R_{t+1}|S_{0}=s, A_{0}=a]\) anstelle der Richtlinie \(\pi \) und erhalten Sie die optimale Q-Funktion, \(Q ^*: {S} \times {A} \rightarrow \mathbb {R}\). Der Fixpunktsatz von Banach stellt mathematisch sicher, dass eine solche optimale Q-Funktion als Fixpunkt des Bellman-Operators6,7 existiert. Wir erhalten die optimale Richtlinie als \(\pi ^{*}(s) := \mathrm{argmax}_{a \in {A}} Q^{*}(s,a)\).

Als Standardimplementierung des RL-Algorithmus verwenden wir das tiefe Q-Netzwerk18, das die Q-Funktion annähert, indem es das tiefe neuronale Netzwerk verwendet, das mit \(Q^w: \mathbb {R}^{N_s} \times {A} \ bezeichnet wird. Pfeil nach rechts \mathbb{R}\). Dabei bezeichnen \(N_s\) und w die Dimension des Zustandsraums bzw. die Verbindungsgewichte im neuronalen Netzwerk. Die Eingaben in das Netzwerk sind das Skalarfeld c(x, y, t) und das Geschwindigkeitsfeld u(x, y, t). Die Werte dieser Felder auf \(\mathbb {T}^2\) werden auf dem quadratischen Gitter \(83\times 83\) beobachtet, und der Zustand s des MDP wird als die beobachteten Werte der Geschwindigkeit definiert Feld, \(u(x_{i}, y_{i}, t)~~(i =1,\ldots , N_O)\), wobei \(N_O=83\times 83\) und die des Skalars Felder in den letzten fünf Schritten; das heißt, \(s_{t} := (u (x_{i},y_{i}, t), \{ c(x_{i}, y_{i}, \tau ) \}_{\tau = t,~t- \Delta t_{O},\ldots ,~t - 4 \Delta t_{O}}) \in \mathbb {R}^{N_s}\), und \(\Delta t_O\) bezeichnet den zeitlichen Abstand der aufeinanderfolgenden Beobachtungen. Daher beträgt die Dimension des Zustandsraums \(N_s=7 \times N_O\). Das Netzwerk besteht aus vier verborgenen Schichten, und jede Aktivierungsfunktion ist ReLU, wie Mnih et al.18 zeigen. Der Abzinsungsfaktor beträgt \(\gamma =0,99\). Weitere Details der Deep-Q-Netzwerkstruktur und ihrer Implementierungen werden in den „Ergänzenden Informationen“ beschrieben. Die Anfangsverteilung \(p_{0}\) wird durch die Deltafunktion gegeben, sodass \(\theta (0)=0\) und \(c(x,y,0)=\sin (2 \pi y)\).

Das Zeitintervall der aufeinanderfolgenden Beobachtungen beträgt \(\Delta t_O=0,004\), was dem gleichen Wert entspricht, der im Benchmark-Problem2 verwendet wird, und \(\Delta t_Q=5 \Delta t_O\), wobei \(\Delta t_Q\ ) bezeichnet das Zeitintervall der aufeinanderfolgenden Aktualisierungen der Q-Funktion. Daher beobachtet der RL-Algorithmus für jede Periode von \(\Delta t_Q\) die durch die Advektions-Diffusionsgleichungen (Gl. 1) bestimmten Skalarfelder mit dem festen Geschwindigkeitsfeld. Anschließend wird die Q-Funktion, also die Gewichte im neuronalen Netz, aktualisiert. Eine einzelne Episodeneinheit entspricht einem einzelnen Mischprozess, dh der Lösung des Anfangswertproblems der Advektions-Diffusionsgleichungen (Gl. 1) für \(0 \le t \le 1\). Die Gesamtzahl, \(N_{e}\), der Episoden für das Training beträgt \(N_{e}=4000\). Die Ergebnisse mit der größeren Anzahl von Episoden, \(N_{e} = 5000\), sind qualitativ identisch mit denen mit \(N_{e} = 4000\).

Als Aktion A des MDP kann der RL-Algorithmus den Wert des Flussparameters \(\theta (t)~~(0\le t\le 1)\) ändern. Das Geschwindigkeitsfeld u(x, y, t) wird durch den Einzelparameter \(\theta (t)\) bestimmt und die Flusskontrolle wird durch Änderung von \(\theta (t)\) realisiert. Die Diskretisierung der zeitlichen Änderung des Strömungsparameters ist \(\theta (t + \Delta t_{Q}) = \theta (t) + \omega \Delta t_{Q}\) mit \(\omega \in \ { 0, \omega _{+}, \omega _{-}\}(={A})\), wobei \(\omega _{+}=\pi /(4\Delta t_{Q})\ ) und \(\omega _{-}=-\pi /(4\Delta t_{Q})\). Die Aktion \(\omega \) wird nach der \(\varepsilon \)-greedy-Methode6,7,18 ausgewählt, die den Wert von \(\varepsilon \) linear von 1 auf 0,001 ändert.

Die Belohnungsfunktion R wird unter Verwendung der Mischungsvarianz \(\Phi \) definiert, die als monoton fallende Funktion von \(\Phi \) festgelegt ist, um sicherzustellen, dass der kleinere Wert von \(\Phi \ ) stellt ein besseres gemischtes Skalarfeld dar:

wobei \(\tilde{\Phi }\), \(\Phi _{0}\) und \(\Phi _{T}\) einen Schwellenwert, einen Anfangswert und einen Zielwert der Mischung bezeichnen. Varianz bzw. Per Definition gilt zunächst \(R=-1\) und \(R = +1\), wenn die Mischungsvarianz \(\Phi \) den Zielwert erreicht. Die Werte von \(\tilde{\Phi }\) und \(\Phi _{T}\) werden basierend auf der Péclet-Zahl festgelegt: \((\tilde{\Phi },~\Phi _{T}) =(1 \times 10^{-2},~4 \times 10^{-3})\) für \(\text {Pe} =\infty \) und \((\tilde{\Phi },~ \Phi _{T})=(5 \times 10^{-3},~1 \times 10^{-4})\) für \(\text {Pe}=100\).

Die Optimierungsergebnisse werden ohne Diffusion (\(\text {Pe}=\infty \)) dargestellt. Die optimale Richtlinie \(\pi ^*: \mathbb {R}^{N_s} \rightarrow {A}\), angenähert durch das tiefe Q-Netzwerk, wird aus der RL-basierten Optimierung erhalten. Danach bestimmt der Zustandsvektor \(s_t \in \mathbb {R}^{N_s}\) die optimale Aktion durch \(\omega _t = \pi ^*(s_t)\). Dies bestimmt das Geschwindigkeitsfeld während des nächsten Intervalls, \(\Delta t_Q\), das das Skalarfeld advektiert, und der Prozess wird mit der nächsten Beobachtung fortgesetzt. Dieser auf der optimalen Richtlinie \(\pi ^*\) basierende Flussregler wird als trainierter Mischer bezeichnet. Abbildung 1b zeigt von links nach rechts, dass der trainierte Mischer dafür sorgt, dass sich das Skalarfeld c(x, t) mit der Zeit entwickelt. Hier entsprechen die Farben Schwarz und Weiß den hohen bzw. niedrigen Werten des Skalarfelds. Der trainierte Mischer erzeugt eine komplexe Schichtstruktur des Skalarfeldes. Der folgende Unterabschnitt enthält eine detaillierte Beschreibung des sukzessiven Streckens und Faltens der Schnittstelle zwischen den beiden Farben.

Die Mischungsvarianz \(\Phi _{n}(t)~~(n=1,\ldots , 4000)\) ist in Abb. 1c dargestellt. Während der Anfangsphase des Trainings (dh in der ersten Hälfte der gesamten Episoden wie \(n=1, 800,\) und 1600) wählt der RL-Algorithmus mit der \(\epsilon \)-Greedy-Methode Aktionen nach dem Zufallsprinzip. Obwohl dieser „Zufallsmischer“ die Mischungsvarianz verringern kann, ist ein solches Mischen ineffizient, wie unten erläutert.

Mathew et al.2 berichteten, dass die vorgeschlagene Methode des konjugierten Gradientenabstiegs zu \(\Phi (t=1) \simeq 6 \times 10^{-3}\) führte; Dieser Wert der Mixvarianz wird für den Vergleich als Referenz verwendet. In der ersten Hälfte der gesamten Episoden ist die Mixvarianz am Ende des Mixvorgangs, \(\Phi _{n}(t=1)\), größer als der Referenzwert; Das heißt, die unzureichende Ausbildung des Mischers führt zu einem ineffizienten Mischen. Umgekehrt wird \(\Phi _{n}(t=1)\) in der zweiten Hälfte der gesamten Episoden, \(n=2400\), 3200 und 4000, reduziert. Insbesondere \(3 \times 10^ {-3}< \Phi _n(t=1) < 4 \times 10^{-3}\) für \(n=4000\), die nahezu identisch (etwas kleiner als) dem Referenzwert sind. Interessanterweise nimmt die Mix-Varianz für \(0,3 \le t \le 1\) für die letzteren Episoden wie \(n=3200\) und \(n=4000\) exponentiell schnell ab. Während wir uns hier auf den quantitativen Vergleich mithilfe der Mix-Varianz konzentrieren, gibt es einige qualitative Unterschiede zwischen der Methode von Mathew et al.2 und unserer RL-basierten Methode. Im Abschnitt „Schlussfolgerung und Diskussion“ veranschaulichen wir wesentliche Vorteile der RL-basierten Methode.

Abbildung 1d zeigt die Mischungsvarianz am Ende jedes Mischungsprozesses, \(\Phi _n(t=1)\), die aufgrund der \(\varepsilon\)-gierigen Methoden und der Tatsache, dass die Richtlinie, \ (Q^{w}\), ist nicht konvergiert. Mit fortschreitender Episode nimmt die Fluktuation jedoch ab; siehe auch Abb. S1 und S2 in den „Ergänzenden Informationen“. Der RL-Algorithmus verringert die Mischungsvarianz \(\Phi _n(t=1)\) erheblich; Das heißt, die RL-basierte Optimierung verbessert effektiv die Mischung.

Der Flussparameter in Episode n wird mit \(\theta _{n}(t)\) bezeichnet. In der ersten Hälfte des Trainings, \(n<2000\), entwickelt sich der Flussparameter \(\theta _{n}(t)\) aufgrund der \(\varepsilon \)-gierigen Methoden zeitlich zufällig und die Tatsache, dass die Politik nicht konvergiert. Im Verlauf der Episode konvergiert \(\theta _{n}(t)\) jedoch zu einer einzigen Funktion, \(\theta ^*(t)\), mit Ausnahme der letzten Phase des Prozesses, wie in gezeigt Abb. 2a. Die Zeitreihe von \(\theta _{n}(t)\) besteht aus Rechteckwellen, da das Geschwindigkeitsfeld (d. h. \(\theta _{n}(t)\)) in jedem Intervall festgelegt ist, \ (\Delta t_Q\). Der optimale Mischvorgang durch den trainierten Mischer entsprechend \(\theta ^{*}(t)\) gliedert sich in die folgenden drei Stufen:

Anfangsstadium (\(0< t \le 0,3\)): Der Flussparameter ist eine Konstante; \(\theta ^{*}(t) =\pi /4\), was den stetigen Fluss angibt, \(u(x,y)= - c \sin 2 \pi (x+y),~ v(x ,y)= c \sin 2 \pi (x+y)~~(c:\text {const.})\). Der Geschwindigkeitsvektor verläuft parallel zur Diagonalen; Beispielsweise durchquert der Fluss entlang der Linie \(x+y=1/4\) das Gebiet \(\mathbb{T}^2\) mit dem Geschwindigkeitsvektor \((u,v)=( -c,c)\).

Mittlere Stufe (\(0,3 < t \le 0,7\)): Der Strömungsparameter ändert sich linear; \(\theta ^{*}(t) = \omega ^{*} t~~(\omega ^{*} \simeq 16)\), was den zeitlich periodischen Fluss mit konstanter Kreisfrequenz angibt.

Endstadium (\(0,7 < t \le 1\)): Es gibt keine gemeinsamen Merkmale der zeitlichen Entwicklung des Strömungsparameters.

Eigenschaften des ausgebildeten Mischers. (a) Zeitreihe des Flussparameters \(\theta _{n}(t)\) für die n-te Episode: \(n=2000\), 3000 und 4000. Die vertikale Achse ist \( \theta _{n}(t)/\pi \) und die horizontalen Punktlinien repräsentieren \(k/4~(k \in \mathbb {Z})\). Einschub: die Mixvarianz, \(\Phi (t=1)\), im Fall des Strömungsparameters mit der konstanten Kreisfrequenz, \(\theta (t)= \omega t\). Die horizontale strichpunktierte Linie gibt den Wert der Mischungsvarianz des trainierten Mischers an. (b) Zeitliche Entwicklung des Geschwindigkeitsvektorfeldes durch den trainierten Mischer. Die blaue Linie und der rote Punkt stellen die Materiallinie bzw. einen der Fixpunkte dar: \(t=0,~0,1,~0,2,~0,3,~0,36,~0,46,~0,54\) und 0,68. (c) Wahrscheinlichkeitsdichtefunktionen der Mischungsvarianz \(\Phi (t=1)\) durch den vollständig randomisierten Mischer und die teilweise randomisierten Mischer I und II von oben nach unten. (d) Skalare Felder, \(c(x,t=1)\), am Ende des Mischvorgangs durch den trainierten Mischer (links) und den vollständig randomisierten Mischer (rechts).

Die unterschiedlichen zeitlichen Entwicklungen des Strömungsparameters \(\theta (t)\) im Endstadium führen am Ende zu einem nahezu identischen Wert der Mischungsvarianzen \(\Phi (t=1)\). des Prozesses. Daher ist der wesentliche Prozess beim Mischen nicht die Endphase, sondern die Anfangs- und Mittelphase. Numerische Experimente, die diesen Punkt unterstützen, werden im nächsten Unterabschnitt vorgestellt.

Abbildung 2b zeigt die zeitliche Entwicklung der Geschwindigkeitsfelder, die dem in der letzten Episode erhaltenen Strömungsparameter entsprechen, d. h. \(\theta _{n}(t)~(n=4000)\). Die blaue Linie in jedem Feld zeigt die Materiallinie an, die durch die Strömung gefördert wird, die zunächst zusammen mit der Linie \(y=0,5\) platziert wird. Die oberen Felder in Abb. 2b zeigen den Fluss im Anfangsstadium, in dem die Materiallinie auf die diagonale Länge der Domäne verlängert wird. Anschließend ist die Strömung in den mittleren Stadien zeitlich periodisch, die in den unteren Feldern in Abb. 2b dargestellt sind. Jedes Geschwindigkeitsfeld hat acht feste (Stagnations-)Punkte, \(u_1\) und \(u_2\). Die Hälfte davon ist elliptisch; das heißt, die Jacobi-Matrix hat rein imaginäre Eigenwerte. Die andere Hälfte sind Sattelpunkte; das heißt, die Jacobi-Matrix hat reelle Eigenwerte15,16. Wir fokussieren einen von ihnen auf \((x,y)=(0,5,0,5)\), der durch den roten Punkt in jedem Feld von Abb. 2b als Referenz dargestellt wird. Die Materiallinie um den Fixpunkt wird entlang der instabilen Eigenrichtungen gestreckt, wenn der Fixpunkt ein Sattel ist, wohingegen sie gefaltet ist (ungefähr \(\pi /2\) Drehung), wenn der Fixpunkt elliptisch ist. Die lokale Streckung und Faltung um die acht Fixpunkte erfolgt gleichzeitig, was zu einer effizienten Durchmischung führt. Die Verwendung des spezifischen Protokolls durch den trainierten Mischer mit der konstanten Kreisfrequenz \(\theta (t)=\omega ^{*} t\) wird im Abschnitt „Schlussfolgerung und Diskussion“ erläutert.

Bemerkenswerterweise ist die Periode des Flusses in der mittleren Stufe, \(2\pi /\omega ^*\), die die Periode des aufeinanderfolgenden Wechsels der Sattel- und elliptischen Typen der Fixpunkte bestimmt, im folgenden Sinne optimal . Neben dem RL-Algorithmus führen wir numerische Simulationen des Skalarfeldes durch, das durch den durch \(\theta (t)= \omega t\) bestimmten Fluss mit einer konstanten Kreisfrequenz \(\omega \) während des gesamten Mischvorgangs advektiert wird , \(0\le t \le 1\). Der Einschub von Abb. 2a zeigt \(\Phi (t=1)\), ausgewertet für \(\omega \in [0,30]\). Das Minimum von \(\Phi (t=1)\) in dieser Einstellung wird bei \(\omega \simeq \omega ^{*}\) erhalten. Dies impliziert, dass der RL-Algorithmus ohne Vorkenntnisse die optimale Kreisfrequenz \(\omega ^{*}\) bestimmt und der trainierte Mischer den zeitlich periodischen Fluss mit der optimalen Periode in der mittleren Phase des Prozesses verwendet.

Um den Fluss durch den trainierten Mischer im Anfangs- und Mittelstadium zu charakterisieren, führen wir drei verschiedene Mischprozesse ein, sogenannte Zufallsmischer:

Vollständig randomisierter Mischer: Er verwendet den Zufallscontroller, der eine der drei Aktionen \(\omega \in \{ 0, \omega _{+}, \omega _{-}\}\) unabhängig voneinander mit derselben ausführt Wahrscheinlichkeiten für alle Stufen (\(0 \le t \le 1\)).

Teilweise randomisierter Mischer I: Er verwendet den trainierten Mischer für die Anfangsstufe (\(0 \le t < 0,3\)) und wechselt dann zur Verwendung des Zufallscontrollers für \(0,3 \le t \le 1\).

Teilweise randomisierter Mischer II: Er verwendet den trainierten Mischer für die Anfangs- und Mittelstufe (\(0 \le t < 0,7\)) und wechselt dann zur Verwendung des Zufallscontrollers für \(0,7 \le t \le 1\).

Numerische Simulationen werden für jede Kontrolle 200 Mal unabhängig voneinander durchgeführt. Abb. 2c zeigt die Wahrscheinlichkeitsdichtefunktionen (PDFs) der Mischungsvarianz \(\Phi (t=1)\) am Ende des Mischungsprozesses. Die graue durchgezogene Linie gibt den Wert der Mischungsvarianz des trainierten Mischers an, \(\Phi _{n}(t=1)~(n=4000)\) (siehe Abb. S1 in den „Ergänzenden Informationen“ für das zugehörige PDF des geschulten Mischers).

Das obere Feld von Abb. 2c zeigt die PDF im Fall des vollständig randomisierten Mischers, bei dem die Mischungsvarianzen größer sind als der Referenzwert des trainierten Mischers. Die linken und rechten Felder von Abb. 2d stellen den Endzustand des Skalarfelds \(c(x,t=1)\ dar, das vom trainierten Mischer und einem vollständig randomisierten Mischer erzeugt wird, der die Mischungsvarianz \( \Phi (t=1)\), nahe dem Medianwert des PDF. Die Videos 1 und 2 in den „Ergänzenden Informationen“ entsprechen den Skalarfeldern, die vom trainierten Mischer bzw. dem vollständig randomisierten Mischer gemischt werden. Große ungemischte Blobs verbleiben im Skalarfeld, das vom vollständig randomisierten Mischer erzeugt wird. Das heißt, der Trainingsmischer mit dem RL-Algorithmus ist effektiv. Das zweite Feld von Abb. 2c zeigt die PDF im Fall des teilweise randomisierten Mischers I, der effektiver ist als der vollständig randomisierte Mischer. Es besteht jedoch eine erhebliche Lücke zwischen den Ergebnissen des teilweise randomisierten Mischers I und denen des trainierten Mischers. Dies weist darauf hin, dass auch der Mischvorgang während der Mittelstufe von entscheidender Bedeutung ist. Schließlich zeigt das dritte Feld von Abb. 2c das vom teilweise randomisierten Mischer II erzeugte PDF. Die Ergebnisse sind nahezu identisch mit denen, die mit dem trainierten Mischer erzielt wurden. Daher ist die Wirksamkeit des teilweise randomisierten Mischers II dieselbe wie die des trainierten Mischers. Diese Beobachtungen zeigen, dass der Mischprozess im Anfangs- und Mittelstadium für die Mischeffizienz entscheidend ist, der Mischprozess im Endstadium hingegen nicht.

In diesem Unterabschnitt wird der Diffusionseffekt auf die RL-Optimierung der Mischung betrachtet, die durch die Advektions-Diffusionsgleichungen (Gl. 1) mit endlichen Péclet-Zahlen beschrieben wird. Die Details der Problemeinstellungen sind bis auf die Werte der Péclet-Zahlen identisch mit denen in den vorherigen Abschnitten. Die RL-basierte Optimierung wird auf das Mischungsproblem für den Fall \(\text {Pe}=10^2, 10^3\) und \(10^4\) angewendet, die genauso effektiv sind wie für den Fall von \(\text {Pe}=\infty \), unabhängig von den Péclet-Zahlen. Beispielsweise nimmt bei \(\text {Pe}=100\) die Mischungsvarianz \(\Phi _{n}(t)\) für die späteren Episoden schneller ab, wie im Einschub von Abb. gezeigt. 3b, wobei \(n=1.600,1200,1800,2400\) und 3000 und hellere (dickere) Kurven einem größeren n entsprechen. Wir stellen fest, dass die Kurven von \(\Phi _{n}(t)\) für \(n\ge 1200\) fast gleich sind, was bedeutet, dass der RL-Algorithmus konvergiert, um die optimale Richtlinie bei \(n=1200) zu finden \). Interessanterweise ist diese Konvergenz schneller als im Fall von \(\text {Pe}=\infty \) (Abb. 1c). Die Anzahl der für die Konvergenz erforderlichen Episoden beträgt \(n \simeq 3000\) bei \(\text {Pe}=\infty \); jedoch scheint \(n \simeq 1200\) für die Konvergenz um \(\text {Pe}=100\) ausreichend zu sein.

Mischungsvarianz \(\Phi (t)\) für \(0 \le t \le 1\) bei (a) \(\text {Pe} =\infty \) und bei (b) \(\text { Pe} =100\). Die dicken blauen und dünnen roten Linien stellen die Ergebnisse des Mischers dar, der bei \(\text {Pe}_T =\infty \) bzw. \(\text {Pe}_T =100\) trainiert wurde. Die durchgezogenen, gestrichelten und strichpunktierten Linien entsprechen den Ergebnissen mit unterschiedlichen Zufallszahlen, die für das Lernen verwendet wurden. Einschub: die Mixvarianz \(\Phi _{n}(t)\) bei \(\text {Pe} =100\) und \(\text {Pe}_{T} = 100\) für das n -te Folge: \(n=1, 600, 1200, 1800, 2400\) und 3000, wobei hellere (dickere) Kurven größeren n entsprechen.

Der Diffusionseffekt tritt in den späteren Phasen in den Flusskontrollen auf. Gelingt es dem Mischer in einem frühen Stadium, feine Schichtstrukturen zu erzeugen, verliert die Strömungskontrolle in späteren Phasen des Mischens aufgrund des Diffusionseffekts an Bedeutung. Mit anderen Worten: Sobald der RL-Algorithmus bei einer niedrigen Péclet-Zahl in einem frühen Stadium des Mischens die optimale Mischsteuerung findet, ist nichts daraus zu lernen, da die Diffusion die Mischungsvarianz unabhängig von der Steuerung durch den Mischer schnell verringert. Dies kann zu der oben beobachteten schnelleren Konvergenz führen. Die Auswirkungen der schnellen Konvergenz bei niedrigen Péclet-Zahlen auf den Trainingsmischer werden im Abschnitt „Schlussfolgerung und Diskussion“ dargelegt.

Dieser Diffusionseffekt impliziert die asymmetrische Übertragbarkeit eines ausgebildeten Mischers; Das heißt, ein Mischer, der auf eine hohe Péclet-Zahl trainiert wurde, kann zum Mischen auf einer niedrigeren Péclet-Zahl verwendet werden, während das Umgekehrte nicht zutrifft. Sei \(\text {Pe}_T\) die Péclet-Zahl, bei der der Mischer trainiert wird, und die asymmetrische Übertragbarkeit wird dann wie folgt umformuliert: Der trainierte Mischer kann für denselben Mischprozess für den Bereich von \((0) wiederverwendet werden ,\text {Pe}_T]\). Abbildung 3a zeigt die Mischungsvarianz \(\Phi (t)\) für \(0 \le t \le 1\) bei \(\text {Pe} = \infty \). Die dicken blauen Linien zeigen die Ergebnisse für den Fall \(\text {Pe}_T =\infty \), und die dünnen roten Linien zeigen die Ergebnisse für den Fall \(\text {Pe}_T =100\). In Abb. 3a,b zeigen die durchgezogenen, gestrichelten und strichpunktierten Linien die Ergebnisse mit unterschiedlichen Zufallszahlen zum Lernen an. Die Mischer, die bei \(\text {Pe}_T =\infty \) trainiert haben realisieren das exponentiell schnelle Mischen für den gesamten Prozess, wenn wir es für \(\text {Pe}=\infty \) verwenden. Andererseits realisieren die Mischer, die bei \(\text {Pe}_T =100\) trainiert haben Das exponentiell schnelle Mischen erfolgt nur in der ersten Hälfte des Prozesses, in der zweiten Hälfte gelingt das Mischen jedoch nicht.

Abb. 3b zeigt die Mischungsvarianz \(\Phi (t)\) für \(0 \le t \le 1\) bei \(\text {Pe} =100\). Ähnlich wie in Abb. 3a stellen die dicken blauen Linien die Ergebnisse für den Fall \(\text {Pe}_T =\infty \) dar, und die dünnen roten Linien repräsentieren die Ergebnisse für den Fall \(\text {Pe} _T =100\). Anders als im Fall \(\text {Pe}=\infty \) besteht kein signifikanter Unterschied zwischen den Ergebnissen für die Fälle \(\text {Pe}_T =100\) und \(\text {Pe}_T = \infty \), und beide Fälle realisieren die exponentiell schnelle Mischung. Zusammenfassend lässt sich sagen, dass die Mischer von \(\text {Pe}_T=\infty \) für die Mischung bei \(\text {Pe}=100\) verwendet werden können, während das Umgekehrte nicht zutrifft. Daher kann ein auf eine höhere Péclet-Zahl trainierter Mischer für den Mischprozess für einen breiteren Bereich von \(\text {Pe}\) verwendet werden.

Durch die Veranschaulichung, warum der RL-Algorithmus für die Optimierung der Flüssigkeitsmischung geeignet ist, haben wir als Proof-of-Concept gezeigt, dass der mit dem RL-Algorithmus trainierte Mischer für das zweidimensionale Flüssigkeitsmischungsproblem effektiv ist (Abb. 1). ebnet den Weg für die Entwicklung einer RL-basierten Ausbildung von Mischern. Die vorgeschlagene Methode wurde quantitativ evaluiert, indem man sich auf das Benchmark-Problem der Mischungsoptimierung konzentrierte, das in der Pionierarbeit2 untersucht wurde. Zusätzlich zum Vergleich der Mix-Varianz-Werte stellen wir fest, dass unsere RL-basierte Methode das Optimierungsproblem unter restriktiveren Bedingungen löst als die von Mathew et al.2 vorgeschlagene Methode. Beispielsweise ist in unserer Einstellung die Anzahl der Zustände des Geschwindigkeitsfeldes auf acht beschränkt, \(\theta = 0,\pi /4, \ldots , 7\pi /4\). Darüber hinaus ist die vorgeschlagene Methode flexibler; Das heißt, es verwendet nur das Skalar- und Geschwindigkeitsfeld als Eingabe für das neuronale Netzwerk. Sofern diese Felder beobachtbar sind, sind physikalische Umsetzungen prinzipiell möglich, auch wenn die Entwicklungsgleichungen dieser Felder unbekannt sind. Wesentlich sind beispielsweise Mischprobleme körniger oder viskoelastischer Flüssigkeiten; Allerdings ist die Entwicklungsgleichung eines derart komplexen Materials nicht unbedingt etabliert, und daher kann die Methode des konjugierten Gradientenabstiegs2 nicht auf diese industriell grundlegenden Probleme angewendet werden. Andererseits ist die RL-basierte Methode gleichungsfrei und daher anwendbar, wenn die sensorischen Daten der Gemischzustände als Eingabe für das neuronale Netzwerk verfügbar sind.

Der optimierte Mischprozess wurde in drei verschiedene Phasen unterteilt. Besonders interessant ist, dass in der mittleren Stufe die optimierte Strömung zeitlich periodisch mit konstanter Kreisfrequenz ist. Hier diskutieren wir, warum der RL-Algorithmus die Kreisfrequenz konstant macht. Die Fixpunkte in beiden Geschwindigkeitsfeldern \(u_{1}\) und \(u_{2}\) liegen an der gleichen Position und sind homogen im Definitionsbereich \(\mathbb {T}^{2) platziert }\). Wenn die Kreisfrequenz nicht konstant ist, kann die Umschaltperiode zwischen dem Sattel- und dem elliptischen Typ des Festpunkts an jedem Ort unterschiedlich sein. Dieser räumliche Unterschied macht das Skalarfeld inhomogen. Die Inhomogenität erhöht die Amplitude des Fourier-Koeffizienten der kleinen Wellenzahl und erhöht dadurch die Mischungsvarianz. Folglich führt die zeitliche Variation der Kreisfrequenz zu einem größeren Wert der Mischungsvarianz. Der RL-Algorithmus verwendet die konstante Kreisfrequenz, um diesen unerwünschten Effekt zu vermeiden. Die detaillierte Begründung der oben genannten Interpretation ist eine der zukünftigen Arbeiten.

Eine weitere damit verbundene zukünftige Arbeit besteht darin, die optimale Mischung detaillierter zu verstehen. Wir behaupten beispielsweise, dass die zufällige Variation des Strömungsparameters in der Endstufe (\(t>0,7\)) für eine optimale Mischung nicht wesentlich ist, in dem Sinne, dass die Ergebnisse des teilweise randomisierten Mischers II (Abb. 2c) und der trainierte Mischer (Abb. S1 in den „Ergänzenden Informationen“) sind nahezu identisch. Es gibt jedoch einen kleinen Unterschied zwischen diesen PDFs, was darauf hindeutet, dass die Randomisierung der Aktionen in der Endphase möglicherweise einige Aktionen eliminiert, die der RL-Algorithmus im optimierten Mischprozess als wesentlich erachtet.

Für die praktische Anwendung ist die Reduzierung der Lernkosten von entscheidender Bedeutung. Trotz der Wirksamkeit des Transferlernens bei der Reduzierung der Lernkosten bleibt seine Anwendung auf Probleme der Strömungsmechanik begrenzt19. In diesem Zusammenhang hat diese Studie die physikalisch begründete Vorstellung der asymmetrischen Übertragbarkeit des trainierten Mischers eingeführt. Die Demonstration in dieser Studie (Abb. 3) zeigt, dass im Hinblick auf das Transferlernen die Péclet-Zahl des Quellbereichs \(\text {Pe}_{T}\) so hoch wie möglich sein sollte, wenn der trainierte Mischer ist erforderlich, um es für ein breiteres Spektrum wiederzuverwenden. Wenn der Mischer auf eine hohe Péclet-Zahl trainiert wird, kann er lernen, das Skalarfeld zu mischen, um feine Streifenstrukturen zu erzeugen. Wird der trainierte Mischer auf eine niedrigere Péclet-Zahl umgestellt, entstehen die feinen Strukturen zu Beginn des Mischvorgangs. Dann verringert die Glättung solcher Strukturen durch Diffusion die Mischungsvarianz, unabhängig von den Aktionen des trainierten Mischers in der späteren Phase. Daher ist die Übertragung des trainierten Mischers von einer hohen Péclet-Zahl auf eine niedrigere effektiv.

Was einen weiteren Aspekt der Lernkosten betrifft, haben wir festgestellt, dass das Lernen des Mischens bei einer niedrigeren Péclet-Zahl schneller konvergiert (Einschub in Abb. 3b). Wenn daher schnelles Lernen bei einer Péclet-Zahl erforderlich ist, sollte die Péclet-Zahl des Quellbereichs \(\text {Pe}_{T}\) so niedrig wie möglich sein. Zusammen mit der Diskussion im vorherigen Absatz deuten die obigen Diskussionen auf einen Kompromiss zwischen breiter Übertragbarkeit und schnellem Lernen hin; Mit anderen Worten: Es gibt eine optimale Péclet-Zahl der Quelldomäne, die diese beiden Vorteile in jeder Anwendung ausgleicht. Obwohl sich diese Studie auf die Übertragung des trainierten Mischers über die verschiedenen Péclet-Zahlen beschränkt, könnten zukünftige Entwicklungen von Transferlernmethoden trainierter Mischer von Bedeutung sein.

Es bestehen große Lücken zwischen dem in dieser Studie diskutierten mathematischen Spielzeugproblem und den bestehenden Mischungsproblemen in den industriellen Prozessen. Die Ergebnisse dieser Studie weisen jedoch auf einige Richtungen zur Überwindung dieser Lücken hin. Zunächst diskutieren wir die Auswirkungen dieser Studie auf turbulente Mischungen. Turbulenz besteht aus gegenläufig rotierenden Paaren kohärenter Wirbel auf mehreren Skalen20, und eine starke turbulente Vermischung resultiert aus der effektiven Vermischung um solche Wirbelpaare auf jeder Skala1. Wie bei der Transfer-Lernmethode beobachtet, kommt es zu einer Skalarmischung von größeren zu kleineren Maßstäben. Da die Zeitskala des turbulenten Mischens bei kleineren Maßstäben kürzer ist, wird die Gesamtmischungseffizienz durch das Mischen im größten Maßstab bestimmt. Daher kann die Messung der Geschwindigkeit und des Skalarfelds im größten Maßstab für die vorgeschlagene Trainingsmethode ausreichend sein. Trotz der erheblichen Lücke zwischen laminarer und turbulenter Mischung werden die Erkenntnisse aus der vorliegenden Studie für das Training von Mischern mit turbulenten Strömungen nützlich sein.

Darüber hinaus müssen in der Industrie ggf. die mehrphasigen und/oder thermischen Strömungen mit chemischen Reaktionen berücksichtigt werden, was die Komplexität der Strömungsdynamik erhöht. In solchen Fällen kann die Einbettung von Vorwissen wie den Evolutionsgleichungen oder einigen physikalischen Einschränkungen in die RL-basierte Optimierung effektiv sein, wie in Brunton11 diskutiert. Als weitere zukünftige Aufgabe für die RL-basierte Optimierung bei industriellen Mischungsproblemen wird es wichtig sein, die Robustheit der Mischungskontrolle mit der erhaltenen Richtlinie in Bezug auf Änderungen im anfänglichen Skalarfeld zu untersuchen. Während in dieser Studie das Deep-Q-Netzwerk als erster Schritt verwendet wird, wäre für solch komplexe Flüsse eine spezifischere und modernere Implementierung des RL-Algorithmus erforderlich. Die Erweiterung der vorgeschlagenen Methode um Wissen über Strömungsmechanik und geeignete RL-Implementierungstechniken kann das Mischen auch in industriellen Prozessen mit laminaren und turbulenten Strömungen weiter verbessern.

Die während der aktuellen Studie verwendeten und/oder analysierten Datensätze sind auf begründete Anfrage beim entsprechenden Autor erhältlich.

Goto, S. & Kida, S. Reynolds-Zahlenabhängigkeit der Linien- und Oberflächendehnung in Turbulenzen: Faltungseffekte. J. Fluid Mech. 586, 59–81 (2007).

Artikel ADS MathSciNet Google Scholar

Mathew, G., Mezic, I., Grivopoulos, S., Vaidya, U. & Petzold, L. Optimale Kontrolle der Vermischung in Stokes-Flüssigkeitsströmen. J. Fluid Mech. 580, 261–281 (2007).

Artikel ADS MathSciNet CAS Google Scholar

Lin, Z., Thiffeault, J.-L. & Doering, CR Optimale Rührstrategien für passives Skalarmischen. J. Fluid Mech. 675, 465–476 (2011).

Artikel ADS MathSciNet CAS Google Scholar

Seis, C. Maximale Durchmischung durch inkompressible Flüssigkeitsströme. Nichtlinearität 26, 3279–3289 (2013).

Artikel ADS MathSciNet Google Scholar

Alberti, G., Crippa, G. & Mazzucato, AL Exponentielles selbstähnliches Mischen durch inkompressible Strömungen. Marmelade. Mathematik. Soc. 32, 445–490 (2019).

Artikel MathSciNet Google Scholar

Szepesvàri, C. Algorithmen für Reinforcement Learning. (Synthesis Lectures on Artificial Intelligence and Machine Learning Morgan and Claypool Publishers, 2010)

Sutton, RS & Barto, AG Reinforcement Learning: Eine Einführung (MIT Press, 2018).

MATH Google Scholar

Villermaux, E. Mischen versus Rühren. Ann. Rev. Fluid Mech. 51, 245–273 (2019).

Artikel ADS MathSciNet Google Scholar

Garnier, P. et al. Ein Überblick über Deep Reinforcement Learning für die Strömungsmechanik. Berechnen. Flüssigkeiten 225, 104973–104996 (2021).

Artikel MathSciNet Google Scholar

Brunton, SL, Noack, BR & Koumoutsakos, P. Maschinelles Lernen für die Strömungsmechanik. Ann. Rev. Fluid Mech. 52, 477–508 (2020).

Artikel ADS Google Scholar

Brunton, SL Anwendung maschinellen Lernens zum Studium der Strömungsmechanik. Acta Mechanica Sinica. 37, 1718–1726. https://doi.org/10.1007/s10409-021-01143-6 (2021).

Artikel ADS Google Scholar

Degrave, J. et al. Magnetische Kontrolle von Tokamak-Plasmen durch tiefes Verstärkungslernen. Natur 602, 414–419 (2022).

Artikel ADS CAS Google Scholar

Novati, G., de Laroussilhe, HL & Koumoutsakos, P. Automatisierung der Turbulenzmodellierung durch Multi-Agent-Verstärkungslernen. Nat. Mach. Intel. 3, 87–96 (2021).

Artikel Google Scholar

Rothstein, D., Henry, E. & Gollub, J. Anhaltende Muster bei der vorübergehenden chaotischen Flüssigkeitsmischung. Nature 401, 770–772 (1999).

Artikel ADS CAS Google Scholar

Wiggins, S. & Ottino, JM Grundlagen der chaotischen Mischung. Philos. Trans. R. Soc. London. Serie A Mathematik. Physik. Ing. Wissenschaft. 362, 937–970 (2004).

Artikel ADS MathSciNet Google Scholar

Aref, H. et al. Grenzen chaotischer Advektion. Rev. Modern Phys. 89, 025007 (2017).

Artikel ADS MathSciNet Google Scholar

Mathew, G., Mezic, I. & Petzold, L. Ein Multiskalenmaß zum Mischen. Physica D Nonlinear Phenomena 211, 23–46 (2005).

Artikel ADS MathSciNet CAS Google Scholar

Mnih, V. et al. Kontrolle auf menschlicher Ebene durch tiefgreifendes Verstärkungslernen. Natur 518, 529–533 (2015).

Artikel ADS CAS Google Scholar

Inubushi, M. & Goto, S. Transferlernen für nichtlineare Dynamik und ihre Anwendung auf Flüssigkeitsturbulenzen. Physik. Rev. E. 102, 043301(8) (2020).

Artikel ADS Google Scholar

Goto, S., Saito, Y. & Kawahara, G. Hierarchie antiparalleler Wirbelröhren in räumlich periodischen Turbulenzen bei hohen Reynolds-Zahlen. Physik. Rev. Fluids 2, 064603 (2017).

Artikel ADS Google Scholar

Referenzen herunterladen

Diese Arbeit wurde teilweise durch JSPS Grants-in-Aid for Early-Career Scientists Nr. 19K14591 und JSPS Grants-in-Aid for Scientific Research Nr. 19KK0067, 20H02068, 20K20973 und 22K03420 unterstützt.

Diese Autoren haben gleichermaßen beigetragen: Mikito Konishi und Susumu Goto.

Graduate School of Engineering Science, Universität Osaka, Osaka, 560-8531, Japan

Mikito Konishi, Masanobu Inubushi und Susumu Goto

Abteilung für Angewandte Mathematik, Tokyo University of Science, Tokio, 162-8601, Japan

Masanobu Inubushi

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

MK und MI konzipierten und führten die numerischen Experimente durch; MK, MI und SG analysierten die Ergebnisse. Alle Autoren haben das Manuskript überprüft.

Korrespondenz mit Masanobu Inubushi.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Konishi, M., Inubushi, M. & Goto, S. Optimierung der Flüssigkeitsmischung mit Verstärkungslernen. Sci Rep 12, 14268 (2022). https://doi.org/10.1038/s41598-022-18037-7

Zitat herunterladen

Eingegangen: 25. März 2022

Angenommen: 04. August 2022

Veröffentlicht: 22. August 2022

DOI: https://doi.org/10.1038/s41598-022-18037-7

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.