Institutional Money, Ausgabe 4 | 2025
sich Trends verfestigen oder Aufschwünge überhitzen. Die Allokationsentscheidung selbst erfolgt in feinen Abstufungen zwischen null und hundert Prozent Gold – das System simuliert also kontinuierliche Umschichtungen zwischen den beiden Anlageklassen. Unterschiedliche Verfahren Getestet werden zwei Varianten dieses Lernverfahrens. Das erste, REINFORCE, repräsentiert die klassische Form des sogenannten „Policy-Gradient-Learnings“: Der Agent pro- biert hier in jeder Trainingsphase unterschiedliche Gewich- tungen aus, sammelt die resultierenden Erträge und passt danach seine Entscheidungsregeln an. Aktionen, die zu höheren Belohnungen geführt haben, werden in der künf- tigen Strategie wahrscheinlicher. Diese Methode ist trans- parent und vergleichsweise einfach, neigt aber zu Instabi- lität, da einzelne Extremereignisse die Lernrichtung stark EHHLQijXVVHQ NĆQQHQ Das zweite Verfahren, Proximal Policy Optimization (PPO), führt eine wesentliche Verfeinerung ein: Zwar wer- den auch hier die Strategien über Gradienten angepasst, doch der Algorithmus begrenzt die Größe jedes Lern- schritts – er erlaubt nur „proximale“, also maßvolle Verän- derungen der Policy. Diese „Clipping“-Technik wirkt wie ein Sicherheitsmechanismus: Sie verhindert, dass der Agent seine Strategie nach einem Ausreißer radikal umstellt und dadurch zuvor erlernte Muster verliert. In den Trainings- läufen äußert sich das in ruhigeren Lernkurven und einer deutlich stabileren Performance. Beide Modelle werden in weiterer Folge über die bereits erwähnten Variablen und Zeitfenster trainiert. Im Ergeb- nis zeigt sich, dass PPO die Lernziele konsistenter erreicht und besser mit wechselndenMarktphasen umgehen kann. Das Verfahren reagiert weniger auf Lärm, lernt aber ebenso dynamisch wie REINFORCE – ein entscheidender Vorteil, wenn es darum geht, Volatilität nicht nur zu messen, son- dern aktiv zu steuern. Resultate Die Autoren entwickeln vier Experimentabfolgen: je einen REINFORCE- und PPO-Agenten in der klassischen Trai- ningsabfolge sowie je einen dieser Agenten im Walk-For- ward-Verfahren, das reale Marktbedingungen simuliert. Bewertet wird die Performance anhand von kumulierten Erträgen, Sharpe Ratios und Drawdowns. Beide Modelle steigerten im herkömmlichen Training die risikoadjustierte Rendite gegenüber den Einzelwerten Bitcoin und Gold – ein Beleg dafür, dass das verstärkende Lernen tatsächlich verwertbare Allokationsmuster erken- nen kann. Es zeigt sich jedoch einUnterschied in der Lern- stabilität. Der klassische REINFORCE-Agent erzielte im Durchschnitt eine annualisierte Sharpe Ratio von 0,063, während der weiterentwickelte PPO-Agent mit etwa 0,070 etwas besser abschnitt. Relativ gesehen verläuft die PPO-Kurve deutlich glatter und gleichmäßiger und liefert gegen Ende des Beobach- tungsfensters deutlich höhere Erträge – ein Ergebnis des Clipping-Mechanismus, der, wie erwähnt, zu große Anpas- sungen verhindert. Beide Agenten übertrafen im Back- test klar die passiven Referenzen: Gold kam im selben Zeitraum nur auf 0,03, Bitcoin auf 0,08 Ertragspunkte. » Unser Ziel war es, Volatilität mithilfe eines lernbasierten Ansatzes durch eine dynamische Allokation zwischen Bitcoin und Gold abzusichern. « Frank Kronewitter, Rebellion Research / UCLA Unterschiedliche Trainings mit unterschiedlichen Resultaten KI-Agent REINFORCE KI-Agent PPO Auf der linken Seite die stilisierte Ertragskurve des herkömmlich trainierten KI-Modells „REINFORCE“. Das rechte Modell läuft als „PPO“ (Proximal Policy Optimization) – hier ist das Ausmaß, in dem die einzelnen Trades in sequentieller Folge abgewickelt werden können, eingeschränkt, das End- ergebnis somit geglättet. Diese Limitierung schlägt sich unter anderem in deutlich höheren Erträgen am Ende des Zeitfensters nieder. Quelle: Studie Kronewitter & Pham -6 -4 -2 0 2 4 200 I 175 I 150 I 125 I 100 I 75 I 50 I 25 I 0 -10 -5 0 5 10 15 200 I 175 I 150 I 125 I 100 I 75 I 50 I 25 I 0 114 N o . 4/2025 | institutional-money.com THEORIE & PRAXIS | Gold und KI
Made with FlippingBook
RkJQdWJsaXNoZXIy ODI5NTI=