KI gegen den Rest der Welt
In einem Performancevergleich haben Forscher Künstliche-Intelligenz-Fonds gegen menschliches Management und den Markt per se antreten lassen. Dabei wurden die Stärken und Schwächen von KI-Strategien deutlich.

Zuerst eine weltweite Pandemie, dann ein Kriegsausbruch in unmittelbarer Nachbarschaft der Europäischen Union. Sorgen um die Gesundheit von Verwandten und Freunden, Angst vor einem möglichen Dritten Weltkrieg oder einem wirtschaftlichen Zusammenbruch durch ausbleibende Energieträger. All das ist nur eine kurze, oberflächliche Zusammenfassung der Stressfaktoren, die in den vergangenen mehr als zwei Jahren über uns eingebrochen sind – ein Stress mit dem je nach Resilienz individuell mehr oder weniger gut umgegangen werden kann.
Dass Stress, ausgelöst durch Fat-Tail-Events, zu schlechten Investmententscheidungen führt, ist hinlänglich bekannt. Mal wird zu früh oder zu spät verkauft, mal zu früh oder zu spät wieder zugekauft. MDDs, also Maximum Drawdowns, drohen die mühevoll aufgebaute Performance zu zertrümmern, die Nerven liegen blank.
Verfechter von KI-getriebenen Ansätzen führen diese menschlichen Verhaltensmuster gern ins Feld, wenn es um den Ersatz – oder die Ergänzung – aktiver humaner Strategien durch aktive maschinelle Ansätze geht. KI-gesteuerte Fonds sind im Gegensatz zu quantgesteuerten Produkten nicht regelbasiert. Sie lernen maschinell hinzu, sollten mit der Zeit also immer bessere – und vor allem emotionsfreie – Entscheidungen treffen. Die Frage ist nur: Wie gut sind diese Fonds wirklich?
Die Antwort: teilweise richtig gut. Als Beispiel führt Günter Jäger, Gründer und Geschäftsführer von Plexus Investments, die News Based Trading Strategy von LGT Capital Partners an: „Die Algorithmen haben die Marktstimmung anhand von News gemessen und haben rechtzeitig das Risiko reduziert. Der Fonds konnte seine Benchmark im Januar um 2,6 Prozent schlagen.“ Die Strategie ist im von Jäger herausgegebenen AI-Outperformance Index abgebildet. Der Index weist – wie der Name nahelegt – nicht die rohe Performance von KI-Strategien aus, sondern deren relative Performance im Vergleich zur Benchmark.
Gemäß dem dynamischen Umfeld ändert sich die Zusammensetzung relativ oft. Rund um den Jahreswechsel wurde beispielsweise der Globale Aktien Quant Get Capital in den Index aufgenommen. Angesichts des Begriffs Quant könnten die Alarmglocken läuten, verwenden Anbieter von rein regelbasierten Systemen doch immer wieder gern den Begriffe künstliche Intelligenz, ohne dass der Algorithmus maschinell lernt. Marco Wunderlich, bei Get Head of Client Development, widerspricht diesem Verdacht vehement:?„Es handelt sich um eine lupenreine KI-Strategie, die seit 2012 vollautomatisiert läuft.“
Maschinelles Lernen
Get Capital hat dabei auf Basis von Methoden des Machine Learnings Schätzer entwickelt, mit denen die Marktperformance eines Instruments über unterschiedliche Zeithorizonte hinweg prognostiziert wird. Die Basis dieser Prognosen bildet das im zu analysierenden Zeithorizont herrschende und automatisch erkannte Marktregime. Im Gegensatz zu gleitenden Durchschnittswerten können regimeorientierte Returnschätzer die Länge des Regimes in qualitativ unterschiedlichen Marktszenarien anpassen. Bei stabilen Märkten kalkulieren sie die Ertragserwartung auf Basis langfristiger Zeithorizonte, in Krisenzeiten auf Basis kurzfristiger. Die einzelnen Ergebnisse werden dann als Eingangsdaten für Klassifikatoren der Verfahren des Machine Learnings verwendet. So wird bestimmt, ob in einen Markt investiert werden kann oder nicht und welche Rendite für den jeweils nächsten Anlagezeitraum erwartet werden kann.
Aus den Zusammenbrüchen der Märkte während der Finanz- oder Eurokrise hat man wiederum gelernt, die volatilitätsorientierten Risikoprognosen anzupassen und nicht zu unterschätzen, man evaluiert das Marktrisiko mit dem Risikomaß „Expected Shortfall“. Vereinfacht lässt sich sagen, „dass ein Expected Shortfall von q Prozent der zu erwartenden Rendite in den schlechtesten q Prozent der Fälle entspricht. Im Gegensatz zu Volatilität oder Value at Risk berücksichtigt der Expected Shortfall das Risiko von Extremereignissen und ist somit ein realistisches Maß für die Verluste, die in Krisenszenarien eintreten können“, erklärt Wunderlich.
Nach der Definition des Risiko-Return-Schätzers ist der nächste Schritt der automatische Aufbau des optimalen Anlageuniversums. Hoher Diversifizierungsgrad und hohes Prognosepotenzial waren das Motto, „doch fehlten Tools zur Messung dieser Parameter und ein systematischer Ansatz beim Portfolioaufbau. Um den Aufbau eines Anlageuniversums systematisch gestalten zu können, hat Get Capital sogenannte Sensoren eingeführt, die die Vorhersagbarkeit eines Wertpapiers und die Diversifizierung eines Universums quantifizieren“, so Wunderlich.
Der „Vorhersagbarkeitssensor“ basiert auf dem ursprünglich aus der Physik stammenden Signal-Rausch-Verhältnis, das das Niveau der Ertragsschätzung eines Wertpapiers mit der Unsicherheit einer solchen Schätzung vergleicht. Im Finanzbereich gibt diese Kennzahl generell die „Reinheit“ der positiven und negativen Regimes eines Wertpapiers an. Je höher das Signal-Rausch-Verhältnis, desto einfacher gestalten sich Vorhersagen zu einem Wertpapier. Anders ausgedrückt: je geringer die Volatilität der Regimes, desto besser die Prognose.
Der Diversifizierungssensor basiert auf den Erkenntnissen der Informationstheorie, die unter anderem in der Informatik und Mathematik bei der Quantifizierung von Informationen Anwendung findet. Vereinfacht ausgedrückt misst der Diversifizierungssensor die Menge der Informationen, die sich die Wertpapiere eines Anlageuniversums teilen. Wertpapiere mit einer hohen Korrelation, etwa DAX 30 und CAC 40, teilen sich auch eine große Menge an Informationen – und können nicht zur Diversifizierung beitragen. Die Aufnahme von Wertpapieren mit niedriger Korrelation, etwa DAX 30 und MSCI Pakistan, deren Informationsschnittmenge gering ist, erhöht die Diversifizierung.
Case I: Fukushima
Dieser Ansatz hat sich in der Vergangenheit bewährt, wie zwei Case Studies zeigen. So etabliert sich nach dem Atomunfall in Fukushima am 11. März 2011 Negativregime. Der Schätzer reagiert schnell: Zwei Tage nach dem Unglück ist das neue Regime erkannt, und die Ertragsprognose wird ins deutlich Negative korrigiert. Noch deutlicher wird die Reaktion im Rahmen der Eurokrise im Sommer 2011. Durch die massiven Verluste des DAX wird auch dieses neue Regime schnell erkannt, und die Ertragsprognosen werden ins extrem Negative gesenkt. Das Negativregime hält bis Jahresende an. Die heftigen Schwankungen des DAX im Oktober und November lösen kein neues Regime aus, sondern werden als Oszillationen eines Negativregimes mit hoher Volatilität erkannt.
Die Returnschätzungen fließen in der Folge – auf Basis von Methoden des Machine Learnings – in den Klassifikator ein. Dies ist ein Algorithmus, der die Relation zwischen den einzelnen Prognosen identifiziert, die auf positive oder negative Marktentwicklungen schließen lässt. Die Ergebnisse des Klassifikators können pro- oder antizyklisch ausfallen. So wird die Anlage in überkauften Märkten (extrem positive kurz- und langfristige Prognosen) nicht zugelassen. In überverkauften Märkten (extrem negative kurz- und langfristige Prognosen) und in moderat steigenden Märkten (leicht positive kurz- und langfristige Prognosen) hingegen darf investiert werden.
Case II: Pandemie
Wie wichtig es ist, normales Marktrauschen von echten Trendwechseln zu unterscheiden, hat sich am Beginn der Pandemie gezeigt: Das Krisenjahr 2020 begann zunächst sehr positiv mit neuen Höchstständen Anfang Februar. Der Fonds hat diese Aufwärtsbewegung mitgenommen. Ab 20. Februar 2020 begann der Covid-19-Crash, der mit einem Drawdown von 33,8 Prozent am 23. März 2020 seinen Höhepunkt im MSCI World erreichte. Die Aktienquote wurde nach wenigen Tagen in mehreren Schritten deutlich gesenkt. So wurde der maximale Verlust auf 12,3 Prozent begrenzt, während der MSCI World Index einen Verlust von 28,9 Prozent erlitt.
„Das Absichern ist bei einem Crash jedoch nur eine Seite der Medaille. Wichtig ist auch, den Wendepunkt für die Erholung zu treffen“, so Wunderlich. Bereits ab Mitte Ende 2020 wurde die Aktienquote sukzessive wieder hochgefahren und hat an der Erholung partizipiert. Im Ergebnis erreichte der Fonds bereits am 6. Juni 2020 die Nulllinie. 2020 konnte die geschilderte KI-Strategie sowohl beim Globale Aktien Quant Get Capital als auch bei den Long Short Equity Mandaten den MSCI World outperformen. Auch in den vergangenen zwölf Monaten schaffte der globale Aktienfonds bis Redaktionsschluss ein Plus von 14,5 Prozent, während der von Mountain-View errechnete Weltaktienindex nur mit vier Prozent im Plus notierte.
Das große Bild
Das sind natürlich hervorragende Nachrichten für Get Capital – es stellt sich jedoch die Frage, wie gut KI-Strategien insgesamt funktionieren. Blickt man da auf den eingangs erwähnten AI-Outperformance Index von Plexus, können sich Zweifel etablieren. Denn über das Jahr 2021 gesehen lagen die erfassten KI-Fonds mehrheitlich unterhalb ihrer Benchmark, das heißt, mit einem passiven Investment in den jeweiligen Vergleichsindex wäre man besser und wahrscheinlich auch billiger gefahren, „was natürlich nicht heißt, dass die Fonds absolut gesehen nicht im positiven Bereich performten“, wie Jäger erklärt.
Doch lohnt sich der Wechsel von einem menschlichen Manager zu einem KI-gemanagten Fonds inklusive Blackbox? Die Algorithmen und ihre Denkprozesse per se sind ja in der Regel nicht einsehbar. Dieser Frage haben sich Rui Chen und Jinjuan Ren von der Universität Macao in ihrer aktuellen Studie „Do AI-Powered Mutual Funds Perform Better?“ gewidmet.
Insgesamt identifizieren die Autoren 15 KI-Fonds, „die sich dadurch kennzeichnen, dass sie Methoden des Machine Learnings zur aktiven Aktienauswahl heranziehen“, wie Ren erklärt. Die Vergleichsgruppe wird möglichst passgenau herausgefiltert und besteht schlussendlich aus 355 ETFs, 300 quantitativ und 611 menschlich gemanagten Fonds, deren Performance von November 2017 bis Dezember 2019 ausgewertet wird.
Verglichen mit dem Markt erreichen KI-Fonds nur in einem einzigen der untersuchten Einzelmonate einen signifikanten Performanceunterschied – der ist dann entmutigenderweise auch noch negativ. Untersucht man die durchschnittliche Performance nach Jensens Alpha und dem Fama-French-Fünf-Faktor-Modell (siehe Tabelle „Durchwachsenes Ergebnis“), so sind die Ergebnisse ebenso wenig aussagekräftig. Selbst wenn man gemäß Kacperczyk nach Skills bei Stockpicking und Timing sucht, ergibt sich kein relevantes Ergebnis.
Tatsächlich muss man die Fonds an sich schon gleich gewichten, um zu relevanten Übererträgen gegenüber dem Markt zu kommen. Durch diesen letzten Schritt werden die Volumina der einzelnen Fonds geglättet. Geht man davon aus, dass jüngere Fonds weniger Vermögen verwalten als ältere, so erhalten jüngere Fonds bei einer Gleichgewichtung relativ gesehen mehr Relevanz als früher, was die Autoren zu dem Schluss veranlasst, dass „KI-Fonds mit kürzerer Historie besser performen als ältere Fonds“. Tendenziell lässt sich jedoch sagen, dass KI-Fonds gegenüber dem Markt und somit passiven ETF-Produkten keinen statistisch relevanten Performancevorteil erringen. Anders sieht es aus, wenn man die KI gegen menschliche Erträge laufen lässt. Dann erwirtschaften die maschinellen Strategien Renditen, die auf marktadjustierter Basis, also auch im Fünf-Faktor-Alpha, statistisch relevant überlegen sind. Interessanterweise gibt es aber keinen statistisch relevanten überlegenen Skill: KI-Fonds weisen gegenüber ihren menschlichen Konkurrenten weder beim Timing noch beim Stockpicking eine höhere Leistung aus. Woher kommen also die Übererträge?
Einer Antwort kann man sich annähern, wenn man die Charakteristika der beiden Fondsgattungen miteinander vergleicht. Dann sind es gar nicht so sehr die Kosten, die den Unterschied ausmachen. Diese sind zwar bei AI-Fonds etwas geringer, allerdings ist die Differenz statistisch irrelevant. Bedeutungsvoll – zumindest mit einer Relevanz von 90 Prozent – gestaltet sich aber die Umschlagshäufigkeit. Diese ist bei menschlichen Fonds mehr als doppelt so hoch wie bei ihren KI-Pendants. Damit wird die Theorie erhärtet, dass KI-Fonds bessere Resultate erzielen, weil sie über keinen behavioristischen Bias verfügen – sie verkaufen in Stressmomenten einfach nicht so schnell wie menschliche Manager, sondern bleiben ihren – sich adaptierenden – Risikoprofilen treu, was laut Ren dazu führt, dass „KI-gesteuerte Fonds menschlich gemanagte Fonds in signifikanter Art und Weise schlagen“ (siehe Tabelle „KI-Alpha schlägt humanes Alpha klar“).
Hans?Weitmayr