Geplatzte Ertragsträume
Dass Rückrechnungen mit Vorsicht zu genießen sind, ist bekannt. Immer öfter sind es aber kleine Dinge, die zu statistischen Verzerrungen führen. Schon wenn an scheinbar unwesentlichen Details gedreht wird, kann es zu Überoptimierungen kommen.

Data-Mining ist ein Prozess, bei dem große Datenmengen systematisch analysiert werden, um darin verborgene Muster, Zusammenhänge oder Trends zu entdecken. Doch in der Praxis enttäuschen viele Ergebnisse, die sich im Untersuchungszeitraum als statistisch signifikant erwiesen haben.
Dafür gibt es verschiedene Gründe. Zum einen sind die Kapitalmärkte dynamisch, sie verändern sich immer wieder. Deshalb könnte das, was heute funktioniert, morgen keinen Vorteil mehr bringen. Zum anderen werden Studien vor allem dann veröffentlicht, wenn sie interessante Ergebnisse liefern. Tatsächlich gibt es in der akademischen Forschung deshalb einen Anreiz für exzessives Data-Mining und das „Erschaffen“ signifikanter Ergebnisse (siehe auch „Geplatzte Renditeträume“, Institutional Money 3/2022). Von den vielen Versuchen, bei denen nichts Brauchbares herauskam, liest man dagegen meist nicht. Dabei können mit modernen Computern problemlos unzählige Parameter und Kombinationsmöglichkeiten untersucht werden, von denen einige rein zufällig statistisch signifikant erscheinen. Das führt zu falsch-positiven Ergebnissen, die außerhalb der Testdaten kaum Aussagekraft haben. Oft lässt sich aber im Nachhinein eine gute Erklärung für den gefundenen Zusammenhang finden. Dadurch sieht es dann so aus, als wäre dieses Muster von Vornherein so vermutet worden. Das Ergebnis wirkt also wie eine bestätigte Theorie, obwohl es eigentlich ein Zufallsfund war.
Scheinbare Kleinigkeiten
Die Methoden, mit denen sich statistisch signifikante Ergebnisse bewusst erzielen lassen, sind nicht nur vielfältig, sondern von außen auch kaum nachvollziehbar beziehungsweise überprüfbar. Ein Beispiel sind die Details, mit denen Portfolios konstruiert werden. Dazu gehören die Entscheidungen, wie oft ein Rebalancing erfolgt, wie die Titel gewichtet sind und ob Aktien von Finanzfirmen einbezogen oder ausgeschlossen werden.
Im Paper „Looking Under the Hood of Data-Mining“ untersucht Mathias Hasler, ob diese Entscheidungen statistische Verzerrungen hervorrufen. Wenn das der Fall ist, sollten die Portfolios im Untersuchungszeitraum bessere Ergebnisse aufweisen als bei zufälliger Festlegung dieser Eigenschaften. Außerhalb der Stichprobe sollten die Ergebnisse aber ähnlich sein. Tatsächlich findet sich dieses Muster. Demnach erzielen Portfolios, die auf Grundlage der präzisen Kriterien der Forscher zusammengestellt wurden, im jeweiligen Untersuchungszeitraum um 0,29 Prozentpunkte höhere Renditen als Portfolios mit einer zufälligen Kombination von Entscheidungen aus der Literatur. Bei Verwendung von Daten außerhalb der Stichprobe verschwindet dagegen mehr als die Hälfte der Renditen (siehe Grafik „Klarer Einfluss“).
Die scheinbaren Details haben also einen stärkeren Einfluss auf die Ergebnisse als oft vermutet. Je komplexer dabei das verwendete Modell, desto größer der potenzielle Effekt des gewählten Forschungsdesigns, da viele Entscheidungen willkürlich getroffen werden können. Dieser Effekt wird in Anlehnung an das gleichnamige Paper „Nonstandard Errors“ auch als Nichtstandardfehler bezeichnet. Damit ist gemeint, dass verschiedene Forscher, die dieselben Hypothesen anhand derselben Daten testen, je nach deren Entscheidungen über das Forschungsdesign zu erkennbar unterschiedlichen Resultaten kommen können. Zwar können Robustheitschecks helfen, das Ganze einzugrenzen, doch auch das hängt wieder von der verwendeten Methodik ab.
Beispiel Faktor-Timing
Ein weiteres Beispiel zeigen Wei Dai und Audrey Dong von Dimensional Fund Advisors in ihrer Studie „Another Look at Timing the Equity Premiums“. Sie untersuchen drei Timing-Ansätze für Faktorprämien. Dazu nutzen sie verschiedene Parameter, etwa die Häufigkeit der Rebalancings, die Schwellen für den Wechsel zwischen Long- und Short-Seite und die Anlageregion. Daraus ergeben sich insgesamt 720 mögliche Kombinationen. Nur 30 von ihnen erzielen scheinbar zuverlässig Überrenditen im Vergleich zur reinen Long-Seite der Prämien.
Allerdings kann man den Ergebnissen nicht vertrauen, wie die Autoren selbst schreiben. Denn die profitablen Kombinationen sind sehr empfindlich für kleine Veränderungen der Parameter. So erzielte die beste Strategie zwar eine Überrendite von 5,5 Prozent pro Jahr im Vergleich zu Buy and Hold. Doch nur die Änderung eines einzigen Parameters lässt mehr als die Hälfte davon wieder verschwinden. Zudem blieb die Mehrheit der Timing-Strategien hinter den Erwartungen zurück (siehe Grafik „Kein zuverlässiger Timing-Vorteil“).
Das Fazit der Studie lautet deshalb, dass die Chancen für ein erfolgreiches Timing der Faktorprämien schlecht stehen. Es dürfte aussichtsreicher sein, sich konsequent auf die eigentlichen Prämien zu fokussieren beziehungsweise mehrere von ihnen zu integrieren und dann diszipliniert dabei zu bleiben, statt auf ausgeklügelte Timing-Methoden zu setzen.
Beispiel Pocket-Strategie
Ein anderes Beispiel beschreiben Nusret Cakici (Fordham University), Christian Fieberg (Hochschule Bremen), Tobias Neumaier und Thorsten Poddig (beide Universität Bremen) sowie Adam Zaremba (Montpellier Business School, Pozna´n University und Monash University) in ihrem Paper „The Devil in the Details: How Sensitive Are Pockets of Predictability to Methodological Choices?“. Darin untersuchen sie eine Vielzahl von Umsetzungsvarianten der Pocket-Strategie, die in einem früheren Paper veröffentlicht wurde („Pockets of Predictability“). Demnach haben Aktienmärkte längere Phasen, in denen die Renditen nicht vorhersehbar sind. Diese werden aber von kurzen Zeiträumen erhöhter Vorhersehbarkeit unterbrochen. Dem Paper zufolge können prognostizierbare Zeiträume mithilfe von Kernregressionen im Voraus identifiziert werden. Diese Idee hat verständlicherweise großes Interesse in der Forschung geweckt, da sie Markt-Timing und Überrenditen ermöglichen könnte.
Doch die Forscher sind skeptisch. Sie untersuchen die Pocket-Strategie auf ihre Robustheit gegenüber den zugrunde liegenden Annahmen und Parametern. Dabei stützen sie sich auf die ursprüngliche Stichprobe und deren Untersuchungszeitraum, um eine Vergleichbarkeit zu ermöglichen. Auch die Daten, die Methodik und die Bewertungsmetriken der ursprünglichen Studie werden strikt eingehalten. Dabei stoßen die Autoren auf klare Schwächen der untersuchten Strategie.
Unzählige Kombinationen
Insbesondere ist die Pocket-Strategie von scheinbaren Details abhängig, was das Forschungsdesign angeht. Die Forscher identifizieren neun Knotenpunkte für solche Entscheidungen, durch deren Kombination eine Vielzahl von Implementierungen möglich wird. Durch deren Kombination ergeben sich insgesamt 19.440 Umsetzungsvarianten. Selbst das umfasst noch nicht die gesamte Bandbreite methodischer Optionen, da etwa die verwendete Kernregression selbst erhebliche Flexibilität beinhaltet. Problematisch ist dabei vor allem, dass sich eigentlich unwichtige Entscheidungen erheblich auf die Performance auswirken. So etwa das verwendete Winsorizing. Diese statistische Methode reduziert den Einfluss von Ausreißern in den Daten. Sie werden durch weniger extreme Schwellenwerte eines bestimmten Perzentils ersetzt. Die Untersuchungen zeigen, dass ein Winsorizing auf das 2,5. Perzentil die Renditen erheblich verbessert. Umgekehrt reduziert allein der Verzicht auf dieses Verfahren die Alphas aber etwa um die Hälfte. Die Autoren schreiben, dass das ein klares Warnsignal ist.
Neben den Nichtstandardfehlern zeigen die Forscher zwei weitere Einschränkungen des Pocket-Konzepts, die für die Praxis relevant sind. Zum einen nimmt die Vorhersagbarkeit der Renditen im Lauf der Zeit tendenziell ab. Das Potenzial, Muster zu erkennen und in messbare Gewinne umzuwandeln, hat sich in den letzten Jahrzehnten also verringert. Zum anderen sind die Handelskosten entscheidend. Liegen diese bei zehn Basispunkten, waren für den Zeitraum von 1990 bis 2016 keine signifikanten Alphas zu verzeichnen. Selbst bei nur fünf Basispunkten lagen die Sharpe Ratios der Strategien nicht über denen des passiven Buy-and-Hold-Marktportfolios.
Schlussfolgerungen
Professionelle Investoren brauchen eine gesunde Skepsis, was akademische, aber auch praktische Veröffentlichungen betrifft. Auf den ersten Blick ist häufig kaum zu erkennen, ob Ersteller gut aussehender Rückrechnungen verzerrende Maßnahmen nutzen, um Effekte stärker beziehungsweise besser darzustellen, als sie in der Realität zu erwarten sind. Da die Komplexität von Prognosemodellen und damit das Risiko einer Überoptimierung künftig tendenziell zunimmt, dürfte das Thema relevant bleiben.
Allerdings gibt es auch ganz einfache Möglichkeiten, simulierte Renditen zum eigenen Vorteil zu beeinflussen. Ein Beispiel zeigt US-Professor Avanidhar Subrahmanyam im Paper „Finance Research: Some Concerns“. Demnach werden die Renditen schon durch die Maßnahme nach oben verzerrt, dass alle Aktien mit Kursen unter fünf US-Dollar aus der Analyse ausgeschlossen werden. Denn während zum Beispiel ein Anstieg von sechs auf acht US-Dollar enthalten bleibt, fällt ein Rückgang von sechs auf vier US-Dollar dem Filter zum Opfer.
Dr. Marko Gränitz