Unnütze Forschung?
Haben neu entwickelte Finanzindikatoren, die in renommierten Finanzzeitschriften nach Prüfung durch die Peergroup publiziert werden, eine höhere Prognosegüte als solche, die aus bloßem Data-Mining hervorgegangen sind?

Angenommen, jemand erzählt, dass er in einer historischen Stichprobe einen Finanzindikator (Prädiktor) mit einer Long-Short-Rendite von 100 Basispunkten pro Monat gefunden hat. Man würde ihn fragen: „Woher kommt dieser Prädiktor?“ Wie würde sich die Ansicht über die Post-Sample-Rendite ändern, wenn der Prädiktor a) auf einer Idee basiert, die in einer Topfinanzzeitschrift (zum Beispiel dem Journal of Finance) veröffentlicht werden kann, oder b) durch das Mining von Zehntausenden Bilanzkennzahlen aus der Suche nach Resultaten mit einem t-Wert von mehr als 2,0 gefunden wurde?
Man könnte meinen, dass der in einer angesehenen Fachzeitschrift publizierbare Finanzindikator eine höhere Post-Sample-Rendite zeigt. Denn um veröffentlicht zu werden, benötigt ein Prädiktor viel mehr Unterstützung als einen Wert in der t-Statistik von über 2,0, was einem Resultat auf einem Signifikanzniveau zwischen 90 und 95 Prozent entspricht: Er muss entsprechende Robustheitstests bestehen sowie unterstützende Indizien und eine theoretische Begründung aufweisen. Angesichts des Drucks und der Belohnungen in der akademischen Finanzwelt sowie der Warnungen vor Data-Mining, die praktisch in der gesamten Literatur zur Vermögenspreisbildung zu finden sind, erwarten manche vielleicht, dass der publizierbare Prädiktor eine viel höhere Rendite hat. Aber wie viel höher ist die veröffentlichbare Rendite in der Zeit, die auf den Zeitraum der untersuchten Stichprobe folgt? Mit anderen Worten: Wie sehr hilft von Experten begutachtete Kapitalmarktforschung im Vergleich zu Data-Mining bei der Prognose von Aktienrenditen?
Um diese Frage zu beantworten, konstruieren Andrew Y. Chen, Principal Economist am Board of Governors des Federal Reserve Systems, Alejandro Lopez-Lira, Assistant Professor of Finance an der University of Florida, und Tom Zimmermann, Professor für Data Analytics an der Wirtschafts- und Sozialwissenschaftlichen Fakultät der Universität zu Köln, das empirische Gegenstück zu einem Szenario. Sie vergleichen 200 veröffentlichte Prädiktoren, die aus „Open Source Cross Sectional Asset Pricing“ stammen, veröffentlicht 2022 in der Critical Finance Review, mit Data-Mining- Benchmarks. Die Data-Mining-Benchmarks stammen aus der Suche innerhalb von 29.000 Buchhaltungskennzahlen mit T-Statistik-Werten von mehr als 2,0 in den ursprünglichen Stichprobenzeiträumen der veröffentlichten Prädiktoren. Die Kenngrößen sind einfach Quotienten oder skalierte erste Differenzen unter Verwendung von 240 Compustat-Buchhaltungsvariablen aus dem CRSP-(Center for Research in Security Prices)-Aktienuniversum. Die einzige Einschränkung dieser Quotienten besteht darin, dass eine Division durch Variablen vermieden wird, die typischerweise null oder negativ sind. Die Autoren bilden Long-Short-Portfolios für jeden Prädiktor und skalieren neu, sodass die durchschnittliche Rendite der ursprünglichen Stichprobe 100 Basispunkte pro Monat beträgt. Schließlich vergleichen sie diese Renditen mit jenen aus dem Zeitraum nach der Stichprobe. Die Grafik „Viel Lärm um fast nichts“ illustriert das Ergebnis. Sie stellt die Fünfjahresrendite zum Eventzeitpunkt dar, wobei das Ereignis der Monat ist, in dem die ursprüngliche Stichprobe endet. Wie in der wegweisenden Metastudie von 2016 mit dem Titel „Does Academic Research Destroy Stock Return Predictability?“, publiziert im Journal of Finance, gezeigt, sinken die veröffentlichten Renditen nach der Stichprobe, bleiben jedoch deutlich über null und liegen im Durchschnitt bei 53 Prozent ihrer ursprünglichen Stichprobenmittelwerte und damit bei 53 Basispunkten pro Monat. Die Data-Mining-Renditen sinken etwas stärker, wobei die Mittelwerte nach der Stichprobe 51 Prozent ihrer ursprünglichen Stichprobenmittelwerte – oder 51 Basispunkte pro Monat – betragen. Peer-Review-Research scheint also im Vergleich zu Data-Mining bei der Prognose von Renditen zu helfen, aber die Verbesserung ist bescheiden. Ein publizierbarer Finanzindikator in dem hypothetischen Szenario übertrifft die Ergebnisse nur um zwei Basispunkte pro Monat. Tatsächlich zeigt die Grafik, dass es schwer ist, die Nullhypothese zu verwerfen, dass der Prozess, den Prädiktoren mit Peer Review durchlaufen haben, selbst kein Data-Mining darstellt. Die aus dem Data-Mining gewonnenen Renditen entsprechen nicht nur dem Rückgang der veröffentlichten Renditen im Zeitraum nach der Stichprobe: Sie entsprechen auch dem Anstieg der Renditen der letzten fünf Jahre, wenn die ursprünglichen Stichproben enden, dem Rückgang der Renditen in den ersten 60 Monaten nach der Stichprobe, der Abflachung der Renditen in den Monaten 60 bis 120 und sogar dem Rückgang der Renditen um den 210. Monat.
Vielleicht würden die nach dem Review veröffentlichten Prädiktoren besser abschneiden, wenn man sich auf wissenschaftliche Arbeiten konzentrieren würde, die risikobasierte Ideen verwenden, dachten sich die Autoren angesichts der ersten nicht gerade berauschenden Ergebnisse. Wie in John H. Cochranes einflussreichem Lehrbuch „Asset Pricing: Revised Edition“ von 2009 beschrieben, „besteht die beste Hoffnung, Preisfaktoren zu finden, die außerhalb der Stichprobe und über verschiedene Märkte hinweg robust sind, darin zu versuchen, die grundlegenden makroökonomischen Risikoquellen zu verstehen.“ Viele der Arbeiten mit dem Datensatz von Chen und Zimmermann (2022) folgen diesem Ratschlag nicht und begründen ihre Prädiktoren mit informellen Argumenten über Fehlbewertungen. Einigen fehlt sogar eine klare Erklärung, und die Kapitalmarktforscher stützen ihre Schlussfolgerungen auf die Stärke ihrer empirischen Ergebnisse. Beispielsweise endet Rolf W. Banz 1981 in „The Relationship between Return and Market Value of Common Stocks“ mit der Bemerkung: „Der Größeneffekt existiert, aber es ist überhaupt nicht klar, warum er existiert.“
Um diese Möglichkeit zu berücksichtigen, ordnen die drei Autoren die Prädiktoren basierend auf der Erklärung für die Prognostizierbarkeit in den Originalstudien den Gruppen „Risiko“, „Fehlbewertungen“ oder „nicht klar definiert“ zu. Dann vergleichen sie die Renditen der drei Gruppen von Finanzindikatoren im Anschluss an das Ende der Stichprobe (sogenannte Post-Sample-Renditen).
Enttäuschende Resultate
Das Hauptergebnis bleibt auch in dieser Variante bestehen: Risikobasierte Forschung führt im Vergleich zu Data-Mining nicht zu höheren Post-Sample-Renditen. Wenn überhaupt, schneiden risikobasierte Prädiktoren schlechter ab als ihre Data-Mining-Benchmarks. Die Autoren finden ähnliche Ergebnisse, wenn sie Prädiktoren basierend auf der Unterstützung durch ein mathematisches Gleichgewichtsmodell kategorisieren. Obwohl es relativ wenige von formalen Modellen unterstützte Prädiktoren gibt, implizieren die vorhandenen, dass die Beziehung zwischen Modellierungsgenauigkeit und Post-Sample-Renditen negativ ist. Ein wichtiger Vorbehalt ist, dass die Ergebnisse die Kapitalmarktforschung zur Prognostizierbarkeit charakterisieren, wie sie von 1980 bis 2016 durchgeführt wurde. Das sind nämlich jene Jahre, die vom Datensatz von Chen und Zimmermann in ihrer Publikation „Open Source Cross Sectional Asset Pricing“ von 2022 abgedeckt werden. Die Kapitalmarktforschung entwickelt sich im Lauf der Zeit weiter, und seit 2016 haben sich immer mehr Wissenschaftler dem maschinellen Lernen und anderen Big-Data-Methoden zugewandt. Tatsächlich wurden Bereiche wie Proteinfaltung und Sprachmodellierung in jüngster Zeit durch atheoretische Suchen in riesigen Datenmengen revolutioniert. Zu nennen sind hier die Arbeiten von John Jumper von 2021 mit dem Titel „Highly Accurate Protein Structure Prediction with AlphaFold“, publiziert in Nature, sowie von Wayne Xin Zhao aus dem letzten Jahr. „A Survey of Large Language Models“ wurde in ArXiv publiziert. Die Grafik „Viel Lärm um fast nichts“ ist ein klares Beispiel für das Potenzial von Big-Data-Methoden. Die einfache Suche nach großen t-Statistik-Werten in Buchhaltungsvariablen führt zu erheblichen Out-of-Sample-Renditen. Und obwohl die Ergebnisse des Data-Mining wenig über die zugrunde liegende Ökonomie aussagen, können sie die empirische Grundlage für die nächste Generation wirtschaftlicher Ideen bilden.
Als sekundäres Ergebnis dokumentieren die drei Autoren einen bemerkenswerten Konsens über die Ursprünge der Vorhersagbarkeit von Renditen laut Peer Review. Von den 199 veröffentlichten Prädiktoren, die sie untersuchten, werden nur 18 Prozent – das sind 36 Signale – laut Peer Review dem Risiko zugeordnet („Risikoprämien“). 59 Prozent oder 117 Signale werden auf Fehlbewertungen zurückgeführt, und 23 Prozent oder 46 Signale sind ungewissen Ursprungs. Diese Risikoprämien sollten sich nach der Publikation respektive dem Ende des Stichprobenzeitraums nicht ändern. Die Tatsache, dass risikobasierte Prädiktoren im Zeitraum nach Ende der Stichprobe aber konsequent abnehmen (siehe Grafik „Risikobasierte Indikatoren schwächeln“), impliziert, dass Peer Reviews Fehlbewertungen entweder fälschlicherweise als Risiko bezeichnen oder instabile Risikofaktoren identifizieren, die mit der Zeit schwächer werden. Tatsächlich schneiden Indikatoren, die auf Risikoargumenten basieren, oft schlechter ab als simples Data-Mining. Glücklicherweise sind diese Fehler selten und stellen eine relativ geringe „Falscherkennungsrate“ dar.
Eine negativere Sicht auf Peer Reviews ergibt sich aus der Tatsache, dass neuere Überprüfungen der Vorhersagbarkeit von Aktienrenditen in Bezug auf Risiko versus Fehlbewertungen gleichgültig sind. Angesichts des starken Konsensus, der sich aus der Lektüre der einzelnen Beiträge ergibt, deutet diese Gleichgültigkeit darauf hin, dass der Kampf zwischen risikobasierter und verhaltensorientierter Finanzwissenschaft zu einer mangelnden Bereitschaft geführt hat, sich an Debatten zu beteiligen. Diese mangelnde Bereitschaft wirft die Frage auf, ob das Feld der Vermögenspreisbildung selbstkorrigierend ist oder nicht.
Fazit
Der Peer-Review-Prozess erfordert eine erhebliche Investition an Talent und Energie. In dieser Studie wird untersucht, ob diese Investition dabei hilft, den Querschnitt der Aktienrenditen vorherzusagen. Dabei stellen die Autoren fest, dass die zusätzliche Vorhersagekraft im Vergleich zur naiven Suche nach statistisch signifikanten Bilanzkennzahlen bescheiden ist. Die Post-Sample-Renditen aus dem Peer-Review-Prozess und dem Data-Mining sind recht ähnlich, wobei Faktoren, die einen Peer Review durchlaufen haben, das reine Data-Mining um zwei Basispunkte pro Monat übertreffen. Die Post-Sample-Renditen liegen aber nur bei 50 Prozent der Rendite des Stichprobenzeitraums und haben somit die Hälfte der Prognosekraft verloren. Darüber hinaus ahmt das Data-Mining Merkmale des Peer-Review-Prozesses nach, darunter subtile Muster bei den Renditen zum Zeitpunkt des Events und Themen wie Investitionen und Emissionen. Diese Ergebnisse legen nahe, dass der Prozess zur Generierung von Peer-Review-Prädiktoren selbst Data-Mining darstellt.
Kapitalmarktforschung, die sich auf risikobasierte Erklärungen oder Gleichgewichtsmodelle konzentriert, erzielt ebenfalls keine bessere Leistung. Wenn überhaupt, führen diese wohl strengeren Methoden zu einer schlechteren Performance. Die Autoren bieten eine Metatheorie für dieses Phänomen an, die zeigt, dass die Verwendung risikobasierter Erklärungen im Vergleich zu anderen Methoden wie verhaltensbasierten Erklärungen oder Data-Mining entweder kein Signal für höhere erwartete Renditen oder kein Signal für stabile erwartete Renditen liefert. Dieses Ergebnis steht im Einklang mit Umfragen unter realen Investoren, die bei ihren Anlageentscheidungen akademische Risikofaktoren konsequent außer Acht lassen. Positiver ist, dass die Autoren feststellen, dass Peer Review nur 18 Prozent der Prädiktoren dem Risiko zuschreibt.
Selbst die wenigen Indikatoren, die auf soliden mathematischen Modellen beruhen, deuten darauf hin, dass eine rigorose quantitative Modellierung nicht zwangsläufig zu besseren Ergebnissen in der Praxis führt – die Beziehung zwischen Modellierungsgenauigkeit und nachfolgenden Renditen ist sogar negativ. Diese Erkenntnisse werfen ein neues Licht auf die Prognoseforschung auf den Finanzmärkten und fordern die Kapitalmarktforscher heraus, die Methoden und Theorien, die sie zur Vorhersage in Finanzmärkten verwenden, kritisch zu hinterfragen. Insbesondere sollte man untersuchen, ob die hier besprochene Untergrenze des t-Wertes von 2,0 bei Prädiktoren nicht in Richtung 2,5 bis 3,0 angehoben werden sollte, um eine Ergebnisverbesserung zu erreichen.
Die nicht sehr überzeugenden Forschungsergebnisse sind jedenfalls positiv für die wachsende Literatur über den Einsatz von Machine Learning im Finanzwesen. Wenn naives Data-Mining beträchtliche Out-of-Sample-Renditen generieren kann, dann sollten ausgefeiltere Methoden des maschinellen Lernens wohl noch mehr Potenzial bieten. Dieses Ergebnis legt nahe, dass ein Weg nach vorn bei der Bewertung von Assets darin besteht, die Daten direkt sprechen zu lassen, ohne die Filter der traditionellen Theorie anzuwenden, und dem Beispiel von neuen Ansätzen wie Proteinfaltung und Linguistik zu folgen.
Dr. Kurt Becker