Das Fachmagazin für institutionelle Investoren

Geben Sie Ihren Benutzernamen und Ihr Passwort ein, um sich an der Website anzumelden:
3/2021 | Theorie & Praxis
twitterlinkedInXING

Gibt es eine Replikationskrise?

Die kurze Antwort ist: Nein. Die lange Antwort: Es kommt darauf an, wen man fragt, denn die ­Studienlage ist widersprüchlich.

1632904052_replikationskrise.jpg

Erst dann, wenn neue Forschungsergebnisse durch andere Fachleute bestätigt werden, die in eigenständigen Untersuchungen zu den selben Resultaten gelangen, gewinnen diese Erkenntnisse an Gewicht. Wie sieht die Replizierbarkeit von Studien für den Finanzbereich aber tatsächlich aus?

© Marc Thürbach, olly | stock.adobe.com

Zu den wichtigsten Anforde­rungen an wissenschaftliche Forschungsarbeiten zählt ihre Replizierbarkeit. Erst wenn ­Ergebnisse auch von anderen Teams bestätigt werden, erlangen sie Bedeutung. Auf den ersten Blick scheint das kein großes Problem zu sein, man nimmt ­intuitiv an, dass nicht replizierbaren ­Arbeiten in der Literatur weniger Aufmerksamkeit zukommt. Doch genau das ist nicht der Fall. Tatsächlich fanden die Autoren Marta Serra-Garcia und Uri Gneezy in ihrem Paper „Nonreplicable Publications Are Cited More Than ­Replicable Ones“ genau das, was der Titel befürchten lässt: Nicht replizierbare Studien in Top-Journals der Psychologie, Wirtschaft und weiteren Bereichen werden sogar häufiger zitiert. Das ändert sich selbst dann nicht, wenn Folgestudien zeigen, dass die initialen Ergebnisse nicht replizierbar sind. Denn nur zwölf Prozent der anschließenden Zitate wiesen überhaupt auf den Replika­tionsfehler hin.

Die Studie verweist auf Untersuchungen der letzten Jahre, in denen versucht wurde, die in führenden Journals veröffentlichten Ergebnisse systematisch zu replizieren. Daraus geht hervor, dass im Bereich Wirtschaftswissenschaften nur 61 Prozent der Publikationen repliziert werden konnten. Hinzu kommt, dass die relativen Ausprägungen der Ergebnisse, die repliziert werden konnten, nur 75 Prozent der ursprünglichen Werte ausmachten. Die Autoren sprechen deshalb von einer Replikationskrise in den Sozialwissenschaften, die auch in der selektiven Veröffentlichung von Ergebnissen und Spezifikationen besteht.

Eine vielbeachtete Studie, die dieses Problem im sogenannten „Faktorzoo“ anprangert, veröffentlichten Kewei Hou, Chen Xue und Lu Zhang im Jahr 2020 unter dem Titel „Replicating Anomalies“. Die Autoren replizierten mit insgesamt 452 Effekten den Großteil der Anomalie-Literatur – und kamen zu einem vernichtenden Ergebnis: Die meisten Anomalien könnten demnach nicht repliziert werden und entsprächen deshalb nicht den gegenwärtig akzeptablen Standards für empirische Finanzmarktforschung. Für erfolgreiche Replikationen definieren die Forscher eine Signifikanzschwelle von fünf Prozent, also einen Wert der t-Statistik von mindestens 1,96, für die durchschnitt­lichen Renditen der jeweiligen Dezil-Spreads. Ganze 65 Prozent der untersuchten Variablen können diese Hürde nicht nehmen. Als Ursache für das schlechte Ergebnis nennen die Forscher den Einfluss von Micro Caps: In Originalstudien, die gleichgewichtete Renditen betrachten, werden diese systematisch übergewichtet, was zu falschen Schlüssen führt. Zudem reagieren klassische Querschnittsregressionen empfindlich auf Ausreißer, die bei Micro Caps besonders häufig auftreten. Ein weiterer ­Effekt, der die Fehlerquote in den Replikationen massiv ansteigen lässt, sind die beliebten Mehrfachtests, worauf die Ergeb­nisse statistisch angepasst werden müssen (t-Wert mindestens 2,78 für ein Signifikanzniveau von fünf Prozent).

Besonders hart trifft es Replikationen in der Kategorie Liquidität, Marktmikrostruktur und Handelsfriktionen: Hier sind ganze 96 Prozent der Effekte nicht replizierbar. Value- und Momentum-Anomalien lassen sich dagegen gut verifizieren, ebenso wie Investitions- und Rentabilitätseffekte.

Insgesamt argumentieren die Forscher, dass die Kapitalmärkte effizienter sind als bisher angenommen. Sie plädieren zudem für theoriebasierte Faktoren, denen eine niedrigere Signifikanzhürde zugebilligt werden sollte als rein empirischen Faktoren. Eine Zunahme solcher Studien könnte die Glaubwürdigkeit der immer noch weitgehend statistischen Anomalie-Literatur erhöhen.

Oder doch keine Krise?

Insgesamt zeichnet die Studie von Hou et al. ein düsteres Bild, was das Vertrauen in die Mehrheit der Faktoren angeht. Doch es gibt andere, aktuelle Untersuchungen, die ­einen klaren Gegenentwurf zeichnen. Eine davon ist das Paper „Open Source Cross-Sectional Asset Pricing“ von ­Andrew Chen und Tom Zimmermann. Die beiden Autoren kommen fast spiegelbildlich zu dem Schluss, dass nahezu die gesamte Prognosefähigkeit bisheriger Effekte reproduziert werden kann und diese auch eine Reihe von Robustheitstests übersteht.

Die Forscher arbeiten mit einem handverlesenen Datensatz, um bisherige ­Ergebnisse zu reproduzieren. Der Begriff beschreibt ihre Methode, dasselbe Ergebnis in derselben Stichprobe mit demselben Code wie im Original zu wiederholen. Hou et al. sprachen dagegen von einer Replikation auf Basis der gleichen Grundgesamtheit, aber sowohl unterschiedlicher als auch gleicher Stichproben sowie ähnlicher, aber nicht identischer Methoden.

Chen und Zimmermann betrachten ins­gesamt 319 Charakteristika, von denen nur drei die statistische Signifikanz der jeweiligen Long-Short-Portfoliorenditen der Originalarbeit nicht reproduzieren. Die ermittelten t-Statistiken stimmen dabei quantitativ mit den Originalen überein (siehe Grafik „Erfolgreiche Reproduktion“). Positiv ist ebenfalls, dass die mittleren Renditen über die einzelnen Dezile der Prognosevariablen monoton verlaufen. Das spricht gegen Data Mining und p-Hacking, was sich über die gesamte Verteilung bemerkbar machen müsste.

Methodische Probleme

Ein weiterer Unterschied zur Studie von Hou et al. ist, dass die Forscher die Forderung eines t-Werts von mindestens 1,96 nicht generell stellen, sondern nur dann, wenn es auch angemessen ist. Schließlich war die Prognosefähigkeit der Charakteristika in den früheren Studien sehr unterschiedlich. Die Autoren kategorisieren insgesamt 161 Charakteristika als „eindeutige Prädiktoren“, die in den Originalarbeiten klare Hinweise auf eine signifikante Prognosefähigkeit der Long-Short-Portfolios zeigten. Nur für diese setzen sie den t-Wert von mindestens 1,96 an. Weiterhin definieren sie 44 Charakteristika als „wahrscheinliche Prädikatoren“, die in den Originalarbeiten eine gemischte Pro­gnosefähigkeit aufwiesen. Und schließlich beinhaltet der Datensatz 100 Charakteristika, die in den Originalarbeiten nur Hinweise auf eine mögliche Prognosekraft enthielten (indirekte Signale), sowie 14 Effekte, die eindeutig keine Vorhersagbarkeit aufwiesen (Nicht-Prädiktoren). Die spannende Frage ist allerdings, wodurch abseits der genannten Differenzen die erheblichen Unterschiede in der Gesamtaussage gegenüber der Studie von Hou et al. zustande kommen. Wie Chen und Zimmermann schreiben, ist das auf die freizügige Definition der Effekte durch Hou et al. zurückzuführen. Dort wurden 452 ­angebliche „Anomalien“ untersucht, die sich aber aus nur 240 Charakteristika ergeben. Die übrigen 212 Effekte spiegeln demnach lediglich unterschiedliche Rebalancing-Häufigkeiten der Basisstrategien wider. Zudem hätten von den 240 Charakteristika nur 118 eine eindeutige Signifikanz in den Originalarbeiten aufgewiesen, und wie Chen und Zimmermann zeigen, erreichen 117 davon eine t-Statistik von mindestens 1,96. Sie schlussfolgern deshalb, dass ein Großteil der Replikationsfehler im Paper von Hou et al. auf eine falsche Klassifikation zurückzuführen sei: Es handelte sich dabei gar nicht um Anomalien, da sie im Original keine Signifikanz aufwiesen, die es zu replizieren galt. Der Teufel steckt also im Detail, was wie beschrieben sogar die Gesamtaussage einer Studie massiv verzerren kann.

Weitere Bestätigung

Widersprüchliche Studienergebnisse sind ein Merkmal für gesunden und notwendigen wissenschaftlichen Diskurs. Tatsächlich überwiegt aber inzwischen die Evidenz entgegen einer Replikationskrise bei den Faktorrenditen. So trifft auch das methodisch abweichende Paper „Is There a Replication Crisis in Finance?“ von Theis Ingerslev Jensen, Bryan Kelly und Lasse Heje ­Pedersen eine positive Grundaussage. Sie führen die Herausforderungen zur Reproduzierbarkeit der Finanzforschung auf zwei grundlegende Punkte zurück:

  • Keine interne Validität: Die Ergebnisse können zum Beispiel aufgrund von Fehlern im Code nicht mit denselben Daten repliziert werden oder sind nicht robust, also nicht mit etwas unterschiedlichen Methoden und/oder Daten replizierbar.
  • Keine externe Validität: Die Ergebnisse können zwar solide repliziert werden, sind aber durch p-Hacking bedingt und deshalb nur scheinbar signifikant, etwa durch Testen mehrerer Hypothesen ohne notwendige statistische Anpassung dafür.

Das Autorentrio nutzt zur Faktorreplikation einen auf Wahrscheinlichkeitsverteilungen basierenden Ansatz (Bayes’sches Modell). Das entspricht der Idee zur wissenschaftlichen Replikation, während Chen und Zimmermann eine pure Replikation durchführen (siehe Infokasten). Auf Basis theoretischer und empirischer Untersuchungen kommen Jensen et al. zu dem Schluss, dass die meisten Faktoren replizierbar sind und in Out-of-Sample-Tests bestätigt werden. Zudem schreiben sie, dass die Evidenz aufgrund der hohen Anzahl von Faktoren sogar gestärkt und nicht wie oft vermutet geschwächt wird.

Die Abbildung „Replikations­rate“ zeigt die schrittweisen Ergebnisse der Untersuchung. Dargestellt ist dort die Entwicklung des Prozentsatzes der Faktoren mit statistisch signifikanter durchschnittlicher Überrendite:

  • Ausgangspunkt ist die Replika­tionsrate von 35 Prozent aus der Studie von Hou et al.
  • Der zweite Wert zeigt die Basisreplikationsrate von 56,2 Prozent in der Stichprobe von US-Faktoren (signifikante t-Statistiken der entsprechenden Regressionen). Den gegenüber Hou et al. deutlich höheren Wert führen die Autoren auf die abweichende Auswahl an Faktoren, Unterschiede in deren Konstruktion und ihre längere Stichprobe zurück.
  • Der Ausschluss von Faktoren, die in den Ursprungsstudien nicht signifikant waren, ergibt den dritten Wert von 63,9 Prozent.
  • Der vierte Wert von 83,2 Prozent kommt durch Verwendung risikoadjustierter statt roher Renditen zustande. Die Adjustierung erfolgt anhand des CAPM, um mögliche Einflüsse auf Faktorexposures abseits des Betas zu vermeiden.
  • Die statistische Anpassung um den Effekt von Mehrfachtests führt zur Abnahme der Replikationsrate auf 78,2 Prozent.

Interessant ist an dieser Stelle das hierarchische Bayes’sche Modell, das auf Basis von Verteilungen und Korrelationen das Verhalten aller Faktoren gemeinsam berücksichtigt. Die Intuition dahinter ist, dass der umfangreiche Faktorzoo für die Replizierbarkeit eine höhere Evidenz und damit einen Vorteil bietet, wenn ähnliche Faktoren vergleichbar gut abschneiden. Dieser Effekt lässt die Replikationsrate im sechsten Schritt auf 83,2 Prozent ansteigen. Abschließend beziehen die Autoren globale Daten aus insgesamt 93 Ländern in das Modell ein und erhalten eine finale Replika­tionsrate von 84 Prozent. Dieser Wert ist mehr als doppelt so hoch wie bei Hou et al. und zeigt, dass US-basierte Faktoren auch international gut reproduzierbar sind.

Faktor: Themen statt ­Zoo

Trotzdem stellt sich die Frage, weshalb es überhaupt zur Entstehung des Faktorzoos kam. Auch darauf liefern Jensen et al. eine interessante Antwort: Es ist eben sehr schwierig, den komplexen Trade-off von Rendite und Risiko an den Märkten zu messen. Das zeigt sich genau darin, dass eben kein einzelnes Merkmal bestimmt werden kann, mit dem sich dieses Verhältnis genau bewerten lässt.

Die Forscher sehen deshalb nicht hunderte unterschiedlicher Faktoren, sondern eine kleine Anzahl gruppierter, hoch korrelierter Themen. Sie schlagen eine Taxonomie vor, nach der Anomalien in 13 Themen klassifiziert werden, innerhalb derer einzelne Faktoren kleinere Variationen einer verwandten Idee darstellen. Zum Beispiel ist jeder Value-Faktor durch ein bestimmtes Bewertungsverhältnis definiert, aber letztlich gibt es ­dafür verschiedene plausible Ansätze. Die Berücksichtigung dieser Variation ist kein Alpha-Hacking – vor allem dann nicht, wenn die „richtige“ Konstruktion des Value-Signals umstritten ist, was bei den meisten Themen der Fall sein sollte.

Gemeinsam erbringen die einzelnen Themen mit den darin enthaltenen Faktoren demnach einen Beitrag zum kollektiven Verständnis der Märkte. Das spiegelt die positive Sicht auf den Faktorzoo wider: nicht als kollektive Übung im Data Mining, sondern als natürliches Ergebnis einer ­dezentralen Anstrengung, bei der Forscher verschiedene Beiträge leisten, um unser ­gesamtes Wissen über die Märkte schrittweise zu verbessern.

Schlussfolgerungen

Der Vorwurf einer Replikations- sowie ­einer damit verbundenen Vertrauenskrise ist weder neu noch auf den Finanzbereich beschränkt. Einige Studien lieferten Hinweise dafür, dass das Problem gerade im „Faktorzoo“ akut zu sein scheint. Zudem ist die Anzahl der Faktoren bereits immens groß und wächst immer noch weiter an, was ­zusätzlich an der Glaubwürdigkeit nagt. Doch die Ergebnisse der jüngsten umfangreichen Studien bestätigen diese Befürchtungen nicht, ganz im Gegenteil: Sie zeigen die hohe Replizierbarkeit der meisten Faktoren und festigen das Vertrauen in die bisherige Literatur zu Kapitalmarkteffekten.

Das heißt allerdings nicht, dass es überhaupt keine Herausforderungen gibt. So schreiben etwa Marta Serra-Garcia und Uri Gneezy, die Autoren der eingangs genannten Studie, dass Review-Teams bei Journals gewisse Kompromisse eingehen müssen: Sind die Ergebnisse einzelner Studien „interessanter“, wird mitunter ein geringerer Maßstab angelegt, was die erwartete Reproduzierbarkeit der jeweiligen Studienergebnisse angeht. Und das scheint tatsächlich ein Problem zu sein.

Wie Andrew Chen und Tom Zimmermann, die Autoren der zweitgenannten Studie, betonen, sollte eine weitere Entwicklung in Zukunft an Bedeutung gewinnen: frei verfügbare Daten und Ressourcen. Eine damit verbundene offenere Zusammenarbeit ist entscheidend für die Weiterentwicklung des Wissens und das Verständnis von Risiko und Rendite, aber auch für den Schutz der Glaubwürdigkeit der akademischen Finanzmarktforschung in den Augen der Öffentlichkeit. Deshalb stellen die Autoren ihren Datensatz mit Prognosevariablen für den Querschnitt der Aktienrenditen inklusive ­einer Dokumentation als Open Source bereit (www.openassetpricing.com). Das beinhaltet die aufwendig von Hand gesammelten Daten aus den Originalarbeiten der 319 Signale. Auch Jensen et al. haben ihre Daten für andere Forscher zugänglich gemacht (https://github.com/bkelly-lab/GlobalFactor), um die erwünschte Praxis zur Replikation voranzutreiben.     

Dr. Marko Gränitz


Anhang:

twitterlinkedInXING
 Schliessen

Mit der Nutzung dieser Website stimmen Sie der Verwendung von Cookies und unserer Datenschutzerklärung zu. Mehr erfahren