Nachgerechnet
Von Kapitalmarktforschern zur Publikation eingereichte Studien, die sich mit der Prognose der Aktienmarkt-Risikoprämie befassen, halten bedauerlicherweise strengen Tests gar nicht stand.

Für die meisten von uns hat sich im Zeitalter der Wissenschaft gar nicht so viel verändert. Musste man vor der Aufklärung für richtig halten, was die Kirche als Wahrheit präsentierte, so „glauben“ wir heute in der Regel, was die Forschung uns erzählt. Es gibt allerdings einen feinen Unterschied: Theorien und Behauptungen von Wissenschaftlern werden mit großer Wahrscheinlichkeit von Kollegen überprüft, die dann auch melden, wenn sich Thesen und Ergebnisse nicht nachvollziehen lassen. Eine lange Reihe von Irrtümern, Fehlern und auch vorsätzlichen Falschmeldungen wurde auf diese Weise widerlegt. Und das ist beruhigend, weil man hoffen darf, dass falsche Lehren nicht lange unbemerkt bleiben. Dass diese überhaupt publiziert werden, versteht man, wenn man sich den aktuellen Wissenschaftsbetrieb vor Augen führt. Auch Wissenschaftler stehen unter immensem Erfolgsdruck, die nötige Anzahl an Publikationen in den anerkannten Fachjournalen zu erreichen. Die Karriere als Akademiker hängt fast linear von der Anzahl der Publikationen in den renommiertesten internationalen Fachzeitschriften ab.
Das gilt auch für Kapitalmarktforscher. So mancher kann aufgrund dieses Dauerstresses dann schon einmal versucht sein, nicht alle Testverfahren auszuschöpfen, die notwendig wären, um seine Ergebnisse hinreichend robust zu unterlegen. Somit passiert es – und sicherlich nicht nur im Rahmen der Wirtschaftswissenschaften –, dass Resultate an die Öffentlichkeit gelangen, die auf den ersten Blick signifikant scheinen, bei genauerem Hinsehen und nach der Anwendung strenger Testverfahren allerdings bedeutungslos sind. Nicht einmal die großen Kapazunder der Ökonomie sind vor Fehlern gefeit, man denke nur an die Rechenfehler, die den beiden Harvard-Starökonomen Carmen Reinhart und Kenneth Rogoff 2010 in ihrem Aufsatz „Growth in a Time of Debt“ passiert sind. 2013 hat das US-Ökonomen-Trio Michael Ash, Thomas Herndon und Robert Pollin drei Fehler entdeckt, die derart gravierend waren, dass die Kernaussage der Arbeit nicht mehr aufrechtzuerhalten war. Reinhart und Rogoff hatten in ihrem Paper die Ansicht vertreten, dass bei Erreichen einer Staatsschuldenquote von 90 Prozent das BIP-Wachstum einer Volkswirtschaft stranguliert würde. Korrigiert man die Studie um alle aufgedeckten Fehler, so zeigen die hoch verschuldeten Länder noch immer ein durchschnittliches jährliches Wachstum von 2,2 Prozent. Dieses fällt zwar ein wenig geringer aus als jenes der weniger verschuldeten Staaten, ist aber noch immer deutlich positiv.
Fazit: Jede wissenschaftliche Aussage kann und sollte hinterfragt werden. In diesem Sinne haben sich die Professoren Wolfgang Drobetz (Uni Hamburg) und Andreas Neuhierl (University of Notre Dame, Indiana, USA), der Consultant und Lehrbeauftragte für Asset Management Hubert Dichtl (Uni Hamburg) und die Doktorandin Viktoria-Sophie Bartsch an die Arbeit gemacht, die Performance eines umfassenden Sets von Strategien zur Vorhersage der Aktienmarkt-Risikoprämie genau unter die Lupe zu nehmen. Was dabei herauskam, bestätigte die Befürchtungen, die Campbell Harvey, Präsident der American Finance Association, anlässlich seiner Antrittsrede 2017 geäußert hat: Viele der publizierten Ergebnisse in Financial Economics hielten einem strengeren Testumfeld nicht stand (siehe Seite 122). Nur einige wenige Strategien – und zwar jene, die auf Ferreira und Santa-Claras 2011 veröffentlichtem Aufsatz „Forecasting Stock Market Returns: The Sum of the Parts is more than the Whole“ basieren – lieferten robuste und statistisch signifikante Gewinne gegenüber dem historischen Durchschnitt der Aktienmarkt-Risikoprämie. Dies lässt sich auch dann noch beobachten, wenn man Transaktionskosten berücksichtigt und die Ergebnisse im Hinblick auf Data Snooping kontrolliert.
Data Snooping, auch p-Hacking oder Data Mining genannt, ist eine Bezeichnung für die verzerrte Darstellung von Forschungsresultaten durch die systematische und wiederholte Anwendung statistischer Methoden auf einem vorliegenden Datensatz. Der p-Wert, also die Kennzahl der statistischen Signifikanz eines Resultats, wird dabei gezielt beispielsweise durch Testen genügend vieler Variablenkombinationen (z. B. Anlagestrategien) auf einem einzigen Datensatz unter die in den Wirtschaftswissenschaften etablierte Fünfprozentgrenze drückt. Auf diese Weise wird die Chance erhöht, die nunmehr „signifikanten“ Forschungsergebnisse auch in anerkannten Fachjournalen veröffentlichen zu können. Analysen ohne signifikante Resultate bleibt die im Wissenschaftsbetrieb so wichtige Publikation meist versagt. Metaanalysen wie die von dem Autorenquartett betriebene können solche Fehlinterpretationen von p-Werten aufdecken. Dass diese notwendige „Flurbereinigung“ dem Vertrauen in die Wissenschaft nicht gerade förderlich ist, wenn eine große Anzahl von Studien das Papier nicht wert ist, auf dem sie gedruckt sind, steht auf einem anderen Blatt.
134 Prognosestrategien
Die Autoren haben in ihrer Arbeit die Out-of-sample-Performance verschiedener Gruppen von Strategien zur Prognose der Aktienmarkt-Risikoprämie im Vergleich zum historischen Durchschnitt der Risikoprämien untersucht und ihr Augenmerk insbesondere auf potenzielle Verzerrungen durch Data Snooping gerichtet. Dabei wurden 134 Prognosestrategien konstruiert, die auf univariaten Regressionsmodellen und fortgeschrittenen Forecasting-Ansätzen beruhen. Zu diesen fortgeschrittenen Verfahren gehören unter anderem die Kombination von verschiedenen Prognoseansätzen, die Verwendung von Diffusionsindizes, die Berücksichtigung von ökonomischen Restriktionen, der „Sum of the Parts“-Ansatz von Ferreira und Santa-Clara oder aber auch die Berücksichtigung wirtschaftlicher Regimewechsel.
Das Autorenquartett verwendet diese Prognosestrategien, um die monatliche Risikoprämie des S&P 500 Total Return Index auf Basis der jeweils letzten 180 Monate out of sample vorherzusagen, und verfolgt deren Performance über den Evaluierungszeitraum von Januar 1966 bis Dezember 2016. Der insgesamt betrachtete Zeitraum inklusive der 15 Jahre davor reichte damit von Dezember 1950 bis Dezember 2016. Als Performancemessgrößen verwendeten die Autoren den mittleren quadratischen Prognosefehler, ein statistisches Qualitätskriterium, das es ermöglicht, verschiedene Prognoseverfahren miteinander zu vergleichen, sowie absolute und risikoadjustierte Überschussrenditen einer prognosebasierten Anlagestrategie.
Warum ist Data Snooping nun ein so großes Thema? Hubert Dichtl erklärt dazu: „Angenommen, die 134 Prognosestrategien sind voneinander unabhängig, und wir wenden einen t-Test für jede einzelne Strategie mit einer Irrtumswahrscheinlichkeit von fünf Prozent an. In diesem Fall liegt die Wahrscheinlichkeit, fälschlicherweise zumindest eine korrekte Nullhypothese zurückzuweisen, bei zirka 99,9 Prozent.“ Dies errechnet sich gemäß der Formel 1 – (1 – 5%)^134. Wird die Nullhypothese auf Basis falscher positiver Ergebnisse irrtümlicherweise zurückgewiesen, so spricht man beim Hypothesentest von einem Fehler erster Art. Daher sei es sehr wahrscheinlich, so Dichtl weiter, dass ein einzelner Test ungerechtfertigterweise suggeriert, dass ein unterlegenes Modell signifikant ist. Dieses Beispiel betont die Wichtigkeit einer angemessenen Methodologie, um die Ergebnisse vor dem Hintergrund von Data Snooping zu überwachen und falsche Schlussfolgerungen zu verhindern. Um angemessen auf Data Snooping zu kontrollieren, wendeten die Autoren das „Superior Predictive Ability“-(SPA)-Testverfahren nach Hansen (siehe Kasten) sowie dessen stufenweise Ausweitung, wie von Hsu, Hsu und Kuan (2010) sowie Hsu, Kuan und Yen (2014) vorgeschlagen, an.
Die Ergebnisse zeigen, dass viele Prognosestrategien den historischen Durchschnitt übertreffen, wenn sie einzeln getestet werden. Wenn man allerdings wie erforderlich Prognosestrategien nicht mehr isoliert, sondern in einem multiplen Testverfahren überprüft, stellt sich heraus, dass keine Prognosestrategie die Benchmark, also den historischen Durchschnitt, in der rein statistischen Betrachtung basierend auf dem mittleren quadratischen Prognosefehler wirklich schlagen kann.
Einen kleinen Lichtblick gibt es aber doch: So fanden die Autoren einige Belege für statistisch signifikante Gewinne von Prognosestrategien auf Basis des von Miguel Ferreira und Pedro Santa-Clara 2011 im „Journal of Financial Economics“ vorgestellten „Sum of the Parts“-(SOP)-Ansatzes. Dieser beinhaltet, dass die drei Komponenten der Aktienmarktrendite, nämlich das Dividenden-Kurs-Verhältnis, das Gewinnwachstum und das Wachstum des Kurs-Gewinn-Verhältnisses, getrennt voneinander prognostiziert werden. Anschließend werden die drei Einzelprognosen zur Gesamtprognose der Aktienmarktrendite aufaddiert (siehe Kasten unten, „Ferreira und Santa-Claras ,Sum of the Parts‘-Ansatz“).
Die Tabelle „Prognosemodelle im Überblick“ auf der vorigen Seite zeigt die jährliche durchschnittliche risikoadjustierte Überschussrendite (Sharpe Ratio) der verschiedenen Prognosemodelle im Vergleich zur Benchmark, die eine Anlagestrategie basierend auf dem historischen Durchschnitt der Aktienmarkt-Risikoprämie darstellt. Dabei ist jeweils der Durchschnitt über alle Modelle der entsprechenden Modellkategorie als auch das beste Modell der jeweiligen Kategorie aufgeführt. Der p-Wert ergibt sich aus dem SPA-Testverfahren; ein p-Wert kleiner 0,05 weist auf signifikante Prognosemodelle hin.
Es zeigt sich, dass nahezu alle Prognoseansätze im Vergleich zur Benchmark-Strategie zu einer überlegenen durchschnittlichen Sharpe Ratio führen. Werden jedoch die Ergebnisse mit einem multiplen Testverfahren auf statistische Signifikanz getestet, so findet man ausschließlich bei den „Sum of the Parts“-Ansätzen noch eine statistisch signifikante Überlegenheit (p-Wert von 0,01). Während die Benchmark auf eine durchschnittliche Sharpe Ratio von 0,24 kommt, weisen alle „Sum of the Parts“-Modelle einen durchschnittlichen Wert von 0,55 auf, wobei der Wert des besten SOP-Modells bei 0,62 liegt.
Die Analyse der Finanzmarktforscher ergab, dass die entsprechenden „Sum of the Parts“-Strategien selbst unter Berücksichtigung von Transaktionskosten noch überlegene risikoadjustierte Überschussrenditen liefern. Zusammenfassend gesagt, ist es äußerst schwer, eine statistisch signifikant überlegene Prognosestrategie im Vergleich zum vorherrschenden Benchmark-Modell – der durchschnittlichen historischen Aktienmarkt-Risikoprämie – unter realistischen Bedingungen zu identifizieren.
DR. KURT BECKER
Der „Superior Predictive Ability“-Test von Hansen
Eine Hürde, die nicht leicht zu überspringen ist
eter Reinhard Hansen, Professor of Economics an der University of North Carolina, der zuvor am European University Institute sowie an der Stanford University unterrichtet hat, stellte 2005 einen Test auf Prognoseüberlegenheit vor.
Dieser Test zur „Superior Predictive Ability“ (SPA-Test) stellt eine Verbesserung des „Reality Checks“ von White (RC-Test) in Bezug auf die Mächtigkeit und Sensitivität gegenüber schlechten und irrelevanten Prognosemodellen dar. Hansen konnte darlegen, dass Whites RC-Test manipulierbar ist, indem „schlechte“ Prognosemodelle zur Menge der gegenüber der Benchmark zu testenden Verfahren hinzugefügt werden. Um diesem Problem zu begegnen, führt Hansen zwei Modifikationen des RC-Tests ein. Zum einen verwendet er eine studentisierte Teststatistik, zum anderen eine stichprobenabhängige Verteilung, die auf einem neuen Prozedere basiert. Dabei werden zusätzliche Stichprobeninformationen berücksichtigt, um die relevanten Prognoseverfahren identifizieren zu können. Die von Hansen vorgeschlagene Teststatistik ist in der Regel mächtiger als jene von White und daher zu bevorzugen.