Das Fachmagazin für institutionelle Investoren

Geben Sie Ihren Benutzernamen und Ihr Passwort ein, um sich an der Website anzumelden:
Ad

Ohne Umwege zu Private Assets

Weltweit verwaltet Schroders über EUR 29 Mrd. in Private Assets. Das Produktspektrum umfasst dabei Immobilien, Private Equity, ILS, Infrastrukturanlagen und Privat Debt. Meiden Sie Umwege - hier mehr erfahren!

Anzeige
3/2019 | Theorie & Praxis
twitterlinkedInXING

Verbesserter Prüfstand

Eine Untersuchung über sechs Faktorprämien in vier verschiedenen Märkten über zwei Jahrhunderte hinweg liefert neue Einblicke. Der Sieger unter den Faktoren überrascht.

1569318862_adobestock_luftbildfotograf_36600208_40.jpg

Seit dem Dieselskandal wissen wir,  dass man die Abgaswerte eines Motors „schönrechnen“ kann. Das gilt auch für die ­Analyse von Faktorprämien. Robeco hat daher eine weiterentwickelte Methode mit interessanten Ergebnissen präsentiert.

© Robeco, Luftbildfotograf | stock.adobe.com

Robecos Quant-Research ist dafür bekannt, dicke Bretter bei der Analyse von Faktor- oder Risikoprämien zu bohren und sich anlagetechnisch nur mit jenen Prämien zu beschäftigen, die auch wissenschaftlich entsprechend gründlich durch ausreichende empirische Belege abgesichert sind. Schließlich sollen ja Forschungsergebnisse nicht durch Data-Mining oder „p-Hacking“ (siehe Kasten „Über p-Hacking und t-Tests“) beeinträchtigt werden. Um diesbezügliche Bedenken zu entkräften, haben Robecos Quant-Fachleute Guido Baltussen, Laurens Swinkels und Pim van Vliet auf der Suche nach historischen Belegen für Faktorprämien aus verschiedenen Quellen stammende internationale Marktdaten aus mehr als zwei Jahrhunderten analysiert, die sich auf unterschiedliche Assetklassen beziehen. Das Interessante an einer überaus langen Datenhistorie ist, dass ein derartig langer Zeitraum verschiedene Phasen des Konjunkturzyklus sowie Wirtschaftskrisen umfasst, wodurch man die Sensitivität von Faktorprämien gegenüber unterschiedlichen Rahmenbedingungen an den Finanzmärkten und in der Wirtschaft analysieren kann.

Ganze 217 Jahre an Historie verarbeiteten die drei Autoren in Bezug auf Aktienindizes (keine Einzeltitel), Anleihen-, Währungs- und Rohstoffmärkte, um globale Faktorprämien zu studieren. Dabei steht ihre Arbeit in der Tradition früherer Studien, die Momentum, Value, Carry, Saisonalität, Trend und BAB (Betting against Beta; also Low Beta long und High Beta short) dokumentierten. Typischerweise beginnen diese Untersuchungen mit Daten ab ungefähr 1980 bis 2010 und bestätigen und erweitern frühere empirische Asset-Pricing-Studien, die sich oft nur auf einzelne Assetklasse bezogen.

Natürlich ist die Studie der Robeco-Quants nicht die erste, die mit den Daten weit in der Geschichte zurückgeht, um Risikoprämien zu beleuchten. Was Aktien und Anleihenprämien anbelangt, hat Jeremy Siegel 1992 bereits auf Daten bis 1800 zurückgegriffen, Goetzmann 1993 ging bis 1695 zurück, und Gloez und Koudijs 2018 gar bis 1629. Hurst, Ooi und Perdesn fanden 2017 eine nachhaltige Trendprämie, indem sie bis 1880 zurückgingen, während Goetzmann und Huang letztes Jahr zeigen konnten, dass das Momentum auf Einzelaktienebene im kaiserlichen Russland zwischen 1865 bis 1914 funktionierte. Zu nennen sind hier auch Doskov und Swinkels sowie Taylor, die herausfanden, dass es Carry- und Momentumprämien in den Währungsmärkten seit 1900 gibt. Diese historischen Studien stellen typischerweise auf einen einzigen Faktor wie etwa Momentum, ein einziges Land (oft die USA), eine einzige Assetklasse (meist Aktien) ab und wenden unterschiedliche Methoden an. Der Unterschied zu diesen Arbeiten ist bei Baltussen, Swinkels und van Vliet, dass sie breit gestreute globale Faktorprämien in 68 Märkten und vier ­Assetklassen und mit einer Testmethode unter­suchen und dabei Bedenken in Bezug auf p-Hacking berücksichtigen.

Ausgangspunkt der Forschung der drei Robeco-Quants waren die globalen Faktorprämien, wie sie im „Journal of Finance“ und im „Journal of Financial Economics“ zwischen 2012 und 2018 publiziert wurden. Diese sechs globalen Risikofaktoren (Trend, Momentum, Value, Carry, Saisonalität und BAB) werden dann in vier Assetklassen (Aktien, Anleihen Währungen und Rohstoffen) untersucht, woraus sich 24 weltweite Faktorprämien ergeben. Nun könnten ja diese Faktorprämien durch p-Hacking beeinflusst sein, weswegen eine Verlängerung des Analysezeitraums zur Verifikation respektive Falsifikation beiträgt. Die Grafik „Ergebnisse der Studien über den Zeitraum 1981–2011 evaluiert“ illustriert die Sharpe Ratios je Faktor. Generell gesagt finden sich in diesen Studien Belege für signifikante Sharpe Ratios bei 14 von 22 globalen Faktorprämien (die Saisonalität der Returns für Anleihen und Währungen wurde nicht getestet) bei einer Irrtumswahrscheinlichkeit von fünf Prozent. Beim verschärften t-Test (siehe Kasten „Über p-Hacking und t-Tests“) sind noch zehn der 22 Faktorprämien signifikant. Wendet man die 2017 vorgeschlagene Bayes’sche Sicht auf p-Werte an und geht dabei vor der Analyse von ­einem Wahrscheinlichkeits- oder Chancenverhältnis von 4:1 aus, dass diese Sharpe Ratios signifikant sein könnten, sind gerade noch acht von 22 Faktorprämien signifikant. In der Grafik sind diese „bayesianisierten“ p-Werte beziffert.

Dazu kommt, dass viele dieser Studien unter anderem Unterschiede in Bezug auf die angewandten statistischen Tests und Stichprobenzeiträume aufweisen. Um den Einfluss dieser Freiheitsgrade von Studienautoren einzuschränken, haben Baltussen, Swinkels und van Vliet die Renditen globaleR Risikofaktoren noch einmal über den Zeithorizont von 1981 bis 2011 untersucht. Aus Gründen der Einheitlichkeit wurde nun auch der Faktor Saisonalität für Währungen und Rohstoffe miteinbezogen. Die Sharpe Ratios fallen hier marginal geringer aus, wobei hier zwölf von 24 auf einem Konfidenzniveau von 95 Prozent signifikant sind. Bei einem t-Wert von 3,00 sind es acht, bei Bayes’schen p-Werten sind es nur mehr sechs, die Irrtumswahrscheinlichkeit lag hier bei fünf Prozent. Dabei ist festzuhalten, dass die Formulierung der A-priori-Wahrscheinlichkeit von 4:1 ein subjektives Element des Autorentrios darstellt und gerade die Wahl dieses Chancenverhältnisses eine substanzielle Auswirkung auf die Bayes’schen p-Werte hat. Aus diesem Grund wenden Baltussen, Swinkels und van Vliet eine neue Perspektive auf p-Hacking an und führen ein „Break-Even-Wahrscheinlichkeitsverhältnis“ ein – oder ein Wahrscheinlichkeitsverhältnis, bei dem der Bayes’sche p-Wert der gewählten Konfidenz entspricht. Dieses Break-Even-Wahrscheinlichkeitsverhältnis erfordert nur ein Konfidenzintervall, nicht aber mehr die Vorwegwahl eines Chancenverhältnisses. Nur in drei von 24 Fällen wird ein Wahrscheinlichkeitsverhältnis von mehr als 5:1 erreicht. Pim van Vliet dazu: „Diese Break-Even-Wahrscheinlichkeitsverhältnisse implizieren, dass man nicht extrem skeptisch in Bezug auf die empirische Evidenz der Faktorprämien in der Literatur sein muss.“

Damit ist die Grundlage gegeben, dass die drei Robeco-Quants weitere Analysen mit neuen unabhängigen Daten zu diesen globalen Faktorprämien durchführen. Schließlich wollten Baltussen, Swinkels und van Vliet über neue Stichproben zusätzliche Belege für diese globalen Faktorprämien finden. Aus diesem Grund wurden aus unterschiedlichen Quellen für eine neue Stichprobe historische Daten für den Zeitraum von 1800 bis 1980 zusammengetragen, die um Daten nach Ende der Stichprobe, also von 2012 bis 2016, ergänzt wurden. Sollten die globalen Faktorprämien unbeabsichtigterweise das Ergebnis von p-Hacking sein, dann sollte die Signifikanz der Faktorrenditen in der neuen Stichprobe verschwinden. Doch das tun sie in der Mehrzahl der Fälle nicht: Was die ökonomische Signifikanz anbelangt, liegen die Sharpe Ratios der 24 globalen Faktorprämien bei durchschnittlich 0,41. Bemerkenswerterweise findet sich in den Ergebnissen im Gegensatz zu den meis­ten „Out of Sample“-Studien nur ein sehr beschränktes Abschmelzen der Faktorprämien, denn die durchschnittliche In-Sample-Sharpe-Ratio liegt ähnlich hoch. Betreffend der statistischen Signifikanz und der Kontrolle im Hinblick auf p-Hacking sind 19 der 24 t-Werte größer als 3,00 (siehe Grafik „Neue Riesen-Stichprobe bestätigt Evidenz früherer Ergebnisse“). 19 der 24 Bayes’schen p-Werte liegen unter fünf Prozent, und das Break-Even-Wahrscheinlichkeitsverhältnis muss über 9,9999 liegen, um eine Irrtumswahrscheinlichkeit von mehr als fünf Prozent aufzuweisen. Solche extremen Chancenverhältnisse bedeuten, dass man schon sehr pessimistisch sein muss, um die empirische Evidenz der Studie von Baltussen, Swinkels und van Vliet abzulehnen.

Die wesentliche Ausnahme ist der „Betting against Beta“-(BAB)-Faktor. Die Faktorprämie findet sich zwar in beiden Aktienmarktstichproben, die Belege für sie sind aber bei Bonds, Rohstoffen und Währungen weniger robust. Die ist insofern nicht überraschend, als schon die Originalstudie nur eine schwache Evidenz in den Assetklassen abseits von Aktien berichtet. „Auf der anderen Seite ist die Saisonalität bei Bonds und Währungen statistisch stark belegbar und damit eine Bereicherung der Literatur“, merkt Laurens Swinkels an.

Um den Einfluss von p-Hacking abzuschwächen, führten die Autoren in einem nächsten Schritt Robustheits-Checks durch. Dabei stellten sie auf rollierende Zehnjahresperioden, Rebalancing-Zeitpunkte, verzögerte Implementierung, die genaue Portfoliokonstruktionsmethode und das Zurechtstutzen von extrem positiven Werten ab. Am Ende stellte sich heraus, dass die globalen Faktorrenditen robust bleiben.

Sind Faktorprämien erklärbar?

Ein weiteres wichtiges Ziel der Studie war es, Einsichten in mögliche wirtschaft­liche Erklärungen für globale Faktorprämien zu erhalten. Dafür wurde die Gesamtstichprobe von 1800 bis 2016 verwendet. Die Tabelle „Historische Performance der sechs globalen Faktorrenditen“ zeigt anhand der Sharpe Ratios die statistische Signifikanz von 19 der 24 Prämien mit t-Werten von mehr als 3,00 sowie die Schwäche des BAB-Faktors auf. Dargestellt sind auch die Sharpe Ratios der gleichgewichteten Faktorrenditen eines Multi-Asset-Portfolios über alle vier Assetklassen. Auffallend ist hier auch die Stärke des Faktors Sai­sona­lität, der die höchste Sharpe ­Ratio im Multi-Asset-Kontext aufweist und damit sogar den Trend-Faktor schlägt. Überhaupt zeigen Multi-Asset-Faktorstrategien überaus signifikante Sharpe Ratios zwischen 0,5 und 1,2.

Die Autoren testeten die Einzigar­tigkeit der Faktorprämien, um etwaige ­Gemeinsamkeiten zu entdecken. Weder sind die meis­ten Faktorprämien zueinander korreliert, noch umfasst eine Faktorprämie die andere. Eine Ausnahme stellen Trendfaktoren dar, denn sie umfassen den Momentumfaktor. Als Nächstes gingen die Autoren daran zu ­testen, ob die globalen Faktorprämien mit dem Marktrisiko, dem Downside-Risiko und makroökonomischen Risiken in Einklang zu bringen sind. Dabei ist denkbar, dass der oft in der Literatur verwendete Stichprobenzeitraum von 1981 bis 2011 gewisse Biases aufweist. So gab es in dieser Zeitspanne keine größeren Kriege, einen wachsenden weltweiten Wohlstand und nur wenige größere Rezessionen oder soziale Unruhen, sodass es relativ wenig schlechte Zustände zu beobachten gibt. Mit der ­Ausweitung des Untersuchungszeitraum bis 1800 wächst die ­Anzahl schwacher Marktphasen deutlich an: So gibt es insgesamt 43 Jahre lang Bärenmärkte und 74 Jahre Rezessionen. Dadurch ist es den Autoren möglich, zu untersuchen, in welchen Ausmaß globale Faktorrenditen durch Marktrisiko, Down­side-Risiko und Makro-Risiken erklärt werden können. Dafür fanden sich keine ausreichenden Erklärungen. So hat etwa das Downside-Risiko nur eine beschränkte Erklärungskraft für globale Faktorprämien. Beim Carry findet sich eine gewisse Sensitivität in Bezug auf das Downside-Risiko, dieses kann aber nur teilweise eine beschränkte Erklärung für Faktorrenditen liefern. Es gibt auch keine klare Beweislage dafür, dass Makro-Risiken den Ertrag der globalen Faktorprämien bestimmen, wenn man bedingte und unbedingte Makro-Risiko-Tests durchführt.

Betrachtet man Jensens Alpha und damit die annualisierten historischen Überschussrenditen der sechs Faktoren im Multi-Asset-Portfolio, so sticht interessanterweise die Saisonalität die anderen Faktorprämien aus. Ihr am nächsten kommt noch der Trend-Faktor (siehe Grafik „Faktorsieger“). Der Schwachpunkt des Faktors Saisonalität ist die Assetklasse Währungen, dafür scheint er langfristig nicht nur bei Aktien, sondern auch bei Anleihen und Rohstoffen in der Lage zu sein, Alpha zu produzieren.

Dem Autorentrio ist es gelungen, signi­fikante, stabile und robuste Prämien für die Faktoren Trend, Value, Saisonalität und Carry in vier unterschiedlichen Assetklassen zu identifizieren. Außerdem gelang es, das Vorhandensein des Low-Risk-Effekts anhand des BAB-Faktors an den Aktien­märkten zu dokumentieren, nicht aber an anderen Märkten. Die Forscher fanden auch heraus, dass die genannten Faktoren im Rahmen der Portfoliodiversifikation positiv zusammenarbeiten und im Wesentlichen ­unkorreliert sind. Die Autoren zeigten des Weiteren, dass Trend und Momentum sehr ähnliche Faktoren darstellen. Schließlich legten sie dar, das Multi-Asset-Faktorstra­tegien statistisch hoch signifikante Sharpe Ratios in der Größenordnung zwischen 0,5 und 1,2 ermöglichen und positive Ergebnisse in nahezu allen Zehnjahreszeiträumen seit 1800 abwarfen. Das ist Wasser auf die Mühlen der Anbieter und Anhänger robus­ter Smart-Beta-Multi-Asset-Multi-Faktor-Strategien, zumal der Nachweis gelang, dass die Faktorprämien über den Konjunkturzyklus hinweg robust sind. Das heißt, dass sie in Bullen- und Bärenmärkten, in Rezessionen und Boomphasen sowie in Krisenzeiten sowie in Wachstums- und Boomphasen greifbar sind. Untersucht wurde auch das Risiko eines Markteinbruchs als mögliche Erklärung für diese Faktorprämien, doch fanden sich kaum Belege dafür. Da es aufgrund der Studienergebnisse hochgradig unwahrscheinlich erscheint, dass diese Faktoren lediglich das Ergebnis von p-Hacking sind, darf man vom Weiterbestehen dieser Faktorprämien ausgehen.     

Dr. Kurt Becker


Über p-Hacking und t-Tests

Statistisches Rüstzeug als Conditio sine qua non, um die Qualität von Studien zu erforschen­

Unter p-Hacking, das nur ein anderer Ausdruck für Data-Mining ist, versteht man, dass Kapitalmarktforscher Tausende unterschiedliche Anlagestrategien analysieren, aber am Ende nur diejenigen dokumentieren, die die beste historische Wertentwicklung aufweisen. Die so erzeugten Ergebnisse halten dann leider der Wirklichkeit oft nicht stand. Deswegen führen die drei Autoren verschie­dene Tests durch, um zu evaluieren, ob sich Wissenschaftler, die über den Zeitraum von 1981 bis 2011 signifikante Faktoren gefunden haben wollen, dieser ­Methoden bedient haben.

Eine empfohlene Methode ist es, bei t-Tests – einem statistischen Testverfahrens für Signifikanz von Verteilungen – anstelle eines t-Wertes von 1,96, der für eine Signifikanz von 95 Prozent steht, einen ­rigideren Wert von 3,00 anzusetzen, wie dies Harvey, Liu und Zhu 2016 vorgeschlagen haben.

Nehmen die Ergebnisse diese höhere Testhürde, spricht dies dafür, dass sie tatsächlich signifikant und nicht nur Ausfluss von Data-Mining sind.


Anhang:

twitterlinkedInXING
 Schliessen

Mit der Nutzung dieser Website stimmen Sie der Verwendung von Cookies und unserer Datenschutzerklärung zu. Mehr erfahren