Smart Backtest statt Smart Beta
Faktorstrategien sind wissenschaftlich fundiert und erfreuen sich, verpackt als Smart-Beta-ETFs, hoher Bekanntheit. Doch nicht immer performen sie im Live-Betrieb so, wie es anhand der Rückrechnungen zu erwarten war. Eine Studie zeigt, wie es zu dieser Smart-Beta-Illusion kommt.

© University of Washington, M.Dörr & M.Frommherz
Wenn es darum geht, einen Mehrertrag gegenüber klassischen Indizes beziehungsweise Benchmarks zu erzielen, schielen Investoren regelmäßig auch auf Faktorstrategien. Der Grund dafür, dass dieser Vorschlag beinahe reflexartig auftaucht, ist, dass viele Faktoren als gut untermauert gelten, was die wissenschaftliche Evidenz angeht. Die prominentesten von ihnen – Value, Size und Momentum – wurden schon vor rund 30 Jahren nachgewiesen und in heute noch eingesetzte Kapitalmarktmodelle zur Erklärung von Renditen integriert. Es ist also kein Wunder, dass diese Faktoren im Lauf der Zeit breite Bekanntheit und Akzeptanz erlangten.
Publikationsdruck
Neben den anerkannten Mainstream-Faktoren hat die Forschung auch eine Vielzahl weiterer Effekte hervorgebracht, die mehr oder weniger deutlich nachgewiesen wurden. Dabei gibt es zwei Kritikpunkte: Zum einen sind angesichts des recht umfangreichen „Faktor-Zoos“ große Überschneidungen zwischen den einzelnen Effekten zu beobachten. Schätzungen gehen von bis zu 400 bekannten Faktoren aus, die sich in wissenschaftlichen Publikationen finden lassen. Es dürfte klar sein, dass nicht jeder davon einen einzigartigen Erklärungsgehalt besitzt. Stattdessen lassen sich die meisten Effekte zu großen Teilen auf bereits bekannte, etablierte Faktoren zurückführen. Das bedeutet auch, dass viele der neu entdeckten Faktoren dem Publikationsdruck der Wissenschaftler geschuldet sein könnten, aber keine wirklich praktische Relevanz haben. Das führt zum zweiten Kritikpunkt: „Traue keiner Statistik, die du nicht selbst gefälscht hast“ klingt zwar übertrieben, Fakt ist jedoch, dass genau dieser Publikationsdruck dazu führt, dass statistisch signifikante Faktoren herbeigetestet werden. Insgesamt dürfte das die Existenz zumindest eines Teils des Faktor-Zoos erklären.
Verkaufsdruck
Keinen Publikationsdruck, aber dafür Verkaufsdruck verspüren die Anbieter von Investmentprodukten: Sie müssen möglichst sicherstellen, dass diese im institutionellen Bereich gut aufgenommen werden und sich entsprechend vertreiben lassen, um Assets in nennenswertem Umfang einsammeln zu können. Hier kommt es natürlich gelegen, dass viele Faktoren wissenschaftlich untermauert sind, was einen Vertrauensvorschuss seitens der Investoren bedeutet.
Die Erforschung der Faktorprämien führte deshalb dazu, dass sich ETF-Anbieter auf diesen Bereich fokussierten. Das wissenschaftliche Fundament spielte dabei eine wichtige Rolle. Nicht selten zitierten die Anbieter entsprechende Studien, um die jeweiligen Effekte zu belegen und so Vertrauen und Glaubwürdigkeit zu schaffen. Und das erscheint auch gerechtfertigt, wenn man bedenkt, dass klassische ETFs einfach nach Marktkapitalisierung gewichtete Indizes abbilden, ohne dass dabei besondere Erkenntnisse aus der Wissenschaft einfließen. Entsprechend wurden Smart-Beta-ETFs, die es in den USA seit rund 20 Jahren gibt, ein Erfolgsmodell. BlackRock prognostizierte schon vor fünf Jahren, dass die Assets under Management in diesem Bereich bis zum Jahr 2025 auf 2,4 Billionen US-Dollar steigen würden. Und Morningstar schätzte letztes Jahr, dass sie etwa 22 Prozent des gesamten ETF-Marktes ausmachen.
Data Mining im Verdacht
Ein entscheidender Aspekt von Smart-Beta-ETFs sind die Regeln zur Konstruktion des abgebildeten Index. Darauf verweisen die drei Forscher Shiyang Huang, Yang Song und Hong Xiang in ihrer Studie „The Smart Beta Mirage“. Anders als auf Basis standardisierter wissenschaftlicher Ranking- und Portfoliomodelle zu vermuten, bestehen in der Praxis erhebliche Spielräume, was deren genaue Ausgestaltung angeht. Tatsächlich gibt es hinsichtlich der Parameterkombinationen viele Möglichkeiten, um letztlich ein- und denselben Faktor abzubilden, der dann im Namen des Fonds auftaucht. Hinzu kommen unterschiedliche Datenquellen, Gewichtungsmodelle und Rebalancingzeiträume. Aus all diesen Gestaltungsmöglichkeiten resultieren unzählige Backtest-Varianten. Und von den Rückrechnungen werden mit hoher Wahrscheinlichkeit nur die Allerbesten betrachtet, um während der Produktentwicklung die internen Kriterien des ETFs festzulegen. Schließlich ist ein möglichst guter Backtest entscheidend, um mangels eines echten Track Records potenzielle Investoren von der Funktionsweise des Konzepts zu überzeugen.
Der Anreiz für Data Mining ist auch deshalb gegeben, weil die Anbieter wissen, dass Investoren positiv auf gute Backtests reagieren und dann investieren, um Überrenditen durch entsprechendes Faktor-Exposure zu erzielen. Tatsächlich können die Studienautoren einen gewissen Zusammenhang nachweisen: Eine um eine Standardabweichung höhere Backtest-Rendite im ersten Jahr nach Listing des jeweiligen ETFs ist mit sechs Prozent höheren Zuflüssen verbunden.
Klares Ergebnis
Aus diesen Überlegungen resultiert die Frage, inwieweit der Spielraum zur Erstellung von Smart-Beta-Indizes ein grundsätzliches Problem darstellt. Bei übertriebenem Data Mining könnte es sein, dass zwar der Backtest gut aussieht, aber die reale Performance am Ende wenig „smart“ erscheint. Um das zu untersuchen, betrachtet die Studie einen Datensatz, der mehr als 80 Prozent der Assets des US-Smart-Beta-ETF-Marktes im Zeitraum von 2000 bis 2018 umfasst. Zudem beschaffen die Autoren die jeweils zugrunde liegenden Indizes und deren Renditen sowohl für die Zeit vor als auch nach Start der entsprechenden ETFs. Die Studie betrachtet vor allem die Indexrenditen, um eine direkte Vergleichbarkeit vor und nach den ETF-Listings zu gewährleisten. Zudem entfällt dadurch der potenziell verzerrende Kostenfaktor.
Die Ergebnisse der Untersuchungen sind eindeutig. Eine wirkliche Outperformance von Smart-Beta-Indizes gab es insgesamt nur im Backtest. So lag das CAPM-Alpha in der Zeit vor dem jeweiligen ETF-Listing im Durchschnitt bei 2,77 Prozent im Jahr. Im Mittel lagen dieser Berechnung 13 Jahre an vorhergehenden Daten zugrunde. Direkt nach Auflage der jeweiligen ETFs wendete sich das Blatt. Es ergab sich eine signifikante Unterrendite der Indizes mit einem CAPM-Alpha von durchschnittlich minus 0,44 Prozent pro Jahr. Im Mittel lagen dieser Berechnung sechs Jahre an Daten nach den entsprechenden Listings zugrunde.
Erklärung gesucht
Die Frage ist nun, ob dieses Ergebnis tatsächlich auf übertriebenes Data Mining zurückzuführen ist. Zunächst betrachten die Forscher drei andere Erklärungsansätze:
Strategisches Timing: Auflage der ETFs im Anschluss an eine zuletzt hohe (Out-)
Performance des jeweiligen Faktors. Die Mean-Reversion-Natur der Faktorprämien würde dann für eine Underperformance sorgen. Allerdings ergibt die Bereinigung der Ergebnisse um die faktorspezifischen Renditevariationen ein nahezu unverändertes Bild, sodass diese Erklärung ausscheidet.
Allgemeiner Trend abnehmender Faktorprämien: Underperformance durch Erosion der Prämien im Zeitablauf. Dem erteilen die Autoren jedoch eine Absage. Zum einen betrachten sie entsprechend bereinigte Benchmarks. Und zum anderen ist aus einschlägigen Studien bekannt, dass die allgemeine Erosion von Faktorrenditen viel geringer ist.
Flows nach Auflage der ETFs: abnehmende Skaleneffekte infolge hoher Mittelzuflüsse. Doch auch das lässt sich nicht bestätigen, da ETFs mit geringeren Assets under Management nach Auflage sogar eine stärkere Abnahme der Renditen verzeichnen.
Verdacht bestätigt
Als letzte Erklärung betrachten die Autoren schließlich das beschriebene Data-Mining-Argument, das sie klar bestätigen können. Besonders anfällig sind demnach Indizes, die mehrere Faktoren kombinieren, da es hier noch mehr Möglichkeiten zur „Optimierung“ gibt als bei einzelnen Faktoren. Entsprechend sehen hier die Backtests am besten aus, aber die Performance nach Auflage der entsprechenden ETFs ist am schlechtesten. Zudem gibt es in diesem Segment – sicher nicht ganz zufällig – auch die meisten Smart-Beta-Produkte. Besser fallen die Ergebnisse für klassische Value- und Growth-ETFs aus, obwohl auch hier nach Auflage ein kleiner Knick in der Performance zu beobachten ist. Grundsätzlich ist zu beachten, dass Smart-Beta-ETFs zumindest etwas höhere Gebühren aufweisen als marktbreite Core-Produkte, was im Lauf der Zeit ebenfalls zulasten der erzielten Performance geht.
Mehrheitlich keine Mehrrendite
Die Mehrheit der Smart-Beta-ETFs erzielt keine Mehrrendite. Eher im Gegenteil: Selbst vor Kosten ist auf Indexebene im Durchschnitt eine Underperformance nach Auflage der Produkte zu beobachten. Das bekräftigt die Vermutung, dass zur Auflage von Smart-Beta-ETFs systematisch Indexvarianten ausgewählt werden, die besonders attraktive Backtests aufweisen – mit dem Ziel, auf diese Weise entsprechend höhere Zuflüsse zu erzielen. Aus Anlegersicht wäre es dagegen besser, diejenigen Indexkonzepte auszuwählen, die ein den Forschungsarbeiten möglichst gut entsprechendes Faktor-Exposure bieten. Dann wäre es auch wahrscheinlich, dass die Anlageergebnisse den Erwartungen der zitierten Studien entsprechen.
Interessant ist auch die Frage, ob sich ETF- und Indexanbieter des Data-Mining-Problems bewusst sind. Die Studienautoren gehen grundsätzlich davon aus, dass das der Fall ist. Zwar können sie nicht ganz ausschließen, dass es unbewusst geschieht, aber angesichts der klaren Ergebnisse wäre das sehr überraschend. Zudem würden die Anbieter inkompetent aussehen, wenn sie diesen offensichtlichen Effekt nicht schon längst erkannt hätten.
Eine abschließende Überlegung geht in Richtung der „unabhängigen“ Indexanbieter. Die gängige Konstellation, dass ETFs einen von externer Stelle berechneten Index abbilden, stellt im Zusammenhang mit der betrachteten Studie eine Scheintransparenz dar. Denn letztlich dürfte klar sein, dass sich Indexanbieter kaum dem (Verkaufs-)Druck seitens der ETF-Industrie entziehen können – und entsprechend mitspielen, also möglichst „optimale“ Referenzindizes liefern.
Dr. Marko Gränitz