Das Fachmagazin für institutionelle Investoren

Geben Sie Ihren Benutzernamen und Ihr Passwort ein, um sich an der Website anzumelden:
4/2020 | Theorie & Praxis
twitterlinkedInXING

Schlechte Noten?

ESG-Ratings sollen Finanzanlagen nachhaltiger und transparenter machen, sind in der Praxis aber umstritten. Ein Grund dafür ist, dass die Ratings verschiedener Anbieter zum Teil deutlich voneinander abweichen. Eine Studie hat nun herausgefunden, worauf diese Abweichungen zurückzuführen sind.

1606383514_noten.jpg

Dafür, dass die ESG-Ratings unterschiedlicher Anbieter voneinander abweichen, sind mehrere Faktoren ausschlaggebend, und kurzfristig wird sich daran voraussichtlich nichts ändern. Die Ratingagenturen müssen daher zumindest maximale Transparenz schaffen.

© WavebreakMediaMicro | stock.adobe.com

Nachhaltige Geldanlagen sind in aller Munde und führten in den letzten Jahren zu einem deutlichen Zuwachs bei Nachfrage und Angebot von ESG-Ratings. Tatsächlich gibt es dieses Segment aber schon weitaus länger, auch wenn es anfangs ein Nischendasein fristete. So wurden etwa zwei Pioniere der Industrie, die französische Gesellschaft Vigeo Eiris und das US-Unternehmen Kinder, Lydenberg & Domini (KLD), schon in den 1980er-Jahren ge­gründet.
PRI treiben an

Eine treibende Kraft der Entwicklung zum nachhaltigen Investieren waren und sind die von den Vereinten Nationen unterstützten Principles for Responsible Investment (PRI). An erster Stelle steht dort die Selbstverpflichtung, ESG-Kriterien in die Investment- und Entscheidungsprozesse zu integrieren. Der hohe Einfluss der PRI an den Märkten zeigt sich daran, dass inzwischen mehr als 3.000 Gesellschaften zu den Unterzeichnern zählen, die insgesamt mehr als 100 Billionen US-Dollar an Vermögenswerten managen oder besitzen. Durch den enormen Bedeutungsgewinn nachhaltiger Investments kamen die etablierten Player nicht umhin, sich möglichst viele der frühen, kleinen Anbieter von ESG-Ratings einzuverleiben. So gingen in den letzten zehn Jahren KLD an MSCI, Sustainalytics an Morningstar, Vigeo Eiris an Moody’s und RobecoSAM an S&P Global.

Besonderheiten bei ESG-Ratings

Um ESG-Ratings zu ermitteln, werden verschiedene Nachhaltigkeitskriterien gescreent. Deshalb wäre zu vermuten, dass die einzelnen Anbieter zu sehr ähnlichen Einschätzungen kommen, wie es bei den großen Ratingagenturen zur Beurteilung der Kreditwürdigkeit der Fall ist. Bei ­dieser scheinbaren Parallele setzt die Studie „Aggregate Confusion: The Divergence of ESG Ratings“ an. Das Autorentrio Florian Berg, Julian ­Koelbel und Roberto Rigobon nennt zwei Besonderheiten, die dazu führen, dass die Unterschiede zwischen ESG-Ratings viel größer sind als jene bei den Kreditratings:

  1. Die Kreditwürdigkeit ist über die Ausfallwahrscheinlichkeit recht klar definiert. Bei der Erfüllung von ESG-Kriterien ist das nicht der Fall, da diese wertebasiert sind und sich zudem noch entwickeln. Die entsprechenden Ratings beinhalten deshalb auch eine gewisse Interpretation des Anbieters darüber, was gute ESG-Performance ausmacht.
  2. Die Berichtsstandards haben sich bei Finanzkennzahlen über lange Zeit entwickelt und vereinheitlicht. Das ESG-Reporting steckt dagegen noch in den Kinderschuhen und ist in den seltensten Fällen verpflichtend. Das gibt den Unternehmen großen Spielraum, ob sie überhaupt reporten, und falls ja, was und in welcher Form. ESG-Ratings stellen deshalb auch die Dienstleistung dar, aggregierte Informationen aus einem breiten Spektrum von Quellen und Standards abzubilden.

Die hohe Diskrepanz von ESG-Ratings ist in der Literatur gut dokumentiert. Und das hat auch Folgen für die Praxis. So wird etwa das Bestreben von Unternehmen gehemmt, ihre ESG-Integration zu verbessern, da sie gemischte Signale darüber erhalten, welche Dinge erwartet und vom Markt honoriert werden. Zudem ist die Diskrepanz eine ­Herausforderung für empirische Studien. So kann die Entscheidung für den einen oder anderen Datensatz dazu führen, dass die ­Ergebnisse und Schlussfolgerungen sehr ­unterschiedlich ausfallen.

Ursachen der Diskrepanz

Für ein besseres Verständnis der Diskrepanz ist es notwendig, die genauen Ursachen der Abweichungen zu ermitteln. Das ist das Ziel der genannten Aggregate-Confusion-Studie. Die Autoren beschaffen die Ratings von sechs großen Anbietern, detaillierte Daten der jeweils zugrunde liegenden Kriterien und Indikatoren sowie die Dokumentation zu den Aggregationsregeln und Messver­fahren. Im Ergebnis der Untersuchungen zeigen sich letztlich drei Bereiche, in denen die Ursachen der hohen Diskrepanz liegen:

  1. unterschiedliche Anwendungsbereiche: Die Ratings basieren auf verschiedenen ­Kategorien wie etwa CO2-Emissionen, Arbeitsbedingungen oder Lobbyaktivitäten, die aber nicht einheitlich berücksichtigt werden. Zwei der untersuchten Anbieter beziehen zum Beispiel Lobbyaktivitäten mit ein, die vier anderen Anbieter jedoch nicht.
  2. Verschiedene Messungen: Die gleichen Kategorien werden mit unterschiedlichen Indikatoren gemessen. Zum Beispiel bewertet ein Anbieter die Arbeitsbedingungen anhand des Mitarbeiterumschlags, während ein anderer dafür die Anzahl der arbeitsbezogenen Gerichtsverhandlungen verwendet. Beides erscheint geeignet, aber die daraus abgeleiteten Einschätzungen können durchaus variieren. Das liegt auch daran, dass die Indikatoren sowohl auf Instrumenten wie der Existenz eines Verhaltenskodex, aber auch auf Ereignissen wie der Häufigkeit bestimmter Vorfälle beruhen können. Zudem können die Daten aus ganz unterschiedlichen Quellen wie Unternehmensberichten, Umfragen oder Medienberichten stammen.
  3. Abweichende Gewichtungen: Die einzelnen Kategorien haben unterschiedliche relative Bedeutung für das finale Rating. Während ein Anbieter zum Beispiel die Lobbyaktivitäten höher ­gewichtet, bezieht ein anderer die Arbeitsbedingungen stärker mit ein.

Da diese drei Effekte mit­einander zusammenhängen, möchten die Forscher als Nächs­tes herausfinden, wie stark sich jeder davon letztlich auswirkt. Dazu kategorisieren sie die insgesamt 709 bereit­gestellten Indikatoren in 65 ­gemeinsame Kriterien, deren Scores für jeden Anbieter separat berechnet werden. Mithilfe statistischer Methoden wird dann untersucht, wie stark die einzelnen Faktoren zur beobachteten Diskrepanz beitragen.

Was wird wie gemessen?

Das Ergebnis: Die Unterschiede in der Messung stellen den Haupttreiber dar, aber die abweichenden Anwendungsbereiche ­haben nahezu den gleichen Einfluss. Das bedeutet, dass die Rating-Diskrepanz sowohl darauf zurückzuführen ist, was gemessen wird, als auch darauf, wie es gemessen wird. Das macht es für Anwender so schwierig zu verstehen, was zwei stark voneinander abweichende Ratings genau bedeuten. Die dritte Dimension der Gewichtungen spielt den Untersuchungen zufolge nur eine untergeordnete Rolle.

Allerdings tritt noch ein weiterer Aspekt zutage, der die Dimension der Messungen betrifft. Demnach besteht eine erhöhte Wahrscheinlichkeit, dass ein Unternehmen, das einen hohen Score in einem Bereich ­erzielt, auch in allen anderen Bereichen gut abschneidet, die von der gleichen Person beurteilt werden. Die Autoren interpretieren diesen „Rater-Effekt“ als strukturellen Bias, der zu den Messabweichungen beiträgt. Als plausible Erklärung führen sie an, dass einzelne Analysten bei den Agenturen für ganze Firmen zuständig sind und nicht speziell für einzelne Kategorien.

Anbieter in der Pflicht

Die Abweichungen von ESG-Ratings zwischen den einzelnen Anbietern kommen vor allem durch unterschiedliche Mess­methoden und die Auswahl der berücksichtigten Kategorien zustande. Die abweichenden Gewichtungen der Kategorien sind ­dagegen weniger entscheidend.

Aus Sicht der Anwender wäre eine mögliche Lösung, sich nur auf einen ESG-Anbieter zu fokussieren, dessen Auswahl und Gewichtung einbezogener Kategorien und verwendeter Messmethoden am besten mit den eigenen Vorstellungen übereinstimmt. Schwieriger ist es aus Sicht der Unternehmen, die sich recht unterschiedlichen Einschätzungen ihrer ESG-Bestrebungen gegenüber sehen: Es ist möglich, dass Ver­besserungen einzelner Kriterien nicht bei ­allen Anbietern tatsächlich einen positiven Rating-Effekt haben. Eine Lösung könnten hier offene und transparente Disclosure-Standards sein, die zusammen mit den Ratinganbietern entwickelt werden. Last but not least sind aber vor allem die Anbieter in der Pflicht, mehr Transparenz zu schaffen. Dazu gehört eine klare Kommunikation der einbezogenen Kriterien, Messmethoden und Gewichtungen. Zudem sollten die Anbieter überlegen, wie sich der potenziell verzer­rende Rater-Effekt vermeiden lässt.

Dr. Marko Gränitz


Anhang:

twitterlinkedInXING
 Schliessen

Mit der Nutzung dieser Website stimmen Sie der Verwendung von Cookies und unserer Datenschutzerklärung zu. Mehr erfahren