Ratingklassenübergreifende Kalibrierungsüberprüfung

-
08. Oktober 2019
-
Kevin Bielstein, Tobias Eckernkemper, Helge Müller

Neben qualitativen Merkmalen, wie z. B. der Plausibilität des Ratingprozesses, gehören vor allem quantitativ überprüfbare Qualitätsmerkmale zum Anforderungsprofil eines hochwertigen Ratingverfahrens zur Ausfallprognose. Zu den wichtigsten Indikatoren für eine hohe Prognosequalität zählt dabei – neben einer adäquaten Trennschärfe und einer hohen Modelstabilität – auch die korrekte Kalibrierung auf ein gegebenes Ausfallratenniveau. Deren Überprüfung findet für ein Ratingverfahren mit mehreren Ratingklassen regelmäßig sowohl auf Klassenebene als auch klassenübergreifend statt. Für letztere Variante wird in der Praxis häufig der Binomialtest mit einer mittleren, einheitlichen Ausfallprognose verwendet. Wir werden zeigen, warum dieses Vorgehen nicht sachgerecht ist, und ein Alternativvorgehen vorstellen, das sowohl simulationsbasiert als auch auf Basis gefalteter Funktionen leicht etablierbar ist.

Bei der Entwicklung von Ratingverfahren zur Vorhersage von (Einjahres-)Ausfallwahrscheinlichkeiten (Probability of Default - PD) sind regelmäßig eine Vielzahl von Anforderungen und Nebenbedingungen zu erfüllen. Dies ist wiederum im Rahmen einer jährlichen Validierung zu überprüfen.

Zum einen müssen qualitative Anforderungen erfüllt werden, deren Ziel es ist, die korrekte Anwendung des Ratingprozesses und der Defaulterkennung sicherzustellen. Zum anderen muss das Ratingverfahren verschiedene quantifizierbare Anforderungen erfüllen. So sollte es  z. B.  in der Lage sein, ex ante gute von schlechten Kreditnehmern überprüfbar zu separieren (Trennschärfe), was sich über die Accuracy Ratio berechnen oder grafisch über die CAP (Cumulative Accuracy Profile)- oder die ROC (Receiver Operating Characteristic)-Kurve abbilden lässt.

Darüber hinaus sollte das Modell – und idealerweise auch die Schuldnerstruktur im Zeitablauf – eine gewisse Stabilität aufweisen, die sich über Ratingklassen-Migrationen der Kunden über die Observationsperioden analysieren lässt.

Ein weiterer zentraler Aspekt ist die korrekte Kalibrierung des Ratingverfahrens, die gegeben ist, wenn der Ratingbestand im Ganzen oder relevante Subgruppen – z. B. einzelne Ratingklassen –  im Mittel eine Ausfallprognose aufweisen, die einem vorgegebenen Ausfallraten-Niveau entspricht. Für die Überprüfung der angemessenen Kalibrierung im Rahmen der quantitativen Validierung gibt es verschiedene Testverfahren, von denen beispielhaft der Binomialtest, der Spiegelhalter-Test und der Hosmer-Lemeshow-Test genannt seien (vgl. [Hosmer und Lemeshow (1980)] und [Spiegelhalter (1986)]).

Die Anwendung des Binomialtests findet in der Praxis nicht nur auf der Ebene der angemessenen Kalibrierung einzelner Ratingklassen statt, sondern es erfolgt häufig zusätzlich auch eine ratingklassenübergreifende Testdurchführung, also eine Überprüfung der Kalibrierung für den gesamten Ratingbestand. Da der Binomialtest allerdings unterstellt, dass die Erfolgswahrscheinlichkeit (hier Ausfallwahrscheinlichkeit) aller Beobachtungen identisch ist, sich diese aber in der Praxis zwischen den Ratingklassen maßgeblich unterscheidet, ist die zugrunde liegende Teststatistik bei ratingklassenüberreifender Anwendung häufig fehlspezifiziert.

(...)

[Den vollständigen Artikel lesen Sie in der Fachzeitschrift RISIKO MANAGER 08/2019.
Die Ausgabe ist seit dem 25. September 2019 lieferbar und kann auch einzeln bezogen werden.]

Autoren:
Kevin Bielstein, Dr. Tobias Eckernkemper
und Dr. Helge Müller sind im Fachbereich Statistik der CredaRate Solutions GmbH in Köln tätig.

Bildquelle: iStock.com/diane555