← Alle Insights

Tail-Risk mit ML detektieren: bevor der Markt fällt.

„Predict the next crash" — kein Versprechen ist gefährlicher. Tail-Risk-Detection sagt nicht Crashes voraus. Sie schätzt Wahrscheinlichkeiten für extreme Bewegungen. Der Unterschied klingt akademisch, ist aber der Grund, warum die meisten Modelle in der Praxis enttäuschen — und gleichzeitig der Grund, warum sie trotzdem nützlich sein können.

Was Tail-Risk-Detection wirklich tut.

Ein Tail-Risk-Modell schätzt P(extreme Bewegung in den nächsten T Tagen | aktuelle Marktbedingungen). „Extrem" wird in der Regel als Tagesreturn jenseits eines historischen Quantils definiert — etwa unter dem 1%-Quantil aller historischen Tagesreturns. Das Modell gibt eine Zahl zwischen 0 und 1 zurück, kein binäres „Crash kommt"-Signal.

Die saubere Frage lautet nicht „kommt morgen ein Crash?", sondern „ist die Wahrscheinlichkeit eines Crashs heute substanziell höher als der Baseline-Wert von ~1 %?". Wenn das Modell 4 % schätzt, ist das relevant — auch wenn die Mehrheit der Tage mit dieser Schätzung trotzdem ruhig bleibt.

Survival-Analysis-Ansätze.

Aus der Medizin entlehnt, in der Finanzwelt unterschätzt: Survival-Analysis modelliert die Zeit bis zu einem Ereignis. Übertragen auf Tail-Risk: wie lange dauert es vom aktuellen Zustand bis zum nächsten Crash?

Klassische Werkzeuge:

Vorteil gegenüber klassischer Klassifikation: Survival-Modelle behandeln rechts- zensierte Beobachtungen korrekt. Bei Crash-Daten ist das relevant, weil der nächste Crash am Ende der Trainings-Stichprobe noch nicht eingetreten ist.

XGBoost auf Macro- und Market-Features.

Der pragmatische Mainstream-Ansatz: Gradient-Boosting auf einem Mix aus Markt- und Makro-Features. Typische Feature-Liste:

Trainings-Label: 1 wenn der maximale Drawdown in den nächsten 20 Tagen über 5 % liegt, sonst 0. Output: Wahrscheinlichkeit, kalibriert über Isotonic-Regression.

Praxis-Ergebnisse auf US-Equity-Daten 1995–2024: AUC um 0,70–0,75. Klingt gut, aber bei Base-Rate von ~8 % bedeutet das in der Praxis: bei einer Alarm-Schwelle, die 70 % Recall liefert, liegt die Precision oft unter 25 %. Auf 4 Alarme kommen 3 Fehlalarme. Wer das Signal binär als Exit-Signal interpretiert, handelt sich massive Opportunitäts­kosten ein.

Generative Modelle für Stress-Szenarien.

Ein anderer Ansatz: statt Wahrscheinlichkeiten zu prognostizieren, generiert man plausible Stress-Szenarien. Variational Autoencoders oder Diffusion-Modelle, trainiert auf historischen Krisenphasen, erzeugen synthetische Pfade für Stress-Tests.

Anwendung: ein Portfolio wird gegen 10.000 generierte Stress-Pfade gestresst, die Verteilung der hypothetischen Drawdowns liefert ein Tail-Risk-Maß, das robuster ist als historisches VaR.

Limitation: generative Modelle reproduzieren die Korrelationsstruktur ihrer Trainings- daten. Eine neuartige Krise — etwa eine, die durch Mechanismen ausgelöst wird, die historisch nicht vorkamen — wird strukturell verfehlt. Generative Stress-Tests sind daher Ergänzung, nicht Ersatz, für expertendefinierte Szenarien (Brunnermeier-Style).

Das Lookahead-Problem in Backtests.

Der häufigste Fehler bei Tail-Risk-Modellen: Datenleckage. Konkrete Fallen:

Ein Modell, das im Backtest 0,85 AUC erreicht, liegt fast immer an einer dieser Fallen. Realistische Werte nach sauberem Setup: 0,65–0,75. Wer höhere Zahlen sieht, sollte zuerst nach dem Leak suchen, nicht das Paper schreiben.

Konkretes Use-Case: Hedge-Trigger.

Wie nutzt man ein realistisch genaues Tail-Risk-Modell sinnvoll? Beispiel-Workflow:

  1. Modell läuft täglich nach US-Close, liefert Wahrscheinlichkeit p für „Drawdown > 5 % in 20 Tagen".
  2. Bei p > 5 % (5× Base-Rate) wird ein partieller Hedge aktiviert — z. B. 25 % Notional in Put-Spreads auf SPX.
  3. Hedge bleibt aktiv, bis p für 5 aufeinanderfolgende Tage unter 3 % fällt.
  4. Statischer Basis-Hedge (z. B. 10 % Notional in OTM-Puts mit 90-Tage-Laufzeit) läuft unabhängig davon weiter.

Das Schema akzeptiert, dass das Modell oft falsch liegt, und nutzt es als Verstärker bestehender Hedges, nicht als deren Ersatz. Backtest-Ergebnisse auf US-Daten 2000–2024: leichte Reduktion der maximalen Drawdowns, leichte Kosten- steigerung im Cost-of-Hedging. Sharpe leicht verbessert, vor allem aber Calmar-Ratio spürbar besser.

Meine ehrliche Erfahrung.

Tail-Detection-Modelle haben strukturelle Recall- und Precision-Probleme. Die Base- Rate ist niedrig, die Klassen sind unbalanced, die Trainings-Daten enthalten wenige tatsächliche Crashes (vielleicht 5–10 in 30 Jahren, je nach Definition). Das setzt harte Grenzen für jedes Modell — auch das beste.

Mein Standpunkt nach mehreren Projekten: Tail-Risk-Modelle sind sinnvoll als Ergänzung zu statischen Hedges. Sie ersetzen weder einen disziplinierten Basis-Hedge noch klare Position-Limits. Wer sein Risiko-Management auf ein ML-Modell stützt, hat die Lektion von 2008, 2020 und 2026 nicht verstanden.

Was Sie realistisch erwarten können: ein Modell, das in 60–70 % der historischen Stress-Episoden Vorlaufzeit von 5–15 Tagen gibt, mit einer hohen Rate an Fehlalarmen. Das ist wertvoll, wenn Sie die Architektur entsprechend bauen — und gefährlich, wenn Sie Binär-Entscheidungen daraus ableiten.

Sie evaluieren Tail-Risk-Modelle für Ihr Portfolio und wollen realistische Erwartungen klären? Erstgespräch buchen — wir prüfen Modell, Backtest und Integration mit bestehenden Hedges.