KI für Risk-Forecasting: Volatilität, VaR und Tail-Risk vorhersagen.
Wenn mich jemand fragt, wo Machine Learning im Trading am verlässlichsten Mehrwert liefert, ist meine Antwort seit Jahren dieselbe: Risk-Forecasting. Nicht Direktion, nicht Alpha, sondern die Vorhersage von Schwankungen, Verlustrisiken und Tail-Ereignissen. Hier ist das Signal sauber, die Metrik klar — und der Nutzen für ein Portfolio konkret messbar.
Warum Risk-Forecasting der dankbarste KI-Use-Case ist.
Vier Gründe, warum dieses Feld unterschätzt wird:
- Sauberes Signal: Volatilität ist messbar und persistent. Hohe Vola folgt hoher Vola, niedrige Vola folgt niedriger Vola — das ist eine der robustesten stilisierten Tatsachen der Finanzökonomie.
- Klare Metrik: Forecast vs. realisierte Vola. Es gibt nicht den Streit „war der Backtest realistisch", den es bei Return-Forecasts gibt.
- Hoher praktischer Nutzen: bessere Volatilitäts-Forecasts gehen direkt in Position-Sizing, Optionsbewertung und Hedge-Ratios. Ein um 10 % besserer Forecast ist auf Portfolioebene unmittelbar Geld wert.
- Geringe Erwartung im Markt: viele Risk-Manager nutzen nach wie vor simple historische Standardabweichungen. Wer ein paar Schritte weiter ist, hat einen echten Vorsprung.
GARCH plus ML — die unterschätzte Kombination.
GARCH-Modelle sind seit den 1980ern Standard. Sie funktionieren — aber sie haben blinde Flecken: sie reagieren langsam auf Strukturbrüche und ignorieren exogene Information (Makro, Sentiment, Optionsmärkte). Ein Hybrid, der die Stärken kombiniert, schlägt beide isoliert.
Mein Standard-Setup:
- GARCH(1,1) liefert eine Baseline-Volatilitäts-Erwartung für den nächsten Tag
- Ein XGBoost-Modell lernt die Residuen dieser GARCH-Erwartung gegenüber der tatsächlich realisierten Vola
- Features für das XGBoost: VIX-Level, VIX-Term-Structure, Optionen-Skew, Drawdown vom 60-Tage-Hoch, FX-Vola, Bond-Vola
- Finaler Forecast: GARCH-Mean plus ML-Residual-Correction
In meinen Backtests an S&P-500-Daten reduziert dieses Setup den mittleren absoluten Forecast-Fehler gegenüber reinem GARCH um etwa 15 %. Das ist nicht spektakulär, aber stabil über verschiedene Marktphasen, einschließlich der heftigen Vola-Spikes 2020 und 2022.
Realized-Vola-Forecasting mit XGBoost.
Wer Intraday-Daten hat, kann besser werden: realisierte Vola aus 5-Minuten-Returns ist eine deutlich präzisere Größe als die übliche aus täglichen Returns. Mit dieser präziseren Vergangenheits-Vola lassen sich auch präzisere Forecasts trainieren.
import pandas as pd
import numpy as np
import xgboost as xgb
# 5-min-Returns für S&P 500 (ES-Future)
m5 = pd.read_parquet("es_5min.parquet")
m5["ret"] = m5["close"].pct_change()
# Tägliche realisierte Vola als Quadratwurzel aus Summe der 5-min-Renditen²
rv = m5.groupby(m5.index.date)["ret"].apply(lambda x: np.sqrt((x**2).sum()))
rv = rv.rename("rv").to_frame()
# HAR-RV-Features: Tages-, Wochen-, Monats-Vola
rv["rv_d"] = rv["rv"]
rv["rv_w"] = rv["rv"].rolling(5).mean()
rv["rv_m"] = rv["rv"].rolling(22).mean()
rv["target"] = rv["rv"].shift(-1)
# Zusatz-Features
ext = pd.read_parquet("vix_skew_macro.parquet") # VIX, Skew, ISM-Surprise
df = rv.join(ext, how="inner").dropna()
X = df.drop(columns=["target"])
y = df["target"]
split = int(len(df) * 0.7)
model = xgb.XGBRegressor(n_estimators=500, max_depth=4, learning_rate=0.03)
model.fit(X.iloc[:split], y.iloc[:split])
Realistische Out-of-Sample-Genauigkeit: R² zwischen 0,55 und 0,65 für den 1-Tages-Vola- Forecast. Das ist deutlich höher als bei Return-Forecasts und in der Praxis sehr brauchbar — vor allem für Position-Sizing.
HAR-RV als starker Baseline.
Das HAR-RV-Modell (Heterogeneous Autoregressive Realized Volatility) ist die unsexyste und gleichzeitig stärkste Baseline für Vola-Forecasts. Drei Features: gestrige Vola, Wochenvola, Monatsvola. Lineare Regression darauf — fertig.
In meinen Backtests schlägt HAR-RV viele aufwendigere Setups, sobald die Daten ehrlich gemessen werden. Wer mit Deep Learning antritt, sollte HAR-RV mindestens zwei Prozentpunkte R² übertreffen, sonst lohnt sich der Mehraufwand nicht. In der Praxis kommt ein gut gebautes XGBoost mit HAR-RV-Features plus Optionsmarkt-Daten auf vier bis sieben Prozentpunkte mehr R² — und das ist es, was den Aufwand rechtfertigt.
Tail-Risk-Detection mit Extreme Value Theory plus ML.
VaR-Schätzung über die normale Standardabweichung ist gefährlich. Renditen sind leptokurtisch, Extremereignisse häufiger als die Normalverteilung vorhersagt. Extreme-Value-Theory (EVT) modelliert die Tail-Verteilung mit einer Generalized-Pareto-Distribution — deutlich realistischer.
Mein Setup für 99-%-VaR auf S&P-Tagesrenditen:
- Berechne tägliche Renditen, ziehe die rolling Standardabweichung ab — standardisierte Residuen
- Fitte eine GPD an die untersten 5 % dieser Residuen
- Berechne den 99-%-Quantil-Schätzer für den nächsten Tag mit aktuellem Sigma aus dem Vola-Modell
- ML-Korrektur: trainiere ein kleines Modell, das aus aktuellen Marktkonditionen (VIX-Spike, Drawdown, Korrelations-Anstieg) einen Adjustierungs-Faktor lernt
Das ML-Korrektur-Schritt ist der Game-Changer: pure EVT ist konservativ, aber stationär. Ein einfaches Gradient-Boosting darauf macht den Schätzer reaktiv ohne ihn instabil zu machen. Backtests über 20 Jahre zeigen, dass die Anzahl der VaR-Brüche näher am theoretischen Erwartungswert liegt als bei jeder anderen Methode, die ich getestet habe.
Backtesting von Forecasts — sauber gemacht.
Drei Praxisregeln, die ich nie verlasse:
- Walk-forward, nicht random split: Zeitreihendaten dürfen nie zufällig geteilt werden, sonst hat man Look-Ahead
- Vergleich gegen mindestens drei Baselines: Rolling-Standard-Deviation, GARCH(1,1), HAR-RV — wenn das ML-Modell nicht alle drei schlägt, hat es keinen Wert
- Mehrere Fehlerarten messen: nicht nur MAE, sondern auch Hit-Rate für Schwellenwert-Überschreitungen und Calibration-Plots für VaR-Forecasts
Ein Vola-Forecast ist nur gut, wenn er kalibriert ist: wenn er 99 % VaR sagt, sollten empirisch genau 1 % der Tage diese Schwelle reißen — über lange Zeiträume. Wer das nicht misst, weiß nicht, ob sein Modell sicher oder gefährlich ist.
Meine Praxis: Risk-Forecasts auf Portfolio-Ebene.
Wichtig: ich nutze Vola- und Tail-Risk-Forecasts nicht, um einzelne Trades zu timen. Dafür sind sie zu langsam und zu allgemein. Sie laufen bei mir auf Portfolio-Ebene und steuern drei Dinge:
- Position-Sizing: Ziel-Vola pro Strategie. Steigt die Forecast-Vola, wird das Bruttoengagement reduziert, ohne die Strategie zu pausieren
- Hedging-Intensität: Wenn der Tail-Risk-Forecast oberhalb des historischen 80-%-Quantils liegt, werden Put-Hedges nachgekauft — finanziert aus dem reduzierten Bruttoengagement
- Drawdown-Limits: Forecast-basierte Drawdown-Schwellen, statt fester Limits. In Hochvola-Phasen sind 6 % Drawdown normal, in Niedrigvola-Phasen nicht — das Modell trennt das
Diese Anwendung ist undramatisch. Sie liefert keine spektakulären Tradinggeschichten, aber sie verändert die Sharpe-Ratio des Gesamtportfolios spürbar — bei uns über die letzten Jahre stabil um 0,2 bis 0,3 Punkte besser, mit weniger Drawdown-Phasen. Das ist genau die Art Mehrwert, die KI liefern kann, wenn man sie an der richtigen Stelle einsetzt.
Was Sie konkret als Erstes umsetzen sollten.
Wer mit Risk-Forecasting bei null beginnt, geht in dieser Reihenfolge vor:
- HAR-RV-Modell aufbauen, gegen rolling Standard-Deviation messen — sofortiger Mehrwert
- VIX und VIX-Term-Structure als zusätzliche Features ergänzen
- XGBoost auf den Residuen trainieren, walk-forward backtesten
- VaR-Schätzer auf Basis der Forecast-Vola plus EVT für die Tail-Verteilung
- Position-Sizing auf Ziel-Vola umstellen — der Hebel auf das Portfolio ist sofort spürbar
Das ist Arbeit für zwei bis drei Monate für jemanden, der Python und Statistik solide beherrscht. Nach diesen drei Monaten hat man eine Risiko-Pipeline, die in 90 % der mittelständischen Family-Offices besser ist als das, was dort heute läuft.
Sie wollen Ihre Risk-Pipeline mit ML aufrüsten? Erstgespräch buchen — wir bauen das in einem realistischen Zeitrahmen.