← Alle Insights

Time-Series-Forecasting im Trading: ARIMA, Prophet, LSTM und die ehrliche Realität.

Wer ARIMA oder LSTM auf einen Aktien-Schlusskurs anwendet, hofft auf einen Edge, den tausende quantitative Fonds vor ihm gesucht haben. Spoiler: er wird ihn nicht finden. Aber an anderer Stelle können dieselben Methoden sehr wohl Geld verdienen.

Warum klassisches Forecasting bei Kursen versagt.

ARIMA, GARCH, Prophet und Co. setzen voraus, dass eine Zeitreihe eine ausnutzbare Auto-Correlation hat — also dass vergangene Werte Information über zukünftige enthalten. Bei Aktien- und FX-Kursen ist die Auto-Correlation der Returns (nicht der Preise!) auf den meisten Zeitskalen statistisch nicht von Null zu unterscheiden. Das ist seit Fama empirisch sehr gut belegt.

Konkret: wenn ich ein ARIMA(p,d,q)-Modell auf SPY-Tages-Returns anpasse, bekomme ich Out-of-Sample einen R² nahe Null. Manchmal positiv, manchmal negativ — im Mittel nutzlos. Das ist keine Lücke der Methode, sondern eine Eigenschaft des Marktes.

Trotzdem zeigen YouTube-Tutorials regelmäßig „ARIMA forecastet AAPL-Kurs". Was sie zeigen, ist meist eines von zwei Dingen:

Wo klassische Methoden funktionieren.

Es gibt drei Anwendungsbereiche, wo ARIMA und Verwandte tatsächlich Wert liefern:

1. Volatilität.

Im Gegensatz zu Returns hat die quadrierte Return-Reihe deutlich stärkere Auto-Correlation (Volatility-Clustering). GARCH(1,1) — ein autoregressives Modell auf Varianz — funktioniert messbar, mit Out-of-Sample-R² oft im Bereich 0,1 bis 0,3. Das ist nicht spektakulär, aber genug für Optionspreis-Anpassungen, Risk-Sizing und Vola-Trading.

2. Volumen.

Tagesvolumen folgt klaren saisonalen Mustern (Wochentage, Uhrzeiten, vor/nach Earnings). Hier ist Forecasting machbar und für VWAP-Slicing-Algorithmen (institutionelle Execution) essentiell.

3. Makro-ökonomische Daten.

CPI, Arbeitsmarktdaten, GDP-Wachstum — diese Zeitreihen haben echte Auto-Correlation und Saisonalität. ARIMA und Prophet leisten dort tatsächlich Vorhersagen, die signifikant besser sind als naive Modelle.

LSTM und Transformer: Hype vs. Realität.

Deep-Learning-Modelle versprechen, nichtlineare Muster zu erkennen, die ARIMA übersieht. Klingt großartig. Drei Probleme in der Praxis:

  1. Datenmenge. Ein typisches LSTM braucht Tausende bis Millionen Beispiele, um stabil zu lernen. Tages-Returns von 30 Jahren = ~7500 Datenpunkte. Das ist für Bildverarbeitung Spielzeug — und für Trading viel zu wenig, um nicht zu overfitten.
  2. Stationarität. Marktregime ändern sich. Ein 2010-2020-LSTM lernt Eigenschaften, die 2021-2025 nicht mehr gelten. Re-Training hilft, löst das Problem aber nicht grundsätzlich.
  3. Signal-to-Noise. Selbst wenn nichtlineare Muster existieren, ist ihr Beitrag gegenüber dem Rauschen winzig. LSTMs lernen das Rauschen mit, was zu instabilen Live-Performances führt.

Akademische Papers, die LSTM-Outperformance zeigen, haben fast immer eines (oder mehrere) der folgenden Probleme:

Wenn Sie eine Trading-LSTM-Studie ohne dokumentierten Walk-Forward, ohne realistische Kostenannahmen und ohne Code-Veröffentlichung sehen, gehen Sie davon aus, dass die Ergebnisse live nicht reproduzierbar sind.

Konkretes Beispiel: VIX mit ARIMA-GARCH.

Ein realistisches Anwendungsbeispiel: Forecast der impliziten Volatilität (VIX) für kurze Horizonte. VIX hat starke Mean-Reversion und Vola-Clustering. Hier funktioniert das Setup:

# VIX-Forecast mit ARIMA-GARCH
import yfinance as yf
import numpy as np
from arch import arch_model
from statsmodels.tsa.arima.model import ARIMA

vix = yf.download('^VIX', start='2015-01-01')['Close']
log_vix = np.log(vix)
returns = log_vix.diff().dropna() * 100

# Mittelwert-Modell: ARIMA(1,0,1)
arima = ARIMA(returns, order=(1,0,1)).fit()
resid = arima.resid

# Varianz-Modell: GARCH(1,1) auf den Residuen
garch = arch_model(resid, vol='Garch', p=1, q=1).fit(disp='off')

# 5-Tages-Forecast
mean_fc = arima.forecast(steps=5)
vol_fc  = garch.forecast(horizon=5).variance.iloc[-1].values ** 0.5

print("Erwarteter Return:", mean_fc.values)
print("Erwartete Vola   :", vol_fc)

Solche Modelle haben echte, wenn auch bescheidene Edge — Out-of-Sample-Korrelation von Forecast und tatsächlichem VIX-Move im Bereich 0,2 bis 0,4. Das reicht, um Vola-Strategien (Short-VIX bei hoher prognostizierter Mean-Reversion, Long-VIX bei Cluster-Beginn) sinnvoll zu informieren.

Wo ML im Trading wirklich Mehrwert liefert.

Meine Erfahrung aus mehreren Mandanten-Projekten:

Was ML nicht gut kann: morgen vorhersagen, ob SPY steigt oder fällt. Das geht seit Jahrzehnten nicht und wird auch in absehbarer Zeit nicht gehen.

Meine ehrliche Praxis.

Ich nutze ML in meinen eigenen Systemen — aber nie als Kurs-Forecaster. Konkret: ein GARCH-Modell für die erwartete Tagesvola, daraus dynamisches Position-Sizing; ein Gradient-Boosting-Modell für Regime-Klassifikation; ein simples Logit-Modell für Setup-Filterung. Die zugrundeliegenden Entry-Signale kommen aus klassischer Markt-Mikrostruktur und Indikator-Logik. ML ist Beiwerk — gutes, aber Beiwerk.

Wer mit der umgekehrten Erwartung kommt („baue mir ein LSTM, das den DAX vorhersagt"), bekommt von mir zwei Sätze und eine Empfehlung: die zwei Sätze fassen den Stand der empirischen Forschung zusammen. Die Empfehlung lautet: investieren Sie die ML-Energie in Volatilität, Volumen, Regime — dort liegt Edge, die replizierbar ist.

Sie wollen wissen, wo ML in Ihrem Trading-Setup tatsächlich Wert bringt? Erstgespräch buchen — wir grenzen Hype und Realität sauber ab.