11 Min. Lesezeit · ML · Januar 2033

Transformer-Architekturen für Marktdaten: was nach RNNs kommt.

Seit „Attention Is All You Need" 2017 haben Transformer NLP, Vision und Audio neu definiert. Für Marktdaten ist das Bild deutlich nuancierter. Wo Transformer wirklich helfen, wo sie Compute verbrennen — und warum sie RNNs nicht so klar dominieren, wie viele behaupten.

Mandanten fragen mich regelmäßig: „Sollen wir nicht endlich auf Transformer umstellen?" Die Antwort hängt davon ab, was Sie modellieren — und vor allem, wie viele Daten Sie haben. Bei Marktdaten ist die Antwort öfter „nein" als gedacht.

Was Transformer anders machen.

RNNs (inkl. LSTM und GRU) verarbeiten eine Sequenz Schritt für Schritt. Information aus weit zurückliegenden Zeitpunkten muss durch alle Zwischenzustände propagieren — und verblasst dabei. Das ist das berühmte Vanishing-Gradient-Problem, das LSTMs nur teilweise lösen.

Transformer machen das anders. Self-Attention erlaubt jedem Zeitpunkt, direkt jeden anderen Zeitpunkt in der Sequenz anzuschauen — gewichtet nach Relevanz. Es gibt keine sequenzielle Propagation, alle Positionen werden parallel verarbeitet. Das ist enorm flexibel: das Modell kann lernen, dass der Volatilitäts-Spike vor 200 Bars für die heutige Vorhersage wichtiger ist als der Bar von gestern.

Das O(n²)-Problem.

Diese Flexibilität kostet. Self-Attention vergleicht jede Position mit jeder anderen — das ist quadratisch in der Sequenzlänge. Bei einer Sequenz von 1000 Schritten sind das 1 Million Attention-Scores pro Layer. Bei 10000 Schritten 100 Millionen. RNNs sind dagegen linear in der Sequenzlänge.

Für NLP ist das egal — Sätze sind kurz. Für Marktdaten ist es problematisch, weil interessante Pattern oft über lange Sequenzen laufen (Wochen, Monate von Tages-Bars). Es gibt drei Strategien gegen das O(n²)-Problem:

Sparse Attention (Longformer, BigBird): nur lokale Nachbarn plus wenige globale Anker beachten — O(n log n).
Linear Transformers (Performer, Linformer): Approximation der Attention mit linearer Komplexität.
Patching (PatchTST): die Zeitreihe in größere „Patches" (z. B. 16 Bars) gruppieren und nur die Patches attention-verbinden — drastisch reduzierte Sequenzlänge.

Time-Series-spezifische Architekturen.

Drei Architekturen, die ich in der Praxis evaluiert habe:

Temporal Fusion Transformer (TFT)

Von Google Research, 2019. Kombiniert LSTM-Komponenten für lokale Sequenz-Aufnahme mit Multi-Head- Attention für lange Zusammenhänge. Plus: explizite Trennung von statischen Kovariaten, bekannten zukünftigen Inputs (z. B. Kalender) und unbekannten zukünftigen Inputs (Preise). Stärke: interpretierbar — Sie können nachträglich anschauen, welche Features das Modell wie gewichtet hat.

Informer

AAAI 2021, optimiert für sehr lange Forecast-Horizonte. Nutzt ProbSparse-Attention (nur die wichtigsten Query-Key-Paare) und einen Distilling-Mechanismus, der die Sequenz Layer-für-Layer verkürzt. In Benchmarks häufig besser als TFT bei Forecast-Horizont > 200 Schritte.

PatchTST

ICLR 2023. Vermutlich der derzeit pragmatischste Ansatz: Zeitreihe in Patches schneiden, jeder Channel (z. B. jeder Asset) wird unabhängig modelliert, dann mit Vanilla-Transformer-Encoder verarbeitet. Einfach, gut, und in vielen Benchmarks State-of-the-Art.

Anwendung: Multi-Asset-Forecasting.

Ein typisches Setup, in dem Transformer Mehrwert bringen können: Multi-Asset-Forecasting. Sie wollen für 50 ETFs simultan die nächsten 5-Tages-Returns prognostizieren. Cross-Asset-Information (was macht Gold, wenn USD-JPY steigt?) ist relevant.

Encoder-Decoder-Setup:

Encoder: nimmt die letzten 60 Tage aller 50 Assets als 50-Channel-Sequenz, lernt Cross-Asset-Embeddings.
Decoder: autoregressiv für die nächsten 5 Tage, mit Cross-Attention zum Encoder.
Loss: Quantile-Regression-Loss (10 / 50 / 90 Perzentil) — gibt Ihnen direkt eine Unsicherheitsschätzung.

Code-Snippet mit HuggingFace.

# Vereinfachtes Setup mit HuggingFace TimeSeriesTransformer
from transformers import TimeSeriesTransformerConfig, TimeSeriesTransformerForPrediction
import torch

config = TimeSeriesTransformerConfig(
    prediction_length=5,         # 5-Tages-Forecast
    context_length=60,           # 60 Tage Eingabe
    input_size=50,               # 50 Assets simultan
    num_time_features=4,         # Wochentag, Monat, Quartal, Year-of-Sample
    d_model=128,
    encoder_layers=4,
    decoder_layers=4,
    encoder_attention_heads=8,
    decoder_attention_heads=8,
    dropout=0.2,
    distribution_output="student_t",  # schwere Tails statt Normal
)
model = TimeSeriesTransformerForPrediction(config)

# Training mit klassischem Trainer-Loop
optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4)
for batch in train_loader:
    out = model(
        past_values=batch["past_values"],
        past_time_features=batch["past_tf"],
        past_observed_mask=batch["past_mask"],
        future_values=batch["future_values"],
        future_time_features=batch["future_tf"],
    )
    out.loss.backward()
    optimizer.step()
    optimizer.zero_grad()

Vergleich gegen ARIMA und LSTM.

Wenn ich ehrlich bin: in Mandanten-Projekten ist das Ergebnis ernüchternd. Auf 5-Jahres-Daily- Datensätzen mit 50 Assets schlägt ein gut getunter Temporal Fusion Transformer einen LSTM- Baseline-Forecast um vielleicht 3 bis 8 Prozent MSE-Verbesserung. ARIMA mit gut gewählten Exogenen ist nur 10 bis 15 Prozent schlechter als der Transformer.

Das ist marginal. Und es ist ohne den 30-fachen Trainings-Compute, den der Transformer braucht. Bei kurzen Forecast-Horizonten (1–5 Tage) sind klassische Methoden auf Marktdaten oft wettbewerbsfähig — weil das Signal-zu-Rausch-Verhältnis so schlecht ist, dass die zusätzliche Modell-Kapazität hauptsächlich Rauschen anpasst.

Wann Transformer wirklich Mehrwert bringen.

Sehr viele Daten: Minuten- oder Tick-Daten über 5+ Jahre, mit Millionen von Trainings-Beispielen. Bei Tagesdaten (~1250 pro Jahr) ist die Kapazität verschwendet.
Heterogene Kovariaten: Sie haben strukturell unterschiedliche Inputs — Preise, Volumen, Sentiment-Scores, Makroindikatoren. Die Attention-Architektur kann das natürlich kombinieren.
Lange Forecast-Horizonte: 50+ Schritte voraus. Hier glänzen Informer und PatchTST.
Multi-Asset-Cross-Effekte: wenn Sie wirklich glauben, dass Asset A heute Asset B in 3 Tagen erklärt.

Pitfalls.

Drei häufige Fehler, die ich gesehen habe:

Overfitting: ein Transformer mit 1 Million Parametern auf 10000 Trainings-Beispielen overfittet garantiert. Regularisierung allein reicht nicht — Sie brauchen Daten-Augmentation, Drop-Path, frühes Stopping.
Compute-Bedarf: Hyperparameter-Suche für einen TFT auf 50 Assets braucht GPU-Tage. Wenn Sie das mit Walk-Forward-Validierung kombinieren wollen, sprechen wir von Wochen.
Falsche Erwartung: viele Mandanten erwarten den NLP-Sprung („GPT für Trading"). Den gibt es bei Marktdaten nicht — das Signal ist zu schwach, die Stichproben zu klein.

Meine Praxis.

Ich nutze Transformer nur in zwei Szenarien: erstens bei intraday-Strategien mit massiven Daten mengen (Tick-Daten, mehrjährig), zweitens bei Multi-Asset-Setups mit reichen Kovariaten. Für alles andere bleibe ich bei Gradient Boosting (LightGBM, XGBoost) als Feature-zu-Label-Modell — oft mit Triple-Barrier-Labels und Meta-Labeling-Architektur.

Transformer sind ein Werkzeug, kein Ziel. Wenn sie helfen, super — wenn nicht, ist ein simpler LightGBM-Klassifizierer oft 50-mal schneller zu trainieren und nicht messbar schlechter. Die ehrliche Einschätzung 2033: Transformer schlagen klassische Methoden auf Marktdaten marginal, sie dominieren sie nicht.

Sie überlegen, ob Transformer für Ihr Trading-Setup Sinn ergeben? Erstgespräch buchen — wir schauen ehrlich auf Datenmenge und Compute-Budget.