AutoML für Trading-Strategien: was funktioniert, was Bullshit ist.
„Lade deine Daten hoch, klicke ‚Train', und in einer Stunde hast du eine profitable Handelsstrategie." So verkauft sich AutoML — auf Tabellen-Daten in sauber abgegrenzten Aufgaben funktioniert es tatsächlich erstaunlich gut. Auf Marktdaten funktioniert es nicht. Hier ist, warum — und wo es trotzdem nützlich ist.
Was AutoML eigentlich macht.
AutoML-Frameworks — H2O AutoML, Auto-sklearn, FLAML, AutoGluon, PyCaret — automatisieren den ML-Workflow: Feature-Preprocessing, Modell-Auswahl (XGBoost, LightGBM, CatBoost, Random Forest, Linear-Modelle, oft auch NNs), Hyperparameter-Tuning per Bayesian-Optimization oder Random-Search, und Ensemble-Stacking am Ende.
Auf klassischen Tabellen-Datasets (Kreditrisiko, Kundenabwanderung, Predictive Maintenance) ist das hervorragend — meist auf dem Niveau eines erfahrenen ML-Ingenieurs, in einem Bruchteil der Zeit. Auf Finanzdaten ist es eine andere Geschichte.
Drei strukturelle Probleme.
1. Kein Verständnis von Zeitreihen.
Die meisten AutoML-Tools nehmen Zeilen als unabhängige Stichproben. Default-CV ist k-fold Random-Split — was bei Zeitreihen Look-Ahead-Bias direkt einbaut. Wer das nicht manuell auf Time-Series-Split umstellt, trainiert ein Modell, das aus der Zukunft lernt und in der Vergangenheit getestet wird. AutoGluon und FLAML haben inzwischen TimeSeries-Module, aber selbst die bauen auf Annahmen (regelmäßige Frequenz, stationäre Targets), die für Trading-Returns nicht gelten.
2. Hyperparameter-Tuning ist Overfitting-Beschleuniger.
Jeder Hyperparameter-Trial ist ein „Versuch, in den Daten zu finden, was funktioniert". Bei 1.000 Trials und einem Bayesian-Optimizer findet das Tool im Backtest etwas — fast garantiert. Das Problem: dieses Etwas ist im Out-of-Sample meist verschwunden. Das ist das klassische „Backtest-Overfitting" von Marcos López de Prado, auf Industriemaßstab gehoben.
3. Keine Bias-Korrekturen.
AutoML-Tools wissen nichts über Survivor-Bias, Point-in-Time-Daten, Restated-Earnings, oder Look-Ahead durch verspätet veröffentlichte Daten. Sie nehmen die Tabelle, die man ihnen gibt. Wenn diese Tabelle systematische Biases enthält — was sie bei naiver Datenaufbereitung fast immer tut — verstärkt AutoML diese Biases zur sicheren Backtest-Performance.
Ein illustrativer Fehlerlauf.
Was passiert konkret, wenn man naiv AutoML auf Marktdaten loslässt? Beispielhafter Workflow, wie ich ihn in Mandanten-Audits regelmäßig sehe:
from flaml import AutoML
import pandas as pd
df = pd.read_parquet('features.parquet') # 200 technische Indikatoren
X, y = df.drop('fwd_ret_5d', axis=1), df['fwd_ret_5d']
automl = AutoML()
automl.fit(X, y, task='regression', time_budget=3600,
metric='r2', estimator_list=['lgbm', 'xgboost', 'rf'])
print(automl.best_estimator, automl.best_loss)
# > r2 = 0.32, scheinbar großartig
R² von 0,32 auf Forward-Returns klingt sensationell. In 95 % der Fälle, die ich gesehen habe, fällt dieser Wert bei sauberem Walk-Forward auf R² zwischen -0,02 und +0,03 — also weitgehend wertlos. Die Ursachen: random k-fold statt Time-Series-Split, korrelierte Targets durch überlappende 5-Tages-Forward-Returns, und Features, die implizit Zukunfts-Information enthalten (z. B. Z-Score mit globalem Mean).
Wo AutoML trotzdem nützlich ist.
Ich verwende AutoML in der Praxis — aber nicht für End-to-End-Strategie-Generierung. Sondern für drei eng definierte Zwecke:
1. Baseline-Generierung.
Bevor ich Stunden in ein eigenes Modell investiere, lasse ich AutoML kurz laufen. Das gibt mir eine Baseline, gegen die meine Handarbeit antreten muss. Wenn mein handgetuntes XGBoost nicht signifikant besser ist als die AutoML-Baseline, ist mein Setup falsch oder das Problem zu schwer.
2. Feature-Selection.
AutoML-Modelle liefern Feature-Importances aus Ensembles. Das gibt mir eine schnelle Sicht, welche Features die Tools konsistent als nützlich einstufen — über verschiedene Algorithmen hinweg. Das ist robuster als ein einzelnes XGBoost.
3. Exploration und Sparring.
Beim Erkunden neuer Datasets ist AutoML mein Sparringspartner: was ist überhaupt an Signal in den Daten? Welche Modellklassen funktionieren? Sind die Verbesserungen über naive Baselines real? AutoML beantwortet diese Fragen schneller als jede manuelle Pipeline.
Der saubere AutoML-Trading-Workflow.
Wer AutoML im Trading-Kontext einsetzen will, ohne sich selbst zu betrügen, hält sich an einen Workflow, der die strukturellen Probleme adressiert:
- Time-Series-CV erzwingen. Expanding-Window oder Walk-Forward. Niemals random k-fold.
- Purging und Embargo. Zwischen Train- und Test-Folds Abstand lassen, der mindestens dem Forward-Horizont des Targets entspricht.
- Realistische Targets. Nicht „Return in 5 Tagen", sondern „Risiko-adjustierter Return abzgl. Transaktionskosten". Schwieriger, aber ehrlich.
- Strenge Budget-Grenzen. Nicht 24 h Tuning, sondern 1–2 h. Mehr Trials = mehr Overfitting an die CV.
- Nested CV. Inneres CV für Hyperparameter, äußeres CV für ehrliche Performance-Schätzung. Aufwendig, aber unverzichtbar.
- Out-of-Time-Holdout. Letzte 12–24 Monate komplett zur Seite legen, einmal am Ende anfassen. Nie zum Modell-Auswählen verwenden.
Wer das diszipliniert macht, verliert vielleicht 80 % der scheinbaren Backtest-Performance — und gewinnt eine realistische Einschätzung dessen, was das Modell wirklich kann.
AutoML-Tools im Vergleich (kurze ehrliche Sicht).
- H2O AutoML: robust, gut dokumentiert, aber recht starr. Time-Series-Support eingeschränkt. Solide Baseline-Wahl.
- FLAML: schnell, lightweight, gute API. Hyperparameter-Optimization ist effizient. Mein Default für Exploration.
- AutoGluon: aktuell stärkstes Ensemble-Stacking. Das eingebaute AutoGluon-TimeSeries-Modul ist brauchbar für klassisches Forecasting, weniger für Trading-Targets.
- Auto-sklearn: akademisch hochwertig, in Production-Setups eher selten geworden.
Meine Praxis.
AutoML ist in meinem Werkzeugkasten — als Baseline, als Feature-Selektor, als Exploration-Tool. Nicht als Stand-Alone-Strategie-Generator. Wer mir „eine AutoML-generierte Trading-Strategie" verkaufen will, bekommt von mir zwei Fragen: (1) zeige den Out-of-Time-Holdout-Score, der nie zum Auswählen verwendet wurde, und (2) zeige das Walk-Forward-Setup im Detail.
Wenn diese beiden Fragen nicht sauber beantwortet sind, ist das Setup mit hoher Wahrscheinlichkeit Schein-Performance. Ich schätze, dass 95 % der „AutoML-Trading-Strategien", die in den letzten Jahren öffentlich beworben wurden, an genau dieser Hürde scheitern. AutoML als Sparring — ja. Als Endgegner — nein.
Sie haben ein AutoML-Setup, das im Backtest überzeugt — und im Live-Trading enttäuscht? Erstgespräch buchen — wir finden den Bias.