10 Min. Lesezeit · KI · Oktober 2029

KI für Alpha-Discovery: kann ML neue Strategien finden?

Die Vorstellung ist verführerisch: Sie werfen 20 Jahre Marktdaten in ein Modell, drücken den Knopf, und am Ende fällt eine neue, profitable Strategie heraus. So funktioniert es in der Realität nicht. Aber ML hat einen Platz im Alpha-Prozess — er ist nur enger, als die Marketing-Decks suggerieren.

Was Alpha-Discovery eigentlich ist.

Alpha-Discovery ist die systematische Suche nach Edges: nach statistischen Mustern, die nach Kosten und Risiko-Adjustierung eine Überrendite gegenüber einer Benchmark liefern. Das klingt mathematisch sauber — in der Praxis ist es Detektivarbeit zwischen Datenrauschen, Survivorship-Bias und Strategie-Crowding.

Klassisch laufen Alpha-Researcher mit Hypothesen los: „Aktien mit fallendem Analysten-Konsens und gleichzeitig steigenden Insider-Käufen schneiden über 60 Tage besser ab." Daten holen, Backtest bauen, prüfen, ob es nach Transaktionskosten überlebt. Die meisten Hypothesen sterben hier. ML kommt ins Spiel, wenn die Frage lautet: kann eine Maschine diese Hypothesen selbst generieren?

AutoML für Trading-Strategien.

Tools wie TPOT, AutoKeras, H2O AutoML oder AutoGluon versprechen automatisierte Modell-Suche. Sie probieren tausende Kombinationen von Feature-Transformationen, Algorithmen und Hyperparametern durch. Für klassische ML-Probleme (Kreditrisiko, Bildklassifikation) liefern sie ordentliche Baselines.

Für Trading-Daten kollabiert der Ansatz häufig. Die Gründe:

Signal-zu-Rausch-Verhältnis: in vielen Asset-Klassen liegt der Anteil erklärbarer Varianz im einstelligen Prozentbereich. AutoML überpasst dieses Rauschen mit Begeisterung.
Stationaritäts-Annahmen: AutoML geht davon aus, dass Training und Test aus derselben Verteilung kommen. Märkte sind nicht stationär.
Cross-Validation-Designs: Standard-k-Fold leakt Information über die Zeitachse. Wer das nicht durch Purged-k-Fold oder Walk-Forward ersetzt, bekommt traumhafte In-Sample-Zahlen und reale Verluste.

Genetic Programming — die alte Idee, die wiederkommt.

Genetic Programming (GP) durchsucht den Raum mathematischer Ausdrücke nach profitablen Formeln. Statt eines Modells erhalten Sie eine Strategie als Formel: signal = ts_rank(volume, 20) - corr(close, vwap, 10) und ähnliche WorldQuant-artige Alpha-Expressions.

Marcos Lopez de Prado warnt seit Jahren laut davor — und seine Warnung ist berechtigt. Wenn Sie Millionen von Formeln testen und die beste auswählen, finden Sie zwangsläufig eine, die in-sample brilliert. Das ist kein Edge, das ist Selektion auf Rauschen. Die berühmten 101 Alphas von WorldQuant sind nicht „durch GP entdeckt" worden, sondern Hypothesen-getrieben kuratiert.

GP kann trotzdem nützlich sein — als Hypothesen-Generator. Die Ausgaben sind nicht handelbare Strategien, sondern Kandidaten für menschliche Plausibilitätsprüfung. Wer das vermischt, betreibt Data-Mining mit besserer PR.

Feature-Engineering automatisieren.

Wo ML im Alpha-Research tatsächlich Wert liefert, ist Feature-Engineering — nicht Strategie-Suche. Beispiele aus der Praxis:

Embedding von Earnings-Calls: LLM-Embeddings der Call-Transkripte als Feature in einem klassischen Faktormodell. Erfasst Management-Tonalität ohne handcodiertes Sentiment-Lexikon.
Order-Flow-Features aus L2-Daten: Mikrostruktur-Features (Imbalance, Trade-Sign-Autokorrelation) werden klassisch berechnet — ML hilft bei der Komprimierung in dimensionsärmere Signale.
Regime-Klassifikation: HMMs oder Clustering auf makroökonomischen Indikatoren liefern Regime-Labels, die in klassische Strategien als Gate eingehen.

Das Muster: ML erzeugt Features, klassische Statistik testet, ob diese Features einen Edge tragen. Nicht umgekehrt.

Die Multiple-Testing-Falle.

Die fundamentale Falle aller Alpha-Discovery: wenn Sie genug Hypothesen testen, finden Sie zufällig welche, die signifikant aussehen. Bei einem Signifikanzniveau von 5 % und 1000 getesteten Strategien erwarten Sie 50 falsche Positive.

Werkzeuge dagegen:

Bonferroni-Korrektur: einfach, aber konservativ. Wenn Sie 100 Strategien testen, brauchen Sie p < 0,0005 für 5 %-Niveau.
Benjamini-Hochberg (FDR): kontrolliert die False-Discovery-Rate statt der familywise error rate. Weniger streng, oft sinnvoller.
Deflated Sharpe Ratio (Lopez de Prado): adjustiert den Sharpe explizit für die Anzahl getesteter Varianten und für Non-Normalität der Returns. Ein Sharpe von 1,5 in-sample bei 200 getesteten Varianten kann nach Deflation negativ werden.

Wer ohne diese Korrekturen veröffentlicht, verkauft Folklore. Wer mit diesen Korrekturen testet, verliert die meisten Strategien — und das ist der Punkt.

Konkrete Beispiele aus der Praxis.

Drei Beispiele aus eigenen und beobachteten Projekten:

GP auf Equity-Faktoren: 6 Monate Setup, 50.000 generierte Formeln, Top-10 nach In-Sample-Sharpe ausgewählt. Out-of-Sample-Performance der Top-10: durchschnittlich Sharpe nahe Null. Ehrliches Ergebnis nach Deflation: keine signifikante Strategie.
AutoML auf Crypto-Minuten-Daten: AutoGluon mit ~80 Features, Train/Test gesplittet ohne Purging. In-Sample 73 % Trefferquote, Live: 49 %. Klassisches Leakage durch überlappende Label-Windows.
LLM-Embeddings als Faktor: Embedding-Distanz zwischen aktuellem Earnings-Call und historischen Calls als Faktor. Modest, aber signifikant — Sharpe-Beitrag ~0,2 in einem Multi-Faktor-Modell. Das ist ein realistisches ML-Ergebnis.

Meine ehrliche Bewertung.

ML findet selten neuen Alpha. Was es gut kann: bekannten Alpha besser ausnutzen — durch bessere Feature-Repräsentation, robusteres Sizing, präzisere Regime-Erkennung. Wer mit der Erwartung startet, eine Maschine entdecke eine unbekannte Edge, hat das Problem missverstanden.

Mein Workflow: Hypothesen kommen aus Marktverständnis, ML hilft beim Testen und beim Bauen besserer Features. Genetic Programming nutze ich höchstens als Brainstorming-Werkzeug, nie als Entscheidungsgrundlage. Deflated Sharpe ist Pflichtlektüre, kein Add-on.

Wer Alpha-Discovery ernsthaft betreiben will, sollte ein Drittel der Zeit ins Test-Design investieren — und nur ein Drittel ins Modell. Das letzte Drittel verbringt man damit, sich von Strategien zu verabschieden, die nur nach Glück aussahen.

Sie evaluieren ML-basierte Strategie-Suche und wollen wissen, was realistisch ist? Erstgespräch buchen — wir prüfen Test-Design, Korrekturen und Erwartungshaltung.