Two Sigma: Daten-Wissenschaft als Trading-Vorteil.
Two Sigma ist mit rund 60 Milliarden Dollar AUM einer der größten systematischen Hedgefonds der Welt — und vermutlich der mit der offensten Forschungs-Kultur. Was David Siegel und John Overdeck seit 2001 aufgebaut haben, ist weniger ein Trading-Fonds als eine Daten-Firma, die zufällig auf Märkten arbeitet.
Die Gründer-Geschichte.
David Siegel kommt aus dem MIT-AI-Lab und war CIO bei Tudor Investment. John Overdeck war Vice-President bei D.E. Shaw, später leitete er bei Amazon das Search-Team. Beide bringen denselben Hintergrund mit: Mathematik, Computer Science, große Daten-Probleme.
Sie gründen Two Sigma 2001 mit einer simplen These: die nächste Welle von Alpha kommt nicht aus klassischen Bilanz-Analysen, sondern aus alternativen Datenquellen plus skalierbarer Compute. Zwei Jahrzehnte später hat sich das als richtig erwiesen — auch wenn die Skalen-Effekte dieses Edges heute kleiner sind als 2010.
Alternative Daten als Kern-Edge.
Two Sigma hat früh in alternative Datenquellen investiert, die andere damals noch ignoriert haben. Öffentlich bestätigte Datentypen:
- Satellite-Imagery: Parkplatz-Belegung bei Walmart, Tank-Füllstände bei Ölraffinerien, Container-Volumen in Häfen.
- Credit-Card-Transaktionen: anonymisierte Konsumdaten von Drittanbietern als Frühindikator für Quartalsumsätze.
- Social-Media-Sentiment: Twitter-, Reddit-, später Bluesky-Streams, NLP-prozessiert.
- Web-Scraping: Job-Postings als Indikator für Unternehmens-Expansion, Produkt-Preise als Inflations-Frühindikator.
- Mobile-Location-Daten: Foot-Traffic bei Retailern (vor den DSGVO/CCPA-Verschärfungen).
Wichtiger Kontext: alternative Daten kosten Geld. Ein Satelliten-Feed für Parkplätze liegt im sechsstelligen Bereich pro Jahr. Credit-Card- Aggregator-Daten ebenso. Das lohnt sich erst ab einer AUM-Größe, ab der ein paar Basispunkte Alpha auf Hunderte Millionen Dollar wirken — also grob ab 1 Milliarde Dollar AUM aufwärts.
Machine Learning, aber mit harter Validierung.
Two Sigma nutzt Machine Learning seit den frühen 2000ern — lange bevor Deep Learning Mainstream wurde. Was sie besser machen als die meisten: sie publizieren ihre Validierungs-Methodik teilweise (auf der Two-Sigma- Research-Seite und in Konferenz-Talks).
Kern-Prinzipien aus deren Material:
- Walk-Forward statt klassische Train/Test-Splits. Daten haben Zeitstruktur — Standard-Crossvalidation lügt.
- Combinatorial Purged Cross-Validation (Lopez de Prado, der einige Jahre bei Tudor und AQR war): entfernt Sample-Overlap, das ML-Modelle in der Finanz-Domain trügerisch gut aussehen lässt.
- Multiple Hypothesis Testing korrigieren: wer 1000 Modelle testet, findet immer eines, das aussieht wie Alpha. Bonferroni- oder Deflated-Sharpe-Korrekturen sind Pflicht.
Wer in der Finanz-Domain ML einsetzt und diese drei Punkte ignoriert, backtest-übertrainiert sich in den Ruin. Das ist nicht Theorie — das ist die häufigste Todesart von Quant-Strategien.
Forschungs-Kultur als Edge.
Two Sigma beschäftigt offen kommunizierte ~2000 Mitarbeiter, ein beträchtlicher Teil davon in Research. Es gibt eine „Two Sigma Academy" für interne Weiterbildung, jährliche Forschungs-Konferenzen, und zeitweise eine Crowd-Sourced-Plattform (Halite, früher) zum Recruiting von Quant-Talent.
Der Kern-Gedanke: Forschung ist kein Nebenprodukt von Trading, sondern die Pipeline, aus der Trading-Ideen entstehen. Wenn Sie keine Forschungs-Infrastruktur haben, haben Sie keinen Nachschub an neuen Strategien — und alle existierenden Strategien dekapitalisieren sich mit der Zeit.
Lektion 1: alternative Daten haben eine Mindest-AUM.
Ich sage Mandanten regelmäßig: vergessen Sie Satelliten-Daten, vergessen Sie Credit-Card-Feeds. Unter 50 Millionen Dollar AUM machen diese Datenquellen ökonomisch keinen Sinn — die Lizenzkosten fressen den Edge.
Was funktioniert auf Privat-Skala:
- Öffentliche Daten kreativ kombiniert: SEC-Filings via EDGAR-API, FRED-Makrodaten, Wetterdaten von NOAA.
- Reddit/Bluesky-Sentiment via kostenlose APIs — funktioniert für sehr spezifische Tickers (z. B. Meme-Stock-Detection).
- Eigene Web-Scrapes (z. B. Online-Preise als Inflations-Indikator).
Das ist nicht so mächtig wie ein Two-Sigma-Feed — aber es ist proprietär (niemand sonst hat genau Ihre Pipeline) und es kostet nichts außer Ihrer Zeit.
Lektion 2: ML braucht Methodik, nicht Modell-Komplexität.
Die meisten Privat-Quants nutzen ML falsch. Sie nehmen XGBoost oder ein Neural-Network, füttern technische Indikatoren rein, machen Standard- Crossvalidation, sehen einen Sharpe von 2.5 im Backtest und gehen live. Drei Monate später: -30 % Drawdown.
Was hilft: simpleres Modell (Logistic Regression, Gradient Boosting auf wenigen, gut motivierten Features), aber mit sauberer Walk-Forward- Validation, Purging, und korrigiertem Sharpe nach Multiple-Testing. Lopez de Prados Buch „Advances in Financial Machine Learning" (2018) ist hier Pflichtlektüre.
Lektion 3: Forschungs-Pipeline aufbauen, auch als Einzel-Trader.
Sie können nicht 100 Researcher beschäftigen. Aber Sie können eine Routine etablieren:
- Eine neue Hypothese pro Monat formulieren — schriftlich, mit klaren Erwartungen.
- Diese Hypothese sauber backtesten, dokumentieren, ablegen.
- Erfolgreich verifizierte Strategien in einen Inkubator (kleines Live-Geld) für 3–6 Monate.
- Erst danach in die produktive Allokation.
Das ist keine glamouröse Arbeit. Aber sie ist der Unterschied zwischen einem Trader, der in 5 Jahren noch da ist, und einem, der nicht mehr da ist.
Was Sie nicht von Two Sigma übernehmen können.
Compute-Skala. Two Sigma betreibt eigene Rechenzentren, hat Verträge mit allen großen Cloud-Anbietern, kann Petabyte an Daten in vernünftiger Zeit verarbeiten. Sie haben einen Laptop oder eine kleine Cloud-Instanz. Akzeptieren Sie das und denken Sie in den Skalen, die Sie wirklich haben: kleine Datenmengen, einfachere Modelle, aber dafür Patterns, die wegen ihrer Nische nicht von Two Sigma weggekauft werden.
Mein persönlicher Take.
Two Sigma ist faszinierend, weil sie zeigen, dass auch in einer Welt mit Renaissance, Citadel und D.E. Shaw noch Platz für einen Newcomer war — wenn man eine neue Daten-Klasse als erstes systematisch verarbeitet. Diese „neue Daten-Klasse" hat es 2001 mit alternativen Daten gegeben, sie gibt es 2020 mit Large-Language-Modellen für Earnings-Calls, und sie wird es in 2030 mit etwas geben, das wir heute noch nicht kennen.
Für Sie als Privat-Quant heißt das: nicht mit den Großen auf deren Feld kämpfen. Nische finden, in der Sie strukturell schneller oder kreativer sein können — und dort sauber arbeiten.
Sie wollen ML im Trading-Setup einsetzen, aber mit sauberer Methodik? Erstgespräch buchen — wir besprechen Ihre Pipeline und Validierung.