11 Min. Lesezeit · Mikrostruktur · August 2033

Limit Order Book Modeling: was das Buch wirklich verrät.

Der Limit Order Book ist das Nervensystem moderner Märkte. Wer ihn lesen kann, sieht mehr als nur einen Preis: er sieht die Absichten der Marktteilnehmer, das echte Angebot und die echte Nachfrage, latente Liquidität und toxischen Flow. Die Werkzeuge dafür — von Cont-Stoikov über VPIN bis Queue-Reactive Models — sind in der akademischen Literatur exzellent dokumentiert. In der Praxis aber bleibt LOB-Modeling den großen Playern vorbehalten. Hier ein ehrlicher Überblick: was geht, was nicht, und für wen.

Die LOB-Datenstruktur.

Der Limit Order Book ist eine Liste aller offenen Limit-Orders auf der Buy- und Sell-Seite, sortiert nach Preis. Pro Side hat man Levels (typischerweise 10–50 tief), pro Level einen Preis und ein aggregiertes Volumen, und im Idealfall sogar eine Queue von Einzel-Orders mit Zeitstempel.

Drei Granularitäts-Stufen:

Level 1 (Top of Book): bester Bid und Ask plus Größen. Standard in fast jedem Marktdatenfeed.
Level 2 (Market Depth): aggregierte Größen pro Preislevel. Übliches Format bei den meisten Datenanbietern.
Level 3 (Order-by-Order): jede Einzelorder mit Zeitstempel, Position in der Queue. Sehr teuer, sehr selten zugänglich.

Tick-Daten zusätzlich: jeder Trade mit Zeitstempel, Preis, Größe, Side (sofern inferierbar). Trades sind das Resultat von Market Orders, die die LOB-Queue konsumieren — der dynamische Kontrast zum statischen Buch-Stand.

Cont-Stoikov (2008): das Standard-Modell.

Cont und Stoikov haben 2008 ein wegweisendes Paper veröffentlicht, das den LOB als Birth-Death-Prozess modelliert. Limit Orders kommen an mit Rate λ_L(δ), Market Orders mit Rate λ_M, Cancellations mit Rate λ_C(δ), wobei δ den Abstand vom Mid-Price beschreibt.

Aus diesem Mikro-Modell lassen sich makroskopische Eigenschaften ableiten: erwartete Spreads, Wahrscheinlichkeit für eine Mid-Price-Bewegung in einer gegebenen Zeit, erwartete Queue-Längen. Das Modell ist analytisch lösbar für einfache Fälle und simulierbar für komplexere.

Praktischer Wert: das Modell liefert eine theoretische Baseline, gegen die man tatsächliche Order-Flow-Beobachtungen vergleichen kann. Wenn empirische Werte systematisch von Cont-Stoikov abweichen, deutet das auf etwas Interessantes hin — informierte Trader, Manipulation, strukturelle Asymmetrien.

VPIN: Volume-Synchronized PIN.

Easley, López de Prado und O'Hara haben 2012 VPIN entwickelt — Volume-Synchronized Probability of Informed Trading. Idee: in Buckets gleicher Volumengröße (statt gleicher Zeit), Verhältnis aus „Buy-Volumen" und „Sell-Volumen" messen. Hohe Imbalance über mehrere Buckets = wahrscheinlich informierter Flow.

VPIN_τ = (1/n) Σ |V^B_i − V^S_i| / V

Das Schöne an VPIN: es funktioniert ohne LOB-Daten, nur aus Trade-Tick-Daten plus einer Bulk-Volume-Classification (z. B. Tick-Rule oder Wahrscheinlichkeits-basiert via standardized Returns).

import numpy as np
from scipy.stats import norm

def vpin(prices, volumes, bucket_size, window=50):
    # Bulk Volume Classification (standardized returns)
    returns = np.diff(np.log(prices))
    sigma = np.std(returns)
    z = returns / sigma
    buy_frac = norm.cdf(z)
    buy_vol = volumes[1:] * buy_frac
    sell_vol = volumes[1:] * (1 - buy_frac)

    # Volume Buckets
    cum_vol = np.cumsum(volumes[1:])
    bucket_idx = (cum_vol // bucket_size).astype(int)
    buckets_buy = np.bincount(bucket_idx, weights=buy_vol)
    buckets_sell = np.bincount(bucket_idx, weights=sell_vol)

    imbalance = np.abs(buckets_buy - buckets_sell)
    vpin_series = np.convolve(imbalance, np.ones(window)/window, mode='valid') / bucket_size
    return vpin_series

VPIN war angeblich ein Frühindikator für den Flash Crash 2010 — eine Behauptung, die in der akademischen Diskussion umstritten geblieben ist. Empirisch korreliert hoher VPIN mit anschließend erhöhter Volatilität, aber die Predictive Power für Direction ist gering. Brauchbar als Risk-Signal, weniger als Direktional-Trigger.

Order-Flow-Imbalance: das praktischste Feature.

Wenn ich genau ein LOB-Feature für ein Trading-System wählen müsste, wäre es Order-Flow-Imbalance (OFI):

OFI_t = ΔBid-Size_t − ΔAsk-Size_t (bei unveränderten Preisen, adjustiert für Preisbewegungen).

Cont, Kukanov und Stoikov haben 2014 gezeigt, dass OFI ein robuster linearer Prediktor für kurzfristige Preisänderungen ist. Über kurze Horizonte (Sekunden bis Minuten) erklärt OFI einen erstaunlich großen Anteil der Preisvarianz — höher als Lag-Returns, höher als naive Buy-Sell-Imbalance auf Trade-Ebene.

Praktische Anwendung: bei Order-Execution. Wenn Sie eine große Order zu zerlegen haben und OFI stark positiv ist, sollten Sie nicht aggressiv kaufen — der Druck wird den Preis ohnehin nach oben treiben. Better: passiv mit Limit-Orders ausführen. Umgekehrt bei negativem OFI für Buy-Orders.

Queue-Reactive Models.

Verfeinerung des Cont-Stoikov-Frameworks: Order-Arrival-Raten hängen nicht nur vom Abstand zum Mid, sondern auch von der Queue-Länge auf dem jeweiligen Level ab. Lange Queue → höhere Cancellation-Rate (HFTs ziehen sich zurück), niedrigere Arrival-Rate. Kurze Queue → das Gegenteil.

Huang, Lehalle und Rosenbaum (2015) haben dieses Modell formalisiert. In Practice für HFTs relevant — wer Posting-Strategien in der Queue baut, will wissen, wie sich seine Position in der Queue voraussichtlich entwickelt. Für mittel- bis langfristiges Trading irrelevant.

HFT-Anwendung: Tick-by-Tick Forecasting.

Auf Mikro-Skalen (Millisekunden bis Sekunden) sind LOB-Features prediktiv für die nächste Mid-Price-Änderung. Klassische Setups kombinieren OFI, Bid-Ask-Imbalance, Spread und Queue-Imbalance in einem linearen oder leichten Gradient-Boosted Modell.

Hit-Rates von 52–55 % sind erreichbar — was nach wenig klingt, aber bei Tausenden Trades pro Tag und schmalen Edges pro Trade ausreicht, sofern Latenz und Kosten unter Kontrolle sind. Hier liegt das eigentliche HFT-Geschäft.

Caveat: für Retail kaum zugänglich.

Der ehrliche Teil: LOB-Daten in brauchbarer Qualität sind teuer. NYSE TAQ kostet mehrere zehntausend Dollar pro Jahr. LOBSTER (akademischer NASDAQ-Datenextraktor) ist günstiger, aber für aktive Anwendung weiterhin in der vier- bis fünfstelligen Region. Real-Time-LOB-Feeds für Live-Trading? Sechsstellig aufwärts plus Co-Location-Kosten.

Daher: LOB-Modeling für Retail-Trader ist meist akademisches Hobby, kein praktisches Werkzeug. Wer kein professionelles Setup mit eigener Infrastruktur hat, kommt an die Granularität nicht heran, die LOB-Features lukrativ macht.

Datenquellen für ernsthafte Arbeit.

LOBSTER (academic): NASDAQ Level-3-Reconstructions. Gut für Research, eingeschränkter Symbolumfang, historisch.
NYSE TAQ: Standard für US-Equity-Research. Konsolidierte Trades und Quotes.
Refinitiv Tick-History, Algoseek, Databento: kommerzielle Anbieter mit Multi-Venue-LOB-Daten. Preis variiert stark, fünfstellig bis siebenstellig jährlich je nach Coverage.
Krypto: Binance, Coinbase, FTX-Legacy bieten kostenlose oder günstige Tick-Daten via API/Websocket. Die einzige Asset-Klasse, in der LOB-Modeling für kleine Setups realistisch ist.

Realistische Use-Cases.

Wo LOB-Modeling auch für mittlere Setups Sinn ergibt:

Execution-Improvement: nicht Forecasting, sondern smartes Routing und Timing eigener Orders. Spart auch ohne riesige Datentiefe Basispunkte pro Trade. In Aggregaten über ein Jahr signifikant.
Toxic-Flow-Avoidance: VPIN-light auf Trade-Tick-Daten reicht oft, um Phasen erhöhter Adverse-Selection-Wahrscheinlichkeit zu erkennen — und die eigene Aggressivität entsprechend zurückzunehmen.
Krypto-Mikrostruktur: hier sind die Daten verfügbar und die Märkte fragmentiert genug, dass LOB-Features echte Edges liefern können — insbesondere Cross-Exchange-Imbalances.

Meine Praxis.

LOB-Features baue ich nur bei sehr großen Mandanten-Setups, die ohnehin Tick-Daten-Infrastruktur haben. Für mittelfristige Strategien (Holdings ab einigen Stunden) ist der Mehrwert begrenzt — der Edge verflüchtigt sich auf längeren Horizonten, und die Komplexität der Daten-Pipeline ist nicht trivial.

Wo es sich lohnt: Crypto-Market-Making, Execution für mittlere bis große Positionen, und (für die wenigen Mandanten, die diese Liga spielen) Equity-HFT. Für alle anderen gilt: ignorieren Sie LOB, fokussieren Sie auf saubere Daten-Hygiene, robuste Strategien und konservative Kostenannahmen. Das bringt mehr als jede Cont-Stoikov-Implementation.

Tick-Daten-Pipeline, Mikrostruktur-Features oder Execution-Improvement im Plan? Erstgespräch buchen — wir bewerten gemeinsam, ob es sich für Ihren Use-Case lohnt.