News-Analyse mit KI in der Tiefe: jenseits einfacher Sentiment-Scores.
„Sentiment positiv, Sentiment negativ" — das war News-Analyse 2018. 2029 ist die Schwelle höher. Echte Edge entsteht aus Topic, Entitäten, Events und Kontext. Was eine ernste News-Pipeline können muss und wo die Grenzen liegen.
Warum Sentiment-Scores allein zu grob sind.
Ein Sentiment-Score reduziert einen Nachrichtenartikel auf eine Zahl zwischen -1 und +1. Das funktioniert für Headline-Aggregat-Stimmung, aber nicht für handelbare Information. Ein Headline-Sentiment „negativ" kann bedeuten: Earnings-Miss, Klage, Vorstandswechsel, Lieferketten-Problem oder Aktien-Split-Ankündigung. Die Marktreaktion ist in jedem Fall anders.
Außerdem: Sentiment-Modelle sind notorisch finanziell-naiv. „Bank reports record profits" kann von einem Modell als positiv klassifiziert werden, obwohl der Markt sie shortet, weil Guidance lower war. Ohne Verständnis der Domain ist Sentiment Rauschen mit Pseudo-Präzision.
Topic-Modeling: LDA und BERTopic.
Topic-Modeling clustert Nachrichten in latente Themen. LDA (Latent Dirichlet Allocation, 2003) ist der Klassiker, BERTopic (2020+) nutzt Transformer-Embeddings und ist deutlich besser, weil es semantische Nähe versteht.
Konkret: alle Nachrichten zu einem Asset über 30 Tage clustern. Die Topics, die plötzlich in Häufigkeit oder Aufmerksamkeit explodieren, sind die handelbaren. „Layoffs" plötzlich 10x häufiger? Achten Sie auf den Sektor. „Regulatory probe" plötzlich Topic-1? Risiko hoch.
from bertopic import BERTopic
model = BERTopic(min_topic_size=10)
topics, probs = model.fit_transform(news_texts)
trending = topic_change_over_time(model, news_texts, dates)
Named Entity Recognition: was wirklich erwähnt wird.
Sie wollen nicht nur wissen „Apple wurde erwähnt", sondern „Tim Cook wurde im Kontext einer FTC-Untersuchung erwähnt". NER mit Finance-spezifischen Modellen (FinBERT, spaCy mit Custom-Pipeline) extrahiert Personen, Unternehmen, Geo-Entitäten, Geldbeträge, Daten.
Wichtig: Disambiguierung. „Apple" kann das Unternehmen sein oder die Frucht. „Square" ist heute Block. NER-Output muss gegen einen Ticker-Mapping-Dienst wie OpenFIGI oder eine eigene Symbol-DB validiert werden, sonst handeln Sie auf falsche Tickers.
Event-Extraction: M&A, Earnings, Regulatory.
Hier wird es interessant. Event-Extraction identifiziert strukturierte Ereignisse in Freitext: „Company A acquires Company B for $X". Die Kategorien, die wirklich Bewegung erzeugen, sind überschaubar:
- M&A: Acquirer, Target, Preis, Aktien-oder-Cash, Genehmigungsstand.
- Earnings-Surprises: tatsächliche vs. erwartete EPS und Revenue, Guidance-Änderung.
- Regulatory: Probe, Approval, Fine — wer, wie viel, welche Behörde.
- Personnel: CEO/CFO-Wechsel, Insider-Buying/Selling.
- Operational: Plant-Closures, Recalls, Strikes, Cyberattacks.
Mit Claude oder GPT-4-class-Modellen ist Event-Extraction heute zuverlässig genug für Production. Strukturiertes JSON-Output mit Confidence-Scores, Validation gegen historische Ereignisse, Mensch im Loop für Größenordnungen über X Mio. — das ist der realistische Workflow.
Realistische Pipeline mit Claude API.
Mein Standard-Stack für eine produktive News-Pipeline:
# 1. Ingestion
news = fetch_news_feed(sources=['benzinga', 'refinitiv', 'sec_filings'])
# 2. Vorfilter (schnell, billig)
relevant = filter_by_ticker_mention(news, watchlist)
# 3. Claude für Extraction (strukturiertes Output)
for article in relevant:
extraction = claude.messages.create(
model="claude-opus-4-7",
system=EVENT_EXTRACTION_PROMPT,
messages=[{"role": "user", "content": article.text}],
response_format={"type": "json_schema", "schema": event_schema}
)
persist(extraction)
# 4. Alert-Layer
if extraction.event_type in CRITICAL and extraction.confidence > 0.8:
send_alert(extraction)
Kosten: ~0,02–0,05 USD pro analysiertem Artikel mit Opus, deutlich weniger mit Haiku für die Vorfilter-Stufe. Bei 500 relevanten Artikeln pro Tag landen Sie bei ~300–600 EUR/Monat. Verglichen mit einem Refinitiv-Terminal (2.000+ EUR/Monat) ein gutes Geschäft.
Daten-Sourcing: was 2029 funktioniert.
- Refinitiv / LSEG: Goldstandard, aber teuer. Real-Time-Newsfeed mit guter Tagging-Qualität.
- Benzinga Pro: günstiger, Retail-tauglich, gute API. ~200 USD/Monat.
- AlphaVantage News & Sentiment: günstig (~50 USD/Monat), aber Sentiment-Werte mit Vorsicht.
- SEC EDGAR direkt: 8-K, 10-Q, 13D/G — kostenlos, latenz ~1–5 Sek. nach Filing.
- Twitter/X API: praktisch tot für unsere Zwecke seit 2023. Die teuren Tiers sind den Preis nicht wert.
- Bluesky / Mastodon: zu klein für Finanz-Signale, aber Trend-Sensoren.
- Reddit (WallStreetBets, Subreddit-spezifisch): API kostet inzwischen, taugt für Retail-Sentiment-Spitzen.
Konkrete Trade-Ideen aus News.
Ich beobachte regelmäßig folgende Konstellationen:
- Earnings-Beat plus Guidance-Raise in der ersten Stunde nach Release: Multi-Day-Drift, klassische Post-Earnings-Announcement-Drift (PEAD), funktioniert seit 50 Jahren.
- Insider-Buying-Cluster: mehrere Insider derselben Firma kaufen innerhalb 7 Tagen. Historisch signifikant.
- Regulatory-Approval (FDA, FTC-Clearance): scharfe Reaktion, oft schon eingepreist, aber Nachzügler-Effekte verwertbar.
- Plötzlicher Topic-Spike über mehrere Quellen: „supply chain disruption" 10x häufiger, wenn der Markt es noch nicht eingepreist hat.
Das Hauptproblem: Latenz.
Das ist die unbequeme Wahrheit. Zwischen Nachricht-Veröffentlichung und Ihrer Order liegen typischerweise:
- Quelle → Ihr Feed: 100ms – 5 s (abhängig vom Anbieter),
- Claude/LLM-Extraction: 2 – 10 s,
- Strategie-Entscheidung: 0,1 – 2 s,
- Order-Routing: 100 – 500 ms.
Macht 3 – 18 Sekunden. HFTs reagieren auf SEC-Filings in unter 100 ms. Sie sind also nie der Erste. Heißt: handeln Sie nicht auf die ersten 5–10 Sekunden nach Nachricht, sondern auf Drift-Effekte über Stunden bis Tage. Da liegt für Retail und mittlere Player die echte Edge.
Meine Pipeline ist explizit nicht latency-optimiert. Sie ist tiefe-optimiert: mehr Information aus jedem Artikel, bessere Klassifikation, mehr historischer Kontext. Damit gewinnen Sie nicht das Race, aber Sie spielen ein anderes Spiel.
Sie wollen eine News-Pipeline aufbauen, die mehr leistet als Sentiment-Aggregation? Erstgespräch buchen — wir gehen die Datenquellen und den Auswertungs-Stack durch.