← Alle Insights

News-Analyse mit KI in der Tiefe: jenseits einfacher Sentiment-Scores.

„Sentiment positiv, Sentiment negativ" — das war News-Analyse 2018. 2029 ist die Schwelle höher. Echte Edge entsteht aus Topic, Entitäten, Events und Kontext. Was eine ernste News-Pipeline können muss und wo die Grenzen liegen.

Warum Sentiment-Scores allein zu grob sind.

Ein Sentiment-Score reduziert einen Nachrichtenartikel auf eine Zahl zwischen -1 und +1. Das funktioniert für Headline-Aggregat-Stimmung, aber nicht für handelbare Information. Ein Headline-Sentiment „negativ" kann bedeuten: Earnings-Miss, Klage, Vorstandswechsel, Lieferketten-Problem oder Aktien-Split-Ankündigung. Die Marktreaktion ist in jedem Fall anders.

Außerdem: Sentiment-Modelle sind notorisch finanziell-naiv. „Bank reports record profits" kann von einem Modell als positiv klassifiziert werden, obwohl der Markt sie shortet, weil Guidance lower war. Ohne Verständnis der Domain ist Sentiment Rauschen mit Pseudo-Präzision.

Topic-Modeling: LDA und BERTopic.

Topic-Modeling clustert Nachrichten in latente Themen. LDA (Latent Dirichlet Allocation, 2003) ist der Klassiker, BERTopic (2020+) nutzt Transformer-Embeddings und ist deutlich besser, weil es semantische Nähe versteht.

Konkret: alle Nachrichten zu einem Asset über 30 Tage clustern. Die Topics, die plötzlich in Häufigkeit oder Aufmerksamkeit explodieren, sind die handelbaren. „Layoffs" plötzlich 10x häufiger? Achten Sie auf den Sektor. „Regulatory probe" plötzlich Topic-1? Risiko hoch.

from bertopic import BERTopic
model = BERTopic(min_topic_size=10)
topics, probs = model.fit_transform(news_texts)
trending = topic_change_over_time(model, news_texts, dates)

Named Entity Recognition: was wirklich erwähnt wird.

Sie wollen nicht nur wissen „Apple wurde erwähnt", sondern „Tim Cook wurde im Kontext einer FTC-Untersuchung erwähnt". NER mit Finance-spezifischen Modellen (FinBERT, spaCy mit Custom-Pipeline) extrahiert Personen, Unternehmen, Geo-Entitäten, Geldbeträge, Daten.

Wichtig: Disambiguierung. „Apple" kann das Unternehmen sein oder die Frucht. „Square" ist heute Block. NER-Output muss gegen einen Ticker-Mapping-Dienst wie OpenFIGI oder eine eigene Symbol-DB validiert werden, sonst handeln Sie auf falsche Tickers.

Event-Extraction: M&A, Earnings, Regulatory.

Hier wird es interessant. Event-Extraction identifiziert strukturierte Ereignisse in Freitext: „Company A acquires Company B for $X". Die Kategorien, die wirklich Bewegung erzeugen, sind überschaubar:

Mit Claude oder GPT-4-class-Modellen ist Event-Extraction heute zuverlässig genug für Production. Strukturiertes JSON-Output mit Confidence-Scores, Validation gegen historische Ereignisse, Mensch im Loop für Größenordnungen über X Mio. — das ist der realistische Workflow.

Realistische Pipeline mit Claude API.

Mein Standard-Stack für eine produktive News-Pipeline:

# 1. Ingestion
news = fetch_news_feed(sources=['benzinga', 'refinitiv', 'sec_filings'])

# 2. Vorfilter (schnell, billig)
relevant = filter_by_ticker_mention(news, watchlist)

# 3. Claude für Extraction (strukturiertes Output)
for article in relevant:
    extraction = claude.messages.create(
        model="claude-opus-4-7",
        system=EVENT_EXTRACTION_PROMPT,
        messages=[{"role": "user", "content": article.text}],
        response_format={"type": "json_schema", "schema": event_schema}
    )
    persist(extraction)

# 4. Alert-Layer
if extraction.event_type in CRITICAL and extraction.confidence > 0.8:
    send_alert(extraction)

Kosten: ~0,02–0,05 USD pro analysiertem Artikel mit Opus, deutlich weniger mit Haiku für die Vorfilter-Stufe. Bei 500 relevanten Artikeln pro Tag landen Sie bei ~300–600 EUR/Monat. Verglichen mit einem Refinitiv-Terminal (2.000+ EUR/Monat) ein gutes Geschäft.

Daten-Sourcing: was 2029 funktioniert.

Konkrete Trade-Ideen aus News.

Ich beobachte regelmäßig folgende Konstellationen:

Das Hauptproblem: Latenz.

Das ist die unbequeme Wahrheit. Zwischen Nachricht-Veröffentlichung und Ihrer Order liegen typischerweise:

Macht 3 – 18 Sekunden. HFTs reagieren auf SEC-Filings in unter 100 ms. Sie sind also nie der Erste. Heißt: handeln Sie nicht auf die ersten 5–10 Sekunden nach Nachricht, sondern auf Drift-Effekte über Stunden bis Tage. Da liegt für Retail und mittlere Player die echte Edge.

Meine Pipeline ist explizit nicht latency-optimiert. Sie ist tiefe-optimiert: mehr Information aus jedem Artikel, bessere Klassifikation, mehr historischer Kontext. Damit gewinnen Sie nicht das Race, aber Sie spielen ein anderes Spiel.

Sie wollen eine News-Pipeline aufbauen, die mehr leistet als Sentiment-Aggregation? Erstgespräch buchen — wir gehen die Datenquellen und den Auswertungs-Stack durch.