← Alle Insights

Lokale LLMs vs. Cloud-APIs: wann sich Eigenbetrieb wirklich lohnt.

„Wir hosten unser LLM selbst" klingt souverän. In den meisten Fällen ist es das nicht. In manchen schon. Ich betreibe seit Jahren beide Welten parallel — und sehe regelmäßig, wie viel Geld in lokalen Setups verbrannt wird, die für ihren Use-Case ungeeignet sind. Eine ehrliche Einordnung.

Worum es überhaupt geht.

Cloud-LLMs (Claude, GPT, Gemini) laufen auf den Servern des Anbieters. Sie schicken Daten hin, bekommen Antworten zurück, zahlen pro Token. Lokale LLMs (Llama 3 / 4, Mistral, Qwen, DeepSeek) laufen auf Ihrer eigenen Hardware oder einem von Ihnen kontrollierten Server. Daten verlassen Ihren Perimeter nicht.

Die Diskussion „lokal vs. Cloud" mischt drei Fragen, die getrennt gehören: Wer hat Zugriff auf die Daten? Was kostet der Betrieb? Welche Qualität bekomme ich?

Hardware-Anforderungen ehrlich.

Für sinnvolles lokales Arbeiten brauchen Sie eine der folgenden Klassen:

Was Sie mit einer normalen Consumer-GPU mit 12–24 GB VRAM laufen lassen können, sind Modelle bis etwa 13B–32B (quantisiert). Das ist eine ganz andere Liga als Claude oder GPT — keine schlechte Liga, aber eine andere.

Ab welchem Volumen sich lokal rechnet.

Eine grobe Faustregel aus meinen Mandanten-Setups: lokal lohnt sich ab einem API-Kostenniveau von etwa 1500–2500 € pro Monat für gleichbleibende, klar definierte Aufgaben. Darunter ist Cloud immer billiger, wenn man die Eigenleistung für Setup und Wartung ehrlich rechnet.

Was viele unterschätzen: lokal heißt nicht „kostenlos". Sie zahlen für Hardware, Strom, Lärm-Dämpfung im Büro, Zeit für Updates, Monitoring, Fallback-Strategien bei Ausfall. In meinen Projekten sehe ich oft, dass die wahren Cost-of-Ownership einer lokalen Lösung 2–3× über dem rechnerischen Strom-plus-AfA-Wert liegen.

Privacy-Aspekte für Mandanten-Daten.

Hier liegt der valide Grund für lokal: regulierte Daten. Wer Vermögensverwaltung für Family Offices macht, wer Mandanten-Strategien analysiert, wer mit MiFID- oder BaFin-relevanten Informationen arbeitet, kann nicht einfach Daten an einen US-Anbieter schicken — selbst wenn die Anbieter Enterprise-DPAs anbieten.

Die Verträge mit OpenAI und Anthropic sind 2030 deutlich besser als noch vor fünf Jahren: Zero-Retention-Optionen, EU-Hosting, DPF-Compliance. Aber wer auf Nummer sicher gehen muss, kommt um eine lokale Komponente nicht herum — zumindest für die sensibelsten Workflows.

Konkrete Setups.

Ollama mit Llama 3 / 4

Ollama ist der einfachste Einstieg. Installation, ein Befehl, Modell läuft. Für Einzel-Anwender auf einem Mac Studio ist das ein sehr brauchbares Setup. Beispiel:

ollama pull llama3.3:70b-instruct-q4_K_M
ollama run llama3.3:70b-instruct-q4_K_M

# oder via API
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.3:70b-instruct-q4_K_M",
  "prompt": "Klassifiziere folgende Earnings-Headline ...",
  "stream": false
}'

Latenz: 1–5 Sekunden für kurze Antworten, je nach Hardware. Akzeptabel für asynchrone Workflows, zu langsam für interaktives Pair-Programming.

vLLM für höheren Durchsatz

Wenn Sie mehrere parallele Anfragen brauchen — etwa für Batch-Sentiment-Scoring über tausende News-Items pro Tag — ist vLLM die Wahl. PagedAttention, Continuous Batching, OpenAI-kompatible API. Setup ist anspruchsvoller als Ollama, der Durchsatz aber um ein Vielfaches höher.

Bei Mandanten setze ich vLLM oder TGI ein, sobald wir über 100–500 Inferenz-Calls pro Stunde kommen. Bei dem Volumen rechnet sich auch der Setup-Aufwand schnell.

Performance-Realität.

Die unangenehme Wahrheit: Cloud-Modelle sind 2030 für komplexe Reasoning-Aufgaben weiterhin deutlich besser als selbst die größten quelloffenen Modelle. Der Abstand ist kleiner geworden, aber er existiert. Wer für komplexes Code-Reasoning, mehrstufige Recherche oder anspruchsvolle Analyse die beste Qualität will, kommt um Claude oder GPT nicht herum.

Für klar abgegrenzte Aufgaben — Klassifikation, Sentiment, Extraktion, einfache Zusammenfassung — sind moderne quelloffene Modelle dagegen vollkommen ausreichend. Manchmal sogar besser, weil sie für die spezifische Aufgabe feinjustiert werden können.

Use-Cases, wo lokal Sinn macht.

  1. Sentiment-Scoring über große News- oder Social-Media-Streams: hohe Frequenz, einfache Aufgabe, klare Privacy-Anforderungen. Llama 3-Klasse reicht völlig.
  2. Klassifikation von Earnings-Headlines, Filings, Trade-Notizen in Kategorien. Mit ein paar hundert Beispielen feinjustiert ein quelloffenes Modell beachtlich gut.
  3. Erstes Filtern von Dokumenten („relevant / nicht relevant"), bevor Sie das teure Cloud-Modell auf den Rest schicken. Spart deutlich Kosten.
  4. Embedding-Generation für vertrauliche Dokumente: lokale Embedding-Modelle (bge, gte, nomic) liefern hervorragende Qualität.
  5. Interne Strategie-Notizen, die niemals einen externen Server sehen sollen: lokales Modell als Schreibassistent für die sensibelsten Texte.

Meine Empfehlung.

Für die meisten Trader und Family Offices, die ich begleite, ist das richtige Setup ein Hybrid: Cloud-API für anspruchsvolle Reasoning-Workflows, lokale Modelle für High-Volume- und Privacy-kritische Aufgaben. Reine Cloud-Setups sind günstig zu starten, skalieren aber irgendwann nicht mehr ehrlich bei Privacy- Auflagen. Reine Lokal-Setups verschenken Qualität bei den anspruchsvollen Aufgaben.

Wer mit Trading-Workflows beginnt, sollte mit Cloud starten, Volumen und Anforderungen ehrlich messen, und dann gezielt einzelne Workflows lokalisieren. Nicht umgekehrt. Wer zuerst Hardware kauft und dann nach Use-Cases sucht, hat das Bestellverhalten von Audiophilen — viel Equipment, wenig Musik.

Sie überlegen, einen lokalen LLM-Setup für Ihre Trading-Praxis aufzubauen? Erstgespräch buchen — wir rechnen ehrlich durch, ob es sich lohnt.