Lokale LLMs vs. Cloud-APIs: wann sich Eigenbetrieb wirklich lohnt.
„Wir hosten unser LLM selbst" klingt souverän. In den meisten Fällen ist es das nicht. In manchen schon. Ich betreibe seit Jahren beide Welten parallel — und sehe regelmäßig, wie viel Geld in lokalen Setups verbrannt wird, die für ihren Use-Case ungeeignet sind. Eine ehrliche Einordnung.
Worum es überhaupt geht.
Cloud-LLMs (Claude, GPT, Gemini) laufen auf den Servern des Anbieters. Sie schicken Daten hin, bekommen Antworten zurück, zahlen pro Token. Lokale LLMs (Llama 3 / 4, Mistral, Qwen, DeepSeek) laufen auf Ihrer eigenen Hardware oder einem von Ihnen kontrollierten Server. Daten verlassen Ihren Perimeter nicht.
Die Diskussion „lokal vs. Cloud" mischt drei Fragen, die getrennt gehören: Wer hat Zugriff auf die Daten? Was kostet der Betrieb? Welche Qualität bekomme ich?
Hardware-Anforderungen ehrlich.
Für sinnvolles lokales Arbeiten brauchen Sie eine der folgenden Klassen:
- Mac Studio mit M3 Ultra / M4 Ultra, 128–256 GB Unified Memory: reicht für Llama-70B-Klasse oder Qwen-72B quantisiert. Inferenz-Geschwindigkeit ordentlich für Einzel-Nutzung, nicht für Mandanten-Last.
- Workstation mit RTX 5090 / RTX 6000 Ada: 32–48 GB VRAM, gut für mittlere Modelle (32B–70B mit Quantisierung). Mehr Durchsatz als Mac, mehr Lärm und Stromverbrauch.
- Enterprise-GPU-Server (H100, H200, MI300): ab fünfstelligen Anschaffungskosten, plus Betrieb. Erst sinnvoll, wenn Sie mit Volumen oder mehreren Modellen gleichzeitig arbeiten.
Was Sie mit einer normalen Consumer-GPU mit 12–24 GB VRAM laufen lassen können, sind Modelle bis etwa 13B–32B (quantisiert). Das ist eine ganz andere Liga als Claude oder GPT — keine schlechte Liga, aber eine andere.
Ab welchem Volumen sich lokal rechnet.
Eine grobe Faustregel aus meinen Mandanten-Setups: lokal lohnt sich ab einem API-Kostenniveau von etwa 1500–2500 € pro Monat für gleichbleibende, klar definierte Aufgaben. Darunter ist Cloud immer billiger, wenn man die Eigenleistung für Setup und Wartung ehrlich rechnet.
Was viele unterschätzen: lokal heißt nicht „kostenlos". Sie zahlen für Hardware, Strom, Lärm-Dämpfung im Büro, Zeit für Updates, Monitoring, Fallback-Strategien bei Ausfall. In meinen Projekten sehe ich oft, dass die wahren Cost-of-Ownership einer lokalen Lösung 2–3× über dem rechnerischen Strom-plus-AfA-Wert liegen.
Privacy-Aspekte für Mandanten-Daten.
Hier liegt der valide Grund für lokal: regulierte Daten. Wer Vermögensverwaltung für Family Offices macht, wer Mandanten-Strategien analysiert, wer mit MiFID- oder BaFin-relevanten Informationen arbeitet, kann nicht einfach Daten an einen US-Anbieter schicken — selbst wenn die Anbieter Enterprise-DPAs anbieten.
Die Verträge mit OpenAI und Anthropic sind 2030 deutlich besser als noch vor fünf Jahren: Zero-Retention-Optionen, EU-Hosting, DPF-Compliance. Aber wer auf Nummer sicher gehen muss, kommt um eine lokale Komponente nicht herum — zumindest für die sensibelsten Workflows.
Konkrete Setups.
Ollama mit Llama 3 / 4
Ollama ist der einfachste Einstieg. Installation, ein Befehl, Modell läuft. Für Einzel-Anwender auf einem Mac Studio ist das ein sehr brauchbares Setup. Beispiel:
ollama pull llama3.3:70b-instruct-q4_K_M
ollama run llama3.3:70b-instruct-q4_K_M
# oder via API
curl http://localhost:11434/api/generate -d '{
"model": "llama3.3:70b-instruct-q4_K_M",
"prompt": "Klassifiziere folgende Earnings-Headline ...",
"stream": false
}'
Latenz: 1–5 Sekunden für kurze Antworten, je nach Hardware. Akzeptabel für asynchrone Workflows, zu langsam für interaktives Pair-Programming.
vLLM für höheren Durchsatz
Wenn Sie mehrere parallele Anfragen brauchen — etwa für Batch-Sentiment-Scoring über tausende News-Items pro Tag — ist vLLM die Wahl. PagedAttention, Continuous Batching, OpenAI-kompatible API. Setup ist anspruchsvoller als Ollama, der Durchsatz aber um ein Vielfaches höher.
Bei Mandanten setze ich vLLM oder TGI ein, sobald wir über 100–500 Inferenz-Calls pro Stunde kommen. Bei dem Volumen rechnet sich auch der Setup-Aufwand schnell.
Performance-Realität.
Die unangenehme Wahrheit: Cloud-Modelle sind 2030 für komplexe Reasoning-Aufgaben weiterhin deutlich besser als selbst die größten quelloffenen Modelle. Der Abstand ist kleiner geworden, aber er existiert. Wer für komplexes Code-Reasoning, mehrstufige Recherche oder anspruchsvolle Analyse die beste Qualität will, kommt um Claude oder GPT nicht herum.
Für klar abgegrenzte Aufgaben — Klassifikation, Sentiment, Extraktion, einfache Zusammenfassung — sind moderne quelloffene Modelle dagegen vollkommen ausreichend. Manchmal sogar besser, weil sie für die spezifische Aufgabe feinjustiert werden können.
Use-Cases, wo lokal Sinn macht.
- Sentiment-Scoring über große News- oder Social-Media-Streams: hohe Frequenz, einfache Aufgabe, klare Privacy-Anforderungen. Llama 3-Klasse reicht völlig.
- Klassifikation von Earnings-Headlines, Filings, Trade-Notizen in Kategorien. Mit ein paar hundert Beispielen feinjustiert ein quelloffenes Modell beachtlich gut.
- Erstes Filtern von Dokumenten („relevant / nicht relevant"), bevor Sie das teure Cloud-Modell auf den Rest schicken. Spart deutlich Kosten.
- Embedding-Generation für vertrauliche Dokumente: lokale Embedding-Modelle (bge, gte, nomic) liefern hervorragende Qualität.
- Interne Strategie-Notizen, die niemals einen externen Server sehen sollen: lokales Modell als Schreibassistent für die sensibelsten Texte.
Meine Empfehlung.
Für die meisten Trader und Family Offices, die ich begleite, ist das richtige Setup ein Hybrid: Cloud-API für anspruchsvolle Reasoning-Workflows, lokale Modelle für High-Volume- und Privacy-kritische Aufgaben. Reine Cloud-Setups sind günstig zu starten, skalieren aber irgendwann nicht mehr ehrlich bei Privacy- Auflagen. Reine Lokal-Setups verschenken Qualität bei den anspruchsvollen Aufgaben.
Wer mit Trading-Workflows beginnt, sollte mit Cloud starten, Volumen und Anforderungen ehrlich messen, und dann gezielt einzelne Workflows lokalisieren. Nicht umgekehrt. Wer zuerst Hardware kauft und dann nach Use-Cases sucht, hat das Bestellverhalten von Audiophilen — viel Equipment, wenig Musik.
Sie überlegen, einen lokalen LLM-Setup für Ihre Trading-Praxis aufzubauen? Erstgespräch buchen — wir rechnen ehrlich durch, ob es sich lohnt.