9 Min. Lesezeit · KI · Februar 2030

OpenAI Agents API für Trading: was geht, was ist Marketing.

Seit OpenAI die Assistants-API zur Agents-Plattform ausgebaut hat, ist „Agent" das Lieblings-Buzzword in jedem Pitch-Deck. Ich nutze die API täglich, parallel zu Anthropic. Hier ist, was im Trading-Kontext tatsächlich funktioniert — und wo die Demos das Marketing mehr lieben als die Realität.

Was die Agents-API überhaupt ist.

Die Agents-API ist OpenAIs Evolution der Assistants-API: ein orchestriertes Setup, das ein Modell (typischerweise GPT-4o, GPT-4.1 oder o-Serie), persistente Threads, eingebaute Tools (Code-Interpreter, File-Search, Web-Suche) und Function-Calling kombiniert. Sie schicken eine Nachricht, der Agent entscheidet, welche Tools er braucht, läuft die Schleife durch und gibt eine Antwort zurück.

Der Unterschied zur reinen Chat-Completion-API: Sie müssen die Tool-Aufrufe nicht selbst orchestrieren. Der Server-Side-Run nimmt Ihnen den State-Handling-Aufwand ab. Das ist bequem — und ein zweischneidiges Schwert, weil Sie weniger Kontrolle haben.

Vergleich zu Anthropic Tool-Use.

Anthropics Tool-Use-Pattern ist konzeptionell schlanker: Sie schicken bei jedem API-Call den vollständigen Verlauf, das Modell antwortet mit einer Tool-Anfrage, Sie führen das Tool clientseitig aus, schicken das Ergebnis zurück. Mehr Latenz pro Call, dafür voller Kontrollfluss bei Ihnen.

Die Unterschiede in der Praxis:

State: OpenAI-Agents halten Threads serverseitig. Bequem, aber Sie müssen Threads aktiv aufräumen. Anthropic ist stateless — Sie schicken den Kontext immer mit.
Eingebaute Tools: OpenAI liefert Code-Interpreter und File-Search out of the box. Bei Anthropic baut man sich das selbst über MCP-Server.
Reasoning-Qualität: Aktuell liefert Claude bei komplexem Code und langen Reasoning-Ketten etwas robustere Ergebnisse. GPT-4o ist schneller und billiger für strukturierte Workflows.
Function-Calling-Stabilität: Beide sind 2030 sehr stabil. Strukturierte Outputs mit JSON-Schema-Garantien funktionieren bei beiden zuverlässig.

Function-Calling für Trade-Logik.

Function-Calling ist der Kern. Sie definieren Funktionen, der Agent ruft sie auf. Im Trading-Kontext sieht das typischerweise so aus:

tools = [
  {
    "type": "function",
    "function": {
      "name": "get_quote",
      "description": "Aktuelle Quote für ein Symbol",
      "parameters": {
        "type": "object",
        "properties": {
          "symbol": {"type": "string"},
          "field": {"type": "string", "enum": ["bid","ask","last","mid"]}
        },
        "required": ["symbol","field"]
      }
    }
  },
  {
    "type": "function",
    "function": {
      "name": "calc_position_size",
      "description": "Positionsgröße nach Kelly mit Cap 0.25",
      "parameters": {
        "type": "object",
        "properties": {
          "edge": {"type": "number"},
          "variance": {"type": "number"},
          "capital": {"type": "number"}
        },
        "required": ["edge","variance","capital"]
      }
    }
  }
]

Wichtig: Funktionen, die echte Orders absetzen, gehören nicht in dieses Schema. Der Agent darf Quotes lesen, Sizing rechnen, Reports schreiben. Die Order selbst schickt ein deterministischer Code-Pfad nach menschlicher Freigabe ab. Wer das nicht trennt, baut sich eine Bombe mit Halluzinations-Zündung.

Code-Interpreter für Datenanalyse.

Der Code-Interpreter ist die in meiner Praxis nützlichste eingebaute Funktion. Sie laden ein CSV mit Backtest-Returns hoch, und der Agent kann Python-Code schreiben, ihn in einer Sandbox laufen lassen und Ergebnisse zurückgeben — inklusive Plots.

Konkrete Use-Cases, die bei mir täglich laufen:

Sharpe-, Sortino-, Calmar-Berechnung über einen Returns-Vektor mit verschiedenen Rolling-Fenstern.
Drawdown-Profile zeichnen und mit historischen Worst-Cases vergleichen.
Trade-Logs explorieren: „Welche Stunde des Tages produziert die schlechteste Hit-Rate?"
Schnelle Monte-Carlo-Simulationen für Risiko-Szenarien.

Die Sandbox ist gegenüber dem Internet abgeschottet, was für Mandanten-Daten beruhigend ist. Aber: was Sie hochladen, liegt auf OpenAI-Servern. Für streng vertrauliche Strategien ist das ein No-Go — dafür gibt es lokale Setups, dazu im nächsten Artikel.

File-Search für eigene Research-Dokumente.

File-Search ist OpenAIs eingebautes RAG. Sie indizieren PDFs, Markdown, CSV, und der Agent kann darin suchen. Für eine Trading-Praxis heißt das: Earnings-Transkripte, Analyst-Reports, eigene Research-Notizen werden durchsuchbar.

Was es gut kann: semantische Suche über einige hundert bis tausend Dokumente. Sie stellen eine Frage in natürlicher Sprache und bekommen die relevanten Passagen mit Quellen-Verweisen zurück.

Was es schlecht kann: präzise Zahlen-Extraktion aus Tabellen, exakte Volltextsuche (dafür ist eine Postgres-FTS oder Elasticsearch immer noch überlegen), Skalierung über zehntausende Dokumente bei niedriger Latenz. Für meine Zwecke — etwa 800 PDFs Research zu beobachteten Sektoren — ist es perfekt.

Zwei Trading-Use-Cases aus meiner Praxis.

Morgenroutine

Um 7:30 läuft bei mir ein Agent, der: (1) für jedes Asset im Watch-Set die letzten 24 h News via Web-Suche aggregiert, (2) gegen mein File-Search-Index der Earnings-Transkripte prüft, ob es Kontext-Treffer gibt, (3) eine kurze Lage-Zusammenfassung pro Asset ausgibt und (4) markiert, welche Positionen meine Aufmerksamkeit brauchen. Output: strukturierter Bericht in mein Notion. Spart 40–60 Minuten pro Morgen.

Backtest-Iteration

Ich habe eine Strategie-Idee, lade meine Daten in eine Thread-Session, und der Agent baut den Backtest im Code-Interpreter. Erste Version in 5 Minuten, statt 90. Ich iteriere die Hypothese im Dialog: „Was, wenn wir die Position nur halten, solange der 10-Tage-RV unter 18 liegt?" — der Agent ändert den Code, läuft neu, zeigt das Ergebnis. Drei Iterationen, 25 Minuten. Statt eines halben Tages.

Kostenrealität.

Stand Anfang 2030 ungefähre Pricings (variieren laufend, bitte vor Implementierung verifizieren):

GPT-4o: günstig pro Token, gut für High-Volume-Workflows mit klarer Struktur.
GPT-4.1 / o-Serie: teurer, aber für anspruchsvolle Reasoning-Aufgaben (komplexe Code-Generation, mehrstufige Recherche) klar überlegen.
Code-Interpreter: Session-Pricing on top — relevant bei vielen kurzen Sessions, vernachlässigbar bei wenigen langen.
File-Search: Storage-Kosten pro Monat, plus Such-Kosten pro Query. Bei meinem 800-PDF-Index überschaubar.

Realistisch landen meine OpenAI- und Anthropic-Kosten zusammen im niedrigen vierstelligen Bereich pro Monat — bei einem Volumen, das mir mehrere Stunden pro Tag spart. Die Rechnung geht klar auf.

Meine Praxis: ich nutze beides.

Die Frage „Claude oder GPT" ist falsch gestellt. Ich nutze beide täglich, je nach Aufgabe:

Claude für lange, anspruchsvolle Reasoning-Ketten, für Code-Architektur, für Texte, bei denen Ton und Präzision wichtig sind.
GPT für Workflows mit eingebauten Tools (Code-Interpreter, File-Search), für strukturierte Function-Calling-Pipelines, für schnelle Volumen-Arbeit.

Wer sich auf ein Modell festnagelt, baut Single-Points-of-Failure. Mandanten-Setups, die ich begleite, haben in der Regel mindestens zwei API-Anbieter — schon allein, um bei Ausfällen oder Preisänderungen handlungsfähig zu bleiben.

Sie überlegen, einen OpenAI-Agent in Ihren Trading-Workflow zu integrieren? Erstgespräch buchen — ich zeige Ihnen, welcher Use-Case zuerst Sinn macht.