OpenAI erweitert seine Realtime API mit leistungsstarken Funktionen und stellt das neue Sprachmodell gpt-realtime vor. Entwickler und Unternehmen können damit hochqualitative, latenzarme und produktionsfertige Sprachagenten aufbauen – inklusive Unterstützung für MCP-Server, Bild-Input und SIP-Telefonie.
Realtime API jetzt allgemein verfügbar
Seit der Beta im Oktober 2024 haben tausende Entwickler mit der Realtime API gearbeitet. Mit dem heutigen Release ist die Schnittstelle allgemein verfügbar und bringt neue Features:
- Unterstützung für Remote MCP-Server
- Bild-Input neben Audio und Text
- Telefonie via SIP (Session Initiation Protocol)
Im Gegensatz zu klassischen Pipelines, die Speech-to-Text und Text-to-Speech kombinieren, verarbeitet die Realtime API Audio direkt in einem einzigen Modell. Ergebnis: geringere Latenz, höhere Ausdrucksstärke und natürlichere Gespräche.
gpt-realtime: Das fortschrittlichste Sprachmodell
Das neue gpt-realtime Modell ist speziell für reale Anwendungsfälle optimiert, etwa Kundensupport, persönliche Assistenz oder Bildung. Es verbessert die Sprachqualität, das Befolgen komplexer Anweisungen und die Tool-Nutzung.
Verbesserte Sprachqualität
Natürliche Intonation, Emotion und Tempo sorgen für realistische Dialoge. gpt-realtime kann sogar Anweisungen wie „sprich schnell und professionell“ oder „mitfühlend mit französischem Akzent“ präzise umsetzen. Neu hinzu kommen die Stimmen Marin und Cedar, während die bisherigen Stimmen ebenfalls überarbeitet wurden.
Intelligenz und Verständnis
Das Modell erkennt nonverbale Hinweise, wechselt fließend zwischen Sprachen und interpretiert komplexe Inhalte wie alphanumerische Sequenzen. In Benchmarks wie Big Bench Audio erreicht gpt-realtime 82,8 % Genauigkeit – deutlich besser als die Vorgänger.
Besseres Instruction Following
Auf dem MultiChallenge Audio Benchmark erzielt gpt-realtime 30,5 % Genauigkeit bei der Befolgung von Anweisungen. Damit setzt es auch subtile Entwickler-Prompts zuverlässig um.
Fortschrittliches Function Calling
Das Modell ruft Tools präziser, zum richtigen Zeitpunkt und mit passenden Parametern auf. In ComplexFuncBench Audio erreicht es 66,5 % Genauigkeit. Auch asynchrone Funktionsaufrufe werden jetzt unterstützt – Sitzungen bleiben flüssig, selbst bei langlaufenden Prozessen.
Neue Features der Realtime API
Remote MCP-Server
Entwickler können externe MCP-Server direkt in einer Realtime-Session anbinden. Damit lassen sich Sprachagenten flexibel mit neuen Funktionen erweitern.
Bild-Input
Neben Audio und Text können nun auch Bilder, Screenshots oder Fotos eingebunden werden. So können Nutzer Fragen wie „Was siehst du?“ stellen und der Agent bezieht visuelle Inhalte in die Antwort ein.
SIP-Telefonie
Dank SIP-Support lässt sich die Realtime API mit Telefonnetzen, PBX-Systemen oder Softphones verbinden – ideal für Callcenter und Sprachdienste.
Wiederverwendbare Prompts
Entwickler können Prompts mit Tools, Variablen und Beispielkonversationen speichern und in mehreren Sessions nutzen.
Sicherheit, Datenschutz und EU-Standards
Die Realtime API enthält Schutzmechanismen gegen Missbrauch. Unter anderem erkennen Klassifikatoren schädliche Inhalte in Echtzeit. Entwickler können zusätzlich eigene Guardrails einbauen.
Für europäische Anwendungen ist EU Data Residency gewährleistet und die API fällt unter die Enterprise-Datenschutzrichtlinien von OpenAI.
Preise und Verfügbarkeit
Ab sofort ist gpt-realtime für alle Entwickler verfügbar – mit 20 % Preisreduktion im Vergleich zum gpt-4o-realtime-preview.
- 32 USD pro 1M Audio-Eingabetokens
- 64 USD pro 1M Audio-Ausgabetokens
Zudem erlaubt die API eine intelligente Kontextbegrenzung, was Kosten für lange Sessions senkt. Entwickler können das Modell im Playground testen und über die Realtime API Dokumentation direkt einsteigen.
Fazit
Mit dem Release von gpt-realtime und den erweiterten Funktionen der Realtime API eröffnet OpenAI neue Möglichkeiten für Voice Agents in Produktion. Ob im Kundendienst, bei Bildungslösungen oder im Telefonsupport – Entwickler profitieren von realistischer Sprachausgabe, niedriger Latenz und flexiblen Integrationsmöglichkeiten.