Einführung von gpt-realtime und neuen Realtime API Updates für produktionsreife Voice Agents

OpenAI erweitert seine Realtime API mit leistungsstarken Funktionen und stellt das neue Sprachmodell gpt-realtime vor. Entwickler und Unternehmen können damit hochqualitative, latenzarme und produktionsfertige Sprachagenten aufbauen – inklusive Unterstützung für MCP-Server, Bild-Input und SIP-Telefonie.

Realtime API jetzt allgemein verfügbar

Seit der Beta im Oktober 2024 haben tausende Entwickler mit der Realtime API gearbeitet. Mit dem heutigen Release ist die Schnittstelle allgemein verfügbar und bringt neue Features:

Unterstützung für Remote MCP-Server
Bild-Input neben Audio und Text
Telefonie via SIP (Session Initiation Protocol)

Im Gegensatz zu klassischen Pipelines, die Speech-to-Text und Text-to-Speech kombinieren, verarbeitet die Realtime API Audio direkt in einem einzigen Modell. Ergebnis: geringere Latenz, höhere Ausdrucksstärke und natürlichere Gespräche.

gpt-realtime: Das fortschrittlichste Sprachmodell

Das neue gpt-realtime Modell ist speziell für reale Anwendungsfälle optimiert, etwa Kundensupport, persönliche Assistenz oder Bildung. Es verbessert die Sprachqualität, das Befolgen komplexer Anweisungen und die Tool-Nutzung.

Verbesserte Sprachqualität

Natürliche Intonation, Emotion und Tempo sorgen für realistische Dialoge. gpt-realtime kann sogar Anweisungen wie „sprich schnell und professionell“ oder „mitfühlend mit französischem Akzent“ präzise umsetzen. Neu hinzu kommen die Stimmen Marin und Cedar, während die bisherigen Stimmen ebenfalls überarbeitet wurden.

Intelligenz und Verständnis

Das Modell erkennt nonverbale Hinweise, wechselt fließend zwischen Sprachen und interpretiert komplexe Inhalte wie alphanumerische Sequenzen. In Benchmarks wie Big Bench Audio erreicht gpt-realtime 82,8 % Genauigkeit – deutlich besser als die Vorgänger.

Besseres Instruction Following

Auf dem MultiChallenge Audio Benchmark erzielt gpt-realtime 30,5 % Genauigkeit bei der Befolgung von Anweisungen. Damit setzt es auch subtile Entwickler-Prompts zuverlässig um.

Fortschrittliches Function Calling

Das Modell ruft Tools präziser, zum richtigen Zeitpunkt und mit passenden Parametern auf. In ComplexFuncBench Audio erreicht es 66,5 % Genauigkeit. Auch asynchrone Funktionsaufrufe werden jetzt unterstützt – Sitzungen bleiben flüssig, selbst bei langlaufenden Prozessen.

Neue Features der Realtime API

Remote MCP-Server

Entwickler können externe MCP-Server direkt in einer Realtime-Session anbinden. Damit lassen sich Sprachagenten flexibel mit neuen Funktionen erweitern.

Bild-Input

Neben Audio und Text können nun auch Bilder, Screenshots oder Fotos eingebunden werden. So können Nutzer Fragen wie „Was siehst du?“ stellen und der Agent bezieht visuelle Inhalte in die Antwort ein.

SIP-Telefonie

Dank SIP-Support lässt sich die Realtime API mit Telefonnetzen, PBX-Systemen oder Softphones verbinden – ideal für Callcenter und Sprachdienste.

Wiederverwendbare Prompts

Entwickler können Prompts mit Tools, Variablen und Beispielkonversationen speichern und in mehreren Sessions nutzen.

Sicherheit, Datenschutz und EU-Standards

Die Realtime API enthält Schutzmechanismen gegen Missbrauch. Unter anderem erkennen Klassifikatoren schädliche Inhalte in Echtzeit. Entwickler können zusätzlich eigene Guardrails einbauen.

Für europäische Anwendungen ist EU Data Residency gewährleistet und die API fällt unter die Enterprise-Datenschutzrichtlinien von OpenAI.

Preise und Verfügbarkeit

Ab sofort ist gpt-realtime für alle Entwickler verfügbar – mit 20 % Preisreduktion im Vergleich zum gpt-4o-realtime-preview.

32 USD pro 1M Audio-Eingabetokens
64 USD pro 1M Audio-Ausgabetokens

Zudem erlaubt die API eine intelligente Kontextbegrenzung, was Kosten für lange Sessions senkt. Entwickler können das Modell im Playground testen und über die Realtime API Dokumentation direkt einsteigen.

Fazit

Mit dem Release von gpt-realtime und den erweiterten Funktionen der Realtime API eröffnet OpenAI neue Möglichkeiten für Voice Agents in Produktion. Ob im Kundendienst, bei Bildungslösungen oder im Telefonsupport – Entwickler profitieren von realistischer Sprachausgabe, niedriger Latenz und flexiblen Integrationsmöglichkeiten.

Author

Leon Falk

Leon Falk, wurde am 3. April 1989 in Deutschland geboren. Nach meinem Studium der Informatik an der Universität Heidelberg, das ich mit einem Masterabschluss krönte, spezialisierte ich mich auf KI-gestützte Textanalyse. Heute arbeite ich bei GPTDeutsch.net, wo ich neuartige Systeme zur Verarbeitung und Generierung von Sprache entwickle. Mein Ziel ist es, Technologie für alle verständlich und nützlich zu machen.
View all posts

Blog