OpenAI stellt eine neue Generation von Sprach-zu-Text- und Text-zu-Sprach-Modellen vor, die weltweit über die API verfügbar sind.
In den vergangenen Monaten hat OpenAI intensiv daran gearbeitet, die Intelligenz und Funktionalität textbasierter Agenten zu verbessern – etwa durch Entwicklungen wie Operator, Deep Research, Computer-Using Agents und die Responses API mit integrierten Tools. Doch um Agenten wirklich nützlich zu machen, müssen Nutzer über reinen Text hinaus kommunizieren können – durch natürliche gesprochene Sprache.
Neue Audiomodelle für Sprach-zu-Text und Text-zu-Sprach
OpenAI hat jetzt neue Modelle für Speech-to-Text (Sprach-zu-Text) und Text-to-Speech (Text-zu-Sprach) in der API veröffentlicht. Diese ermöglichen es Entwicklerinnen und Entwicklern, leistungsfähigere, anpassbare und intelligentere Sprachagenten zu erstellen, die echten Mehrwert bieten.
Die neuen Speech-to-Text-Modelle setzen einen neuen Branchenstandard – mit hoher Genauigkeit auch bei schwierigen Bedingungen wie Dialekten, Hintergrundgeräuschen oder unterschiedlichen Sprechgeschwindigkeiten. Damit eignen sie sich besonders für Anwendungsbereiche wie Kundenservice, Protokollerstellung von Meetings oder automatisierte Transkription.
Individuell steuerbare Text-to-Speech-Stimmen
Erstmals kann das neue Text-to-Speech-Modell so gesteuert werden, dass es auf eine bestimmte Weise spricht – etwa „wie ein mitfühlender Kundenberater“. Diese Steuerbarkeit eröffnet neue Möglichkeiten: empathische Service-Stimmen, lebendige Erzählungen für kreative Inhalte oder personalisierte Audio-Erlebnisse.
Bereits 2022 brachte OpenAI das erste Audiomodell auf den Markt. Mit der neuesten Generation wird diese Entwicklung konsequent fortgesetzt – mit Fokus auf Intelligenz, Genauigkeit und Zuverlässigkeit.
Die neuen Speech-to-Text-Modelle im Detail
Mit gpt-4o-transcribe und gpt-4o-mini-transcribe führt OpenAI zwei neue Modelle ein, die die Whisper-Modelle in puncto Wortfehlerrate und Spracherkennung deutlich übertreffen.
Diese Modelle wurden durch gezieltes Reinforcement Learning und umfangreiches Midtraining mit hochwertigen, vielfältigen Audiodaten optimiert. Sie erfassen sprachliche Nuancen besser, reduzieren Fehlinterpretationen und sorgen für stabile Transkriptionen – auch unter schwierigen Bedingungen.
Verfügbar sind sie ab sofort in der Speech-to-Text-API.
Das neue Text-to-Speech-Modell
Mit gpt-4o-mini-tts bringt OpenAI ein neues Text-zu-Sprach-Modell auf den Markt, das über verbesserte Steuerbarkeit verfügt. Entwickler können dem Modell nun nicht nur was, sondern auch wie es etwas sagen soll, vorgeben – ideal für Anwendungsfälle von Kundenservice bis hin zu Erzählinhalten.
Die verfügbaren Stimmen sind künstlich erzeugt und werden kontinuierlich überwacht, um konsistente Qualität sicherzustellen. Das Modell ist über die Text-to-Speech-API nutzbar.
Technologische Innovationen hinter den Modellen
Vortraining mit authentischen Audiodaten
Die neuen Modelle basieren auf den Architekturen von GPT‑4o und GPT‑4o-mini und wurden mit spezialisierten Audiodatensätzen vortrainiert. Diese gezielte Datengrundlage ermöglicht eine präzisere Erkennung sprachlicher Details.
Fortschrittliche Distillationstechniken
OpenAI verwendet neue Distillation-Methoden, um Wissen von großen auf kleinere, effizientere Modelle zu übertragen. Durch realistische Trainingsdialoge erzielen auch kompakte Modelle eine hohe Gesprächsqualität.
Reinforcement Learning für höchste Genauigkeit
Im Bereich Speech-to-Text kommt ein verstärkter Einsatz von Reinforcement Learning zum Tragen. Dadurch wird die Transkriptionsgenauigkeit erheblich verbessert und Halluzinationen reduziert – besonders relevant für komplexe Spracherkennungsszenarien.
Verfügbarkeit in der API
Alle neuen Audiomodelle sind ab sofort weltweit über die API verfügbar. Entwickler, die bereits textbasierte Agenten einsetzen, können nun einfach Sprachfunktionen integrieren – inklusive einer neuen Integration mit dem Agents SDK, das die Entwicklung von Sprachagenten weiter vereinfacht. Für Echtzeit-Anwendungen empfiehlt OpenAI die Nutzung der Speech-to-Speech-Modelle in der Realtime API.
Ausblick: Was kommt als Nächstes?
OpenAI plant, die Intelligenz und Personalisierungsmöglichkeiten seiner Audiomodelle weiter auszubauen – etwa durch die Integration eigener Stimmen der Entwickler, selbstverständlich im Einklang mit den Sicherheitsstandards. Zudem wird der Dialog mit politischen Entscheidungsträgern, Forschern, Entwicklern und Kreativen über die Chancen und Herausforderungen synthetischer Stimmen fortgesetzt.
Auch neue Modalitäten wie Video stehen im Fokus, um multimodale Agenten der nächsten Generation zu ermöglichen.
Fazit
Mit den neuen Audiomodellen setzt OpenAI neue Maßstäbe für sprachgesteuerte Anwendungen – leistungsstark, flexibel und bereit für die nächste Generation von KI-gestützten Sprachagenten.