Einführung der neuen Audiomodelle in der API: Die nächste Generation für Sprachagenten

OpenAI stellt eine neue Generation von Sprach-zu-Text- und Text-zu-Sprach-Modellen vor, die weltweit über die API verfügbar sind.

In den vergangenen Monaten hat OpenAI intensiv daran gearbeitet, die Intelligenz und Funktionalität textbasierter Agenten zu verbessern – etwa durch Entwicklungen wie Operator, Deep Research, Computer-Using Agents und die Responses API mit integrierten Tools. Doch um Agenten wirklich nützlich zu machen, müssen Nutzer über reinen Text hinaus kommunizieren können – durch natürliche gesprochene Sprache.

Neue Audiomodelle für Sprach-zu-Text und Text-zu-Sprach

OpenAI hat jetzt neue Modelle für Speech-to-Text (Sprach-zu-Text) und Text-to-Speech (Text-zu-Sprach) in der API veröffentlicht. Diese ermöglichen es Entwicklerinnen und Entwicklern, leistungsfähigere, anpassbare und intelligentere Sprachagenten zu erstellen, die echten Mehrwert bieten.

Die neuen Speech-to-Text-Modelle setzen einen neuen Branchenstandard – mit hoher Genauigkeit auch bei schwierigen Bedingungen wie Dialekten, Hintergrundgeräuschen oder unterschiedlichen Sprechgeschwindigkeiten. Damit eignen sie sich besonders für Anwendungsbereiche wie Kundenservice, Protokollerstellung von Meetings oder automatisierte Transkription.

Individuell steuerbare Text-to-Speech-Stimmen

Erstmals kann das neue Text-to-Speech-Modell so gesteuert werden, dass es auf eine bestimmte Weise spricht – etwa „wie ein mitfühlender Kundenberater“. Diese Steuerbarkeit eröffnet neue Möglichkeiten: empathische Service-Stimmen, lebendige Erzählungen für kreative Inhalte oder personalisierte Audio-Erlebnisse.

Bereits 2022 brachte OpenAI das erste Audiomodell auf den Markt. Mit der neuesten Generation wird diese Entwicklung konsequent fortgesetzt – mit Fokus auf Intelligenz, Genauigkeit und Zuverlässigkeit.

Die neuen Speech-to-Text-Modelle im Detail

Mit gpt-4o-transcribe und gpt-4o-mini-transcribe führt OpenAI zwei neue Modelle ein, die die Whisper-Modelle in puncto Wortfehlerrate und Spracherkennung deutlich übertreffen.

Diese Modelle wurden durch gezieltes Reinforcement Learning und umfangreiches Midtraining mit hochwertigen, vielfältigen Audiodaten optimiert. Sie erfassen sprachliche Nuancen besser, reduzieren Fehlinterpretationen und sorgen für stabile Transkriptionen – auch unter schwierigen Bedingungen.

Verfügbar sind sie ab sofort in der Speech-to-Text-API.

Das neue Text-to-Speech-Modell

Mit gpt-4o-mini-tts bringt OpenAI ein neues Text-zu-Sprach-Modell auf den Markt, das über verbesserte Steuerbarkeit verfügt. Entwickler können dem Modell nun nicht nur was, sondern auch wie es etwas sagen soll, vorgeben – ideal für Anwendungsfälle von Kundenservice bis hin zu Erzählinhalten.

Die verfügbaren Stimmen sind künstlich erzeugt und werden kontinuierlich überwacht, um konsistente Qualität sicherzustellen. Das Modell ist über die Text-to-Speech-API nutzbar.

Technologische Innovationen hinter den Modellen

Vortraining mit authentischen Audiodaten

Die neuen Modelle basieren auf den Architekturen von GPT‑4o und GPT‑4o-mini und wurden mit spezialisierten Audiodatensätzen vortrainiert. Diese gezielte Datengrundlage ermöglicht eine präzisere Erkennung sprachlicher Details.

Fortschrittliche Distillationstechniken

OpenAI verwendet neue Distillation-Methoden, um Wissen von großen auf kleinere, effizientere Modelle zu übertragen. Durch realistische Trainingsdialoge erzielen auch kompakte Modelle eine hohe Gesprächsqualität.

Reinforcement Learning für höchste Genauigkeit

Im Bereich Speech-to-Text kommt ein verstärkter Einsatz von Reinforcement Learning zum Tragen. Dadurch wird die Transkriptionsgenauigkeit erheblich verbessert und Halluzinationen reduziert – besonders relevant für komplexe Spracherkennungsszenarien.

Verfügbarkeit in der API

Alle neuen Audiomodelle sind ab sofort weltweit über die API verfügbar. Entwickler, die bereits textbasierte Agenten einsetzen, können nun einfach Sprachfunktionen integrieren – inklusive einer neuen Integration mit dem Agents SDK, das die Entwicklung von Sprachagenten weiter vereinfacht. Für Echtzeit-Anwendungen empfiehlt OpenAI die Nutzung der Speech-to-Speech-Modelle in der Realtime API.

Ausblick: Was kommt als Nächstes?

OpenAI plant, die Intelligenz und Personalisierungsmöglichkeiten seiner Audiomodelle weiter auszubauen – etwa durch die Integration eigener Stimmen der Entwickler, selbstverständlich im Einklang mit den Sicherheitsstandards. Zudem wird der Dialog mit politischen Entscheidungsträgern, Forschern, Entwicklern und Kreativen über die Chancen und Herausforderungen synthetischer Stimmen fortgesetzt.

Auch neue Modalitäten wie Video stehen im Fokus, um multimodale Agenten der nächsten Generation zu ermöglichen.

Fazit

Mit den neuen Audiomodellen setzt OpenAI neue Maßstäbe für sprachgesteuerte Anwendungen – leistungsstark, flexibel und bereit für die nächste Generation von KI-gestützten Sprachagenten.

Author

Leon Falk

Leon Falk, wurde am 3. April 1989 in Deutschland geboren. Nach meinem Studium der Informatik an der Universität Heidelberg, das ich mit einem Masterabschluss krönte, spezialisierte ich mich auf KI-gestützte Textanalyse. Heute arbeite ich bei GPTDeutsch.net, wo ich neuartige Systeme zur Verarbeitung und Generierung von Sprache entwickle. Mein Ziel ist es, Technologie für alle verständlich und nützlich zu machen.
View all posts

Blog