SAN FRANCISCO : OpenAI a ajouté jeudi trois modèles vocaux à son interface de programmation (API), enrichissant ainsi ses outils pour les développeurs créant des logiciels capables de gérer les interactions vocales en temps réel. Cette mise à jour comprend GPT-Realtime-2 pour les conversations vocales en direct, GPT-Realtime-Translate pour la traduction vocale et GPT-Realtime-Whisper pour la transcription en continu. L'entreprise précise que ces modèles sont conçus pour permettre aux applications d'écouter, de répondre et d'effectuer des tâches pendant une conversation, allant ainsi au-delà de la simple reconnaissance vocale ou de la génération de texte.

GPT-Realtime-2 est la principale mise à jour et se positionne comme le premier modèle vocal d'OpenAI doté d'un raisonnement de classe GPT-5. Selon l'entreprise, il peut gérer des requêtes plus complexes, conserver le contexte sur des sessions plus longues, se remettre des interruptions et utiliser plusieurs outils simultanément au cours d'une conversation. OpenAI a également indiqué que la fenêtre de contexte du modèle a été étendue de 32 000 à 128 000 jetons, offrant ainsi aux développeurs une plus grande flexibilité pour la prise en charge d'interactions plus longues et de flux de tâches plus détaillés au sein des applications vocales.
Les deux autres modèles sont axés sur la traduction et la transcription. GPT-Realtime-Translate est conçu pour traduire la parole depuis plus de 70 langues d'entrée vers 13 langues de sortie, tout en suivant le rythme de l'orateur. Cette fonctionnalité est particulièrement utile pour le soutien à la clientèle, l'éducation, l'événementiel et d'autres contextes multilingues. GPT-Realtime-Whisper est un modèle de transcription vocale à faible latence qui retranscrit l'audio en temps réel, permettant ainsi aux développeurs de créer des sous-titres instantanés, des comptes rendus de réunion et d'autres outils de travail nécessitant une transcription continue.
OpenAI étend ses outils vocaux pour développeurs
OpenAI a indiqué que des entreprises comme Zillow , Priceline et Deutsche Telekom testent déjà ses modèles. Lors du lancement, Zillow a présenté des exemples d'utilisation de cette technologie dans un assistant au logement capable de répondre à des requêtes vocales détaillées, tandis que Deutsche Telekom teste des solutions de soutien à la clientèle multilingues. Priceline a été citée comme une entreprise travaillant sur des outils de planification de voyage vocaux permettant aux utilisateurs de rechercher, modifier leurs réservations et recevoir des mises à jour de voyage par interaction vocale plutôt que par saisie de texte.
Les modèles sont disponibles via l'API Realtime d'OpenAI, et l'entreprise précise que les développeurs peuvent les tester dans son environnement de test. Le prix de GPT-Realtime-2 est de 32 $ par million de jetons audio d'entrée, tandis que l'audio de sortie est facturé séparément à 64 $ par million de jetons. GPT-Realtime-Translate est offert à 0,034 $ la minute et GPT-Realtime-Whisper à 0,017 $ la minute. Cette annonce intègre ces produits directement à la plateforme de développement existante d'OpenAI, au lieu de les proposer comme fonctionnalités grand public indépendantes.
Mesures de sécurité décrites
Parallèlement à cette annonce, l'entreprise a détaillé les mesures de sécurité liées à l'API Realtime. OpenAI a indiqué utiliser des classificateurs actifs lors des sessions en temps réel et pouvoir interrompre certaines conversations si elles enfreignent les règles relatives aux contenus préjudiciables. Les développeurs peuvent aussi ajouter leurs propres contrôles par le biais des outils logiciels de l'entreprise. OpenAI a précisé que ses politiques d'utilisation interdisent l'utilisation des résultats à des fins de pourriel, de tromperie ou d'autres fins malveillantes, et exige des développeurs qu'ils indiquent clairement lorsque les utilisateurs finaux interagissent avec une intelligence artificielle, à moins que cela ne ressorte déjà du contexte.
Ce lancement s'appuie sur le développement plus large des outils audio et temps réel d'OpenAI au cours de la dernière année, notamment grâce aux précédentes mises à jour de son API temps réel et de ses modèles vocaux. Cette version regroupe ces fonctionnalités dans un ensemble axé sur l'interaction vocale en direct, combinant raisonnement, traduction et transcription dans une seule annonce destinée aux développeurs. Avec cette dernière mise à jour, OpenAI élargit la gamme de fonctions vocales disponibles via son API pour le service à la clientèle, les voyages , les flux de travail d'entreprise et les communications multilingues. – Par Content Syndication Services .
L'article « OpenAI lance des modèles d'IA vocale en temps réel pour les développeurs » est paru initialement sur Little Rock Gazette .
