- Компания представила модели на базе GPT-4o, которые преобразуют текст в аудио с помощью одного из предложенных ИИ-голосов, а также транскрибируют аудиозаписи и распознают речь в режиме реального времени.
- Они поддерживают более 100 языков, включая русский. Есть 11 голосов, для которых можно задать тон, эмоции и характер, описав их текстом. Например, заставить ИИ-агента говорить, как «безумный учёный», рассказал сотрудник OpenAI Джефф Харрис изданию TechCrunch.
- Нейросеть для озвучивания текста доступна в бесплатной демоверсии. Можно ввести максимум 1000 символов.
- Новые модели заменят нейросеть для преобразования текста в речь Whisper, которую OpenAI представила в 2023 году. Они делают меньше ошибок в словах и лучше распознают речь в шумной обстановке, а также реже «галлюцинируют» — выдумывают несуществующие слова, заявляют в компании.
- В отличие от Whisper, компания не собирается публиковать открытый исходный код моделей. Они доступны разработчикам для работы через API.
- gpt-4o-transcribe и gpt-4o-mini-transcribe — модели для распознавания речи и преобразования её в текст. Работа с ними стоит $0,006 и $0,003 за минуту входного аудио соответственно. gpt-4o-mini-tts преобразует текст в аудио, 1 минута сгенерированной речи стоит $0,015.
Данный пост озвучен моделью gpt-4o-mini-tts и голосом Ash.


