OpenAI выпустила модели для озвучивания текста и создания голосовых помощников с поддержкой русского языка

Компания представила модели на базе GPT-4o, которые преобразуют текст в аудио с помощью одного из предложенных ИИ-голосов, а также транскрибируют аудиозаписи и распознают речь в режиме реального времени.
Они поддерживают более 100 языков, включая русский. Есть 11 голосов, для которых можно задать тон, эмоции и характер, описав их текстом. Например, заставить ИИ-агента говорить, как «безумный учёный», рассказал сотрудник OpenAI Джефф Харрис изданию TechCrunch.
Нейросеть для озвучивания текста доступна в бесплатной демоверсии. Можно ввести максимум 1000 символов.

Новые модели заменят нейросеть для преобразования текста в речь Whisper, которую OpenAI представила в 2023 году. Они делают меньше ошибок в словах и лучше распознают речь в шумной обстановке, а также реже «галлюцинируют» — выдумывают несуществующие слова, заявляют в компании.

В отличие от Whisper, компания не собирается публиковать открытый исходный код моделей. Они доступны разработчикам для работы через API.

gpt-4o-transcribe и gpt-4o-mini-transcribe — модели для распознавания речи и преобразования её в текст. Работа с ними стоит $0,006 и $0,003 за минуту входного аудио соответственно. gpt-4o-mini-tts преобразует текст в аудио, 1 минута сгенерированной речи стоит $0,015.

Данный пост озвучен моделью gpt-4o-mini-tts и голосом Ash.

2 комментария

Следующие модели Llama от Meta могут иметь улучшенные голосовые функции

По данным Financial Times, следующая крупная «открытая» модель искусственного интеллекта компании Meta* может быть ориентирована на голосовую связь. Согласно статье, Meta* планирует представить улучшенные голосовые функции в Llama 4, следующем флагмане в семействе моделей Llama, который, как ожидается, появится через «недели».

Евгений Козлов

Искусственный интеллект9 months ago

Stability AI выпускает модель преобразования текста в звук, которая работает на мобильных устройствах

Stability AI и Arm выпустили компактную модель преобразования текста в звук, которая работает на смартфонах и способна генерировать стереофонические аудиоклипы продолжительностью до 11 секунд примерно за 7 секунд.

Евгений Козлов

Искусственный интеллект9 months ago

Google запустила бесплатный ИИ-сервис Stitch для разработки веб-интерфейсов с помощью Gemini 2.5 Pro

Собрали примеры пользователей из соцсетей.

Евгений Козлов

Искусственный интеллектa year ago

Сооснователь Google Ларри Пейдж запустил ИИ-стартап в сфере промышленности — The Information

ИИ собираются использовать для повышения эффективности производства.

Евгений Козлов

Искусственный интеллектa year ago

Sesame AI демонстрирует впечатляющего голосового помощника с открытым исходным кодом

Sesame AI, калифорнийский стартап, использует нетрадиционный подход к голосовому ИИ, намеренно добавляя дефекты в свою речь. Их новая модель представляет собой первый шаг к более аутентичным диалогам и тому, что они называют «присутствием голоса» в системах ИИ.

Евгений Козлов

Искусственный интеллект9 months ago

OpenAI добавила GPT-4.1 в ChatGPT

Для платных пользователей.

Евгений Козлов

Искусственный интеллект3 months ago

OpenAI и Amazon заключили семилетнюю сделку на $38 млрд, чтобы улучшить работу ChatGPT

OpenAI заключила соглашение о покупке мощностей Amazon на сумму $38 млрд для улучшения работы чат-бота ChatGPT. Сделка стала признаком того, что OpenAI сокращает зависимость от Microsoft, пишет CNBC. В соответствии с соглашением OpenAI немедленно начнёт выполнять рабочие нагрузки на инфраструктуре Amazon Web Services, используя вычислительные мощности графических процессоров Nvidia в США.

MITWORK

Искусственный интеллектa year ago

Какой ChatGPT выбрать в 2025 году? Подробный разбор всех моделей

Ещё пару лет назад вопрос «Какой ChatGPT лучше?» сводился к простому выбору: что за версию использовать — «тройку» или «четвёрку»? Теперь всё сложнее, и не всегда с ходу понятно, чем одна модель отличается от другой. OpenAI больше не делает ставку на одну универсальную, а предлагает линейки моделей, где каждая специализируется на чём‑то своём: одна лучше рассуждает, другой удобнее писать код, третья идеально подходит для повседневных задач (генераций и др.).

OpenAI выпустила модели для озвучивания текста и создания голосовых помощников с поддержкой русского языка

Рекомендации

Следующие модели Llama от Meta могут иметь улучшенные голосовые функции

Stability AI выпускает модель преобразования текста в звук, которая работает на мобильных устройствах

Google запустила бесплатный ИИ-сервис Stitch для разработки веб-интерфейсов с помощью Gemini 2.5 Pro

Сооснователь Google Ларри Пейдж запустил ИИ-стартап в сфере промышленности — The Information

Sesame AI демонстрирует впечатляющего голосового помощника с открытым исходным кодом

OpenAI добавила GPT-4.1 в ChatGPT

OpenAI и Amazon заключили семилетнюю сделку на $38 млрд, чтобы улучшить работу ChatGPT

Какой ChatGPT выбрать в 2025 году? Подробный разбор всех моделей