IDC

OpenAI выпустила модели для озвучивания текста и создания голосовых помощников с поддержкой русского языка

  • Компания представила модели на базе GPT-4o, которые преобразуют текст в аудио с помощью одного из предложенных ИИ-голосов, а также транскрибируют аудиозаписи и распознают речь в режиме реального времени.
  • Они поддерживают более 100 языков, включая русский. Есть 11 голосов, для которых можно задать тон, эмоции и характер, описав их текстом. Например, заставить ИИ-агента говорить, как «безумный учёный», рассказал сотрудник OpenAI Джефф Харрис изданию TechCrunch.
  • Нейросеть для озвучивания текста доступна в бесплатной демоверсии. Можно ввести максимум 1000 символов.
  • Новые модели заменят нейросеть для преобразования текста в речь Whisper, которую OpenAI представила в 2023 году. Они делают меньше ошибок в словах и лучше распознают речь в шумной обстановке, а также реже «галлюцинируют» — выдумывают несуществующие слова, заявляют в компании.
  • В отличие от Whisper, компания не собирается публиковать открытый исходный код моделей. Они доступны разработчикам для работы через API.
  • gpt-4o-transcribe и gpt-4o-mini-transcribe — модели для распознавания речи и преобразования её в текст. Работа с ними стоит $0,006 и $0,003 за минуту входного аудио соответственно. gpt-4o-mini-tts преобразует текст в аудио, 1 минута сгенерированной речи стоит $0,015.

Данный пост озвучен моделью gpt-4o-mini-tts и голосом Ash.

26
comments

Рекомендации

OpenAI добавила GPT-4.1 в ChatGPT

Для платных пользователей.
Читать далее
38

Какой ChatGPT выбрать в 2025 году? Подробный разбор всех моделей

Ещё пару лет назад вопрос «Какой ChatGPT лучше?» сводился к простому выбору: что за версию использовать — «тройку» или «четвёрку»? Теперь всё сложнее, и не всегда с ходу понятно, чем одна модель отличается от другой. OpenAI больше не делает ставку на одну универсальную, а предлагает линейки моделей, где каждая специализируется на чём‑то своём: одна лучше рассуждает, другой удобнее писать код, третья идеально подходит для повседневных задач (генераций и др.).
Читать далее
44

Stability AI выпускает модель преобразования текста в звук, которая работает на мобильных устройствах

Stability AI и Arm выпустили компактную модель преобразования текста в звук, которая работает на смартфонах и способна генерировать стереофонические аудиоклипы продолжительностью до 11 секунд примерно за 7 секунд.
Читать далее
32

OpenAI и Amazon заключили семилетнюю сделку на $38 млрд, чтобы улучшить работу ChatGPT

OpenAI заключила соглашение о покупке мощностей Amazon на сумму $38 млрд для улучшения работы чат-бота ChatGPT. Сделка стала признаком того, что OpenAI сокращает зависимость от Microsoft, пишет CNBC. В соответствии с соглашением OpenAI немедленно начнёт выполнять рабочие нагрузки на инфраструктуре Amazon Web Services, используя вычислительные мощности графических процессоров Nvidia в США.
Читать далее
5

Google запустила бесплатный ИИ-сервис Stitch для разработки веб-интерфейсов с помощью Gemini 2.5 Pro

Собрали примеры пользователей из соцсетей.
Читать далее
54

Следующие модели Llama от Meta могут иметь улучшенные голосовые функции

По данным Financial Times, следующая крупная «открытая» модель искусственного интеллекта компании Meta* может быть ориентирована на голосовую связь. Согласно статье, Meta* планирует представить улучшенные голосовые функции в Llama 4, следующем флагмане в семействе моделей Llama, который, как ожидается, появится через «недели».
Читать далее
16

Sesame AI демонстрирует впечатляющего голосового помощника с открытым исходным кодом

Sesame AI, калифорнийский стартап, использует нетрадиционный подход к голосовому ИИ, намеренно добавляя дефекты в свою речь. Их новая модель представляет собой первый шаг к более аутентичным диалогам и тому, что они называют «присутствием голоса» в системах ИИ.
Читать далее
43

Сооснователь Google Ларри Пейдж запустил ИИ-стартап в сфере промышленности — The Information

ИИ собираются использовать для повышения эффективности производства.
Читать далее
28