IDC

Stability AI выпускает модель преобразования текста в звук, которая работает на мобильных устройствах

Stability AI и Arm выпустили компактную модель преобразования текста в звук, которая работает на смартфонах и способна генерировать стереофонические аудиоклипы продолжительностью до 11 секунд примерно за 7 секунд.

Image

Модель под названием Stable Audio Open Small основана на методе, известном как «состязательный релятивистско-контрастный» (ARC), разработанном исследователями из Калифорнийского университета в Беркли и других учреждений. На высокопроизводительном оборудовании, таком как графический процессор Nvidia H100, она может воспроизводить стереозвук частотой 44 кГц всего за 75 миллисекунд — достаточно быстро для генерации практически в реальном времени.

Первоначальная версия Stable Audio Open была выпущена в прошлом году как бесплатная модель с открытым исходным кодом с 1,1 миллиарда параметров. В этой уменьшенной версии используется всего 341 миллион параметров, что значительно упрощает её использование на потребительском оборудовании. Stability AI и Arm впервые объявили о своём сотрудничестве в марте.

Чтобы модель работала на смартфонах, команда переработала архитектуру. Теперь система состоит из трёх компонентов: автокодировщика, который сжимает аудиоданные, встраиваемого модуля, который интерпретирует текстовые подсказки, и диффузионной модели, которая генерирует финальный звук.

Эта переработанная система не использует дистилляцию, но при этом сокращает использование памяти почти вдвое — с 6,5 ГБ до 3,6 ГБ. Такое сокращение позволяет впервые запустить модель на мобильных устройствах. Во время тестирования исследователи использовали Vivo X200 Pro — телефон на Android с 12 ГБ оперативной памяти и чипом Mediatek Dimensity 9400, выпущенным в конце 2024 года.

Stability AI сообщает, что модель особенно хорошо справляется с генерацией звуковых эффектов и полевых записей. Она по-прежнему испытывает трудности с музыкой, особенно с пением, и лучше всего работает с подсказками на английском языке.

Модель была обучена примерно на 472 000 клипах из базы данных Freesound, используя только материалы, лицензированные по условиям CC0, CC BY или CC-Sampling+. Чтобы избежать проблем с авторскими правами, команда отфильтровала данные с помощью ряда автоматических проверок.

Программное обеспечение доступно по лицензии Stability AI Community для использования с открытым исходным кодом. Коммерческое использование регулируется отдельными условиями. Код доступен на GitHub, а доступ к весам модели можно получить через Hugging Face.

32
Начать обсуждение

Рекомендации

Следующие модели Llama от Meta могут иметь улучшенные голосовые функции

По данным Financial Times, следующая крупная «открытая» модель искусственного интеллекта компании Meta* может быть ориентирована на голосовую связь. Согласно статье, Meta* планирует представить улучшенные голосовые функции в Llama 4, следующем флагмане в семействе моделей Llama, который, как ожидается, появится через «недели».
Читать далее
16

OpenAI добавила GPT-4.1 в ChatGPT

Для платных пользователей.
Читать далее
38

Сооснователь Google Ларри Пейдж запустил ИИ-стартап в сфере промышленности — The Information

ИИ собираются использовать для повышения эффективности производства.
Читать далее
28

OpenAI и Amazon заключили семилетнюю сделку на $38 млрд, чтобы улучшить работу ChatGPT

OpenAI заключила соглашение о покупке мощностей Amazon на сумму $38 млрд для улучшения работы чат-бота ChatGPT. Сделка стала признаком того, что OpenAI сокращает зависимость от Microsoft, пишет CNBC. В соответствии с соглашением OpenAI немедленно начнёт выполнять рабочие нагрузки на инфраструктуре Amazon Web Services, используя вычислительные мощности графических процессоров Nvidia в США.
Читать далее
5

Google запустила бесплатный ИИ-сервис Stitch для разработки веб-интерфейсов с помощью Gemini 2.5 Pro

Собрали примеры пользователей из соцсетей.
Читать далее
54

Какой ChatGPT выбрать в 2025 году? Подробный разбор всех моделей

Ещё пару лет назад вопрос «Какой ChatGPT лучше?» сводился к простому выбору: что за версию использовать — «тройку» или «четвёрку»? Теперь всё сложнее, и не всегда с ходу понятно, чем одна модель отличается от другой. OpenAI больше не делает ставку на одну универсальную, а предлагает линейки моделей, где каждая специализируется на чём‑то своём: одна лучше рассуждает, другой удобнее писать код, третья идеально подходит для повседневных задач (генераций и др.).
Читать далее
44

OpenAI выпустила модели для озвучивания текста и создания голосовых помощников с поддержкой русского языка

Они доступны разработчикам и в бесплатной демоверсии.
Читать далее
26

Sesame AI демонстрирует впечатляющего голосового помощника с открытым исходным кодом

Sesame AI, калифорнийский стартап, использует нетрадиционный подход к голосовому ИИ, намеренно добавляя дефекты в свою речь. Их новая модель представляет собой первый шаг к более аутентичным диалогам и тому, что они называют «присутствием голоса» в системах ИИ.
Читать далее
43