Stability AI выпускает модель преобразования текста в звук, которая работает на мобильных устройствах

Stability AI и Arm выпустили компактную модель преобразования текста в звук, которая работает на смартфонах и способна генерировать стереофонические аудиоклипы продолжительностью до 11 секунд примерно за 7 секунд.

Модель под названием Stable Audio Open Small основана на методе, известном как «состязательный релятивистско-контрастный» (ARC), разработанном исследователями из Калифорнийского университета в Беркли и других учреждений. На высокопроизводительном оборудовании, таком как графический процессор Nvidia H100, она может воспроизводить стереозвук частотой 44 кГц всего за 75 миллисекунд — достаточно быстро для генерации практически в реальном времени.

Первоначальная версия Stable Audio Open была выпущена в прошлом году как бесплатная модель с открытым исходным кодом с 1,1 миллиарда параметров. В этой уменьшенной версии используется всего 341 миллион параметров, что значительно упрощает её использование на потребительском оборудовании. Stability AI и Arm впервые объявили о своём сотрудничестве в марте.

Чтобы модель работала на смартфонах, команда переработала архитектуру. Теперь система состоит из трёх компонентов: автокодировщика, который сжимает аудиоданные, встраиваемого модуля, который интерпретирует текстовые подсказки, и диффузионной модели, которая генерирует финальный звук.

Эта переработанная система не использует дистилляцию, но при этом сокращает использование памяти почти вдвое — с 6,5 ГБ до 3,6 ГБ. Такое сокращение позволяет впервые запустить модель на мобильных устройствах. Во время тестирования исследователи использовали Vivo X200 Pro — телефон на Android с 12 ГБ оперативной памяти и чипом Mediatek Dimensity 9400, выпущенным в конце 2024 года.

Stability AI сообщает, что модель особенно хорошо справляется с генерацией звуковых эффектов и полевых записей. Она по-прежнему испытывает трудности с музыкой, особенно с пением, и лучше всего работает с подсказками на английском языке.

Модель была обучена примерно на 472 000 клипах из базы данных Freesound, используя только материалы, лицензированные по условиям CC0, CC BY или CC-Sampling+. Чтобы избежать проблем с авторскими правами, команда отфильтровала данные с помощью ряда автоматических проверок.

Программное обеспечение доступно по лицензии Stability AI Community для использования с открытым исходным кодом. Коммерческое использование регулируется отдельными условиями. Код доступен на GitHub, а доступ к весам модели можно получить через Hugging Face.

Талқылауды бастау

Какой ChatGPT выбрать в 2025 году? Подробный разбор всех моделей

Ещё пару лет назад вопрос «Какой ChatGPT лучше?» сводился к простому выбору: что за версию использовать — «тройку» или «четвёрку»? Теперь всё сложнее, и не всегда с ходу понятно, чем одна модель отличается от другой. OpenAI больше не делает ставку на одну универсальную, а предлагает линейки моделей, где каждая специализируется на чём‑то своём: одна лучше рассуждает, другой удобнее писать код, третья идеально подходит для повседневных задач (генераций и др.).

Евгений Козлов

Искусственный интеллект9 months ago

OpenAI добавила GPT-4.1 в ChatGPT

Для платных пользователей.

Евгений Козлов

Искусственный интеллектa year ago

Sesame AI демонстрирует впечатляющего голосового помощника с открытым исходным кодом

Sesame AI, калифорнийский стартап, использует нетрадиционный подход к голосовому ИИ, намеренно добавляя дефекты в свою речь. Их новая модель представляет собой первый шаг к более аутентичным диалогам и тому, что они называют «присутствием голоса» в системах ИИ.

Евгений Козлов

Искусственный интеллект3 months ago

OpenAI и Amazon заключили семилетнюю сделку на $38 млрд, чтобы улучшить работу ChatGPT

OpenAI заключила соглашение о покупке мощностей Amazon на сумму $38 млрд для улучшения работы чат-бота ChatGPT. Сделка стала признаком того, что OpenAI сокращает зависимость от Microsoft, пишет CNBC. В соответствии с соглашением OpenAI немедленно начнёт выполнять рабочие нагрузки на инфраструктуре Amazon Web Services, используя вычислительные мощности графических процессоров Nvidia в США.

Евгений Козлов

Искусственный интеллектa year ago

Следующие модели Llama от Meta могут иметь улучшенные голосовые функции

По данным Financial Times, следующая крупная «открытая» модель искусственного интеллекта компании Meta* может быть ориентирована на голосовую связь. Согласно статье, Meta* планирует представить улучшенные голосовые функции в Llama 4, следующем флагмане в семействе моделей Llama, который, как ожидается, появится через «недели».

Евгений Козлов

Искусственный интеллектa year ago

Сооснователь Google Ларри Пейдж запустил ИИ-стартап в сфере промышленности — The Information

ИИ собираются использовать для повышения эффективности производства.

Евгений Козлов

Искусственный интеллектa year ago

OpenAI выпустила модели для озвучивания текста и создания голосовых помощников с поддержкой русского языка

Они доступны разработчикам и в бесплатной демоверсии.

Евгений Козлов

Искусственный интеллект9 months ago

Google запустила бесплатный ИИ-сервис Stitch для разработки веб-интерфейсов с помощью Gemini 2.5 Pro

Собрали примеры пользователей из соцсетей.

Stability AI выпускает модель преобразования текста в звук, которая работает на мобильных устройствах

Рекомендации

Какой ChatGPT выбрать в 2025 году? Подробный разбор всех моделей

OpenAI добавила GPT-4.1 в ChatGPT

Sesame AI демонстрирует впечатляющего голосового помощника с открытым исходным кодом

OpenAI и Amazon заключили семилетнюю сделку на $38 млрд, чтобы улучшить работу ChatGPT

Следующие модели Llama от Meta могут иметь улучшенные голосовые функции

Сооснователь Google Ларри Пейдж запустил ИИ-стартап в сфере промышленности — The Information

OpenAI выпустила модели для озвучивания текста и создания голосовых помощников с поддержкой русского языка

Google запустила бесплатный ИИ-сервис Stitch для разработки веб-интерфейсов с помощью Gemini 2.5 Pro