IDC

Sesame AI демонстрирует впечатляющего голосового помощника с открытым исходным кодом

Image

Согласно результатам предварительного тестирования, наиболее впечатляющими особенностями Sesame являются такие тонкие элементы, как микропаузы, акценты и смех во время разговора. В одном из диалогов аватар Sesame Майя в режиме реального времени отреагировала на внезапный смех пользователя, продемонстрировав эмоциональную осведомлённость.

Система намеренно имитирует человеческое поведение, например, исправляет себя в середине предложения и извиняется за перерывы в речи. Techradar особо отметил эти намеренные несовершенства, подчеркнув, что они отличаются от отполированного корпоративного стиля ChatGPT или Gemini.

В смоделированных сценариях, таких как обсуждение стресса на работе или планирование вечеринки, система предлагала контекстуально подходящие ответы и вопросы, а не использовала шаблонные фразы.

Система обрабатывает речь, используя семантические маркеры для лингвистических свойств и фонетики, а также акустические маркеры для таких характеристик звука, как высота тона и ударение. Для оптимизации обучения аудиодекодер обучается только на одной шестнадцатой части аудиокадров, в то время как семантическая обработка использует весь набор данных.

Модель обучалась на одном миллионе часов аудиоданных на английском языке за пять эпох. Она может обрабатывать последовательности из 2048 токенов (около двух минут аудио) в сквозной архитектуре. Этот подход отличается от традиционных систем преобразования текста в речь интегрированной обработкой текста и аудио.

В ходе слепых тестов с Sesame участники не могли отличить CSM от реальных людей во время коротких диалогов. Однако в более длинных диалогах всё же проявлялись ограничения, такие как случайные неестественные паузы и звуковые дефекты.

Sesame разработала специальные фонетические тесты для оценки эффективности модели. В тестах на восприятие на слух участники оценили сгенерированную речь как эквивалентную реальным записям, когда она звучала без контекста, хотя при наличии контекста они всё равно предпочитали оригинал.

Image

Предпочтение, которое испытуемые отдают речи, сгенерированной ИИ, достигает почти человеческого уровня.

Sesame планирует выпустить ключевые компоненты своего исследования в открытом доступе по лицензии Apache 2.0. В ближайшее время они намерены увеличить масштаб модели и расширить охват обучения, включив в него более 20 языков.

Компания акцентирует внимание на интеграции предварительно обученных языковых моделей и создании систем с полным дуплексом. Эти системы способны анализировать динамику разговора, включая смену говорящих, паузы и скорость речи, непосредственно на основе данных. Для достижения этой цели потребуются значительные изменения во всех аспектах обработки, начиная с работы с данными и заканчивая методами последующей обработки.

«Создать цифрового компаньона с голосовым сопровождением непросто, но мы стабильно продвигаемся по нескольким направлениям, включая индивидуальность, память, выразительность и уместность», — отмечают разработчики.

Компания Sesame AI, основанная бывшим техническим директором Oculus Бренданом Ирибе и его командой, получила значительное финансирование серии A от Andreessen Horowitz. Демо-версия уже доступна.

Влияние естественных голосов ИИ на востребованность ассистентов стало очевидным благодаря повышенному интересу к расширенным голосовым функциям ChatGPT. Голосовые помощники на базе больших языковых моделей, вероятно, будут становиться всё более распространёнными, о чём свидетельствует выпуск Amazon Alexa+

43
2 комментария

Рекомендации

Следующие модели Llama от Meta могут иметь улучшенные голосовые функции

По данным Financial Times, следующая крупная «открытая» модель искусственного интеллекта компании Meta* может быть ориентирована на голосовую связь. Согласно статье, Meta* планирует представить улучшенные голосовые функции в Llama 4, следующем флагмане в семействе моделей Llama, который, как ожидается, появится через «недели».
Читать далее
16

Google запустила бесплатный ИИ-сервис Stitch для разработки веб-интерфейсов с помощью Gemini 2.5 Pro

Собрали примеры пользователей из соцсетей.
Читать далее
54

OpenAI добавила GPT-4.1 в ChatGPT

Для платных пользователей.
Читать далее
38

OpenAI выпустила модели для озвучивания текста и создания голосовых помощников с поддержкой русского языка

Они доступны разработчикам и в бесплатной демоверсии.
Читать далее
26

Stability AI выпускает модель преобразования текста в звук, которая работает на мобильных устройствах

Stability AI и Arm выпустили компактную модель преобразования текста в звук, которая работает на смартфонах и способна генерировать стереофонические аудиоклипы продолжительностью до 11 секунд примерно за 7 секунд.
Читать далее
32

Какой ChatGPT выбрать в 2025 году? Подробный разбор всех моделей

Ещё пару лет назад вопрос «Какой ChatGPT лучше?» сводился к простому выбору: что за версию использовать — «тройку» или «четвёрку»? Теперь всё сложнее, и не всегда с ходу понятно, чем одна модель отличается от другой. OpenAI больше не делает ставку на одну универсальную, а предлагает линейки моделей, где каждая специализируется на чём‑то своём: одна лучше рассуждает, другой удобнее писать код, третья идеально подходит для повседневных задач (генераций и др.).
Читать далее
44

Сооснователь Google Ларри Пейдж запустил ИИ-стартап в сфере промышленности — The Information

ИИ собираются использовать для повышения эффективности производства.
Читать далее
28

OpenAI и Amazon заключили семилетнюю сделку на $38 млрд, чтобы улучшить работу ChatGPT

OpenAI заключила соглашение о покупке мощностей Amazon на сумму $38 млрд для улучшения работы чат-бота ChatGPT. Сделка стала признаком того, что OpenAI сокращает зависимость от Microsoft, пишет CNBC. В соответствии с соглашением OpenAI немедленно начнёт выполнять рабочие нагрузки на инфраструктуре Amazon Web Services, используя вычислительные мощности графических процессоров Nvidia в США.
Читать далее
5