Перемещение, Alexa: Amazon запускает новую модель Voice Realtime Nova Sonic для разработки сторонних предприятий

Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в лидирующем отраслевом освещении искусственного интеллекта. Узнать больше

Amazon наиболее известен как гигант электронной коммерции, а затем где-то, возможно, немного дальше в списке заметных предложений-его продукт Alexa AI Voice Assistant, который только что получил большое обновление интеллекта в прошлом месяце, отчасти благодаря Amazon Nova и Amazon Investment Antropic.

Теперь Alexa придется освободить место для нового сестра Amazon Voice Ai: сегодня компания представляет Amazon Nova Sonic, новую модель Foundation, предназначенную для того, чтобы позволить сторонним разработчикам приложений создавать в реальном времени, натуралистическую, разговорную интерактивность голоса для своих продуктов, используя Bedrock в Amazon.

Теперь он доступен через двухнаправленный интерфейс программирования приложений (API). И на самом деле, Amazon уже включил некоторые его части — речевой кодер, который обеспечивает представление и синтезатор речи — в новую модель Alexa, Alexa+.

«Этот подход позволяет нам одновременно привносить преимущества наших речевых технологий к различным вариантам использования, продолжая развивать обе системы на основе отзывов клиентов и технологических достижений», — сказал нам представитель.

Очевидные варианты использования включают поддержку клиентов и услуги, руководство, поиск информации и развлечения.

Единый подход

Nova Sonic решает ключевую задачу в Voice AI: фрагментация технологий.

Традиционно, по словам Рохита Прасада, SVP, SVP, SVP и главного ученого для искусственного общего интеллекта (AGI) в Amazon, в прошлом интервью с Venturebeat вчера в VentureBeat вчера в VentureBeat вчера в VentureBeat вчера в VentureBeat вчера в VentureBeat вчера в VentureBeat вчера в VentureBeat вчера в VentureBeat вчера в VentureBeat вчерашнего ученых Amazon, создание голосовых интерфейсов.

Эта сложность часто приводит к роботизированным, неестественным взаимодействиям и увеличению накладных расходов на развитие.

Теперь Sonic стремится улучшить это положение дел, объединив все три различных типа модели в один.

Прасад объяснил основное инновации модели: «Nova Sonic объединяет три традиционно отдельные модели-речь в тексте, понимание текста и текст в речь-на одну единую систему, которая может моделировать не только« что », но и« как »общения».

Сохранение акустического контекста, например, тон, каденция и стиль, Nova Sonic помогает поддерживать нюансы человеческого разговора.

Признание сложностей и причуд живых, двухсторонних аудио беседы

Одним из определяющих возможностей Nova Sonic является его способность справляться с живыми, двусторонними разговорами. Он признает, когда пользователи паузу делают паузу, колебания или прерывание — кольцо в человеческой речи — и плавно реагируют при сохранении контекста.

«Настоящий прорыв здесь-это интерактивное, интерактивное взаимодействие с низкой задержкой в режиме реального времени, что означает, что вы можете прервать AI в середине предложения, и оно все равно будет поддерживать контекст и отвечать последовательно»,-сказал Прасад. Эта функция особенно актуальна в таких сценариях, как обслуживание клиентов, где отзывчивость и адаптивность имеют решающее значение.

Встроенное использование инструмента и интеграция рабочего процесса

Nova Sonic также предназначена для беспрепятственной интеграции с другими системами. Он автоматически генерирует транскрипты разговорного входа, которые можно использовать для запуска API или взаимодействия с проприетарными инструментами. Это позволяет компаниям создавать агенты искусственного интеллекта, которые могут выполнять такие задачи, как бронирование встреч, получение живой информации или отвечать на сложные запросы клиентов.

«Вы можете использовать Nova Sonic через Bedrock Amazon и подключить его с любыми инструментами или запатентованными источниками данных, даже визуальными, если они обернуты в виде вызова API», — сказал Прасад. Эта гибкость делает модель подходящей для широкого спектра отраслей, от образования и поездок до предприятий и развлечений.

Сравнительные результаты и сравнения отрасли

Nova Sonic был сравнивается с другими голосовыми моделями в реальном времени, в том числе GPT-4O Openai и Google Gemini Flash 2.0. В общем наборе данных Eval он достиг 69,7% выигрышной ставки по сравнению с Gemini Flash 2.0 и 51,0% выигрыша по сравнению с GPT-4O для американских английских разговоров с одним поворотом с использованием мужского голоса. Подобные достижения были замечены с женскими и британскими английскими голосами.

Прасад подчеркнул сильные результаты Новой Соник на своих основных языковых рынках: «Nova Sonic в настоящее время является лучшим в своем классе в США и британском английском, опередив даже в реальном времени GPT-4O как в разговорной естественности, так и в точности». Он добавил: «Насколько нам известно, только две другие модели-GPT-4O в реальном времени и вариант MINI GPT-4O-приближаются к тому, что Nova Sonic делает при сочетании понимания речи и поколения в реальном времени. Это пространство все еще очень рано и очень тяжело».

Многоязычные возможности и шумная обработка среды

В распознавании речи Новая Соник также превосходит в многоязычных и реальных условиях. Он записал частоту ошибок слова (WER) 4,2% по многоязычному эталону Librispeech, опередив транскрибирование GPT-4O более чем на 36% на английском, французском, немецком, итальянском и испанском. В шумных средах с несколькими динамиками (измеренными с использованием эталона AMI), Nova Sonic продемонстрировала 46,7% улучшения в транскрибибе GPT-4O.

Выразительные голоса и расширение языка

В настоящее время модель поддерживает множество выразительных голосов, как мужских, так и женских, на американском и британском английском. Amazon отметил, что дополнительные акценты и языки находятся в разработке и будут выпущены в будущих обновлениях.

Низкая задержка и предприятия, удобная

Скорость и стоимость также являются частью привлекательности. Сторонний бенчмаркинг показывает, что Nova Sonic обеспечивает задержку с клиентом 1,09 секунды, по сравнению с 1,18 секунды для GPT-4O OpenAI и 1,41 секунды для Google Gemini Flash 2.0.

С точки зрения ценообразования, Amazon позиционирует Nova Sonic в качестве готового предприятия решения. «Мы почти на 80% дешевле, чем в режиме реального времени GPT-4O, и эта превосходная цена резонирует с предприятиями, переходящими от экспериментов к развертыванию»,-сказал Прасад.

Раннее усыновление в секторах

По словам Amazon, компании в разных секторах уже начали использовать или тестировать Nova Sonic.

ASAPP применяет технологию для оптимизации рабочих процессов контакт -центра, восхваляя ее точность и природную обработку диалоговых актов.

Education First (EF) использует модель для поддержки изучающих язык с обратной связью с произношением в реальном времени, особенно для не носителей с различными акцентами.

Статистика поставщика спортивных данных использует низкую задержку Nova Sonic и простую настройку для быстрого, богатого данными взаимодействий в своей платформе чата Opta AI.

Ответственный ИИ и обязательства по безопасности

Наряду с производительностью и стоимостью, Amazon подчеркивает свою приверженность ответственному развитию ИИ. Семейство моделей Nova включает в себя встроенные гарантии и поддерживается сервисными картами AWS, которые определяют предполагаемые варианты использования, потенциальные ограничения и этические руководящие принципы.

Прасад подчеркнул акцент Amazon к доверию и безопасности: «Доверие имеет первостепенное значение для нас — разработчики могут настроить личность в пределах, но мы вложили сильные ограждения, чтобы предотвратить клонирование голоса или нежелательную мимикурию». Он добавил: «Мы очень усердно работаем, чтобы устранить галлюцинации и голосовой дрейф. Бар, который мы установили для выпуска, высока, потому что генерация речи должна быть заслуживающей доверия».

Amazon Nova Sonic теперь обычно доступна через Bedrock Amazon. Разработчики и предприятия, заинтересованные в изучении модели, могут начать с посещения

Источник