Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в лидирующем отраслевом освещении искусственного интеллекта. Узнать больше
Трехстороннее партнерство между компанией по поддержке телефона AI Phonely, платформой оптимизации выводов Maitai и чип-производителем GROQ добилось прорыва, который решает одну из самых постоянных проблем разговорного искусственного интеллекта: неловких задержек, которые сразу же сигнализируют на вызывающих абонентов с машиной.
Сотрудничество позволило фонально сократить время отклика более чем на 70%, одновременно повышая точность с 81,5% до 99,2% в четырех модельных итерациях, что превысило 94,7% -ное эталон GPT-4O на 4,5 процентных пункта. Улучшения связаны с новой способностью Groq мгновенно переключаться между несколькими специализированными моделями ИИ без дополнительной задержки, организованной через платформу оптимизации Maitai.
Достижение решает то, что отраслевые эксперты называют «сверхъестественной долиной» голосового искусственного интеллекта-тонкие сигналы, которые заставляют автоматизированные разговоры кажутся явно нечеловеческими. Для центров вызовов и операций по обслуживанию клиентов эти последствия могут быть преобразующими: один из клиентов Phonely заменяет 350 человеческих агентов только в этом месяце.
Почему телефонные звонки ИИ по-прежнему звучат роботизированные: четыре секунды.
Традиционные крупные языковые модели, такие как GPT-4O Openai, долго боролись с тем, что кажется простым заданием: отвечать достаточно быстро, чтобы поддерживать естественный поток разговоров. В то время как несколько секунд задержки едва регистрируются в текстовых взаимодействиях, та же пауза кажется бесконечной во время разговоров в прямом эфире.
«Одна из вещей, которые большинство людей не понимают, — это то, что крупные поставщики LLM, такие как Openai, Claude и другие, имеют очень высокую степень дисперсии задержки», — сказал Уилл Боудес, основатель и генеральный директор Phonely, в эксклюзивном интервью VentureBeat. «4 секунды ощущаются как вечность, если вы разговариваете с AI Voice AI по телефону-эта задержка-это то, что делает большинство Voice AI сегодня чувствовать себя нечеловеческим».
Проблема возникает примерно один раз каждые десять запросов, что означает стандартные разговоры, неизбежно включающие хотя бы одну или две неловкие паузы, которые сразу же раскрывают искусственный характер взаимодействия. Для предприятий, рассматривающих AI -телефонные агенты, эти задержки создали значительный барьер для усыновления.
«Этот вид задержки неприемлемен для поддержки по телефону в реальном времени»,-объяснил Бодеус. «Помимо задержки, точность разговоров и человеческие реакции — это то, что Legacy LLM -поставщики просто не взломали в царстве голоса».
Как три стартапа решили самую большую разговорную задачу ИИ
Решение появилось в результате разработки GROQ того, что компания называет «HoraSpaping Lora с нулевой задержкой»-способность мгновенно переключаться между несколькими специализированными вариантами модели ИИ без какого-либо штрафа. Lora, или адаптация с низким уровнем ранга, позволяет разработчикам создавать легкие, конкретные модификации для существующих моделей, а не тренировать совершенно новые с нуля.
«Комбинация Грока из мелкозернистого программного обеспечения, управляемой архитектурой, высокоскоростной встроенной памяти, потоковой архитектуры и детерминированного исполнения означает, что можно получить доступ к нескольким горячим лорасам без штрафа за задержку»,-пояснила Челси Кантор, директор по маркетингу Groq, в интервью VentureBeat. «Лора хранятся и управляются в SRAM вместе с исходными весами модели».
Этот прогресс инфраструктуры позволил Maitai создать то, что основатель Кристиан Далсанто описывает как систему «оркестровки прокси-слой», которая постоянно оптимизирует производительность модели. «Maitai действует как тонкий прокси -слой между клиентами и их поставщиками моделей», — сказал Далсанто. «Это позволяет нам динамически выбирать и оптимизировать лучшую модель для каждого запроса, автоматическое применение оценки, оптимизации и стратегий устойчивости, таких как запасные,».
Система работает, собирая данные о производительности с каждого взаимодействия, выявляя слабые точки и итеративно улучшая модели без вмешательства клиентов. «Поскольку Майтай находится в середине потока вывода, мы собираем сильные сигналы, определяющие, где модели находятся подчеркнуты», — объяснил Далсанто. «Эти« мягкие пятна »кластеризованы, помечены и постепенно тонко настроены для решения конкретных слабостей, не вызывая регрессии».
От 81% до 99% точности: цифры, похожие на человеческий прорыв АИ.
Результаты демонстрируют значительные улучшения по нескольким измерениям производительности. Время до первого токена — как быстро ИИ начинает реагировать — упал на 73,4% с 661 миллисекунд до 176 миллисекунд на 90 -м процентиле. Общее время завершения сократилось на 74,6% с 1446 миллисекунд до 339 миллисекунд.
Возможно, что еще более важно, улучшения точности последовали за четкой траекторией вверх по четырем модельным итерациям, начиная с 81,5% и достигнув 99,2% — уровень, который превышает производительность человека во многих сценариях обслуживания клиентов.
«Мы видели около 70%+ людей, которые призывают наш ИИ, который не смог различить разницу между человеком», — сказал Больюс VentureBeat. «Задержка-это или была мертвой раздачей, что это был искусственный интеллект. С пользовательской тонкой моделью, которая говорит, как человек, и супер низкое оборудование задержки, у нас мало что мешает пересекать странную долину звучания совершенно человека».
Выращивание производительности переводится непосредственно на результаты бизнеса. «Один из наших крупнейших клиентов наблюдал на 32% квалифицированных потенциальных клиентов по сравнению с предыдущей версией с использованием предыдущих современных моделей»,-отметил Боудьюс.
350 человеческих агентов заменены за один месяц: Call-центры идут на AI в области искусственного интеллекта
Улучшения поступают, поскольку колл -центры сталкиваются с растущим давлением, чтобы снизить затраты при сохранении качества обслуживания. Традиционные человеческие агенты требуют обучения, координации планирования и значительных накладных расходов, которые могут устранить агенты искусственного интеллекта.
«Звожные центры действительно видят огромные выгоды от использования в фонели для замены человеческих агентов», — сказал Больюс. «Один из центров колл, с которыми мы работаем, на самом деле полностью заменяет 350 человеческих агентов в этот месяц только в этом месяце. С точки зрения центра обработки вызовов это изменит правила игры, потому что им не нужно управлять графиками агентов по поддержке человека, агентов поезда и сопоставления спроса и спроса».
Технология показывает особую силу в конкретных вариантах использования. «Фонально действительно превосходно в нескольких областях, включая ведущие отрасли показатели в планировании встреч и в частности, квалификации, помимо того, на что способны унаследованные поставщики»,-пояснил Бодевс. Компания сотрудничает с крупными фирмами, занимающимися страхованием, юридическим и автомобильным взаимодействием клиентов.
Оборудованный край: почему чипы Groq делают возможным подсекунду
Специализированные фишки с выводом ИИ Groq, называемые языковыми единицами обработки (LPU), обеспечивают аппаратную основу, которая делает многомодельный подход жизнеспособным. В отличие от графических процессоров общего назначения, обычно используемых для вывода искусственного интеллекта, LPU оптимизируют специально для последовательного характера языковой обработки.
«Архитектура LPU оптимизирована для точного управления движением данных и вычислений на мелкозернистого уровня с высокой скоростью и предсказуемостью, что позволяет эффективно управлять множеством небольших наборов веса дельты (LORAS) на общей базовой модели без дополнительной задержки»,-сказал Кантор.
В облачной инфраструктуре также рассматриваются проблемы масштабируемости, которые исторически ограничивали развертывание ИИ. «Прелесть использования облачного решения, такого как Groqcloud, заключается в том, что Groq обрабатывает оркестровку и динамическое масштабирование для наших клиентов для любой модели искусственного интеллекта, которую мы предлагаем, включая тонкие модели Lora»,-объяснил Кантор.
Для предприятий экономические преимущества кажутся существенными. «Простота и эффективность дизайна нашей системы, низкое энергопотребление и высокая производительность нашего оборудования позволяют GROQ предоставлять клиентам самую низкую стоимость на токен без жертвы производительности по мере масштабирования», — сказал Кантор.
Развертывание ИИ в тот же день: как предприятия пропускают месяцы интеграции
Одним из самых убедительных аспектов партнерства является скорость реализации. В отличие от традиционных развертываний искусственного интеллекта, которые могут потребовать месяцев интеграционной работы, подход Maitai позволяет переходить в тот же день для компаний, уже использующих модели общего назначения.
«Для компаний, уже находящихся в производстве с использованием моделей общего назначения, мы обычно переходим их в Maitai в тот же день, с нулевыми нарушениями»,-сказал Далсанто. «Мы начинаем немедленный сбор данных, и через несколько дней до недели мы можем предоставить тонкую модель, которая быстрее и надежнее, чем их первоначальная настройка».
Эта возможность быстрого развертывания рассматривает общее предприятие по поводу проектов искусственного интеллекта: длительные сроки реализации, которые задерживают возврат инвестиций. Подход прокси-слои означает, что компании могут поддерживать свои существующие интеграции API, одновременно получая доступ к постоянному повышению производительности.
Будущее искусственного искусства Enterprise: специализированные модели заменяют одноразмерные
Сотрудничество сигнализирует о более широком сдвиге в архитектуре AI Enterprise, отходя от монолитных моделей общего назначения к специализированным, специфичным для задач системы. «Мы наблюдаем растущий спрос со стороны команд, разбивающих свои заявления на более мелкие, высокоспециализированные рабочие нагрузки, каждый из которых получает выгоду от отдельных адаптеров», — сказал Далсанто.
Эта тенденция отражает созревающее понимание проблем развертывания ИИ. Вместо того, чтобы ожидать, что отдельные модели преуспевают во всех задачах, предприятия все чаще распознают ценность специально разработанных решений, которые могут быть непрерывно уточнены на основе реальных данных о производительности.
«Multi-Lora Hotswepping позволяет компаниям развернуть более быстрые, более точные модели, настроенные именно для их приложений, удаляя традиционные барьеры затрат и сложности»,-пояснил Далсанто. «Это принципиально изменяет то, как AI Enterprise AI строится и разверняется».
Технический фонд также обеспечивает более сложные приложения, поскольку технология созревает. Инфраструктура Groq может поддерживать десятки специализированных моделей в одном экземпляре, что потенциально позволяет предприятиям создавать высоко настраиваемые опыт ИИ в разных сегментах клиентов или вариантов использования.
«Multi-Lora Hotswepping позволяет с низкой задержкой, высокой товарностью, адаптированным к конкретным задачам»,-сказал Далсанто. «Наша дорожная карта определяет дальнейшие инвестиции в инфраструктуру, инструменты и оптимизацию, чтобы установить мелкозернистый, специфичный для приложения вывод в качестве нового стандарта».
Для более широкого разговорного рынка ИИ партнерство демонстрирует, что технические ограничения, которые когда -то считались непреодолимыми, могут быть рассмотрены посредством специализированной инфраструктуры и тщательного проектирования системы. Поскольку все больше предприятий развертывают специалисты по телефону искусственного интеллекта, конкурентные преимущества, продемонстрированные Phonelyly, могут установить новые базовые ожидания для производительности и отзывчивости при автоматическом взаимодействии клиентов.
Успех также подтверждает новую модель компаний по инфраструктуре ИИ, работающих вместе, чтобы решить сложные проблемы развертывания. Этот совместный подход может ускорить инновации во всем секторе ИИ предприятия, поскольку специализированные возможности объединяются для предоставления решений, которые превышают то, что может достичь любого отдельного поставщика независимо. Если это партнерство является каким -либо показателем, эпоха явно искусственных разговоров по телефону может быть заканчивается быстрее, чем кто -либо ожидал.
Источник
