Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в лидирующем отраслевом освещении искусственного интеллекта. Узнать больше
Salesforce решает одну из самых настойчивых проблем искусственного интеллекта для бизнес -приложений: разрыв между необработанным интеллектом системы ИИ и его способностью постоянно выполнять непредсказуемые корпоративные среды — то, что компания называет «затухающей интеллектом».
В исчерпывании сегодняшнего исследования Salesforce AI Research выявили несколько новых критериев, моделей и рамок, предназначенных для того, чтобы сделать будущие агенты искусственного интеллекта более интеллектуальными, доверенными и универсальными для предприятия. Инновации направлены на улучшение как возможностей, так и последовательности систем ИИ, особенно при развертывании в качестве автономных агентов в сложных бизнес -условиях.
«В то время как LLM могут преуспеть в стандартизированных тестах, планировать замысловатые поездки и генерировать сложную поэзию, их блеск часто наткнулся, когда сталкивается с необходимостью надежного и последовательного выполнения задач в динамичной непредсказуемой предпринимательской среде», — сказал Сильвио Саварзе, главный ученый Salesforce и руководитель исследования AI, во время пресс -конференции, предшествующей объявлению.
Эта инициатива представляет собой стремление Salesforce к тому, что Savarese называет «Enterprise General Intelligence» (EGI) — ИИ, разработанный специально для сложности бизнеса, а не более теоретического стремления к искусственному общему интеллекту (AGI).
«Мы определяем EGI как специально построенные агенты искусственного интеллекта для бизнеса, оптимизированные не только для возможностей, но и для последовательности»,-объяснил Саварзе. «В то время как AGI может вызывать образы суперинтелтингантных машин, превосходящих человеческий интеллект, предприятия не ждут этого далекого иллюзорного будущего. Они сейчас применяют эти основополагающие концепции для решения реальных проблем в масштабе».
Как Salesforce измеряет и устраняет проблему несоответствия ИИ в настройках предприятия
В центре внимания исследования — количественная оценка и устранение несоответствия ИИ в результате производительности. Salesforce представила простой набор данных, общедоступный эталон с 225 простыми вопросами рассуждения, предназначенных для измерения того, насколько на самом деле есть возможности системы AI System.
«Сегодняшний ИИ зазубен, поэтому нам нужно поработать над этим. Но как мы можем работать над чем -то, не измеряя его первым? Это именно то, что это за простые эталоны», — объяснила Шелби Хейнеке, старший менеджер по исследованиям в Salesforce, во время пресс -конференции.
Для предпринимательства это несоответствие не просто академическая проблема. Один ошибка от агента искусственного интеллекта может нарушить операции, разрушать доверие клиентов или нанести существенный финансовый ущерб.
«Для предприятий ИИ не является случайным времяпрепровождением; это критически важная инструмент, который требует непоколебимой предсказуемости»,-отметил Саварез в своем комментарии.
Inside Crmarena: виртуальное тестирование Salesforce для агентов AI Enterprise
Возможно, наиболее значимым инновацией является Crmarena, новая основа для сравнения, предназначенная для имитации реалистичных сценариев управления взаимоотношениями с клиентами. Это обеспечивает комплексное тестирование агентов искусственного интеллекта в профессиональных контекстах, устраняя разрыв между академическими критериями и реальными бизнес-требованиями.
«Признавая, что нынешние модели ИИ часто не хватает в отражении сложных требований корпоративных сред, мы представили Crmarena: новую структуру сравнительного анализа, тщательно предназначенную для имитации реалистичных, профессионально обоснованных сценариев CRM», — сказал Саварзе.
Структура оценивает производительность агента в трех ключевых персонажах: агенты службы, аналитики и менеджеры. Ранние тестирование показало, что даже при подсказке с гидом ведущие агенты преуспевают менее чем в 65% случаев при выявлении функций для случаев использования этих персонажей.
«CRM Arena, по сути, представляет собой инструмент, который был представлен внутри улучшения агентов», — пояснил Саварзе. «Это позволяет нам стресс проверять эти агенты, понимать, когда они терпят неудачу, а затем используют эти уроки, которые мы извлекаем из этих случаев неудачи, чтобы улучшить наши агенты».
Новые модели встраивания, которые лучше понимают контекст предприятия лучше, чем когда -либо прежде.
Среди объявленных технических инноваций Salesforce подчеркнул SFR-Embedding, новую модель для более глубокого контекстного понимания, которая возглавляет массовый эталон встраивания текста (MTEB) в 56 наборах данных.
«Встроение SFR — это не просто исследование. Очень, очень, очень, очень скоро, он поступает в облако данных», — отметил Хайнеке.
Специализированная версия, SFR-Embedding-Code, также была введена для разработчиков, что обеспечивает высококачественный поиск кода и оптимизацию разработки. Согласно Salesforce, версия параметров 7B возглавляет контрольный показатель получения информации о коде (COIR), в то время как небольшие модели (400 м, 2b) предлагают эффективные, экономически эффективные альтернативы.
Почему меньшие, ориентированные на действия модели искусственного интеллекта могут превзойти более крупные языковые модели для бизнес-задач
Salesforce также анонсировал Xlam V2 (модель крупных действий), семейство моделей, специально предназначенных для прогнозирования действий, а не просто генерировать текст. Эти модели начинаются всего за 1 миллиард параметров — часть размера многих ведущих языковых моделей.
«Что особенное в наших моделях XLAM, так это то, что если вы посмотрите на наши размеры модели, у нас есть модель 1B, мы до конца до модели 70B. Например, эта модель 1B — это часть многих современных крупных языковых моделей», — объяснил Хейнеке. «Эта небольшая модель наносит много мощности, чтобы принять возможность предпринять следующее действие».
В отличие от стандартных языковых моделей, эти модели действий специально обучены прогнозировать и выполнять следующие шаги в последовательности задач, что делает их особенно ценными для автономных агентов, которые необходимо взаимодействовать с корпоративными системами.
«Большие модели действий-это LLMS под капотом, и то, как мы их строим, мы принимаем LLM, и мы настраиваем его на то, что мы называем траекториями действия»,-добавил Хейнеке.
Безопасность AI Enterprise: как трастовый уровень Salesforce устанавливает ограждения за деловое использование
Чтобы рассмотреть предприятия по поводу безопасности и надежности искусственного интеллекта, Salesforce представила SFR-Guard, семейство моделей, обученных как общедоступным данным, так и для CRM-специфических внутренних данных. Эти модели укрепляют доверительный уровень компании, который обеспечивает ограждения за поведение агента искусственного интеллекта.
«Guardrails Agentforce устанавливают четкие границы для поведения агентов, основанные на потребностях бизнеса, политики и стандартах, обеспечивая действие агентов в предопределенных пределах», — заявила компания в своем объявлении.
Компания также запустила ContextualJudgebench, новый эталон для оценки моделей судьи на основе LLM в контексте-проверить более 2000 сложных пар ответов на точность, кратковременность, верность и соответствующий отказ отвечать.
Глядя за пределы текста, Salesforce обнародовал Taco, мультимодальное семейство модели действий, предназначенное для решения сложных многоэтапных проблем через цепи мышления и действия (COTA). Этот подход позволяет ИИ интерпретировать и реагировать на сложные запросы, связанные с несколькими типами СМИ, причем Salesforce требует до 20% улучшения на сложном эталонном эталоне MMVET.
Коат-инновация в действии: как формирует отзывы клиентов.
Итаи Ассео, старший директор по инкубации и стратегии бренда в AI Research, подчеркнул важность совместной инновации клиентов в разработке готовых к предприятиям решений AI.
«Когда мы разговариваем с клиентами, одна из основных болевых точек, которые у нас есть, заключается в том, что при рассмотрении данных предприятия существует очень низкая терпимость, чтобы фактически предоставлять ответы, которые не являются точными и которые не имеют отношения», — пояснил Ассео. «Мы добились большого прогресса, будь то с двигателями рассуждений, с тряпичными методами и другими методами в области LLM».
Ассео приводил примеры инкубации клиентов, приносящих значительные улучшения в производительности искусственного интеллекта: «Когда мы применили двигатель рассуждений в Атласе, включая некоторые передовые методы для получения добычи в поисках, в сочетании с нашими рассуждениями и методологией агентской петли и архитектурой, мы видели точность, которая была в два раза больше, чем клиенты могли делать, работая с другими основными конкурентами».
Дорога к Enterprise General Intelligence: что будет дальше для AI Salesforce
Исследование Salesforce наступает в критический момент в принятии ИИ предприятия, поскольку предприятия все чаще ищут системы ИИ, которые сочетают в себе расширенные возможности с надежной производительностью.
В то время как вся технологическая индустрия преследует все более широкие модели с впечатляющими необработанными возможностями, сосредоточенность Salesforce на разрыве последовательности подчеркивает более нюансированный подход к развитию ИИ-тот, который приоритет реальным бизнес-требованиям по сравнению с академическими показателями.
Технологии, анонсированные в четверг, начнут развертываться в ближайшие месяцы, а сначала отправится в SFR-Embedding в облако данных, в то время как другие инновации будут питать будущие версии AgentForce.
Как отметил Саварца на пресс -конференции, «речь идет не о замене людей. Речь идет о том, чтобы быть ответственным». В гонке до доминирования AI Enterprise Salesforce делает ставку на то, что последовательность и надежность — не только необработанная интеллекта — в конечном итоге определят победителей революции AI Business.
Источник
