Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в лидирующем отраслевом освещении искусственного интеллекта. Узнать больше
Новый Alphaevolve’s Google показывает, что происходит, когда агент по искусственному искусству заканчивает лабораторную демонстрацию до производственной работы, и у вас есть одна из самых талантливых технологических компаний.
Созданная Google DeepMind, система автономно переписывает критический код и уже окупается в Google. Это побило 56-летнюю запись в умножении матрицы (ядро многих рабочих нагрузок машинного обучения) и Вернувшись 0,7% вычислительной мощности в глобальных центрах обработки данных компании.
Эти заголовки подвига имеют значение, но более глубокий урок для лидеров Enterprise Tech — это как Alphaevolve снимает их. Его архитектура-контроллер, модели с быстрыми темпами, глубоко мышление моделей, автоматизированные оценщики и версионную память-иллюстрируют тип производственного сантехника, которая обеспечивает автономные агенты безопасными для развертывания в масштабе.
Технология ИИ от Google, пожалуй, непревзойденная. Таким образом, хитрость заключается в выяснении, как учиться на нем или даже использовать его напрямую. Google говорит, что для академических партнеров представлена программа раннего доступа, и что «более широкая доступность» изучается, но детали тонкие. До тех пор Alphaevolve-это шаблон наиболее важной практики: если вы хотите агенты, которые касаются высококачественных рабочих нагрузок, вам понадобится сопоставимая оркестровая, тестирование и ограждения.
Рассмотрим только победа центра обработки данных. Google не ставит цену на восстановленные 0,7%, но его годовой Capex составляет десятки миллиардов долларов. Даже приблизительная оценка ставит сбережения в сотни миллионов в год —Достаточно, как отметил независимый разработчик Сэм Виттивен в нашем недавнем подкасте, чтобы оплатить обучение одной из флагманских моделей Gemini, оцениваемой в размере более 191 миллиона долларов для такой версии, как Gemini Ultra.
Venturebeat был первым, кто сообщил о новостях Alphaevolve в начале этой недели. Теперь мы пойдем глубже: как работает система, где действительно сидит инженерная полоса, а предприятия могут предпринять конкретные шаги, чтобы построить (или купить) что -то сопоставимое.
1. Помимо простых сценариев: повышение «операционной системы агента»
Alphaevolve работает на том, что лучше всего описать как операционная система агента — распределенный асинхронный трубопровод, созданный для непрерывного улучшения в масштабе. Его основные элементы представляют собой контроллер, пара крупных языковых моделей (Flash Gemini для широты; Gemini Pro для глубины), база данных программы-памяти и флота работников оценщиков, которые настроены на высокую пропускную способность, а не только низкую задержку.
Эта архитектура не концептуально новая, но исполнение. «Это просто невероятно хорошее исполнение», — говорит Виттейн.
Альфа -эволюционная бумага описывает оркестратор как «Эволюционный алгоритм, который постепенно разрабатывает программы, которые улучшают оценку по автоматическим показателям оценки» (стр. 3); Короче говоря «Автономный трубопровод LLMS, задача которой состоит в том, чтобы улучшить алгоритм, внесение прямых изменений в код» (стр. 1).
Вывод для предприятий: Если ваши планы агента включают в себя неконтролируемые пробеги по задачам высокой стоимости, план аналогичной инфраструктуры: очереди работы, магазин памяти версии, отслеживание сетки обслуживания и безопасное песочницу для любого кода, который производит агент.
2. Двигатель оценщика: прогресс в движении с автоматической, объективной обратной связью
Ключевым элементом Alphaevolve является его строгая структура оценки. Каждая итерация, предложенная парой LLMS, принимается или отклоняется на основе поставляемой пользователем функции «оценки», которая возвращает машинные показатели. Эта система оценки начинается с сверхбыстрых проверки на единицу тестирования при каждом предлагаемом изменении кода-простые автоматические тесты (аналогичные устройствам, которые уже пишут разработчики), которые подтверждают, что фрагмент по-прежнему компилизируется и дает правильные ответы на несколько микроотгонов-прежде чем передавать выживших в более тяжелые оценки и обзоры, сгенерированные LLM. Это работает параллельно, поэтому поиск остается быстрым и безопасным.
Короче говоря: пусть модели предлагают исправления, затем проверьте каждый из тестов, которым вам доверяете. Alphaevolve также поддерживает многообъективную оптимизацию (оптимизация задержки и Точность одновременно), развивающиеся программы, которые одновременно достигли нескольких метрик. Противостоятельно, балансирование нескольких целей может улучшить единую целевую метрику, поощряя более разнообразные решения.
Вывод для предприятий: Производственные агенты нуждаются в детерминированных счетах. Будь то модульные тесты, полные симуляторы или анализ канарского трафика. Автоматизированные оценщики являются вашей защитной сетью и вашим двигателем роста. Прежде чем запустить агент, спросите: «Есть ли у нас показатель, против которого агент может забить?»
3. Использование интеллектуальной модели, уточнение итеративного кода
Alphaevolve решает каждую проблему кодирования с двумодельным ритмом. Во -первых, Близнецы вспыхивают быстрыми темпами, давая системе широкий набор идей для изучения. Затем Gemini Pro изучает эти проекты более глубиной и возвращает меньший набор более сильных кандидатов. Кормление обеих моделей — это легкий «быстрого застройщика», помощник, который собирает вопрос, который видит каждая модель. Он сочетает в себе три вида контекста: более ранние попытки кода, сохраненные в базе данных проектов, любые ограждения или правила, которые команда инженеров написала, и соответствующие внешние материалы, такие как исследовательские работы или заметки разработчика. С этим более богатым фоном, Близнецы Flash может широко перемещаться, в то время как Gemini Pro Zeros на качество.
В отличие от многих демонстраций агента, которые настраивают одну функцию за раз, Alphaevolve редактирует целые репозитории. Он описывает каждое изменение как стандартный блок DIFF — те же инженеры формата патча подталкивают к GitHub — поэтому оно может касаться десятков файлов, не теряя трека. После этого автоматические тесты решают, прилипает ли патч. На неоднократном цикле воспоминания агента об успехе и отказа растет, поэтому он предлагает лучшие патчи и отходы меньше вычислителей на мертвых концах.
Вывод для предприятий: Пусть более дешевые, более быстрые модели обрабатывают мозговой штурм, а затем вызовут более способную модель, чтобы уточнить лучшие идеи. Сохранить каждое испытание в истории для поиска, потому что эта память ускоряется позже работы и может быть повторно использована в разных командах. Соответственно, поставщики спешат предоставить разработчикам новые инструменты вокруг таких вещей, как память. Такие продукты, как OpenMemory MCP, которая предоставляет портативную хранилище памяти, и новые API-интерфейсы с длинной и кратковременной памятью в LlamainDex делают этот вид постоянного контекста почти так же легко подключить, как и регистрация.
Агент Openai’s Codex-1-инженерного инженера, также выпущенный сегодня, подчеркивает тот же образцы. Он стреляет в параллельные задачи внутри безопасной песочницей, запускает модульные тесты и возвращает черновики на вытягивании-эффективно эхо более широкого петля Alphaevolve более широкого поиска и одобрения.
4. Измерение управления: нацеливание на агент AI для очевидной рентабельности
Осуществимые победы Alphaevolve — восстановление 0,7%пропускной способности центра обработки данных, сокращение времени выполнения ядра Близнецов 23%, ускорение вспышки на 32%и упрощение дизайна TPU — имеют одну черту: они нацелены на домены с герметичными метриками.
Для планирования центров обработки данных Alphaevolve эвристика, которая была оценена с использованием симулятора центров обработки данных Google на основе исторических рабочих нагрузок. Для оптимизации ядра цель состояла в том, чтобы минимизировать фактическое время выполнения на акселераторах TPU через набор данных реалистичных форм ввода ядра.
Вывод для предприятий: При запуске вашего агентского путешествия ИИ сначала посмотрите на рабочие процессы, где «лучше» — это количественное число, которое может вычислить вашу систему — будь то задержка, стоимость, частота ошибок или пропускную способность. Этот фокус позволяет автоматизировать поиск и развертывание DE-RISCS, поскольку вывод агента (часто читаемый на человеке, как в случае Alphaevolve) может быть интегрирован в существующие конвейеры по проверке и проверке.
Эта ясность позволяет агенту самостоятельно заполнять и продемонстрировать однозначную ценность.
5. Закладывание основы: основные предпосылки для предпринимательства агентского успеха
В то время как достижения Alphaevolve вдохновляют, статья Google также ясна о его масштабах и требованиях.
Основным ограничением является необходимость автоматического оценщика; Проблемы, требующие ручного эксперимента или «влажного» обратной связи, в настоящее время не имеют возможности для этого конкретного подхода. Система может потреблять значительный вычислитель-«по порядку 100 часов для оценки любого нового решения» (Alphaevolve Paper, стр. 8), что требует параллелизации и тщательного планирования потенциала.
Прежде чем выделить значительный бюджет сложным агентским системам, технические лидеры должны задавать критические вопросы:
- Проблема с машиной? Есть ли у нас четкий, автоматический показатель, по которой агент может набрать свою собственную производительность?
- Вычислить емкость? Можем ли мы позволить себе потенциально тяжелую внутреннюю контуру генерации, оценки и уточнения, особенно на этапе разработки и обучения?
- Кодовая база и готовность к памяти? Структурная ли ваша кодовая база для итеративных, возможно, на основе дифференциации модификаций? И можете ли вы реализовать инструментальные системы памяти, жизненно важные для того, чтобы агент учился на своей эволюционной истории?
Вывод для предприятий: Растущее внимание на надежной идентификации агентов и управлении доступом, как видно на таких платформах, как Frontegg, Auth0 и другие, также указывает на созревающую инфраструктуру, необходимую для развертывания агентов, которые надежно взаимодействуют с несколькими предприятиями.
Агентное будущее спроектировано, а не просто вызвано
Сообщение Alphaevolve для предприятий команд многообразно. Во -первых, ваша операционная система вокруг агентов в настоящее время гораздо важнее, чем модельный интеллект. В Blueprint Google показывает три столпа, которые нельзя пропустить:
- Детерминированные оценщики, которые дают агенту однозначный балл каждый раз, когда он вносит изменение.
- Давние оркестровки, которые могут жонглировать быстрыми «черновыми» моделями, такими как Близнечные, вспыхивают с более медленными, более строгими моделями-будь то стек Google или такая структура, как Langgraph Langchain.
- Постоянная память, чтобы каждая итерация основывается на последней, а не переуживания с нуля.
Предприятия, которые уже имеют журналистов, тестовые жгуты и репозитории кода, ближе, чем они думают. Следующим шагом является подключение этих активов в цикл оценки самообслуживания, чтобы можно было конкурировать с множественными агентами, и только самые оценки патч-судов.
Как сообщили Venturebeat в интервью и GM Comprise Anurag Dhingra, SVP и GM подключения и сотрудничества предприятия, это очень, очень реально », — сказал он о предприятиях, использующих агенты искусственного интеллекта в производстве, склады, центры контактов с клиентами. «Это не что -то в будущем. Это происходит сегодня». Он предупредил, что по мере того, как эти агенты становятся более распространенными, выполняют «человеческую работу», нагрузка на существующие системы будет огромным: «сетевой трафик будет проходить через крышу»,-сказал Динра. Ваша сеть, бюджет и конкурентное преимущество, скорее всего, почувствуют, что нагрузка до того, как устроится цикл обмана. Начните доказывать содержащийся, управляемый метрикой вариант использования в этом квартале, а затем масштабируйте то, что работает.
Посмотрите видео подкаст, который я сделал с разработчиком Сэмом Виттевином, где мы углубимся в производственных агентов, и как Alphaevolve показывает путь:
Источник
