Flash Google Gemini 2.5 представляет «бюджеты мышления», которые сокращают затраты на ИИ на 600% при отключении.

admin

Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в лидирующем отраслевом освещении искусственного интеллекта. Узнать больше


Google запустила Gemini 2.5 Flash, крупное обновление своей линейки AI, которое дает предприятиям и разработчикам беспрецедентный контроль над тем, как много «мышления» выполняет их ИИ. Новая модель, выпущенная сегодня в предварительном просмотре через Google AI Studio и Vertex AI, представляет собой стратегические усилия по обеспечению улучшенных возможностей рассуждений при сохранении конкурентных цен на все более переполненном рынке ИИ.

Модель представляет то, что Google называет «бюджетом мышления» — механизмом, который позволяет разработчикам указать, какую вычислительную мощность должна быть выделена на рассуждение посредством сложных задач, прежде чем генерировать ответ. Этот подход направлен на устранение фундаментальной напряженности на современном рынке искусственного интеллекта: более сложные рассуждения, как правило, стоят за счет более высокой задержки и цен.

«Мы знаем, что затраты и задержка имеют значение для ряда вариантов использования разработчиков, и поэтому мы хотим предложить разработчикам гибкость для адаптации объема мышления, которое делает модель, в зависимости от их потребностей», — сказал Тулси Доши, директор по продукту для моделей Gemini в Google DeepMind, в эксклюзивном интервью с VentureBeat.

Эта гибкость показывает прагматический подход Google к развертыванию ИИ, поскольку технология все чаще становится встроенной в бизнес -приложения, где предсказуемость затрат необходима. Позволяя включению или выключению мышления, Google создал то, что он называет «первой полностью гибридной моделью рассуждений».

Платите только за необходимую модель: Внутри новой модели ценообразования Google AI

Новая структура ценообразования подчеркивает стоимость рассуждений в современных системах ИИ. При использовании Flash Gemini 2.5 разработчики платят 0,15 доллара за миллион токенов за вход. Выходные затраты резко различаются в зависимости от настройки рассуждений: 0,60 долл. США на миллион токенов с отключенным мышлением, поднимаясь до 3,50 долл. США за токены с включением рассуждений.

Эта почти шестикратная разница в ценах для обоснованных результатов отражает интенсивность вычислительной интенсивности «мышления» процесса, где модель оценивает множественные потенциальные пути и соображения перед созданием ответа.

«Клиенты платят за любые мыслительные и выходные токены, которые генерирует модель», — сказал Доши VentureBeat. «В студии ИИ вы можете увидеть эти мысли перед ответом. В API мы в настоящее время не предоставляем доступ к мыслям, но разработчик может увидеть, сколько жетонов было получено».

Бюджет мышления может быть скорректирован с 0 до 24 576 токенов, действуя как максимальный предел, а не фиксированное распределение. Согласно Google, модель интеллектуально определяет, какой из этого бюджета использовать на основе сложности задачи, сохранение ресурсов, когда не нужны сложные рассуждения.

Как складывается Flash Gemini 2.5: результаты ведущих ведущих моделей искусственного интеллекта

Google утверждает, что Flash Gemini 2.5 демонстрирует конкурентоспособную производительность между критериями ключей, сохраняя при этом меньший размер модели, чем альтернативы. На последнем экзамене Humanity, тщательном тесте, предназначенном для оценки рассуждений и знаний, 2,5 Flash набрали 12,1%, опередив сонет Claude 3,7 от Anpropic (8,9%) и Deepseek R1 (8,6%), хотя они не достигли недавно выпущенного O4-Mini (14,3%).

Модель также опубликовала сильные результаты по техническим показателям, как экзамены GPQA Diamond (78,3%) и AIME по математике (78,0% на 2025 тестах и ​​88,0% на 2024 тестах).

«Компании должны выбрать 2,5 Flash, потому что они обеспечивают наилучшее значение для своей стоимости и скорости», — сказал Доши. «Это особенно сильно по сравнению с конкурентами по математике, мультимодальным рассуждениям, длинным контексту и нескольким другим ключевым показателям».

Отраслевые аналитики отмечают, что эти критерии указывают на то, что Google сокращает разрыв в производительности у конкурентов, сохраняя при этом ценовое преимущество — стратегия, которая может резонировать с предприятиями, наблюдающими за своими бюджетами ИИ.

Smart vs. Speedy: Когда вам нужно глубоко думать?

Введение регулируемых рассуждений представляет собой значительную эволюцию в том, как предприятия могут развернуть ИИ. С традиционными моделями пользователи не имеют особого внимания или контролируют процесс внутреннего рассуждения модели.

Подход Google позволяет разработчикам оптимизировать для различных сценариев. Для простых запросов, таких как языковой перевод или базовый поиск информации, мышление может быть отключено для максимальной экономической эффективности. Для сложных задач, требующих многоэтапных рассуждений, таких как математическое решение проблем или нюансированный анализ, функция мышления может быть включена и точно настроена.

Ключевым инновацией является способность модели определять, насколько уместны рассуждения на основе запроса. Google иллюстрирует это с примерами: простой вопрос, например, «Сколько провинций у Канады?» требует минимальных рассуждений, в то время как сложный инженерный вопрос о расчетах напряжения луча автоматически задействовал более глубокие процессы мышления.

«Интеграция возможностей мышления в наши основные модели Близнецов, в сочетании с улучшениями по всем направлениям, привела к более качественному ответам», — сказал Доши. «Эти улучшения верны по академическим показателям, включая Simpleqa, который измеряет фактическую».

Google AI Week: бесплатный доступ к студентам и генерацию видео присоединитесь к запуску 2.5 Flash

Выпуск Flash Gemini 2.5 происходит в течение недели агрессивных ходов Google в пространстве ИИ. В понедельник компания развернула возможности генерации видео VEO 2 для Advance Addance-подписчиков Gemini, что позволило пользователям создавать восемь секундных видеоклипов из текстовых подсказок. Сегодня, наряду с анонсом Flash 2.5, Google сообщил, что все студенты американских колледжей получат бесплатный доступ к Gemini Advanced до весны 2026 года — шаг, интерпретированный аналитиками как попытка создать лояльность среди будущих работников знаний.

Эти объявления отражают многоцветную стратегию Google по конкурированию на рынке, в котором доминирует CHATGPT OpenAI, в котором, как сообщается, более 800 миллионов еженедельных пользователей по сравнению с оценками Gemini 250-275 миллионов ежемесячных пользователей, согласно анализу третьей стороны.

Модель Flash 2.5 с ее явным акцентом на эффективность затрат и настройку производительности, по -видимому, предназначена для апелляции, особенно для предприятия клиентов, которым необходимо тщательно управлять затратами на развертывание искусственного интеллекта, все еще получая доступ к расширенным возможностям.

«Мы очень рады начать получение обратной связи от разработчиков о том, что они строят с Gemini Flash 2.5 и о том, как они используют бюджеты мышления», — сказал Доши.

Помимо предварительного просмотра: то, что предприятия могут ожидать, когда Gemini 2.5 Flash созревает

Хотя этот релиз находится в предварительном просмотре, модель уже доступна для разработчиков, чтобы начать создавать, хотя Google не указал график для общей доступности. Компания указывает, что будет продолжать уточнять возможности динамического мышления на основе обратной связи разработчиков на этом этапе предварительного просмотра.

Для усыновителей ИИ предприятия этот выпуск представляет собой возможность экспериментировать с более подробными подходами к развертыванию ИИ, потенциально выделяя больше вычислительных ресурсов на задачи с высокими ставками, сохраняя при этом затраты на обычные приложения.

Модель также доступна потребителям через приложение Gemini, где она выглядит как «2,5 Flash (экспериментальная)» в раскрывающемся меню модели, заменив предыдущий вариант 2.0 Thinking (экспериментальный). Это развертывание, ориентированное на потребителя, предполагает, что Google использует экосистему приложения для сбора более широкой обратной связи по своей архитектуре рассуждений.

По мере того, как ИИ становится все более включенным в бизнес -процессы, подход Google с настраиваемыми рассуждениями отражает насыщенный рынок, где оптимизация затрат и настройка производительности становятся такими же важными, как и необработанные возможности — сигнализируя о новом этапе коммерциализации генеративных технологий ИИ.



Источник

Рекомендуем

Оставить комментарий