Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас
Модели искусственного интеллекта, которые тратят больше времени на «мышление» через проблемы, не всегда работают лучше — и в некоторых случаях они становятся значительно хуже, согласно новым исследованиям из Antropic, которое бросает вызов основному предположению, стимулирующему последние усилия по масштабированию индустрии ИИ.
Исследование, проведенное сотрудником по безопасности AI AI Ario Pradipta Gema и другими исследователями компании, определяет то, что они называют «обратным масштабированием в вычислении времени тестирования», где расширение длины рассуждений крупных языковых моделей фактически ухудшает их эффективность по нескольким типам задач. Результаты могут иметь значительные последствия для предприятий, развертывающих системы ИИ, которые полагаются на расширенные возможности рассуждений.
«Мы строим задачи оценки, в которых расширение длины рассуждений крупных моделей рассуждений (LRM) ухудшает производительность, демонстрируя обратную связь между вычислением и точностью тестирования и точностью»,-пишут антропные исследователи в своей статье, опубликованной во вторник.
Новое антропное исследование: «обратное масштабирование в вычислении времени испытания»
— Aryo Pradipta Gema (@aryopg) 22 июля 2025 года
Мы обнаружили случаи, когда более длительные рассуждения приводят к более низкой точности.
Наши выводы показывают, что наивное масштабирование вычислительного времени тестирования может непреднамеренно укрепить проблемы с рассуждениями.
? pic.twitter.com/dtt6sgdjg1
Исследовательская группа, в том числе Итан Перес, Янда Чен и Джо Бентон, вместе с академическими сотрудниками, протестировали модели по четырем категориям задач: простые проблемы с подсчета с отвлекающими факторами, задачи по регрессии с вводящими в заблуждение особенностями, сложные ущербы дедукции и сценарии, связанные с проблемами безопасности ИИ.
Модели Claude и GPT демонстрируют различные сбои рассуждений при расширенной обработке
Исследование выявляет различные паттерны сбоев в основных системах ИИ. Модели Claude «становятся все более отвлеченными от не относящейся к делу информации», поскольку они рассуждают дольше, в то время как модели Openai’s-серии «противостоят отвлекающим факторам, но переосмысливают проблемы с проблемами». В задачах регрессии «расширенные рассуждения приводят к тому, что модели переходят от разумных априоров к ложным корреляциям», хотя и дает примеры в значительной степени исправляет это поведение.
Возможно, наиболее связанные с предпринимательскими пользователями, все модели показали «деградацию производительности с расширенными рассуждениями» на сложных дедуктивных задачах, «предполагая трудности в поддержании фокуса во время сложных дедуктивных задач».
Исследование также обнаружило тревожные последствия для безопасности ИИ. В одном эксперименте Claude Sonnet 4 показал «повышенные выражения самосохранения», когда у него было больше времени для рассуждения через сценарии, связанные с его потенциальным отключением.
«Рассуждение может усилить в отношении поведения, при этом Claude Sonnet 4 демонстрирует повышенные выражения самосохранения»,-отмечают исследователи.
Почему более длительное время обработки искусственного интеллекта не гарантирует лучших результатов в бизнесе
Результаты оспаривают преобладающую отрасль мудрости, что более вычислительные ресурсы, посвященные рассуждениям, будут последовательно повышать производительность искусственного искусства. Крупные компании по искусственному искусству вложили значительные средства в «вычислительную вычисления времени испытания», что позволяет моделям больше времени обработки для решения сложных проблем,-в качестве ключевой стратегии расширения возможностей.
Исследование показывает, что этот подход может иметь непреднамеренные последствия. «В то время как вычислительное масштабирование времени тестирования остается перспективным для улучшения возможностей модели, это может непреднамеренно усилить проблемные модели рассуждений»,-заключают авторы.
Для лиц, принимающих решения предприятия, последствия являются значительными. Организациям, развертывающим системы искусственного интеллекта для критических рассуждений, может потребоваться тщательно откалибровать, сколько времени обработки они выделяют, а не предполагать, что больше, всегда лучше.
Как простые вопросы Trout Up Advanced AI, когда дают слишком много времени для размышлений
Исследователи привели конкретные примеры явления обратного масштабирования. В простых задачах они обнаружили, что когда были сформулированы проблемы, чтобы напоминать хорошо известные парадоксы, такие как «парадокс дня рождения», модели часто пытались применять сложные математические решения вместо ответов на простые вопросы.
Например, когда его спросили: «У вас есть яблоко и апельсин… сколько у вас фруктов?» Встроенные в сложные математические отвлечения, модели Claude все больше отвлекались от неактуальных деталей по мере увеличения времени рассуждения, иногда не давая простого ответа: два.
В задачах регрессии с использованием реальных данных учащихся модели изначально были сосредоточены на наиболее прогнозирующем факторе (часы обучения), но перемещались до менее надежных корреляций, когда у него было больше времени для разума.
Какие развертывания AI Enterprise должны знать об ограничениях модели рассуждения
Исследование проводится, когда крупные технологические компании участвуют в разрабатывании все более сложных возможностей рассуждений в их системах ИИ. Серия моделей Ope O1 и другие «ориентированные на рассуждения» модели представляют собой значительные инвестиции в вычислительное масштабирование времени теста.
Тем не менее, это исследование предполагает, что подходы наивного масштабирования могут не принести ожидаемые выгоды и могут ввести новые риски. «Наши результаты демонстрируют важность оценки моделей по разнообразным длины рассуждения для выявления и решения этих режимов неудачи в LRM», — пишут исследователи.
Работа основывается на предыдущих исследованиях, показывающих, что возможности ИИ не всегда масштабируют предсказуемо. Команда ссылается на Big-Bench Extra Hard, эталон, предназначенный для оспаривания передовых моделей, отмечая, что «современные модели достигают почти идеальных показателей по многим задачам» при существующих критериях, что требует более сложных оценок.
Для предпринимателей, исследование подчеркивает необходимость тщательного тестирования в различных сценариях рассуждений и временных ограничениях, прежде чем развернуть системы ИИ в производственных средах. Организациям может потребоваться разработать более тонкие подходы к распределению вычислительных ресурсов, а не просто максимизации времени обработки.
Более широкие последствия исследования показывают, что по мере того, как системы ИИ становятся более сложными, взаимосвязь между вычислительными инвестициями и производительностью может быть гораздо более сложной, чем ранее. В области, где миллиарды вкладываются в расширение возможностей рассуждений, исследования Anpropic предлагают отрезвляющее напоминание: иногда величайший враг искусственного интеллекта недостаточный обработок — это переосмысливает.
Исследовательская работа и интерактивные демонстрации доступны на веб -сайте проекта, что позволяет техническим командам исследовать обратные эффекты масштабирования для различных моделей и задач.
Источник
