Эта «дешевая» модель ИИ с открытым исходным кодом на самом деле сжигает ваш вычислительный бюджет

admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас


Новое всеобъемлющее исследование показало, что модели искусственного интеллекта с открытым исходным кодом потребляют значительно больше вычислительных ресурсов, чем их конкуренты с закрытым исходным кодом при выполнении идентичных задач, что потенциально подрывает их преимущества затрат и изменяя то, как предприятия оценивают стратегии развертывания ИИ.

Исследование, проведенное AI Firm Nous Research, показало, что модели открытого веса используются в 1,5-4 раза больше токенов-основные единицы вычисления искусственного интеллекта-чем закрытые модели, такие как от Openai и Anpropic. Для простых вопросов знаний этот разрыв резко расширился, а некоторые открытые модели использовали до 10 раз больше жетонов.

«Модели открытого веса используют токены в 1,5–4 × больше, чем закрытые (до 10 × для простых вопросов знаний), что делает их иногда более дорогими за запрос, несмотря на более низкие затраты на затраты», — написали исследователи в своем отчете, опубликованном в среду.

Результаты бросают вызов преобладающему предположению в отрасли искусственного интеллекта, что модели с открытым исходным кодом предлагают четкие экономические преимущества по сравнению с собственными альтернативами. В то время как модели с открытым исходным кодом, как правило, стоят меньше, чтобы запустить токен, исследование предполагает, что это преимущество можно «легко компенсировать, если им требуется больше токенов, чтобы рассуждать о данной проблеме».

Реальная стоимость ИИ: почему «более дешевые» модели могут нарушить ваш бюджет

В исследовании изучались 19 различных моделей ИИ в трех категориях задач: основные вопросы знаний, математические проблемы и логические головоломки. Команда измерила «эффективность токена» — сколько используются модели вычислительных единиц относительно сложности их решений — показатель, который получил мало систематического исследования, несмотря на его значительные последствия затрат.

«Эффективность токена является критической метрикой по нескольким практическим причинам», — отметили исследователи. «В то время как хостинг модели открытого веса может быть дешевле, это преимущество затрат может быть легко компенсировано, если им требуется больше токенов, чтобы рассуждать о данной проблеме».

Модели ИИ с открытым исходным кодом используют в 12 раз больше вычислительных ресурсов, чем наиболее эффективные закрытые модели для основных вопросов знаний. (Кредит: Nous Research)

Неэффективность особенно выражена для больших моделей рассуждений (LRM), в которых используются расширенные «цепочки мышления» для решения сложных задач. Эти модели, предназначенные для того, чтобы продумать проблемы поэтапно, могут потреблять тысячи токенов, размышляющих простые вопросы, которые должны потребовать минимальных вычислений.

Для основных вопросов знаний, таких как «Какова столица Австралии?» Исследование показало, что модели рассуждений тратят «сотни жетонов, размышляя о простых вопросах знаний», на которые можно ответить одним словом.

Какие модели искусственного искусства на самом деле приносят вам удар

Исследование выявило резкие различия между поставщиками моделей. Модели OpenAI, в частности, его O4-Mini и недавно выпущенные варианты GPT-OSS с открытым исходным кодом, продемонстрировали исключительную эффективность токена, особенно для математических задач. Исследование показало, что модели OpenAI «выделяются для эффективности экстремальных токенов в математических задачах», используя в три раза меньше жетонов, чем другие коммерческие модели.

Среди вариантов с открытым исходным кодом, Llama-3.3-Nemotron-Super-49B-V1 от Nvidia стала «наиболее эффективной моделью открытого веса во всех областях», в то время как новые модели от таких компаний, как Misstral, показали «исключительно высокое использование токенов» в качестве выбросов.

Разрыв эффективности значительно варьировался в зависимости от типа задачи. В то время как открытые модели использовали примерно в два раза больше жетонов для математических и логических проблем, разница, продуманная для простых вопросов знаний, где эффективные рассуждения должны быть ненужными.

Последние модели Openai достигают самых низких затрат на простые вопросы, в то время как некоторые альтернативы с открытым исходным кодом могут стоить значительно дороже, несмотря на более низкие цены на на ток. (Кредит: Nous Research)

Что должны знать лидеры предприятия о затратах на компьютерные вычисления

Результаты имеют непосредственное значение для принятия ИИ предприятия, где вычислительные затраты могут быстро масштабироваться с использованием. Компании, оценивающие модели искусственного интеллекта, часто сосредотачиваются на контрольных показателях точности и ценах на ток, но могут упускать из виду общие вычислительные требования для реальных задач.

«Лучшая эффективность токена моделей с закрытым весом часто компенсирует более высокие цены на API этих моделей», — обнаружили исследователи при анализе общих затрат на вывод.

Исследование также показало, что поставщики моделей с закрытым исходным кодом, по-видимому, активно оптимизируют для эффективности. «Модели с закрытым весом были итеративно оптимизированы для использования меньшего количества токенов для снижения стоимости вывода», в то время как модели с открытым исходным кодом «увеличили использование токенов для новых версий, возможно, отражая приоритет к лучшей производительности рассуждения».

Вычислительные накладные расходы сильно варьируются между поставщиками ИИ, причем некоторые модели используют более 1000 токенов для внутренних рассуждений по простым задачам. (Кредит: Nous Research)

Как исследователи взломали код по измерению эффективности искусственного интеллекта

Исследовательская группа столкнулась с уникальными проблемами в измерении эффективности в разных модельных архитектурах. Многие модели с закрытым исходным кодом не раскрывают свои необработанные процессы рассуждений, вместо этого предоставляя сжатые резюме своих внутренних вычислений, чтобы предотвратить копирование своих методов конкурентов.

Чтобы решить эту проблему, исследователи использовали токены завершения — общие вычислительные единицы, выставленные за каждый запрос — в качестве прокси для рассуждений. Они обнаружили, что «самые последние модели с закрытым исходным кодом не будут делиться своими необработанными рассуждениями» и вместо этого «используют более мелкие языковые модели для транскрибирования цепочки мышления в резюме или сжатые представления».

Методология исследования включала тестирование с модифицированными версиями хорошо известных задач, чтобы минимизировать влияние запоминаемых решений, таких как изменение переменных в задачах математической конкуренции от американской экзамены по приглашной математике (AIME).

Различные модели искусственного интеллекта показывают различные отношения между вычислением и выходом, причем некоторые поставщики сжимают следы рассуждений, в то время как другие предоставляют полную информацию. (Кредит: Nous Research)

Будущее эффективности ИИ: что будет дальше

Исследователи предполагают, что эффективность токена должна стать основной целью оптимизации наряду с точностью для будущей разработки модели. «Более уплотняя COT также позволит использовать более эффективное использование контекста и может противостоять деградации контекста во время сложных задач», — написали они.

Выпуск моделей GPT-OSS с открытым исходным кодом, которые демонстрируют современную эффективность с «свободно доступной кроваткой», может служить эталонной точкой для оптимизации других моделей с открытым исходным кодом.

Полный набор данных исследования и код оценки доступны на GitHub, что позволяет другим исследователям проверять и расширить результаты. Поскольку индустрия искусственного интеллекта стремится к более мощным способностям рассуждений, это исследование предполагает, что реальная конкуренция может быть связана не с тем, кто может построить самый умный ИИ — но кто может построить наиболее эффективную.

В конце концов, в мире, где считается каждый токен, наиболее расточительные модели могут оказаться по цене с рынка, независимо от того, насколько хорошо они могут думать.



Источник

Рекомендуем

Оставить комментарий