Meta развязывает Llama API, бегущий в 18 раза быстрее, чем OpenAI: партнерство церебса обеспечивает 2600 жетонов в секунду в секунду

admin

Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в лидирующем отраслевом освещении искусственного интеллекта. Узнать больше


Meta объявила сегодня о партнерстве с Cerebras Systems для питания своего нового API Llama, предлагая разработчикам доступ к скорости вывода в 18 раз быстрее, чем традиционные решения на основе графических процессоров.

Объявление, сделанное на инаугурационной конференции разработчиков Lmamacon в Meta в Менло -парке, позиционирует компанию, чтобы они конкурировали напрямую с OpenAI, Anpropic и Google на быстро растущем рынке услуг по выводу искусственного интеллекта, где разработчики покупают токены за миллиарды для власти своих приложений.

«Meta выбрала мозга для сотрудничества для того, чтобы сделать ультрабывающий вывод о том, что им необходимо служить разработчикам через их новый API Llama»,-сказала Джули Шин Чой, директор по маркетингу Cerebras, во время брифинга для прессы. «Мы в Cerebras действительно, очень рады объявить о нашем первом партнерстве CSP HyperScaler, чтобы сделать ультрастрабильный вывод для всех разработчиков».

Партнерство отмечает официальное вступление Meta в бизнес по продаже вычислений искусственного интеллекта, превращая свои популярные модели Llama с открытым исходным кодом в коммерческий сервис. В то время как модели Meta Llama накапливались за один миллиард загрузок, до сих пор компания не предлагала первой личной облачной инфраструктуре для разработчиков для создания с ними приложений.

«Это очень захватывающе, даже не говоря о церебсе конкретно», — сказал Джеймс Ван, старший исполнительный директор Джеймс Ванг в Cerebras. «Openai, Anpropic, Google — они создали совершенно новый бизнес искусственного интеллекта с нуля, который является бизнесом по выводу искусственного интеллекта. Разработчики, которые строят приложения ИИ, будут покупать токены за миллионами, иногда миллиарды. И это так же, как новые вычислительные инструкции, необходимые для создания приложений искусственного интеллекта».

На этажах-диаграмме показана обработка мозга Llama 4 с 2648 токенами в секунду, что значительно опережает конкурентов Sambanova (747), GROQ (600) и сервисов на основе GPU от Google и других-объясняя выбор оборудования Meta для своего нового API. (Кредит: церебра)

Разрушение скоростного барьер: как модели головного мозга

То, что выделяет Meta, — это драматическое увеличение скорости, обеспечиваемое специализированными чипсами AI Cerebras. Система церебров обеспечивает более 2600 токенов в секунду для скаута Llama 4, по сравнению с приблизительно 130 токенами в секунду для CHATGPT и около 25 токенов в секунду для DeepSeek, согласно критериям искусственного анализа.

«Если вы просто сравниваете на основе API-API, Gemini и GPT, они все отличные модели, но все они работают на скоростях графических процессоров, что составляет примерно 100 токенов в секунду»,-объяснил Ван. «И 100 жетонов в секунду — это хорошо для чата, но это очень медленно для рассуждений. Это очень медленно для агентов. И люди борются с этим сегодня».

Это преимущество скорости позволяет полностью новым категориям приложений, которые ранее были непрактичными, включая агенты в режиме реального времени, разговорные голосовые системы с низкой задержкой, интерактивное генерация кода и мгновенные многоэтапные рассуждения-все это требует цепков нескольких крупных языковых модельных вызовов, которые теперь могут быть завершены в секунды, а не минуты.

От открытого исходного кода до потока доходов: Meta’s AI Business Transfusion

API LLAMA представляет собой значительный сдвиг в стратегии AI от Meta, переходя от того, чтобы в первую очередь стал модельным поставщиком к становлению компанией по инфраструктуре ИИ с полным спектром услуг. Предлагая услугу API, Meta создает поток доходов от своих инвестиций в области искусственного интеллекта, сохраняя при этом приверженность открытым моделям.

«Мета сейчас занимается продажей токенов, и она отлично подходит для американской экосистемы ИИ», — отметил Ван во время пресс -конференции. «Они много приносят на стол».

API предложит инструменты для точной настройки и оценки, начиная с модели Llama 3.3 8b, позволяя разработчикам генерировать данные, обучать его и проверить качество своих пользовательских моделей. Meta подчеркивает, что он не будет использовать данные клиентов для обучения своих собственных моделей, а модели, созданные с использованием API LLAMA, могут быть переданы другим хостам — четкое дифференциацию, чем более закрытые подходы некоторых конкурентов.

Inside Cerebras ‘North American Data Center Network Powering Meta AI Ambitions

Cerebras Wwill Новая услуга Meta Meta через сеть центров обработки данных, расположенных по всей Северной Америке, включая объекты в Далласе, Оклахоме, Миннесоте, Монреале и Калифорнии.

«Все наши центры обработки данных, которые служат выводу, в настоящее время находятся в Северной Америке», — пояснил Чой. «Мы будем обслуживать мета с полной мощностью церебров. Рабочая нагрузка будет сбалансирована во всех этих различных центрах обработки данных».

Бизнес -договоренность следует за тем, что Чой назвал «классической вычислительной провайдером для модели гиперскладера», аналогичной тому, как NVIDIA предоставляет аппаратное обеспечение для крупных облачных поставщиков. «Они зарезервируют блоки нашего вычисления, что они могут обслуживать население своего разработчика», — сказала она.

Помимо Cerebras, Meta также объявила о партнерстве с GROQ для обеспечения быстрых вариантов вывода, предоставляя разработчикам несколько высокопроизводительных альтернатив, помимо традиционных выводов на основе графических процессоров.

Нарушение экосистемы ИИ: как Meta 20x Performance Leap меняет игру

Вход Meta на рынок API вывода с превосходными показателями производительности может потенциально нарушить установленное порядок, в котором доминируют OpenAI, Google и Antropic. Сочетая популярность своих моделей с открытым исходным кодом с резко более быстрыми возможностями вывода, Meta позиционирует себя как грозный конкурент в коммерческом пространстве ИИ.

«Meta находится в уникальном положении с 3 миллиардами пользователей, гипер-образными центрами и огромной экосистемой разработчика»,-говорится в презентационных материалах Cerebras. Интеграция технологии церебса «помогает Meta Leapfrog Openai и Google в производительности примерно в 20x».

Для церебров это партнерство представляет собой основную веху и подтверждение своего специализированного аппаратного подхода ИИ. «Мы строили этот двигатель масштаба пластин в течение многих лет, и мы всегда знали, что первая скорость технологии, но в конечном итоге он должен оказаться частью чужой гиперсмасштабной облака. Это была окончательная цель с точки зрения коммерческой стратегии, и мы наконец достигли этой вехи»,-сказал Ван.

Как разработчики могут получить доступ к моделям Meta Ultra Fast Llama Today

API LLAMA в настоящее время доступен в качестве ограниченного предварительного просмотра, при этом мета -планирование более широкого развертывания в ближайшие недели и месяцы. Разработчики, заинтересованные в доступе к ультрастрабильному выводу Llama 4, могут запрашивать ранний доступ, выбрав церебры из модельных вариантов в API Llama.

«Если вы представляете разработчик, который ничего не знает о церебсе, потому что мы относительно небольшая компания, он может просто нажать две кнопки на стандартном программном обеспечении Meta, генерировать ключ API, выбрать флаг мозга, а затем вдруг объяснил их токены. «Такого рода, когда мы находимся на заднем плане всей экосистемы Meta, просто для нас просто потрясающе».

Выбор Meta специализированного кремния сигнализирует о чем -то глубоком: на следующем этапе ИИ это не только то, что знают ваши модели, но как быстро они могут это думать. В этом будущем скорость не просто особенность — это весь смысл.



Источник

Рекомендуем

Оставить комментарий