Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в лидирующем отраслевом освещении искусственного интеллекта. Узнать больше
OpenAI сегодня выпустила две новаторские модели искусственного интеллекта, которые могут рассуждать с изображениями и самостоятельно использовать инструменты, представляя то, что эксперты называют изменением шага в возможностях искусственного интеллекта.
Компания, расположенная в Сан-Франциско, представила O3 и O4-Mini, последнюю в своих «O-серии» моделей рассуждений, которые, по ее словам, являются его наиболее интеллектуальными и способными моделями на сегодняшний день. Эти системы могут интегрировать изображения непосредственно в процесс рассуждения, поиск в Интернете, запускать код, анализировать файлы и даже генерировать изображения в пределах одного потока задач.
«Есть некоторые модели, которые кажутся качественным шагом в будущем. GPT-4 был одним из них. Сегодня также станет одним из тех дней»,-сказал Грег Брокман, президент Openai, во время пресс-конференции, объявляющей о выпуске. «Это первые модели, где ведущие ученые говорят нам, что они производят законно хорошие и полезные новые идеи».
Как новые модели Openai «думают с изображениями», чтобы преобразовать визуальное решение проблем
Самая яркая особенность этих новых моделей-это их способность «думать с изображениями»-не только их видеть, но и манипулировать и разумно о них как часть процесса решения проблем.
«Они не просто видят изображение — они думают с ним», — сказал Openai в заявлении, отправленном VentureBeat. «Это открывает новый класс решения проблем, который смешивает визуальные и текстовые рассуждения».
Во время демонстрации на пресс-конференции исследователь показал, как O3 может проанализировать постер физики из десятилетней стажировки, независимо от его сложных диаграмм и даже определить, что конечный результат не присутствовал на самом плакате.
«Должно быть, это только что прочитало, вы знаете, по крайней мере, как 10 различных работ за несколько секунд для меня», — сказал во время демонстрации Брэндон Маккензи, исследователь Openai, работающий над мультимодальными рассуждениями. Он подсчитал, что задача потребовало бы у него «много дней только для меня, чтобы даже полюбить себя на борту, обратно к моему проекту, а затем, скорее всего, на несколько дней, чтобы действительно искать литературу».
Способность ИИ манипулировать изображениями в процессе рассуждений — увеличение деталей, вращающихся диаграмм или обрезки ненужных элементов — представляет собой новый подход, который, по мнению отраслевых аналитиков, может революционизировать поля от научных исследований до образования.
У меня был ранний доступ, O3 — впечатляющая модель, кажется очень способной. Несколько забавных примеров:
— Итан Моллик (@emollick) 16 апреля 2025 года
1) взломан бизнес -кейс, который я использую в своем классе
2) Создание некоторых SVG (изображения, созданные только кодом)
3) Написание ограниченной истории двух взаимосвязанных кругов
4) Трудно научная фантастическая космическая битва. pic.twitter.com/tk4pkvknot
Помимо моделей искусственного интеллекта: как O3 и O4-Mini функционируют как полные системы ИИ с расширенной интеграцией инструментов
Руководители OpenAI подчеркнули, что эти релизы представляют больше, чем просто улучшенные модели — они полные системы ИИ, которые могут независимо использовать и цепляться вместе с несколькими инструментами при решении проблем.
«Мы обучили их использовать инструменты с помощью обучения подкреплению — связывать их не только то, как использовать инструменты, но и рассуждать о том, когда их использовать», — пояснила компания в своем выпуске.
Грег Брокман выделил обширные возможности для использования инструмента моделей: «Они фактически используют эти инструменты в своей цепочке мышления, поскольку они пытаются решить сложную проблему.
Эта возможность позволяет моделям выполнять сложные многоэтапные рабочие процессы без постоянного человеческого направления. Например, если спросить о будущих моделях использования энергии в Калифорнии, ИИ может искать в Интернете данные об утилите, написать код Python для его анализа, генерации визуализации и создать всеобъемлющий отчет — все в виде единого жидкого процесса.
Openai скажется впереди конкурентов с рекордными результатами на ключевых тестах ИИ
OpenAI утверждает, что O3 устанавливает новые современные показатели по ключевым показателям возможностей ИИ, включая кодовыеформы, SWE-Bench и MMMU. В оценках внешних экспертов, O3, как сообщается, допускает на 20 процентов меньше основных ошибок, чем его предшественник по сложным, реальным задачам.
Меньшая модель O4-Mini оптимизирована для скорости и эффективности затрат при сохранении сильных возможностей рассуждений. На конкурсе по математике AIME 2025 O4-Mini набрал 99,5 процента, когда был предоставлен доступ к интерпретатору Python.
«Я действительно верю, что с этим набором моделей, O3 и O4-Mini мы увидим больше достижений»,-заявил во время пресс-конференции больше достижений »,-сказал Марк Чен, глава отдела исследований Openai.
Время этого выпуска значительно, наступив всего через два дня после того, как OpenAI обнародовал свою модель GPT-4.1, которая превосходна в задачах кодирования. Быстрая последовательность объявлений сигнализирует о ускорении в конкурентном ландшафте ИИ, где OpenAI сталкивается с растущим давлением со стороны моделей Google Gemini, Клода Антрии и XAI Элона Маска.
В прошлом месяце Openai закрыл то, что составляет крупнейший раунд с частным технологическим финансированием в истории, собрав 40 миллиардов долларов при оценке в 300 миллиардов долларов. Компания также, как сообщается, рассматривает возможность создания собственной социальной сети, потенциально для конкуренции с платформой Элон Маск и получения собственного источника данных обучения.
O3 и O4-Mini очень хороши в кодировании, поэтому мы выпускаем новый продукт Codex CLI, чтобы облегчить их использованию.
— Сэм Альтман (@Sama) 16 апреля 2025 года
Это агент кодирования, который работает на вашем компьютере. Он полностью открыт и доступен сегодня; Мы ожидаем, что это быстро улучшится.
Как новые модели Openai преобразуют разработку программного обеспечения с беспрецедентными навигационными способностями кода
Одной из областей, где новые модели, особенно Excel, являются разработкой программного обеспечения. Брокман отметил во время пресс -конференции, что O3 «на самом деле лучше, чем я навигации по нашей базе кода Openai, что действительно полезно».
В рамках объявления OpenAI также представила Codex CLI, легкого агента кодирования, который работает непосредственно в терминале пользователя. Инструмент с открытым исходным кодом позволяет разработчикам использовать возможности рассуждений моделей для задач кодирования, при поддержке скриншотов и эскизов.
«Мы также делимся новым экспериментом: Codex CLI, легким агентом кодирования, которого вы можете запустить из своего терминала», — объявила компания. «Вы можете получить преимущества мультимодальных рассуждений из командной строки, передавая скриншоты или наброски с низкой точностью до модели в сочетании с доступом к вашему коду локально».
Чтобы поощрять усыновление, OpenAI запускает инициативу в размере 1 миллиона долларов США для поддержки проектов с использованием моделей Codex CLI и Openai, а гранты доступны с шагом в размере 25 000 долл. США в кредитах API.
Inside Openai’s Enhanced Protocols безопасности: как компания защищает от злоупотребления искусственным интеллектом
OpenAI сообщает, что проводят обширные испытания на безопасность на новых моделях, особенно сфокусированные на их способности отказаться от вредных запросов. Меры безопасности компании включают в себя полное восстановление их данных обучения безопасности и разработку смягчения системного уровня для помещения опасных подсказок.
«Мы подчеркивали обе модели с нашей самой строгой программой безопасности на сегодняшний день»,-заявила компания, отметив, что как O3, так и O4-Mini остаются ниже «высокого» порога Openai для потенциальных рисков в биологических, кибербезопасности и самосовершенствовании AI.
Во время пресс -конференции исследователи Openai Венда и Ананья представили подробные результаты эталона, отметив, что новые модели проходили в 10 раз превышают учебный вычет предыдущих версий для достижения своих возможностей.
Когда и как вы можете получить доступ к O3 и O4-Mini: график развертывания и коммерческая стратегия
Новые модели немедленно доступны для Catgpt Plus, Pro и пользователей команды, при этом клиенты предприятия и образование получат доступ на следующей неделе. Свободные пользователи могут попробовать O4-Mini, выбрав «Think» в композиторе, прежде чем отправлять запросы.
Разработчики могут получить доступ к обеим моделям с помощью API API CHAT OpenAI API и ответов, хотя некоторым организациям потребуется проверка для доступа к ним.
Выпуск представляет собой значительную коммерческую возможность для OpenAI, поскольку модели кажутся более способными и более экономичными, чем их предшественники. «Например, в конкурсе AIME 2025 AIME, граница затрат на производительность для O3 строго улучшается по сравнению с O1, и аналогично, граница O4-Mini строго улучшается по сравнению с O3-Mini»,-заявила компания.
Будущее ИИ: Как Openai преодолевает рассуждения и разговор для систем следующего поколения
Отраслевые аналитики рассматривают эти релизы как часть более широкой конвергенции в возможностях искусственного интеллекта, причем модели все чаще объединяют специализированные рассуждения с естественными способностями разговора и использованием инструментов.
«Сегодняшние обновления отражают направление, в которых направляются наши модели: мы сходили специализированные возможности рассуждения серии O с большим количеством естественных разговорных способностей и использования инструментов серии GPT»,-отметил Openai в своем выпуске.
Этан Моллик, доцент в школе Уортона, который изучает принятие ИИ, назвал O3 «очень сильной моделью, но все еще зазубренной» в посте в социальных сетях после объявления.
Поскольку конкуренция в пространстве искусственного интеллекта продолжает усиливаться, поскольку Google, Anpropic и другие выпускают все более мощные модели, двойное внимание OpenAI как на возможностях рассуждений, так и на практическое использование инструментов предполагает стратегию, направленную на поддержание своей лидерской позиции путем предоставления как интеллекта, так и утилиты.
С O3 и O4-Mini, OpenAI пересекла порог, где машины начинают воспринимать изображения, как это делают люди, инипулируя визуальную информацию как неотъемлемую часть своего мыслительного процесса, а не просто анализировать то, что они видят. Этот переход от пассивного распознавания к активным визуальным рассуждениям может в конечном итоге оказаться более значительным, чем любой эталонный балл, представляющий момент, когда ИИ начал действительно видеть мир мыслимыми глазами.
Источник
