Lightricks только что сделал AI Video Generation в 30 раз быстрее — и вам не понадобится графический процессор за 10 000 долларов США.

admin

Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в лидирующем отраслевом освещении искусственного интеллекта. Узнать больше


Lightricks, компания, стоящая за популярными креативными приложениями, такими как Facetune и VideoLeap, объявила сегодня о выпуске своей самой мощной модели генерации видео с ИИ на сегодняшний день. Модель 13-миллиарда параметра LTX (LTXV-13B) генерирует высококачественное видео ИИ в 30 раз быстрее, чем сопоставимые модели, работая на оборудовании потребительского уровня, а не на дорогих корпоративных графических процессорах.

Модель вводит «многомасштабный рендеринг», новый технический подход, который значительно повышает эффективность, генерируя видео в прогрессивных слоях детализации. Это позволяет создателям производить профессиональные видео-видео на стандартных настольных компьютерах и высококачественных ноутбуках вместо того, чтобы требовать специализированного корпоративного оборудования.

«Внедрение нашей видео модели LTX 13B LTX отмечает ключевой момент в генерации видео ИИ с возможностью генерировать быстрые высококачественные видеоролики о потребительских графических процессорах»,-сказал Zeev Farbman, соучредитель и генеральный директор Lightricks, в эксклюзивном интервью с VentureBeat. «Наши пользователи теперь могут создавать контент с большей последовательностью, лучшим качеством и более плотным контролем».

Как Lightricks демократизирует видео с искусственным интеллектом, решая проблему памяти графического процессора

Основной проблемой для генерации видео ИИ были огромные вычислительные требования. Ведущие модели таких компаний, как взлетно-посадочная полоса, Pika и Luma, обычно работают в облаке на нескольких графических процессорах корпоративного класса с 80 ГБ или более VRAM (видео память), что делает локальное развертывание непрактичным для большинства пользователей.

Фарбман объяснил, как LTXV-13B учитывает это ограничение: «Основная делящаяся линия между потребительским и предпринимательским графическим процессором является количество VRAM. NVIDIA позиционирует свое игровое оборудование со строгими ограничениями памяти-предыдущие поколения 3090 и 4090 графических процессоров максимум 32 GIGABYS, в то время как Newest 5090 GIGABYS. Сравнение, предлагает значительно больше ».

Новая модель предназначена для эффективной работы в рамках этих потребительских аппаратных ограничений. «Полная модель без какого -либо квантования, без какого -либо приближения, вы сможете работать на лучших потребительских графических процессорах — 3090, 4090, 5090, включая их версии ноутбука», — отметил Фарбман.

Два кролика, сгенерированные AI, отображаемые на одном потребительском графическом процессоре, уходят после краткого взгляда на камеру-неотредактированный четырехсекундный образец из новой модели Lightricks ‘LTXV-13B. (Кредит: Lightricks)

Внутри ‘Multiscale рендеринг «: вдохновленная художником техника, которая делает AI Video Generation 30x быстрее

Основным инновацией, лежащей в основе эффективности LTXV-13B, является его многомасштабный подход рендеринга, который Фарбман назвал «самым большим техническим прорывом этого выпуска».

«Это позволяет модели постепенно генерировать детали», — объяснил он. «Вы начинаете с грубой сетки, получая грубое приближение сцены, движения движущихся объектов и т. Д., А затем сцена как бы разделена на плитки. И каждая плитка заполнена постепенно более подробной информацией».

Этот процесс отражает то, как художники подходят к сложным сценам — начиная с грубых эскизов, прежде чем добавлять постепенно более тонкие детали. Преимущество для ИИ заключается в том, что «ваше пиковое количество VRAM ограничено размером плитки, а не окончательным разрешением», — сказал Фарбман.

Модель также имеет более сжатое скрытое пространство, которое требует меньше памяти при сохранении качества. «С помощью видео у вас есть более высокий коэффициент сжатия, который позволяет вам, пока вы находитесь в скрытом пространстве, просто взять меньше VRAM», — добавил Фарбман.

Метрики производительности, показывающие модель Lightricks LTXV-13B, генерируя видео всего за 37,59 секунды по сравнению с более чем 1491 секунды для конкурирующей модели на эквивалентном оборудовании-почти 40-× улучшение скорости. (Кредит: Lightricks)

Почему Lightricks делает ставки на открытый исходный код, когда рынки искусственного интеллекта все чаще закрываются

В то время как многие ведущие модели искусственного интеллекта остаются за закрытыми API, Lightricks сделал LTXV-13B полностью открытым исходным кодом, доступным как для обнимающегося лица, так и на GitHub. Это решение происходит в период, когда развитие ИИ с открытым исходным кодом сталкивалось с проблемами коммерческой конкуренции.

«Год назад все было закрыто, но все отчасти открывается. Мы видим, как действительно много классных LLM и диффузионных моделей», — размышлял Фарбман. «Сейчас я более оптимистичен, чем получал полгоды».

Стратегия с открытым исходным кодом также помогает ускорить исследования и улучшения. «Основная рациональность для открытых источников-это снизить стоимость ваших исследований и разработок»,-пояснил Фарбман. «В научных кругах есть множество людей, которые используют модель, пишут документы, и вы начинаете становиться этим куратором, который понимает, где находится настоящее золото».

Поскольку юридические задачи противоречат компаниям ИИ, использующим скрещенные данные обучения, Lightricks обеспечил партнерские отношения с Getty Images и Shutterstock для доступа к лицензированному контенту для обучения модели.

«Сбор данных для обучения моделей искусственного интеллекта по -прежнему остается юридической серой зоной», — признал Фарбман. «У нас есть крупные клиенты в нашем сегменте предприятия, которые заботятся о таких вещах, поэтому мы должны убедиться, что мы можем предоставить им чистые модели».

Эти партнерские отношения позволяют Lightricks предлагать модель с снижением юридического риска для коммерческих приложений, что потенциально дает ей преимущество на предпринимаемых рынках, касающихся вопросов авторских прав.

Стратегическая азартная игра: почему Lightricks предлагает свою современную модель искусственного интеллекта бесплатно для стартапов

В необычном шаге для индустрии искусственного интеллекта Lightricks предлагает LTXV-13B бесплатную лицензию на предприятия с годовым доходом менее 10 миллионов долларов. Этот подход направлен на создание сообщества разработчиков и компаний, которые могут продемонстрировать ценность модели до монетизации.

«Мысль заключалась в том, что академия не в курсе. Эти парни могут делать все, что они хотят с моделью», — сказал Фарбман. «С стартапами и промышленностью вы хотите создать беспроигрышные ситуации. Я не думаю, что вы можете заработать кучу денег от сообщества художников, играющих с ИИ».

Для более крупных компаний, которые находят успех с моделью, Lightricks планирует договориться о лицензионных соглашениях, аналогичных тем, как игровые двигатели взимают с успешных разработчиков. «Как только они достигли десяти миллионов доходов, мы собираемся поговорить с ними о лицензировании», — объяснил Фарбман.

Помимо Голливуда: где видео ИИ оказывает непосредственное влияние на анимацию и производство

Несмотря на успехи, представленные LTXV-13B, Фарбман признает, что генерация видео с ИИ все еще имеет ограничения. «Если мы честны с собой и смотрим на лучшие модели, мы все еще далеко от голливудских фильмов. Они еще не там», — сказал он.

Тем не менее, он видит немедленные практические применения в таких областях, как анимация, где творческие профессионалы могут использовать ИИ для обработки трудоемких аспектов производства. «Когда вы думаете о производственных затратах на высококачественную анимацию, настоящую творческую работу, люди, думающие о ключевых кадрах и истории,-это небольшой процент бюджета. Но ключевое кадрирование-это большой ресурс»,-отметил Фарбман.

Заглядывая в будущее, Фарбман прогнозирует, что следующей границей будут мультимодальные видео модели, которые интегрируют различные типы носителей в общее скрытое пространство. «Это будет музыка, аудио, видео и т. Д., И тогда такие вещи, как выполнение хорошей синхронизации губ, будут проще. Все эти вещи исчезнут. У вас будет эта мультимодальная модель, которая знает, как работать во всех этих различных модальностях».

LTXV-13B теперь доступен в качестве релиза с открытым исходным кодом и интегрируется в креативные приложения Lightricks, включая ее флагманскую платформу по рассказыванию историй, LTX Studio.



Источник

Рекомендуем

Оставить комментарий