OmnimatteZero: Удаление фона и объектов в видео

Израильские ученые из Университета Бар-Илан представили инновационную технологию OmnimatteZero, которая позволяет отделять объекты и фоны в видео без необходимости предварительного обучения моделей или длительных процессов оптимизации. Этот метод значительно упрощает обработку видео и открывает новые возможности для креативных индустрий.

Об этом сообщает ProIT

Особенности разработки OmnimatteZero

Команда кафедры компьютерных наук под руководством доктора Двира Самуэля и профессора Гала Чечика сосредоточила внимание на создании алгоритма, способного точно выделять даже мельчайшие детали: волосы, листья, тени, блики, дым или волны на воде. Решение построено на генеративном подходе, который использует предварительно обученные модели диффузии видео. Обработка одного кадра занимает всего 0,04 секунды на графическом процессоре A100, что обеспечивает работу в реальном времени.

OmnimatteZero: технология позволяет убирать фон и объекты на видео без предварительного обучения и в реальном времени

Преимущества и практическое применение

Традиционные методы разделения слоев в видео основаны на сложных нейросетях, которые требуют обучения на миллионах примеров и требуют значительных вычислительных ресурсов. OmnimatteZero демонстрирует, что схожих результатов можно достичь за счет значительно меньших финансовых, энергетических и временных затрат.

“В системах разложения видео алгоритм должен определять эффекты, которые объект накладывает на сцену, а затем удалять или извлекать их таким образом, чтобы они выглядели естественно. До сих пор каждый метод требовал миллионов примеров для обучения модели, а также очень большой вычислительной мощности и энергии. Даже после того, как модель была полностью обучена и готова к использованию, ее запуск для достижения желаемого результата все еще мог занять несколько минут для нескольких секунд видео”, — отмечает Двир Самуэль.

OmnimatteZero позволяет не только эффективно удалять объекты, но и повторно использовать полученный контент. Например, лебедя с отражением можно аккуратно вырезать из озера и перенести на новый фон, а само озеро использовать в совершенно другой сцене.

Исследование показало, что для разделения слоев не обязательно иметь специализированные модели искусственного интеллекта или мощное оборудование — достаточно использовать уже доступные видеогенеративные модели, такие как WAN или Veo 3. Система может выявлять эффекты, которые создают объекты, а также удалять, извлекать и интегрировать их в новые видео в режиме реального времени.

Технология станет полезной видеоредакторам, дизайнерам, создателям контента, рекламодателям и исследователям, работающим в сфере искусственного интеллекта. В настоящее время несколько университетских команд в мире уже работают над дальнейшим совершенствованием OmnimatteZero. В будущих исследованиях команда планирует сосредоточиться на синхронизации звука.

Ознакомиться с научными результатами можно на сервере препринтов arXiv.