Ізраїльські науковці з Університету Бар-Ілана представили інноваційну технологію OmnimatteZero, яка дозволяє відокремлювати об’єкти та фони у відео без потреби попереднього навчання моделей або тривалих процесів оптимізації. Цей метод значно спрощує обробку відео та відкриває нові можливості для креативних індустрій.
Про це розповідає ProIT
Особливості розробки OmnimatteZero
Команда кафедри комп’ютерних наук під керівництвом доктора Двіра Самуеля та професора Гала Чечика зосередила увагу на створенні алгоритму, здатного точно виділяти навіть найдрібніші деталі: волосся, листя, тіні, відблиски, дим або хвилі на воді. Рішення побудовано на генеративному підході, який використовує попередньо навчені моделі дифузії відео. Обробка одного кадру триває лише 0,04 секунди на графічному процесорі A100, що забезпечує роботу в реальному часі.

Переваги та практичне застосування
Традиційні методи розділення шарів у відео базуються на складних нейромережах, які потребують навчання на мільйонах прикладів і вимагають значних обчислювальних ресурсів. OmnimatteZero демонструє, що схожих результатів можна досягти за рахунок значно менших фінансових, енергетичних і часових витрат.
“У системах розкладання відео алгоритм повинен визначати ефекти, які об’єкт накладає на сцену, а потім видаляти або вилучати їх таким чином, щоб вони виглядали природно. Досі кожен метод вимагав мільйонів прикладів для навчання моделі, а також дуже великої обчислювальної потужності та енергії. Навіть після того, як модель була повністю навчена і готова до використання, її запуск для досягнення бажаного результату все ще міг зайняти кілька хвилин для декількох секунд відео”, — зазначає Двір Самуель.
OmnimatteZero дозволяє не лише ефективно видаляти об’єкти, а й повторно використовувати отриманий контент. Наприклад, лебедя з відображенням можна акуратно вирізати з озера та перенести на новий фон, а саме озеро використати у зовсім іншій сцені.
Дослідження показало, що для розділення шарів не обов’язково мати спеціалізовані моделі штучного інтелекту чи потужне обладнання — достатньо використовувати вже доступні відеогенеративні моделі, такі як WAN або Veo 3. Система може виявляти ефекти, які створюють об’єкти, а також видаляти, вилучати та інтегрувати їх у нові відео у режимі реального часу.
Технологія стане у пригоді відеоредакторам, дизайнерам, творцям контенту, рекламодавцям та дослідникам, які працюють у сфері штучного інтелекту. Наразі кілька університетських команд у світі вже працюють над подальшим удосконаленням OmnimatteZero. У майбутніх дослідженнях команда планує зосередитися на синхронізації звуку.
Ознайомитися з науковими результатами можна на сервері препринтів arXiv.