Про це розповідає ProIT
Компанія Tencent представила новаторську модель генерації відео з відкритим кодом під назвою HunyuanVideo. Ця модель виділяється серед аналогів завдяки своїм потужним можливостям у створенні реалістичних відео з понад 13 мільярдами параметрів. Це вперше така велика модель з усіма висновковими параметрами та ваговими коефіцієнтами стала доступною для широкого загалу.
Відзначається, що HunyuanVideo може конкурувати з провідними закритими моделями за якістю зображення, різноманітністю рухів та стабільністю генерації. Tencent піддала модель ретельній перевірці, використовуючи професійних оцінювачів, які підтвердили її перевагу над аналогами з закритим кодом.
Інноваційний підхід до генерації
У своїй розробці Tencent застосувала підхід розділення та поєднання для досягнення високої якості відео. Модель побудована на основі архітектури Transformer з використанням механізму Full Attention для інтеграції зображень і відео. Особливо цікавим є використання гібридної моделі «Два потоки до одного», яка дозволяє обробляти текстові та відеомаркери незалежно для глибшого вивчення кожної модальності.
«HunyuanVideo представляє дизайн Transformer та використовує механізм Full Attention для уніфікованого створення зображень і відео. Зокрема, ми використовуємо гібридну модель „Два потоки до одного“ для створення відео. У фазі подвійного потоку відео та текстові маркери обробляються незалежно через кілька блоків Transformer, що дозволяє кожній модальності вивчати власні відповідні механізми модуляції без перешкод. На етапі єдиного потоку ми об’єднуємо відео та текстові токени та подаємо їх у наступні блоки Transformer для ефективного злиття мультимодальної інформації. Цей дизайн фіксує складні взаємодії між візуальною та семантичною інформацією, підвищуючи загальну продуктивність моделі», — розповіли в Tencent.
Відкритість для спільноти
Tencent активно просуває відкритий підхід, публікуючи вихідний код і параметри моделі. Це дозволяє значно зменшити розрив між відкритими та закритими моделями, надаючи можливість створювати якісні відео на основі штучного інтелекту. Детальніша інформація про HunyuanVideo, а також демонстрації її можливостей доступні на платформах Huggingface та GitHub.
Крім того, Tencent нещодавно представила ШІ GameGen-O для створення ігор, яка базується на знаннях, отриманих під час навчання на таких популярних іграх, як The Witcher 3, GTA V та Cyberpunk 2077.