Головна ІТ-бізнес ByteDance представляє OmniHuman-1 — генератор відео на основі фото та аудіо

ByteDance представляє OmniHuman-1 — генератор відео на основі фото та аудіо

Китайський технологічний гігант ByteDance, що володіє популярною платформою TikTok, запровадив новий штучний інтелект для створення відео під назвою OmniHuman-1. Ця модель, незважаючи на деякі недоліки, демонструє вражаючу реалістичність у своїх роботах.

Про це розповідає ProIT

Особливості OmniHuman-1

У демонстраційних відео OmniHuman-1 зуміла згенерувати уявний епізод TED Talk, лекцію, яку, здавалося, читав сам Альберт Ейнштейн, а також привітання від жінки похилого віку з келихом вина. Хоча зображення людських рук вийшло не зовсім досконалим — що є типовим для багатьох генеративних моделей, — загальне враження від роботи моделі все ж залишає позитивне. OmniHuman-1 ставить акцент на реалістичність, що робить її унікальною в своєму роді.

Технологічні можливості та виклики

Для створення відео моделі потрібно лише одне фото та аудіозапис. OmniHuman-1 має можливості редагування відео, зміни рухів тіла і жестів. Вона навчалася на величезному обсязі даних — 18700 годинах відеоматеріалів, використовуючи методику «усі умови», яка дозволяє одночасно використовувати різні джерела введення, такі як текст, аудіо та відео. За словами дослідників ByteDance, великий обсяг навчальних даних суттєво зменшує ризики втрат даних у порівнянні зі старішими моделями, які використовувалися для створення deepfake.

На сьогоднішній день китайські компанії активно розвивають нові моделі штучного інтелекту, включаючи мовні та генеративні. Наприклад, минулого року Tencent представила генеративну модель HunyuanVideo, яка продемонструвала вражаючі результати, хоча й не досягла такого ж рівня реалістичності. Також серед розробок Tencent є модель GameGen-O, призначена для створення ігор, яка навчалася на сучасних відеоіграх.

Однак існують ризики, пов’язані з використанням китайських моделей ШІ, такі як безпека даних, цензурованість та питання дотримання авторських прав. Популярна мовна модель DeepSeek пропонує відкритий код і доступну цінову політику, що, проте, викликало падіння акцій компанії. Тим часом аналітики ставлять під сумнів заявлені цифри, пов’язані з використанням цих технологій. Модель DeepSeek R1, зокрема, збирає велику кількість даних користувачів, що може викликати побоювання щодо конфіденційності.

Читайте також

About Us

Soledad is the Best Newspaper and Magazine WordPress Theme with tons of options and demos ready to import. This theme is perfect for blogs and excellent for online stores, news, magazine or review sites. Buy Soledad now!

Latest Articles

© ProIT. Видання не несе жодної відповідальності за зміст і достовірність фактів, думок, поглядів, аргументів та висновків, які викладені у інформаційних матеріалах з посиланням на інші джерела інформації. Усі запити щодо такої інформації мають надсилатися виключно джерелам відповідної інформації.