Главная ИТ-бизнес ByteDance представляет OmniHuman-1 — генератор видео на основе фото и аудио

ByteDance представляет OmniHuman-1 — генератор видео на основе фото и аудио

Китайский технологический гигант ByteDance, владеющий популярной платформой TikTok, представил новый искусственный интеллект для создания видео под названием OmniHuman-1. Эта модель, несмотря на некоторые недостатки, демонстрирует впечатляющую реалистичность в своих работах.

Об этом сообщает ProIT

Особенности OmniHuman-1

В демонстрационных видео OmniHuman-1 смогла сгенерировать вымышленный эпизод TED Talk, лекцию, которую, казалось, читал сам Альберт Эйнштейн, а также приветствие от пожилой женщины с бокалом вина. Хотя изображения человеческих рук получились не совсем совершенными — что является типичным для многих генеративных моделей, — общее впечатление от работы модели все же остается положительным. OmniHuman-1 акцентирует внимание на реалистичности, что делает её уникальной в своем роде.

Технологические возможности и вызовы

Для создания видео модели нужно всего одно фото и аудиозапись. OmniHuman-1 обладает возможностями редактирования видео, изменения движений тела и жестов. Она обучалась на огромном объеме данных — 18700 часах видеоматериалов, используя методику «все условия», которая позволяет одновременно использовать различные источники ввода, такие как текст, аудио и видео. По словам исследователей ByteDance, большой объем учебных данных существенно снижает риски потерь данных по сравнению со старыми моделями, которые использовались для создания deepfake.

На сегодняшний день китайские компании активно развивают новые модели искусственного интеллекта, включая языковые и генеративные. Например, в прошлом году Tencent представила генеративную модель HunyuanVideo, которая продемонстрировала впечатляющие результаты, хотя и не достигла такого же уровня реалистичности. Также среди разработок Tencent есть модель GameGen-O, предназначенная для создания игр, которая обучалась на современных видеоиграх.

Однако существуют риски, связанные с использованием китайских моделей ИИ, такие как безопасность данных, цензурируемость и вопросы соблюдения авторских прав. Популярная языковая модель DeepSeek предлагает открытый код и доступную ценовую политику, что, тем не менее, вызвало падение акций компании. Тем временем аналитики ставят под сомнение заявленные цифры, связанные с использованием этих технологий. Модель DeepSeek R1, в частности, собирает большое количество данных пользователей, что может вызывать опасения по поводу конфиденциальности.

Читайте также

About Us

Soledad is the Best Newspaper and Magazine WordPress Theme with tons of options and demos ready to import. This theme is perfect for blogs and excellent for online stores, news, magazine or review sites. Buy Soledad now!

Latest Articles

© ProIT. Видання не несе жодної відповідальності за зміст і достовірність фактів, думок, поглядів, аргументів та висновків, які викладені у інформаційних матеріалах з посиланням на інші джерела інформації. Усі запити щодо такої інформації мають надсилатися виключно джерелам відповідної інформації.