ByteDance презентовал OmniHuman-1: новый ИИ для видео

Китайский технологический гигант ByteDance, владеющий популярной платформой TikTok, представил новый искусственный интеллект для создания видео под названием OmniHuman-1. Эта модель, несмотря на некоторые недостатки, демонстрирует впечатляющую реалистичность в своих работах.

Об этом сообщает ProIT

Особенности OmniHuman-1

В демонстрационных видео OmniHuman-1 смогла сгенерировать вымышленный эпизод TED Talk, лекцию, которую, казалось, читал сам Альберт Эйнштейн, а также приветствие от пожилой женщины с бокалом вина. Хотя изображения человеческих рук получились не совсем совершенными — что является типичным для многих генеративных моделей, — общее впечатление от работы модели все же остается положительным. OmniHuman-1 акцентирует внимание на реалистичности, что делает её уникальной в своем роде.

Технологические возможности и вызовы

Для создания видео модели нужно всего одно фото и аудиозапись. OmniHuman-1 обладает возможностями редактирования видео, изменения движений тела и жестов. Она обучалась на огромном объеме данных — 18700 часах видеоматериалов, используя методику «все условия», которая позволяет одновременно использовать различные источники ввода, такие как текст, аудио и видео. По словам исследователей ByteDance, большой объем учебных данных существенно снижает риски потерь данных по сравнению со старыми моделями, которые использовались для создания deepfake.

На сегодняшний день китайские компании активно развивают новые модели искусственного интеллекта, включая языковые и генеративные. Например, в прошлом году Tencent представила генеративную модель HunyuanVideo, которая продемонстрировала впечатляющие результаты, хотя и не достигла такого же уровня реалистичности. Также среди разработок Tencent есть модель GameGen-O, предназначенная для создания игр, которая обучалась на современных видеоиграх.

Однако существуют риски, связанные с использованием китайских моделей ИИ, такие как безопасность данных, цензурируемость и вопросы соблюдения авторских прав. Популярная языковая модель DeepSeek предлагает открытый код и доступную ценовую политику, что, тем не менее, вызвало падение акций компании. Тем временем аналитики ставят под сомнение заявленные цифры, связанные с использованием этих технологий. Модель DeepSeek R1, в частности, собирает большое количество данных пользователей, что может вызывать опасения по поводу конфиденциальности.