Прорыв в AI: Genie 3 от Google DeepMind для AGI

Google DeepMind анонсировала новую базовую мировую модель искусственного интеллекта Genie 3, которую исследователи называют важной вехой на пути к созданию искусственного общего интеллекта (AGI). Genie 3 отличается способностью в реальном времени генерировать интерактивные, фотореалистичные и воображаемые 3D-миры, что открывает новые возможности для развития агентов общего назначения.

Об этом сообщает ProIT

Возможности Genie 3: новый уровень симуляции мира

В отличие от предыдущих моделей, Genie 3 не ограничивается конкретными средами. С помощью простого текстового запроса она создает разнообразные трехмерные пространства продолжительностью до нескольких минут с частотой 24 кадра в секунду и разрешением 720p. Инновационная функция «promptable world events» позволяет изменять параметры мира в реальном времени, просто вводя соответствующую команду.

Наиболее важным достижением Genie 3 является ее способность сохранять физическую последовательность событий: модель запоминает предварительно сгенерированные сцены и учитывает их при создании новых. Это позволяет смоделированным мирам быть логически и физически согласованными, что существенно повышает качество тренировки агентов в виртуальных пространствах.

“Genie 3 — это первая интерактивная модель общего назначения в реальном времени,” сказал Шломи Фрухтер, директор по исследованиям в DeepMind, во время пресс-брифинга. “Она выходит за рамки узких мировых моделей, существовавших ранее. Она не специфична для какой-либо конкретной среды. Она может генерировать как фотореалистичные, так и воображаемые миры, и все, что между ними”.

Важность для развития AGI и будущие перспективы

Genie 3 сочетает достижения предыдущей версии Genie 2 и видеомодели Veo 3, которая уже демонстрировала глубокое понимание физических законов. Новая модель учится взаимодействовать с объектами, моделируя их поведение — как они движутся, падают или взаимодействуют друг с другом — без жестко заданных физических движков. Генерация происходит покадрово: каждый следующий кадр создается с учетом предыдущих, что обеспечивает естественность изменений в виртуальном мире.

Такая последовательность позволяет модели развивать интуитивное чувство физики, подобно человеческому восприятию: например, понимать, что стакан, который висит на краю стола, вот-вот упадет, или что следует пригнуться, чтобы избежать падающего предмета. Тренировка агентов в таких условиях стимулирует их к самостоятельному обучению, поиску новых стратегий и адаптации к сложным задачам.

Несмотря на прогресс, Genie 3 пока что имеет определенные ограничения: продолжительность непрерывного взаимодействия не превышает нескольких минут, а моделирование сложных сценариев с множеством независимых агентов все еще остается вызовом. В то же время разработчики уверены, что подобные мировые модели станут ключом к созданию агентов с общим искусственным интеллектом, способных обучаться по аналогии с человеком.

Исследователи подчеркивают, что Genie 3 — это важный шаг вперед в развитии агентов, которые не только реагируют на входные данные, но и самостоятельно планируют, исследуют, ищут новые возможности и совершенствуются через собственный опыт и ошибки.

По словам экспертов DeepMind, впереди еще много работы, в том числе над увеличением продолжительности симуляций и сложностью взаимодействий. Однако нынешний прорыв позволяет приблизиться к той границе, когда искусственные агенты смогут обучаться и действовать в виртуальных мирах так же гибко, как и человек в реальной жизни.