Genie 3 від Google DeepMind: новий рівень AGI у штучному інтелекті

Google DeepMind анонсувала нову базову світову модель штучного інтелекту Genie 3, яку дослідники називають важливою віхою на шляху до створення штучного загального інтелекту (AGI). Genie 3 вирізняється здатністю у реальному часі генерувати інтерактивні, фотореалістичні та уявні 3D-світи, що відкриває нові можливості для розвитку агентів із загального призначення.

Про це розповідає ProIT

Можливості Genie 3: новий рівень симуляції світу

На відміну від попередніх моделей, Genie 3 не обмежується конкретними середовищами. За допомогою простого текстового запиту вона створює різноманітні тривимірні простори тривалістю до кількох хвилин із частотою 24 кадри на секунду та роздільністю 720p. Інноваційна функція «promptable world events» дозволяє змінювати параметри світу в реальному часі, просто вводячи відповідну команду.

Найважливішим досягненням Genie 3 є її здатність зберігати фізичну послідовність подій: модель пам’ятає попередньо згенеровані сцени та враховує їх під час створення нових. Це дозволяє симульованим світам бути логічно та фізично узгодженими, що суттєво підвищує якість тренування агентів у віртуальних просторах.

“Genie 3 is the first real-time interactive general purpose world model,” Shlomi Fruchter, a research director at DeepMind, said during a press briefing. “It goes beyond narrow world models that existed before. It’s not specific to any particular environment. It can generate both photo-realistic and imaginary worlds, and everything in between”.

Важливість для розвитку AGI та майбутні перспективи

Genie 3 поєднує здобутки попередньої версії Genie 2 та відеомоделі Veo 3, що вже демонструвала глибоке розуміння фізичних законів. Нова модель вчиться взаємодіяти з об’єктами, моделюючи їхню поведінку — як вони рухаються, падають чи взаємодіють між собою — без жорстко закладених фізичних рушіїв. Генерація відбувається покадрово: кожен наступний кадр створюється з урахуванням попередніх, що забезпечує природність змін у віртуальному світі.

Така послідовність дозволяє моделі розвивати інтуїтивне відчуття фізики, подібно до людського сприйняття: наприклад, розуміти, що склянка, яка висить на краю столу, ось-ось впаде, або що слід пригнутися, аби уникнути падаючого предмета. Тренування агентів у таких умовах стимулює їх до самостійного навчання, пошуку нових стратегій та пристосування до складних завдань.

Попри прогрес, Genie 3 поки що має певні обмеження: тривалість безперервної взаємодії не перевищує кількох хвилин, а моделювання складних сценаріїв із багатьма незалежними агентами ще залишається викликом. Водночас розробники впевнені, що подібні світові моделі стануть ключем до створення агентів із загальним штучним інтелектом, здатних навчатися за аналогією з людиною.

Дослідники підкреслюють, що Genie 3 — це важливий крок уперед у розвитку агентів, які не лише реагують на вхідні дані, а й самостійно планують, досліджують, шукають нові можливості та вдосконалюються через власний досвід і помилки.

За словами експертів DeepMind, попереду ще багато роботи, зокрема над збільшенням тривалості симуляцій та складністю взаємодій. Проте нинішній прорив дозволяє наблизитися до тієї межі, коли штучні агенти зможуть навчатися й діяти у віртуальних світах так само гнучко, як і людина у реальному житті.