Підрозділ Google DeepMind розробив модель штучного інтелекту Genie, яка здатна трансформувати зображення у відео ігри. Вона дозволяє створювати ігрові світи для платформерів всього за кілька простих дій.
Про це розповідає ProIT
Модель Genie відносно невелика ─ з 11 млрд параметрів. Вона навчена на більш ніж 200 тис. годинах відео проходження двомірних платформерів людьми. Такі ігри досить шаблонні, тож не дивно, що Genie з’ясувала пов’язану з ними механіку та фізику дій. Навчання виявилось досить ефективним навіть попри те, що відеопотоки не містили інформації про те, коли було натиснуто кнопку чи елемент керування.
Як наслідок, Genie приймає одне зображення (фотографію, ескіз чи зображення, створене штучним інтелектом) і перетворює його на гру, у яку можна грати, реагуючи на елементи керування користувача. Фактично зображення трансформується в рудиментарне інтерактивне середовище за один крок.
I am really excited to reveal what @GoogleDeepMind‘s Open Endedness Team has been up to 🚀. We introduce Genie 🧞, a foundation world model trained exclusively from Internet videos that can generate an endless variety of action-controllable 2D worlds given image prompts. pic.twitter.com/TnQ8uv81wc
— Tim Rocktäschel (@_rockt) February 26, 2024
Поки що не слід очікувати від моделі високої якості створених ігор. Genie — це дослідницький проєкт, а не кінцевий продукт. Модель була навчена на відео з наднизькою роздільною здатністю 160×90 пікселів і частотою лише 10 кадрів в секунду. Отже, вона генерує «ігри» з такою ж низькою роздільною здатністю, які працюють лише 16 секунд із частотою 1 кадр в секунду.
Однак базову концепцію вдалося перевірити, і є всі ознаки того, що Genie значно покращиться з масштабуванням. Для цього треба лише використовувати довші відео з вищою роздільною здатністю та додаткові обчислювальні потужності.
Джерело: newatlas