Команда Google DeepMind анонсувала нову модель штучного інтелекту Gemini Robotics On-Device, орієнтовану на робототехніку. Особливість цієї VLA-моделі полягає у здатності працювати повністю автономно, без підключення до інтернету чи використання хмарних сервісів, що робить її затребуваною для промислових і побутових роботів із обмеженими обчислювальними ресурсами.
Про це розповідає ProIT
Особливості моделі Gemini Robotics On-Device
Gemini Robotics On-Device побудована на основі попередньої версії Gemini Robotics, яка була представлена у березні. Нова модель розроблена спеціально для «дворуких» роботів, з урахуванням їхніх апаратних обмежень. Вона здатна розпізнавати й інтерпретувати команди, сформульовані природною мовою, та виконувати точні й складні операції — наприклад, розстібати блискавку на сумці чи акуратно складати одяг. Усі процеси відбуваються безпосередньо на пристрої, без потреби у зовнішньому з’єднанні з інтернетом.
У блозі йдеться, що нова модель розуміє інструкції природною мовою, виконує дуже точні та складні завдання (наприклад, розстібає блискавку на сумці чи складає одяг). І все це — безпосередньо на самому роботі, без інтернету чи хмарної обробки.
Результати тестування та можливості інтеграції
У ході тестових випробувань Gemini Robotics On-Device показала продуктивність, майже ідентичну хмарній версії Gemini Robotics, і навіть перевершила інші локальні моделі у загальних бенчмарках. Проте компанія не розкрила точних критеріїв порівняння. Під час демонстрації Google презентувала, як роботи на базі цієї автономної моделі виконують завдання на кшталт розстібання сумок та складання одягу.
Спочатку нову ШІ-модель розробляли для роботів серії ALOHA, але згодом адаптували для роботи на дворукому Franka FR3, а також на гуманоїді Apollo, створеному компанією Apptronik. За словами дослідників, робот Franka FR3 успішно справлявся із новими, раніше невідомими для моделі завданнями — наприклад, збором деталей на виробничому конвеєрі.
Крім того, Google DeepMind випустила спеціальний інструмент Gemini Robotics SDK для розробників. Він дозволяє навчати роботів виконанню нових завдань на основі лише 50–100 демонстрацій, що значно спрощує й пришвидшує адаптацію роботів до нових умов праці.