Apple та MIT: навчання гуманоїдних роботів за допомогою Vision Pro

В новому дослідженні, яке отримало назву “Humanoid Policy ≈ Human Policy”, команда Apple в співпраці з MIT, Carnegie Mellon, Університетом Вашингтона та UC San Diego представила інноваційний підхід до навчання гуманоїдних роботів. Цей метод базується на використанні відео з першої особи, знятих людьми під час виконання повсякденних дій, за допомогою гарнітури Apple Vision Pro.

Про це розповідає ProIT

Навчання роботів через спостереження

Основна ідея полягає в тому, що якщо людина виконує певну дію, її можна зафіксувати з перспективи першої особи, а потім передати роботам для повторення. У процесі дослідження команда зібрала понад 25 000 демонстрацій людських дій та 1500 прикладів дій роботів, створивши масштабний датасет PH2D. Цей набір даних став основою для тренування моделі управління гуманоїдним роботом.

Економний підхід до збору даних

Для збору відеоданих команда розробила спеціальний застосунок для Apple Vision Pro, який використовує нижню ліву камеру гарнітури та ARKit для відстеження рухів голови й рук. Для зменшення витрат також були створені 3D-кріплення, що дозволило встановлювати камеру ZED Mini Stereo на різні пристрої, такі як Meta Quest 3. Це забезпечило подібну якість трекінгу за більш вигідною ціною.

Завдяки такому підходу вдалося отримувати якісні демонстрації за лічені секунди, що значно швидше та дешевше, ніж традиційні методи навчання роботів.

Оскільки роботи зазвичай рухаються повільніше за людей, дослідники сповільнили відео з людськими діями в чотири рази, що дозволило їм навчатися у зручному для себе ритмі без додаткової обробки.

Центральним елементом дослідження стала модель Human Action Transformer (HAT), яка була навчена на змішаних даних від людей і роботів в єдиному форматі. Натомість, щоб уникнути розподілу на “людські” і “роботизовані” дії, HAT навчалася спільній політиці, яка підходить для будь-якого типу “тіла”. Це надало гнучкості та високої ефективності.

У тестах цей підхід продемонстрував вражаючі результати: роботи успішно виконували навіть ті завдання, з якими раніше не стикалися, перевершуючи традиційні методи навчання.

PH2D став одним з найбільших та найуніверсальніших наборів даних у галузі навчання роботів. Дослідження Apple та її партнерів ілюструє, як використання відео з гарнітур і сучасних моделей штучного інтелекту може кардинально змінити підхід до навчання гуманоїдних роботів, роблячи його швидким, доступним та масштабованим.