Обучение гуманоидных роботов с Vision Pro от Apple

В новом исследовании, получившем название “Humanoid Policy ≈ Human Policy”, команда Apple в сотрудничестве с MIT, Carnegie Mellon, Университетом Вашингтона и UC San Diego представила инновационный подход к обучению гуманоидных роботов. Этот метод основан на использовании видео с первой личности, снятых людьми во время выполнения повседневных действий, с помощью гарнитуры Apple Vision Pro.

Об этом сообщает ProIT

Обучение роботов через наблюдение

Основная идея заключается в том, что если человек выполняет определенное действие, его можно зафиксировать с перспективы первой личности, а затем передать роботам для повторения. В процессе исследования команда собрала более 25 000 демонстраций человеческих действий и 1500 примеров действий роботов, создав масштабный датасет PH2D. Этот набор данных стал основой для тренировки модели управления гуманоидным роботом.

Экономичный подход к сбору данных

Для сбора видеоданных команда разработала специальное приложение для Apple Vision Pro, которое использует нижнюю левую камеру гарнитуры и ARKit для отслеживания движений головы и рук. Для снижения затрат также были созданы 3D-крепления, что позволило устанавливать камеру ZED Mini Stereo на различные устройства, такие как Meta Quest 3. Это обеспечило аналогичное качество трекинга по более выгодной цене.

Благодаря такому подходу удалось получать качественные демонстрации за считанные секунды, что значительно быстрее и дешевле, чем традиционные методы обучения роботов.

Поскольку роботы обычно движутся медленнее людей, исследователи замедлили видео с человеческими действиями в четыре раза, что позволило им обучаться в удобном для себя ритме без дополнительной обработки.

Центральным элементом исследования стала модель Human Action Transformer (HAT), которая была обучена на смешанных данных от людей и роботов в едином формате. Вместо того чтобы избегать разделения на “человеческие” и “роботизированные” действия, HAT обучалась общей политике, которая подходит для любого типа “тела”. Это обеспечило гибкость и высокую эффективность.

В тестах этот подход продемонстрировал впечатляющие результаты: роботы успешно выполняли даже те задачи, с которыми ранее не сталкивались, превосходя традиционные методы обучения.

PH2D стал одним из крупнейших и самых универсальных наборов данных в области обучения роботов. Исследование Apple и ее партнеров иллюстрирует, как использование видео с гарнитур и современных моделей искусственного интеллекта может кардинально изменить подход к обучению гуманоидных роботов, делая его быстрым, доступным и масштабируемым.