Час читання: 2 хв.
У новому дослідженні під назвою “Humanoid Policy ∼ Human Policy”, команда Apple у співпраці з MIT, Carnegie Mellon, Університетом Вашингтона та UC San Diego запропонувала унікальний підхід до навчання гуманоїдних роботів – за допомогою відео від першої особи, записаних людьми, які виконують повсякденні дії. Для зйомки використовували гарнітуру Apple Vision Pro.
Робот вчиться, дивлячись, як це робить людина
Ідея проста: якщо людина виконує певну дію, її можна зафіксувати з перспективи першої особи, а потім передати роботу – і той повторить побачене. У процесі дослідження вчені зібрали понад 25 000 демонстрацій людських дій та 1500 прикладів роботизованих дій, створивши масштабний датасет PH2D. Цей набір даних використовувався для тренування єдиної моделі управління реальним гуманоїдним роботом.
Реклама
Як зібрали дані швидко та економно
Для збору відеоданих команда створила спеціальний застосунок для Apple Vision Pro, який використовував нижню ліву камеру гарнітури та ARKit для відстеження рухів голови й рук. Щоб знизити витрати, дослідники також роздрукували 3D-кріплення, що дозволило встановлювати камеру ZED Mini Stereo на інші пристрої, як-от Meta Quest 3. Це забезпечило подібну якість трекінгу, але за значно нижчою ціною.
Такий підхід дозволив отримувати якісні демонстрації за лічені секунди – набагато швидше й дешевше, ніж при традиційному ручному керуванні роботами.
Рухи людей – у сповільненому темпі для роботів
Оскільки роботи рухаються повільніше за людей, дослідники сповільнили відео людських дій у 4 рази. Це дало змогу роботам навчатися в зручному для них ритмі без необхідності додаткової обробки.
Модель HAT: універсальна політика дій
Центральним елементом дослідження стала модель Human Action Transformer (HAT), яку тренували на змішаних даних – як від людей, так і від роботів – в єдиному форматі. Замість поділу на “людські” й “роботизовані” дії, HAT навчається спільній політиці, яка підходить для будь-якого типу “тіла”. Це забезпечує гнучкість і високу ефективність.
Реклама
У тестах підхід показав чудові результати: роботи успішно виконували навіть ті завдання, з якими раніше не стикалися, перевершуючи традиційні методи навчання.
PH2D: новий стандарт для робототехніки
PH2D став одним із найбільших і найуніверсальніших наборів даних у сфері навчання роботів. Дослідження Apple та партнерів демонструє, як використання відео з гарнітур і сучасних моделей ШІ може революціонізувати підхід до навчання гуманоїдів – роблячи його швидким, доступним і масштабованим.