Четвер, 19 Лютого, 2026

Apple навчає роботів за допомогою відео з Apple Vision Pro

Дата:

Час читання: 2 хв.

У новому дослідженні під назвою “Humanoid Policy ∼ Human Policy”, команда Apple у співпраці з MIT, Carnegie Mellon, Університетом Вашингтона та UC San Diego запропонувала унікальний підхід до навчання гуманоїдних роботів – за допомогою відео від першої особи, записаних людьми, які виконують повсякденні дії. Для зйомки використовували гарнітуру Apple Vision Pro.

Робот вчиться, дивлячись, як це робить людина

Ідея проста: якщо людина виконує певну дію, її можна зафіксувати з перспективи першої особи, а потім передати роботу – і той повторить побачене. У процесі дослідження вчені зібрали понад 25 000 демонстрацій людських дій та 1500 прикладів роботизованих дій, створивши масштабний датасет PH2D. Цей набір даних використовувався для тренування єдиної моделі управління реальним гуманоїдним роботом.

Реклама

Як зібрали дані швидко та економно

Для збору відеоданих команда створила спеціальний застосунок для Apple Vision Pro, який використовував нижню ліву камеру гарнітури та ARKit для відстеження рухів голови й рук. Щоб знизити витрати, дослідники також роздрукували 3D-кріплення, що дозволило встановлювати камеру ZED Mini Stereo на інші пристрої, як-от Meta Quest 3. Це забезпечило подібну якість трекінгу, але за значно нижчою ціною.

Такий підхід дозволив отримувати якісні демонстрації за лічені секунди – набагато швидше й дешевше, ніж при традиційному ручному керуванні роботами.

Рухи людей – у сповільненому темпі для роботів

Оскільки роботи рухаються повільніше за людей, дослідники сповільнили відео людських дій у 4 рази. Це дало змогу роботам навчатися в зручному для них ритмі без необхідності додаткової обробки.

Модель HAT: універсальна політика дій

Центральним елементом дослідження стала модель Human Action Transformer (HAT), яку тренували на змішаних даних – як від людей, так і від роботів – в єдиному форматі. Замість поділу на “людські” й “роботизовані” дії, HAT навчається спільній політиці, яка підходить для будь-якого типу “тіла”. Це забезпечує гнучкість і високу ефективність.

Реклама

У тестах підхід показав чудові результати: роботи успішно виконували навіть ті завдання, з якими раніше не стикалися, перевершуючи традиційні методи навчання.

PH2D: новий стандарт для робототехніки

PH2D став одним із найбільших і найуніверсальніших наборів даних у сфері навчання роботів. Дослідження Apple та партнерів демонструє, як використання відео з гарнітур і сучасних моделей ШІ може революціонізувати підхід до навчання гуманоїдів – роблячи його швидким, доступним і масштабованим.

Свіжі новини

Україна отримала прямий доступ до бази Інтерполу для пошуку викрадених культурних...

0
Генеральний секретаріат Інтерполу надав Україні можливість завантажувати інформацію про культурні цінності, викрадені під час окупації. До міжнародної бази вже внесено сотні об'єктів, зокрема експонати...

Мерц зробив песимістичну заяву щодо завершення війни в Україні

0
Канцлер Німеччини Фрідріх Мерц не бачить майже жодних шансів на швидке завершення війни Росії проти України шляхом переговорів. Про це повідомляє РБК-Україна з посиланням...

Поділитися:

Популярне

Новини
Актуальні

Google запустила генерацію музики в Gemini: як створити трек

Компанія Google оголосила про запуск функції створення музики в...

Samsung відновлює продаж Galaxy TriFold — першу партію розкупили за 30 хвилин

Компанія Samsung підтвердила нову дату продажів свого трискладаного смартфона...

Google офіційно представила Pixel 10a з Tensor G4, яскравішим дисплеєм і новим дизайном

Компанія Google офіційно анонсувала смартфон Google Pixel 10a. Модель...

Apple може не випустити iPhone Flip у 2026 році — ставку зроблять лише на Fold

Компанія Apple, за даними інсайдерів, не випустить складаний iPhone...