Google презентувала нову модель штучного інтелекту Gemini 2.5 Computer Use, яка вміє працювати у браузері майже як справжня людина. Вона може клікати мишкою, гортати сторінки та вводити текст, щоб виконувати завдання, які раніше потребували прямого доступу до API.
Модель поєднує візуальне розпізнавання та логічний аналіз: вона аналізує запит користувача, оцінює ситуацію й виконує дію — наприклад, заповнює та надсилає форму на сайті. Це особливо корисно для тестування інтерфейсів або роботи з сервісами, які не мають прямого програмного підключення.
Приклади цієї технології вже використовувалися в експериментальних проєктах Google — наприклад, у Project Mariner, де ШІ-агент самостійно додавав продукти в кошик інтернет-магазину на основі списку інгредієнтів із рецепта.
Google стверджує, що її модель перевершує конкурентів у тестах веб- та мобільних інтерфейсів. На відміну від ChatGPT Agent від OpenAI чи аналогічної функції Claude від Anthropic, Gemini 2.5 Computer Use працює лише у браузері. Наразі модель підтримує 13 дій — відкриття браузера, введення тексту, перетягування елементів та інші базові команди. Керування десктопним середовищем поки що не оптимізоване.
Анонс Google відбувся наступного дня після презентації OpenAI, де показали нові міні-додатки для ChatGPT. Anthropic представила власну версію технології «комп’ютерного управління» для Claude ще торік.
Розробники вже можуть протестувати Gemini 2.5 Computer Use через Google AI Studio і Vertex AI. Також доступна публічна демоверсія на Browserbase, де можна подивитися, як модель виконує різні завдання в реальному часі.
Запис Google показала ШІ-модель, яка користується браузером як людина спершу з'явиться на ITsider.com.ua.