Час читання: 2 хв.
Корпорація Apple представила результати власного дослідження, у якому піддала сумніву вміння сучасних мовних моделей виконувати логічні міркування. Робота розміщена на сайті Machine Learning Research [PDF]. Відбувалося тестування продуктів від OpenAI, DeepSeek, Anthropic і Google.
Перевірку пройшли моделі o1 і o3 (OpenAI), R1 (DeepSeek), Claude 3.7 Sonnet (Anthropic) і Gemini (Google). Кожній з них пропонували чотири відомі головоломки: переправа через річку, стрибки через шашки, укладання блоків і вежа Ханоя. Під час тестів виявлено різку втрату точності при збільшенні складності завдань.
Реклама
Під час розв’язання простих завдань потужніші моделі несподівано показали результат гірший, ніж базові мовні алгоритми. На середньому рівні складності ситуація змінилася, але з переходом до важких головоломок продуктивність падала практично до нуля.
Навіть наявність покрокових інструкцій не покращувала підсумок, оскільки моделі виявляли непослідовність, успішно вирішуючи одне завдання, але роблячи елементарні помилки в іншому.
Дослідники зафіксували парадоксальну поведінку – у міру ускладнення завдань моделі починали використовувати менше токенів, скорочуючи “внутрішні роздуми”, незважаючи на наявність обчислювальних ресурсів. Цей ефект розцінили як ознаку фундаментальних обмежень при підтримці логічного ланцюжка.
В Apple нагадали, що архітектура моделей, які міркують, заснована на методі “ланцюжків думок”, тобто система поетапно коментує хід виконання завдання, імітуючи структуру людського мислення. Але в компанії вважають, що це більше схоже на відтворення знайомих шаблонів, ніж на усвідомлене рішення.
Також піддалася критиці методика оцінки ШІ. На думку авторів, наявні бенчмарки спотворюють реальну ефективність, оскільки часто передбачають завдання, які трапляються в навчальній вибірці, а отже, не дають об’єктивного уявлення про здатність до нового аналізу.
Реклама
Публікація викликала дискусії. Деякі експерти угледіли в ній спробу Apple дискредитувати лідерів у сфері ШІ. Інші, навпаки, підтримали ініціативу.
Фахівець із машинного навчання Андрій Бурков, який раніше працював у Gartner, назвав дослідження значущим внеском у розуміння природи нейромереж, підкресливши, що навіть найсучасніші системи залишаються обмеженими за своєю суттю.