П’ятниця, 13 Червня, 2025

Apple критикує здатність штучного інтелекту до логічних міркувань

Дата:

Час читання: 2 хв.

Корпорація Apple представила результати власного дослідження, у якому піддала сумніву вміння сучасних мовних моделей виконувати логічні міркування. Робота розміщена на сайті Machine Learning Research [PDF]. Відбувалося тестування продуктів від OpenAI, DeepSeek, Anthropic і Google.

Перевірку пройшли моделі o1 і o3 (OpenAI), R1 (DeepSeek), Claude 3.7 Sonnet (Anthropic) і Gemini (Google). Кожній з них пропонували чотири відомі головоломки: переправа через річку, стрибки через шашки, укладання блоків і вежа Ханоя. Під час тестів виявлено різку втрату точності при збільшенні складності завдань.

Реклама

Під час розв’язання простих завдань потужніші моделі несподівано показали результат гірший, ніж базові мовні алгоритми. На середньому рівні складності ситуація змінилася, але з переходом до важких головоломок продуктивність падала практично до нуля.

Навіть наявність покрокових інструкцій не покращувала підсумок, оскільки моделі виявляли непослідовність, успішно вирішуючи одне завдання, але роблячи елементарні помилки в іншому.

Дослідники зафіксували парадоксальну поведінку – у міру ускладнення завдань моделі починали використовувати менше токенів, скорочуючи “внутрішні роздуми”, незважаючи на наявність обчислювальних ресурсів. Цей ефект розцінили як ознаку фундаментальних обмежень при підтримці логічного ланцюжка.

В Apple нагадали, що архітектура моделей, які міркують, заснована на методі “ланцюжків думок”, тобто система поетапно коментує хід виконання завдання, імітуючи структуру людського мислення. Але в компанії вважають, що це більше схоже на відтворення знайомих шаблонів, ніж на усвідомлене рішення.

Також піддалася критиці методика оцінки ШІ. На думку авторів, наявні бенчмарки спотворюють реальну ефективність, оскільки часто передбачають завдання, які трапляються в навчальній вибірці, а отже, не дають об’єктивного уявлення про здатність до нового аналізу.

Реклама

Публікація викликала дискусії. Деякі експерти угледіли в ній спробу Apple дискредитувати лідерів у сфері ШІ. Інші, навпаки, підтримали ініціативу.

Фахівець із машинного навчання Андрій Бурков, який раніше працював у Gartner, назвав дослідження значущим внеском у розуміння природи нейромереж, підкресливши, що навіть найсучасніші системи залишаються обмеженими за своєю суттю.

Свіжі новини

Поділитися:

Популярне

Новини
Актуальні

Apple відкладає запуск оновленої Siri до весни 2026 року

Час читання: 2 хв.Реалізація запланованих ШІ-функцій для голосового...

Огляд корпусу APNX V1-W: стиль, функціональність і ефективне охолодження

Час читання: 5 хв.Корпус APNX V1-W (APCM-VI01103.21) –...

Apple оновлює батьківський контроль: нові функції в iOS 26 та інших системах

Час читання: 2 хв.На конференції WWDC 2025, що...