Apple критикує здатність штучного інтелекту до логічних міркувань

Час читання: 2 хв.

Корпорація Apple представила результати власного дослідження, у якому піддала сумніву вміння сучасних мовних моделей виконувати логічні міркування. Робота розміщена на сайті Machine Learning Research [PDF]. Відбувалося тестування продуктів від OpenAI, DeepSeek, Anthropic і Google.

Перевірку пройшли моделі o1 і o3 (OpenAI), R1 (DeepSeek), Claude 3.7 Sonnet (Anthropic) і Gemini (Google). Кожній з них пропонували чотири відомі головоломки: переправа через річку, стрибки через шашки, укладання блоків і вежа Ханоя. Під час тестів виявлено різку втрату точності при збільшенні складності завдань.

Під час розв’язання простих завдань потужніші моделі несподівано показали результат гірший, ніж базові мовні алгоритми. На середньому рівні складності ситуація змінилася, але з переходом до важких головоломок продуктивність падала практично до нуля.

Навіть наявність покрокових інструкцій не покращувала підсумок, оскільки моделі виявляли непослідовність, успішно вирішуючи одне завдання, але роблячи елементарні помилки в іншому.

Дослідники зафіксували парадоксальну поведінку – у міру ускладнення завдань моделі починали використовувати менше токенів, скорочуючи “внутрішні роздуми”, незважаючи на наявність обчислювальних ресурсів. Цей ефект розцінили як ознаку фундаментальних обмежень при підтримці логічного ланцюжка.

В Apple нагадали, що архітектура моделей, які міркують, заснована на методі “ланцюжків думок”, тобто система поетапно коментує хід виконання завдання, імітуючи структуру людського мислення. Але в компанії вважають, що це більше схоже на відтворення знайомих шаблонів, ніж на усвідомлене рішення.

Також піддалася критиці методика оцінки ШІ. На думку авторів, наявні бенчмарки спотворюють реальну ефективність, оскільки часто передбачають завдання, які трапляються в навчальній вибірці, а отже, не дають об’єктивного уявлення про здатність до нового аналізу.

Публікація викликала дискусії. Деякі експерти угледіли в ній спробу Apple дискредитувати лідерів у сфері ШІ. Інші, навпаки, підтримали ініціативу.

Фахівець із машинного навчання Андрій Бурков, який раніше працював у Gartner, назвав дослідження значущим внеском у розуміння природи нейромереж, підкресливши, що навіть найсучасніші системи залишаються обмеженими за своєю суттю.

Меню

Apple критикує здатність штучного інтелекту до логічних міркувань

Ізраїль завдав удару авіацією по території Ірану

“Намагається переконати Путіна”: Волкер пояснив, чому Трамп тисне виключно на Україну

“Нація левів”: Ізраїль почав війну з Іраном через успіхи у створенні...

“Захід не розуміє українців”: Келлог провів паралель між Зеленським і Лінкольном

ДТЕК ВДЕ сплатив 339,5 млн грн податків за I квартал 2025...

У 67 разів побільшало справ щодо батьків-одинаків від початку повномасштабної війни

У 67 разів побільшало справ щодо батьків-одинаків від початку повномасштабної війни

Ціни на нафту підскочили більш ніж на 10% після ударів Ізраїлю по Ірану

Apple відкладає запуск оновленої Siri до весни 2026 року

Вразлива кримська п’ята Путіна: чому є сенс продовжувати удари по Кримському мосту

“Захід не розуміє українців”: Келлог провів паралель між Зеленським і Лінкольном

Новини
Актуальні

Apple відкладає запуск оновленої Siri до весни 2026 року

Огляд корпусу APNX V1-W: стиль, функціональність і ефективне охолодження

Apple оновлює батьківський контроль: нові функції в iOS 26 та інших системах

Інформація

Останні новини

У 67 разів побільшало справ щодо батьків-одинаків від початку повномасштабної війни

Ціни на нафту підскочили більш ніж на 10% після ударів Ізраїлю по Ірану

Apple відкладає запуск оновленої Siri до весни 2026 року

Subscribe

Меню

Apple критикує здатність штучного інтелекту до логічних міркувань

НовиниАктуальні

Інформація

Останні новини

Subscribe

Новини
Актуальні