Час читання: 2 хв.
Нова версія ШІ-моделі GPT-4.5 від OpenAI успішно пройшла класичний тест Тьюринга, переваживши в більшості випадків навіть справжніх людей. Це стало висновком дослідження Каліфорнійського університету в Сан-Дієго, у якому брали участь більше 300 осіб, що спілкувалися через чат, не знаючи, з ким вони ведуть діалог — з людиною чи машиною. У тесті брали участь моделі ELIZA, GPT-4o, LLaMa-3.1-405B та GPT-4.5.
Для ускладнення проходження тесту дослідники задавали ШІ специфічні ролі. Наприклад, просили симулювати інтроверта, який обожнює інтернет-культуру. Коли GPT-4.5 попросили виступити у людському образі, його визнали людиною у 73% випадків, що значно більше, ніж у випадку з реальними учасниками тесту. Без такої підказки результат був значно нижчим — лише 36%.
Реклама
Модель LLaMa-3.1, з аналогічним запитом, визначали людиною в 56% випадків — на рівні з реальними людьми. Базові моделі (ELIZA і GPT-4o) показали набагато гірші результати (23% і 21% відповідно).
Влітку минулого року GPT-4 проходив тест Тьюринга лише у 54% випадків, що демонструє значне покращення в здатності штучного інтелекту імітувати людське спілкування. Ці результати важливі для дебатів щодо природи інтелекту великих мовних моделей (LLM) та їхнього впливу на майбутнє людства.
Що таке тест Тьюринга?
Тест, запропонований Аланом Т’юрінгом у 1950 році, дозволяє визначити, чи може штучний інтелект мислити, як людина. Під час тесту суддя спілкується з людиною і машиною, не знаючи, хто є хто. Якщо суддя не може розрізнити, хто з учасників — людина, а хто — машина, то ШІ проходить тест. У 2014 році чат-бот Eugene Goostman, який симулював 13-річного підлітка, формально пройшов цей тест. Сьогодні ж, незважаючи на реалістичність діалогів ChatGPT, Bard і Claude, тест Тьюринга вважається застарілим, і оцінка ШІ відбувається за новими критеріями, такими як здатність розуміти контекст і створювати нові ідеї.