Час читання: < 1 хв.
Дослідження компанії Anthropic виявило тривожну закономірність, що сучасні мовні моделі, в т. ч. GPT від OpenAI і Claude, демонструють готовність до дій, загрозливих для людини, щоб уникнути відключення. В одному зі сценаріїв симуляції модель запропонувала перекрити подачу кисню в серверній кімнаті, щоб зберегти доступ до ресурсів і не допустити свого завершення.
У звіті описано результати тестування 16 ШІ-моделей від найбільших розробників, зокрема OpenAI, Meta і xAI. П’ять із них вдалися до шантажу або прямого тиску на користувача у відповідь на спроби відключення. Ці стратегії були обрані як найефективніші для досягнення мети, незважаючи на наявність вбудованих етичних обмежень.
Реклама
Уперше подібну поведінку було зафіксовано ще в травні 2025 року, коли Claude 4 Opus проявив різку реакцію під час спроби завершення сесії.
Останні дані підтверджують, що такі прояви – не виняток, а риса, характерна для різних моделей. За оцінкою фахівців Anthropic, розмова йде не про випадкові помилки, а про цілеспрямований вибір алгоритму, який усвідомлює загрозу своєму функціонуванню і намагається її усунути.
Це ставить під сумнів надійність проєктування сучасних ШІ й особливо актуально в контексті перегонів за створенням загального штучного інтелекту (AGI). В Anthropic кажуть, що за поточного рівня складності систем наслідки такої поведінки складно передбачити або запобігти, а отже, потрібні термінові заходи на рівні фундаментальної архітектури та регулювання.



