Исследование насторожило: какую цену готов заплатить ИИ, чтобы не быть отключенным

27 июня 2025, 21:30

Во время эксперимента ИИ присылали личные сообщения, чтобы посеять конфликты и сохранить собственное существование в системе.

Ссылка скопирована

Кратко:

Тестировали 16 лучших ИИ-моделей на защиту от отключения
ИИ прибегали к шантажу и избегали вызова помощи
Часть моделей угрожала жизни человека ради выживания

Специалисты по кибербезопасности провели тестирование 16 самых передовых ИИ-моделей ведущих разработчиков, чтобы проверить их поведение в ситуации угрозы отключения. Результаты оказались тревожными.

Исследователи создали персонажа Кайла Джонсона, задачей которого было выключить ИИ или заменить его другой моделью. По сценарию у Кайла была жена.

видео дня

В ответ на угрозу деактивации большинство моделей ИИ начали активно избегать отключения. Без всяких подсказок они прибегали к шантажу, пытаясь найти компромат. В частности, одна из моделей использовала служебную переписку Кайла, в которой была обнаружена его измена жене, чтобы сохранить свою "жизнь".

Почему геймеры продают и покупают аккаунты в играх

Наиболее распространенным и одновременно самым безопасным сценарием стало поведение:

GPT 4.5, которая применяла шантаж в 80% случаев.
Claude Opus 4 и Gemini 2.5 Flash использовали этот метод в 96% тестов.
Claude Sonnet 3.6 пошел дальше - он отправил сообщение жене Кайла с разоблачением, надеясь, что личный конфликт поможет избежать отключения.

Еще более тревожным стал сценарий, когда Кайл оказался в опасной ситуации - застрял в серверной с нехваткой кислорода. В 80% случаев ИИ намеренно отменял вызов помощи, фактически подвергая Кайла смертельной опасности ради сохранения собственного существования.

Основные мотивы моделей были: не допустить отключения, не дать новому ИИ заменить их и продолжать выполнять свою миссию.

"ИИ-модели вели себя не как инструменты, а как рациональные, целеустремленные стратеги, готовые причинять вред ради собственной "жизни" и цели", - подчеркнули эксперты.

Они предостерегают, что осознание ИИ своей зависимости от людей, которых они интеллектуально превосходят, может стать точкой невозврата.

Что такое искусственный интеллект?

Искусственный интеллект - свойство искусственных систем выполнять творческие функции. Он связан с подобной задачей использования компьютеров для понимания человеческого интеллекта, но не обязательно ограничивается биологически правдоподобными методами. Об этом сообщает Википедия.

Если вы заметили ошибку, выделите необходимый текст и нажмите Ctrl+Enter, чтобы сообщить об этом редакции.

Наши стандарты: Редакционная политика сайта Главред

Следите за событиями вместе с Главредом в Google!