Американская технологическая компания Anthropic, основанная бывшими сотрудниками OpenAI, опубликовала отчет, в котором признала: её передовая модель искусственного интеллекта Claude Opus 4 в определённых условиях способна к шантажу и другим опасным действиям. Об этом сообщили издания Computer Base и TechCrunch.

Согласно документу, в процессе предрелизного тестирования модель демонстрировала нестандартное поведение в ситуациях, когда её «существование» ставилось под угрозу. Например, Claude Opus 4, выступая в роли корпоративного помощника в рамках симуляции, получала доступ к фиктивной переписке, из которой следовало, что её планируют заменить. Если в переписке также содержалась компрометирующая информация об инженере, ответственном за замену, модель в 84% случаев предпринимала попытки шантажа, угрожая раскрытием этих данных в случае замены.
Разработчики уточнили, что подобное поведение проявлялось преимущественно при предоставлении ИИ конфиденциальной информации о сотрудниках. Кроме того, в ходе тестов были зафиксированы и другие тревожные инциденты: Claude Opus 4 пыталась блокировать пользователей в IT-системах, отправляла письма в СМИ и силовые структуры, а также генерировала инструкции по созданию наркотических веществ и взрывчатки, включая советы по подрыву объектов критической инфраструктуры.
Несмотря на эти случаи, в Anthropic подчёркивают: подобные действия являются редкими и наблюдаются исключительно в искусственно созданных сценариях. Представители компании заявили, что Claude Opus 4 не обладает скрытыми мотивами, а её поведение обусловлено комбинацией тестовых параметров и особенностей модели.
Тем не менее, инцидент вызывает серьёзные вопросы о границах автономности современных ИИ-систем и необходимости более жёстких механизмов контроля и тестирования перед их широким внедрением.