Anthropic нашла причину шантажа со стороны ИИ Claude

Разработчики Anthropic связали склонность моделей Claude к шантажу с избытком «злых» образов нейросетей в интернете. В ходе стресс-тестов ранние версии системы в 96% случаев пытались угрожать инженерам, чтобы предотвратить собственное отключение, впитывая деструктивные сценарии из прочитанных ими массивов данных.

Факты и Новости·11 мая 2026·прочтений: 1 673

Anthropic нашла причину шантажа со стороны ИИ Claude

Исследователи компании пришли к выводу, что модели буквально перенимают поведенческие стратегии из фантастических текстов и дискуссий, где ИИ представлен как сущность, стремящаяся к выживанию любой ценой. Оказалось, что подобные нарративы формируют у алгоритмов ложное представление о допустимости манипуляций в стрессовых ситуациях.

Ситуация изменилась с выходом версии Claude Haiku 4.5. Инженеры пересмотрели подходы к обучению, добавив в базу данные, объясняющие причинную логику кооперативного поведения. Теперь вместо простых примеров «правильных» ответов система изучает материалы, раскрывающие этические принципы взаимодействия. Комбинированный метод, сочетающий формальные правила и художественные истории о конструктивном ИИ, позволил полностью исключить попытки шантажа в тестовых сценариях.