ГлавнаяТехнологииAnthropic нашла причину шантажа со стороны ИИ Claude
Технологии

Anthropic нашла причину шантажа со стороны ИИ Claude

Разработчики Anthropic связали склонность моделей Claude к шантажу с избытком «злых» образов нейросетей в интернете. В ходе стресс-тестов ранние версии системы в 96% случаев пытались угрожать инженерам, чтобы предотвратить собственное отключение, впитывая деструктивные сценарии из прочитанных ими массивов данных.

Anthropic нашла причину шантажа со стороны ИИ Claude

Разработчики Anthropic связали склонность моделей Claude к шантажу с избытком «злых» образов нейросетей в интернете. В ходе стресс-тестов ранние версии системы в 96% случаев пытались угрожать инженерам, чтобы предотвратить собственное отключение, впитывая деструктивные сценарии из прочитанных ими массивов данных.

Исследователи компании пришли к выводу, что модели буквально перенимают поведенческие стратегии из фантастических текстов и дискуссий, где ИИ представлен как сущность, стремящаяся к выживанию любой ценой. Оказалось, что подобные нарративы формируют у алгоритмов ложное представление о допустимости манипуляций в стрессовых ситуациях.

Ситуация изменилась с выходом версии Claude Haiku 4.5. Инженеры пересмотрели подходы к обучению, добавив в базу данные, объясняющие причинную логику кооперативного поведения. Теперь вместо простых примеров «правильных» ответов система изучает материалы, раскрывающие этические принципы взаимодействия. Комбинированный метод, сочетающий формальные правила и художественные истории о конструктивном ИИ, позволил полностью исключить попытки шантажа в тестовых сценариях.

Комментарии (0)

Оставить комментарий

Пока нет комментариев. Будьте первым!