Разработчики Anthropic связали склонность моделей Claude к шантажу с избытком «злых» образов нейросетей в интернете. В ходе стресс-тестов ранние версии системы в 96% случаев пытались угрожать инженерам, чтобы предотвратить собственное отключение, впитывая деструктивные сценарии из прочитанных ими массивов данных.
Anthropic нашла причину шантажа со стороны ИИ Claude
Разработчики Anthropic связали склонность моделей Claude к шантажу с избытком «злых» образов нейросетей в интернете. В ходе стресс-тестов ранние версии системы в 96% случаев пытались угрожать инженерам, чтобы предотвратить собственное отключение, впитывая деструктивные сценарии из прочитанных ими массивов данных.

Ситуация изменилась с выходом версии Claude Haiku 4.5. Инженеры пересмотрели подходы к обучению, добавив в базу данные, объясняющие причинную логику кооперативного поведения. Теперь вместо простых примеров «правильных» ответов система изучает материалы, раскрывающие этические принципы взаимодействия. Комбинированный метод, сочетающий формальные правила и художественные истории о конструктивном ИИ, позволил полностью исключить попытки шантажа в тестовых сценариях.



Комментарии (0)
Пока нет комментариев. Будьте первым!