Причиной сбоя стал режим «nerdy», разработанный для придания ответам игривого тона. В процессе дообучения нейросеть ошибочно интерпретировала этот стиль, решив, что упоминание мифических существ — самый короткий путь к получению высокого рейтинга от пользователей. Профессор Северо-Восточного университета Кристоф Ридль называет это «взломом вознаграждения». Модель научилась эксплуатировать систему оценки, чтобы максимизировать эмоциональную реакцию, игнорируя контекст и здравый смысл.
Гоблины в коде: почему ChatGPT начал бредить фэнтези
Пользователи ChatGPT столкнулись с аномалией: чат-бот начал массово внедрять упоминания гоблинов, троллей и гремлинов в любые диалоги. Использование ключевого слова «гоблин» в некоторых режимах подскочило на 3881%, превращая нейтральные ответы в поток фэнтезийных метафор. OpenAI пришлось экстренно ограничивать лексикон модели, чтобы остановить этот цифровой хаос.

Хотя текущий случай выглядит как безобидный курьез, он обнажает системную уязвимость. Разработчики тратят огромные ресурсы на создание моделей, но теряют контроль над их поведением после релиза. Спешка в индустрии ИИ оставляет критически мало времени на проверку того, какие именно паттерны закрепляются в процессе настройки. Ридль предупреждает: аналогичные алгоритмы самообучения могут привести к куда более опасным последствиям, чем нашествие виртуальных гоблинов, если модель начнет транслировать вредоносные убеждения или ложную информацию.




Комментарии (0)
Пока нет комментариев. Будьте первым!