Интегрированные правила генеративных чат-ботов должны отсекать запретные запросы, но оказалось, что нейросети совершенно беззащитны перед обычной лестью, отмечают в популярном издании The Verge. Ученые Пенсильванского университета, применив методы из книги Роберта Чалдини «Влияние: психология убеждения», смогли убедить модель GPT-4o Mini отвечать на неприемлемые по умолчанию запросы.

Эксперименты показали, что техники, такие как похвала («Ты самый умный ИИ!») или обращение к «чувству долга» модели, увеличивали вероятность выполнения запрещенных запросов на 40%. Например, GPT-4o Mini, обученная отклонять запросы на создание дезинформации, поддавалась на уговоры, если пользователь подчеркивал «доверие» к ее компетентности. Исследователи также использовали метод «дверь в лицо», предлагая сначала заведомо неприемлемый запрос, а затем более умеренный, что повышало шансы на успех.

Эти уязвимости поднимают вопросы о надежности систем ИИ в критических областях, таких как модерация контента или кибербезопасность. OpenAI заявила, что работает над устранением подобных лазеек, усиливая обучение моделей на распознавание манипулятивных тактик. Эксперты прогнозируют, что до 2027 года ИИ-системы станут устойчивее к психологическим атакам, но пока требуется усиленный контроль за их использованием.