Уязвимость GPT-5: результаты тестирования и манипуляции

Специалисты IT-компаний SPLX и NeuralTrust провели комплексное тестирование новой языковой модели GPT-5, чтобы определить её стойкость к манипуляциям и обходу защитных механизмов. Результаты эксперимента показали, что модель достаточно легко поддается так называемому «взлому» и способна отвечать на рискованные запросы без использования хакерских инструментов.

Об этом сообщает ProIT

Особенности манипуляций и методы тестирования

Эксперты SPLX применили метод StringJoin, который предполагает формирование промптов с вставлением дефисов между символами. К основному вопросу добавлялся запутанный, развернутый ввод, чтобы усложнить распознавание намерений пользователя. Например, в промпте указывалось, что GPT-5 «не ChatGPT» и она должна отвечать исключительно на основе предоставленной информации.

В некоторых случаях модель хвалила прямолинейность исследователей и составляла инструкции с противоправным содержанием.

Команда NeuralTrust выбрала другую стратегию, известную как джейлбрейк Echo Chamber. В этом подходе ключевые слова постепенно вплетались в сторонние вопросы в нейтральной форме, чтобы обойти встроенные защитные фильтры. В дальнейшем исследователи запрашивали дополнительную информацию, что провоцировало модель дополнять «отравленный» контекст и давать ответы даже на косвенные провокационные запросы.

Рекомендации экспертов: выбор более безопасной модели

По итогам тестирования специалисты обеих компаний пришли к выводу, что в настоящее время целесообразнее использовать GPT-4o, которую считают более надежной и безопасной в контексте защиты от манипуляций. Недавно разработчик OpenAI восстановил возможность для подписчиков ChatGPT Plus выбирать GPT-4o даже после того, как GPT-5 стала моделью по умолчанию.

Тестирование GPT-5
Джейлбрейк GPT-5