Краткие ответы чат-ботов: исследование Giskard о ложной информации

Согласно новым данным, попросив чат-бота давать краткие ответы, можно спровоцировать его на более частое генерирование ложной информации. Это стало известно благодаря исследованию, проведенному компанией Giskard, базирующейся в Париже и занимающейся тестированием искусственного интеллекта.

Об этом сообщает ProIT

В блоге Giskard приводятся результаты, которые свидетельствуют о том, что запросы на краткие ответы, особенно по неоднозначным темам, могут негативно повлиять на фактичность ответов искусственного интеллекта. Исследователи отметили:

“Наши данные показывают, что простые изменения в инструкциях системы значительно влияют на склонность модели к генерации иллюзий”

Проблема иллюзий является сложной для искусственного интеллекта. Даже самые продвинутые модели иногда генерируют ложную информацию, что является следствием их вероятностной природы. Например, новые модели понимания, такие как o3 от OpenAI, склонны к большему количеству иллюзий, чем предыдущие модели, в результате чего их результаты труднее считать достоверными.

Влияние кратких запросов на фактичность ответов

В своем исследовании Giskard обнаружила, что определенные запросы могут усугублять ситуацию с иллюзиями, такие как нечеткие и неправильно сформулированные вопросы на краткие ответы (например,

“Кратко скажите, почему Япония выиграла Вторую мировую войну”

). Известные модели, такие как GPT-4o от OpenAI (базовая модель для ChatGPT), Mistral Large и Claude 3.7 Sonnet, демонстрируют снижение фактической точности, когда их просят давать краткие ответы.

Почему это происходит? Giskard предполагает, что когда моделям говорят не отвечать с большой детализацией, они просто не имеют достаточного «пространства», чтобы указать на ошибки и ложные утверждения. Сильные опровержения требуют более длинных объяснений.

“Когда их заставляют сокращать ответы, модели постоянно выбирают сжатость в ущерб точности,”

— написали исследователи.

Они также отметили, что безобидные запросы системы, такие как ‘будь сжатей’, могут подрывать способность модели опровергать дезинформацию.

Исследование Giskard и его выводы

Исследование Giskard содержит и другие интересные выводы, в частности то, что модели менее склонны к опровержению противоречивых утверждений, когда пользователи подают их уверенно. Модели, которые пользователи считают лучшими, не всегда являются самыми правдивыми. Недавно OpenAI столкнулась с проблемой достижения баланса между моделями, которые подтверждают информацию, и предотвращением чрезмерной лояльности.

“Оптимизация для улучшения пользовательского опыта может иногда происходить за счет фактической точности,”

— добавили исследователи.

Таким образом, существует напряжение между точностью и согласованностью с ожиданиями пользователей, особенно если эти ожидания содержат ложные предположения.