Причины галлюцинаций языковых моделей OpenAI и их устранение

Компания OpenAI презентовала новое исследование, в котором детально анализируется феномен галлюцинаций в языковых моделях. Исследователи сравнивают поведение искусственного интеллекта с учениками на экзамене, которые, не зная правильного ответа, часто рискуют и отвечают наугад, чтобы получить хотя бы какие-то баллы, вместо того чтобы признаться в незнании.

Об этом сообщает ProIT

Недостатки современных метрик оценки

Согласно результатам исследования, такое поведение моделей объясняется самим подходом к оценке ответов. Современные бенчмарки, в частности MMLU и SWE-bench, используют бинарную систему — ответ признается либо правильным, либо нет. В таких условиях языковые модели поощряются к «угадыванию» и не имеют стимула признавать неопределенность или отсутствие знаний.

OpenAI опубликовала исследование о природе галлюцинаций в языковых моделях. Авторы сравнивают их с учениками на экзамене: если ответ «не знаю» приносит ноль баллов, выгоднее рискнуть и выдать хоть какой-то ответ.

Причины и решения проблемы галлюцинаций

Специалисты OpenAI подчеркивают, что проблема возникает еще на этапе предсказания: статистическая метаобучения приводит к ошибкам, особенно в отношении редких фактов, таких как даты рождения, которые появляются в учебных данных лишь раз. В конечном итоге тенденция к «блефу» закрепляется во время постобучения, когда модели подстраиваются под некорректные метрики.

Для решения этой проблемы OpenAI предлагает реформировать систему оценки. В частности, за сознательно ложный ответ языковая модель должна получать значительный штраф, тогда как за честное признание неопределенности — часть баллов. Такой подход, по мнению авторов исследования, позволит стимулировать создание более надежных и прозрачных моделей искусственного интеллекта, способных корректно демонстрировать свои знания и границы уверенности.