Почему искусственный интеллект Google делает ошибки в написании слов

|
Почему искусственный интеллект Google делает ошибки в написании слов

Google активно внедряет искусственный интеллект (ИИ) в свою поисковую систему, но недавние обновления показали, что даже самые современные модели все еще не умеют правильно считать буквы в словах или корректно их писать. Пользователи заметили, что Google AI Overview, анализируя простые слова, часто делает курьезные орфографические ошибки. Например, в ответе на вопрос о количестве букв «P» в слове «Google» ИИ утверждает, что их две. Аналогично, в слове «journalism» система насчитала две буквы «d», но написала его как «j-o-u-r-n-a-d-i-s-m». Наиболее показателен случай, когда фамилия действующего президента США была написана как «t-r-p-u-m».

Об этом сообщает ProIT

Почему ИИ плохо справляется со словами

Причина таких ошибок кроется в особенностях архитектуры больших языковых моделей (LLM), на основе которых работает Google AI Overview. Как объясняют исследователи, эти модели не воспринимают текст так, как человек – как последовательность букв и слов. Вместо этого ИИ разбивает текст на так называемые токены, которые могут быть как целыми словами, так и отдельными слогами или буквами, в зависимости от модели. После этого информация преобразуется в числовые значения, которые затем анализируются для формирования ответа.

“LLMs are based on this transformer architecture, which notably is not actually reading text. What happens when you input a prompt is that it’s translated into an encoding,” Matthew Guzdial, an AI researcher and assistant professor at the University of Alberta, told TechCrunch. “When it sees the word ‘the,’ it has this one encoding of what ‘the’ means, but it does not know about ‘T,’ ‘H,’ ‘E.’”

Проблемы с восприятием языка и дальнейшие перспективы

Google признает существование таких проблем и уверяет, что работает над их исправлением. В то же время эксперты считают, что пока не существует идеального решения для обработки слов и букв в ИИ. Даже если разработчики создадут совершенный словарь токенов, модели все равно будут пытаться разбивать информацию на еще более мелкие части.

Несмотря на эти недостатки, такие ошибки не являются критическими для практического использования больших языковых моделей, ведь они предназначены прежде всего для создания текстов, а не для точного анализа орфографии. Тем не менее, подобные казусы напоминают, что ИИ все еще не является совершенным и нуждается в проверке человеком, особенно когда речь идет о точности предоставленной информации.