Несмотря на значительные достижения в области искусственного интеллекта, от создания фотореалистичных изображений до генерации человеческой речи, некоторые задачи, которые человек выполняет без усилий, остаются непосильными для ИИ. Недавнее исследование выявило ряд таких задач, в частности чтение аналоговых часов и определение дня недели для конкретной даты.
Об этом сообщает ProIT
Исследование демонстрирует, что современные модели ИИ, способные сдавать экзамены и генерировать убедительный текст, часто ошибаются при интерпретации положения стрелок на циферблате. Они также не могут выполнить простые арифметические операции, необходимые для работы с календарем. Эти результаты были представлены на Международной конференции по учебным репрезентациям (ICLR) 2025 года.
Рохит Саксена, ведущий автор исследования, отмечает, что большинство людей осваивают навыки определения времени в раннем возрасте.
Исследование показало, что современные модели ИИ не могут правильно определить время на изображениях часов или дни недели для заданных дат в более чем половине случаев. Ученые создали специальный набор данных с изображениями часов и календарей и протестировали его на мультимодальных больших языковых моделях (MLLM), таких как Llama 3.2-Vision от Meta, Claude-3.5 Sonnet от Anthropic, Gemini 2.0 от Google и GPT-4o от OpenAI. Результаты оказались неутешительными: ни одна из протестированных моделей не продемонстрировала успеха в этих задачах.
Авторы исследования объяснили, что эта слабость искусственного интеллекта связана с тем, что ранние системы обучались на основе размеченных примеров, тогда как для чтения часов необходимы навыки пространственного мышления. Модель должна уметь идентифицировать стрелки, измерять углы между ними и ориентироваться на различных дизайнах циферблатов.
Задача определения дней недели оказалась не менее сложной для ИИ. Например, при вопросе “Какой день будет 153-м днем года?” модели демонстрировали аналогично высокий уровень ошибок. ИИ правильно определял время лишь в 38,7% случаев, а дни недели — только в 26,3%. Это удивило исследователей, поскольку арифметика является основой вычислительной техники.
Модели ИИ используют различные подходы для прогнозирования результатов, опираясь на шаблоны, которые они выявили во время обучения, а не на последовательные математические алгоритмы. Это исследование показывает, что хотя ИИ может иногда давать правильные ответы, его рассуждения не всегда являются логичными.
Этот проект подчеркивает различия между тем, как люди и искусственный интеллект воспринимают мир. В то время как модели ИИ достигают успеха на основе знакомых шаблонов, они не могут обобщать или использовать абстрактное мышление. Как отмечает Саксена, задачи, которые кажутся простыми, такие как чтение часов, могут быть невероятно сложными для ИИ.
Исследование также освещает проблемы, с которыми сталкивается искусственный интеллект при обучении на ограниченных данных, в частности на редких случаях, таких как високосные годы. Это подчеркивает важность наличия разнообразных примеров в учебных данных и переосмысления подходов к обработке ИИ, которые сочетают логическое и пространственное мышление.
Результаты исследования предостерегают о рисках чрезмерной доверия к результатам, полученным с помощью искусственного интеллекта. Саксена подводит итог: «Искусственный интеллект является мощным инструментом, но в задачах, которые сочетают восприятие и точное мышление, нам следует быть осторожными и использовать человеческое участие в процессе принятия решений».