Модели ИИ с высоким IQ: результаты теста Менса 2023

Искусственный интеллект создается с целью не только имитировать, но и превосходить человеческий интеллект. Удалось ли современным ведущим AI-моделям достичь этого по результатам стандартного теста на коэффициент интеллекта (IQ)? Ответ на этот вопрос дает новая инфографика, построенная на основе результатов теста общества Менса.

Об этом сообщает ProIT

Лидеры среди текстовых моделей ИИ

Менса считается одним из самых сложных экзаменов для измерения интеллекта человека, где средний показатель IQ варьируется от 90 до 110 баллов, а результаты выше 130 баллов зачисляются к уровню гениальности. В рейтинге моделей искусственного интеллекта лучший результат продемонстрировала текстовая модель o3 от OpenAI, которая набрала 135 баллов. Этот показатель позволяет отнести её к категории гениев в человеческом понимании. Как часть ChatGPT, эта модель отметилась особенно высокими способностями к логическому анализу и мышлению.

Высокие результаты также показали Claude-4 Sonnet от Anthropic (127 баллов) и Gemini 2.0 Flash Thinking от Google (126 баллов). Немного ниже, но всё же значительно выше среднего человеческого уровня, баллы получили такие модели, как Gemini 2.5 Pro и OpenAI o4 mini — более 120 баллов.

Мультимодальные системы: почему результаты хуже?

Ситуация меняется, когда речь идет о мультимодальных моделях, которые способны обрабатывать не только текст, но и визуальную информацию. Выяснилось, что именно эти системы показали самые низкие результаты в тесте Менса.

«Да, GPT-4o (Vision) от OpenAI и Grok-3 Think (Vision) от компании Илона Маска xAI продемонстрировали показатели значительно ниже среднего человеческого уровня — 63 и 60 баллов соответственно.»

Такой существенный разрыв в результатах объясняется особенностями самого теста, который ориентирован преимущественно на абстрактно-логическое и вербальное мышление. Современные текстовые модели искусственного интеллекта прекрасно справляются с этими задачами, тогда как мультимодальные системы, работающие с графической информацией, в настоящее время сталкиваются с трудностями при интерпретации визуальных паттернов в рамках строгой логики теста IQ. Это и остается основным вызовом для их дальнейшего развития.