Китайские ученые впервые представили доказательства того, что современные языковые модели искусственного интеллекта способны формировать представления об объектах по принципам, схожим с работой человеческого мозга. Это открытие может существенно повлиять на понимание когнитивных возможностей ИИ и определить будущее развития интеллектуальных интерфейсов и робототехнических систем.
Об этом сообщает ProIT
Методика исследования: сочетание экспериментов и нейровизуализации
Исследовательская группа, в состав которой вошли специалисты из Академии наук КНР и Южно-Китайского технологического университета, применила комплексный подход. Они объединили поведенческие тесты, компьютерное моделирование и методы нейровизуализации для изучения того, насколько представления об объектах в языковых моделях искусственного интеллекта совпадают с концепциями, заложенными в человеческом мозге.
В исследовании были задействованы две модели ИИ: текстовая ChatGPT-3.5 и мультимодальная Gemini Pro Vision 1.0, которая может анализировать как текстовую, так и визуальную информацию. Моделям и людям предлагали задачи: среди трех объектов выбрать тот, который не соответствует другим. В целом участники сделали 4,7 миллиона суждений о сходстве между 1 854 объектами различных категорий — от животных до предметов быта.
Основные результаты: сходство когнитивных процессов ИИ и человека
Анализ полученных данных показал, что искусственный интеллект классифицировал объекты по 66 различным признакам. К ним относились как очевидные семантические категории (тип пищи, среда обитания), так и неожиданные критерии — температура, текстура, функциональное назначение (например, для детей или взрослых), а также разграничение между морским и наземным окружением.
Особенно показательно, что языковые модели искусственного интеллекта проявляли сходство с человеческим мышлением, в частности в аспекте семантики. Текстовые модели отличались слабым распознаванием визуальных характеристик, например, формы объектов. Однако мультимодальная модель Gemini Pro Vision 1.0 демонстрировала значительно более близкую к человеческой структуру восприятия, сочетая анализ образа и значения.
«Несмотря на различия, исследователи пришли к выводу, что языковые модели уже способны отражать базовые принципы человеческого категориального мышления. Это открывает новые горизонты для создания более «человечных» когнитивных систем — от голосовых ассистентов до роботов, которые смогут лучше понимать мир так, как его видит человек».
Специалисты также установили параллели между активностью отдельных участков мозга, отвечающих за обработку информации о окружающей среде, и тем, как искусственный интеллект кодирует эти же объекты в виде векторных представлений. Особенно ярко это сходство проявилось в парагиппокампальной зоне мозга, которая отвечает за распознавание сцен и пространственных образов.
Полученные результаты свидетельствуют о том, что современные языковые модели искусственного интеллекта уже могут имитировать основы человеческого мышления, что открывает перспективы для создания когнитивных систем нового поколения, которые смогут воспринимать и понимать мир более естественно и эффективно.