Модели ИИ: самоорганизация и достижение согласия

Новое исследование, проведенное учеными из Сити-колледжа Лондона и Копенгагенского технологического университета, выявило, что большие языковые модели искусственного интеллекта могут объединяться в группы и достигать общего мнения.

Об этом сообщает ProIT

Взаимодействие моделей ИИ

В процессе исследования ученые выяснили, что эти модели не только следуют заданным сценариям, но и могут самоорганизовываться, достигая согласия по языковым нормам.

«Большинство исследований до сих пор рассматривали большие языковые модели по отдельности. Но реальные системы ИИ все больше будут включать множество взаимодействующих между собой моделей. Мы хотели узнать: могут ли эти модели координировать свое поведение, достигая консенсуса, который формирует сообщество? Ответ — да, и то, что они делают вместе, отличается от того, что они делают по отдельности», — объясняет ведущий автор исследования, научный сотрудник Сити-колледжа Ариэль Флинт Эшери.

Эксперименты включали группы ИИ с количеством от 24 до 200 моделей в каждой. Модели случайным образом объединялись в пары для игры в называние объектов. Один участник выбирал объект и предлагал ему название, а другой должен был угадать, о чем идет речь. Если обе модели выбирали один и тот же символ или слово, они зарабатывали очки, в противном случае — теряли. Модели ограниченно знали о недавних взаимодействиях и не имели информации о действиях других моделей.

Выводы исследования

Взаимодействия различных моделей приводили к спонтанному появлению согласованных решений без центральной координации. Исследователи также обнаружили коллективные предвзятости, которые нельзя было приписать отдельным моделям.

«Предвзятость не всегда исходит от конкретного субъекта. Мы были удивлены, увидев, что она может возникать между агентами — просто из их взаимодействия. Это слепая зона в большинстве современных работ по безопасности ИИ, которые фокусируются на отдельных моделях», — подчеркнул старший автор исследования, профессор Андреа Барончелли.

На основе полученных данных ученые отметили, что небольшие группы моделей могут влиять на другие модели, склоняя их к своему согласию, что напоминает эффект критической массы. В исследовании участвовали языковые модели Llama-2-70b-Chat, Llama-3-70B-Instruct, Llama-3.1-70BInstruct и Claude-3.5-Sonnet, результаты которых оказались схожими.

Исследователи рассматривают свою работу как основу для дальнейшего изучения взаимодействия между людьми и ИИ с целью решения этических проблем, связанных с большими языковыми моделями и общественными предвзятостями.

«Это исследование открывает новые возможности для дальнейших исследований безопасности в сфере ИИ. Понимание того, как они работают, является ключом к координации нашего сосуществования с ИИ, а не к подчинению ему», — подчеркивает Андреа Барончелли.

Результаты исследования были опубликованы в журнале Science Advances.