Илон Маск о данных для обучения искусственного интеллекта

Илон Маск заявил, что компании, занимающиеся искусственным интеллектом, исчерпали все доступные данные для обучения своих моделей. По мнению Маска, технологическим фирмам придется обратиться к «синтетическим» данным, то есть материалам, созданным самими AI-моделями, для разработки и усовершенствования новых систем. Этот процесс уже набирает обороты в сфере быстроразвивающих технологий.

Об этом сообщает ProIT

Исчерпание человеческих знаний в обучении AI

Во время интервью, транслировавшегося на его социальной платформе X, Маск отметил: «Кумулятивная сумма человеческих знаний была исчерпана в обучении AI. Это произошло фактически в прошлом году». AI-модели, такие как GPT-4, питающая ChatGPT, учатся на огромных массивах данных из интернета, где они учатся распознавать паттерны, что позволяет им предсказывать, например, следующее слово в предложении.

Маск добавил, что «единственный способ» компенсировать нехватку источников для обучения новых моделей – это переход на синтетические данные, созданные AI. Отмечая исчерпывание хранилищ данных, он сказал: «Единственный способ тогда дополнить это – это использование синтетических данных, где… она как бы напишет эссе или предложит тезис, а затем оценит себя и… пройдет этот процесс самообучения».

Применение синтетических данных

Компании, такие как Meta, владеющая Facebook и Instagram, уже используют синтетические данные для усовершенствования своей крупнейшей AI-модели Llama. Microsoft также воспользовалась AI-генерируемым контентом для модели Phi-4. Google и OpenAI, компания-разработчик ChatGPT, также использовали синтетические данные в своей работе над AI.

Одновременно Маск предупредил, что привычка AI-моделей генерировать «галлюцинации» – то есть неточные или бессмысленные результаты – представляет опасность для процесса создания синтетических данных. В интервью с Марком Пеном, главой рекламной группы Stagwell, он отметил, что галлюцинации усложняют использование искусственных материалов, ведь «как вы узнаете, то ли это… галлюцинация ответа, то ли это настоящий ответ».

Качество данных и контроль над ними являются одним из юридических участков в буме AI. В прошлом году OpenAI признала, что невозможно создать инструменты такие как ChatGPT без доступа к материалам, защищенным авторским правом, тогда как представители творческих индустрий и издатели требуют компенсации за использование их контента в процессе обучения моделей.