Уникальные данные для AI: Почему стартапы выбирают свой путь

Стартапы в сфере искусственного интеллекта все чаще отказываются от использования открытых или массовых наборов данных в пользу создания уникальных, самостоятельно собранных коллекций для обучения своих моделей. Такой подход позволяет компаниям достичь лучшей производительности и получить конкурентное преимущество, повышая ценность полученных решений.

Об этом сообщает ProIT

Собственные данные для новых возможностей искусственного интеллекта

Летом этого года художница Тейлор и ее соседка по комнате работали над сбором видеоданных для обучения визуальной модели искусственного интеллекта компании Turing. Каждый день они надевали камеры GoPro на голову, фиксируя на видео повседневные дела, создание произведений искусства и другие рутины, синхронизируя записи для получения различных ракурсов одних и тех же действий. Хотя работа была физически изнурительной и требовала значительно больше времени, чем предполагалось, Тейлор отмечает, что вознаграждение было достойным, а процесс позволял ей заниматься творчеством.

«Мы просыпались, выполняли привычные утренние дела, а затем надевали камеры на голову и синхронизировали время. Далее готовили завтрак, мыли посуду, а потом каждая занималась своим искусством».

Задачей было ежедневно предоставлять пять часов синхронизированного видео, но Тейлор пришлось выделять как минимум семь часов с учетом перерывов и отдыха. Она поделилась, что ношение камеры вызывало головную боль и оставляло следы на коже.

Компания Turing не ставила целью обучить ИИ рисовать картины; основной целью было сформировать в модели навыки абстрактного мышления, последовательного решения задач и визуального анализа действий. Для этого Turing привлекает не только художников, но и поваров, строителей, электриков и других специалистов, работающих руками. Как объясняет главный директор по общему ИИ компании Сударшан Сиварман, только ручное сбор данных позволяет достичь разнообразия в подготовительном наборе.

Качество данных как ключ к эффективности моделей

Другой пример — компания Fyxer, которая разрабатывает ИИ для обработки электронной почты. Ее основатель Ричард Голлингсворт пришел к выводу, что оптимальный результат дает не большое количество данных, а тщательно отобранные, узкоспециализированные выборки. Для обучения модели команда привлекала опытных ассистентов руководителей, ведь именно они могли предоставить ценные знания по оценке важности писем и необходимости ответов.

Со временем компания Fyxer начала использовать меньшие, но качественнее подготовленные массивы данных, отдавая предпочтение точности над объемом. Голлингсворт подчеркивает, что именно качество данных определяет эффективность модели, особенно когда используются синтетические данные, которые могут увеличивать количество сценариев, но также усиливают влияние начальных ошибок.

В Turing оценивают, что 75–80% данных для обучения их визуальной модели являются синтетическими, полученными путем обработки оригинальных видео с GoPro. В то же время компания акцентирует внимание на важности высокого качества начального набора, ведь от этого зависит и финальный результат работы ИИ.

Помимо повышения качества, самостоятельное сбор данных дает компаниям мощное конкурентное преимущество. По словам Голлингсворта, сложность формирования качественного набора данных и поиска экспертов для аннотированного обучения становится серьезным препятствием для потенциальных конкурентов. Он убежден, что лучший путь к созданию эффективных ИИ-моделей — это инвестиции в собственные данные и человеческий опыт.