Чому стартапи штучного інтелекту збирають власні дані

Стартапи у сфері штучного інтелекту дедалі частіше відмовляються від використання відкритих або масових наборів даних на користь створення унікальних, власноруч зібраних колекцій для навчання своїх моделей. Такий підхід дозволяє компаніям досягти кращої продуктивності та отримати конкурентну перевагу, підвищуючи цінність отриманих рішень.

Про це розповідає ProIT

Власні дані для нових можливостей штучного інтелекту

Улітку цього року художниця Тейлор та її сусідка по кімнаті працювали над збором відеоданих для навчання візуальної моделі штучного інтелекту компанії Turing. Щодня вони одягали GoPro-камери на голову, фіксуючи на відео побутові справи, створення творів мистецтва та інші рутини, синхронізуючи записи для отримання різних ракурсів одних і тих самих дій. Хоча робота була фізично виснажливою й вимагала значно більше часу, ніж передбачалося, Тейлор зазначає, що винагорода була гідною, а процес дозволяв їй займатися творчістю.

“Ми прокидалися, виконували звичні ранкові справи, а потім одягали камери на голову та синхронізували час. Далі готували сніданок, мили посуд, а потім кожна займалася своїм мистецтвом”.

Завданням було щодня надавати п’ять годин синхронізованого відео, але Тейлор довелося виділяти щонайменше сім годин з урахуванням перерв та відпочинку. Вона поділилася, що носіння камери спричиняло головний біль і залишало сліди на шкірі.

Компанія Turing не ставила за мету навчити ШІ малювати картини; основна ціль — сформувати в моделі навички абстрактного мислення, послідовного вирішення завдань і візуального аналізу дій. Для цього Turing залучає не лише художників, а й кухарів, будівельників, електриків та інших фахівців, які працюють руками. Як пояснює головний директор із загального ШІ компанії Сударшан Сіварман, тільки ручне збирання даних дозволяє досягти різноманітності у підготовчому наборі.

Якість даних як ключ до ефективності моделей

Інший приклад — компанія Fyxer, яка розробляє ШІ для обробки електронної пошти. Її засновник Річард Голлінгсворт дійшов висновку, що оптимальний результат дає не велика кількість даних, а ретельно відібрані, вузькоспеціалізовані вибірки. Для навчання моделі команда залучала досвідчених асистентів керівників, адже саме вони могли надати цінні знання з оцінки важливості листів і необхідності відповідей.

З часом компанія Fyxer почала використовувати менші, але якісніше підготовлені масиви даних, віддаючи перевагу точності над обсягом. Голлінгсворт підкреслює, що саме якість даних визначає ефективність моделі, особливо коли використовуються синтетичні дані, які можуть збільшувати кількість сценаріїв, але також посилювати вплив початкових помилок.

У Turing оцінюють, що 75–80% даних для навчання їхньої візуальної моделі є синтетичними, отриманими шляхом обробки оригінальних відео з GoPro. Водночас компанія акцентує на важливості високої якості початкового набору, адже від цього залежить і фінальний результат роботи ШІ.

Окрім підвищення якості, власноручне збирання даних дає компаніям потужну конкурентну перевагу. За словами Голлінгсворта, складність формування якісного набору даних і пошуку експертів для анотованого навчання стає суттєвою перепоною для потенційних конкурентів. Він переконаний, що найкращий шлях до створення ефективних ШІ-моделей — це інвестування у власні дані та людський досвід.