Інвестиції у середовища RL для AI в Силіконовій долині

У Силіконовій долині зростає зацікавленість індустрії у створенні так званих середовищ підкріплювального навчання (reinforcement learning, RL), які дозволяють тренувати агентів штучного інтелекту на багатоетапних завданнях у симульованих робочих просторах. Попри багаторічні обіцянки керівників провідних технологічних компаній щодо появи автономних AI-агентів, що здатні самостійно виконувати складні завдання у різних програмних продуктах, реальні можливості сучасних агентів, як-от ChatGPT Agent від OpenAI чи Comet від Perplexity, досі залишаються доволі обмеженими.

Про це розповідає ProIT

Зростання попиту на RL-середовища

Розробники та дослідники вважають, що саме RL-середовища можуть стати ключовим фактором у розвитку наступного покоління AI-агентів. Ці середовища створюють реалістичні симуляції, у яких штучний інтелект навчається виконувати багатокрокові завдання, взаємодіючи з інтерфейсами програм і отримуючи винагороду за правильні дії. Як зазначає Дженніфер Лі, генеральний партнер Andreessen Horowitz, провідні AI-лабораторії створюють власні RL-середовища, але одночасно шукають партнерів серед сторонніх компаній, здатних забезпечити якісний контент та інструменти для оцінювання.

“All the big AI labs are building RL environments in-house… Everyone is looking at this space”.

Зростаючий інтерес до RL-середовищ сприяв появі низки стартапів, таких як Mechanize та Prime Intellect, які прагнуть зайняти лідируючі позиції у цій сфері. Водночас великі компанії з анотації даних, зокрема Mercor і Surge, активно інвестують у розвиток RL-середовищ, адаптуючись до переходу індустрії від статичних датасетів до інтерактивних симуляцій. Відомо, що Anthropic розглядає можливість інвестування понад $1 млрд у RL-середовища протягом наступного року.

Як працюють RL-середовища

RL-середовище — це навчальний майданчик, який моделює роботу AI-агента у реальних програмних продуктах. Наприклад, така симуляція може відтворювати роботу у браузері Chrome, де агенту доручається купити пару шкарпеток на Amazon. За успішне виконання завдання агент отримує винагороду. Однак навіть прості дії можуть спричинити труднощі: агент може розгубитися у випадаючих меню чи купити неправильну кількість товару. Саме тому будь-яке середовище має бути максимально стійким до неочікуваних дій та давати корисний зворотний зв’язок, що робить розробку таких систем значно складнішою за створення статичних датасетів.

Деякі RL-середовища дозволяють агентам користуватися інструментами, виходити в інтернет чи працювати із різними програмними продуктами, інші ж зосереджуються на навчанні вузькоспеціалізованих завдань у корпоративному софті. Перші експерименти зі створення RL-середовищ відбулися ще у 2016 році — так, OpenAI розробила RL Gym, а Google DeepMind застосовувала подібні підходи для навчання AlphaGo. Проте сучасні агенти ґрунтуються на масштабних трансформерних моделях і мають амбіцію до універсальності, що ускладнює завдання для дослідників.

Конкуренція серед стартапів і гігантів

На ринку RL-середовищ активізувалися як великі компанії з анотації даних, так і нові гравці. Surge, яка торік отримала понад $1,2 млрд доходу від співпраці з OpenAI, Google, Anthropic та Meta, нещодавно створила окремий підрозділ для розробки RL-середовищ. Mercor, оцінена у $10 млрд, фокусується на завданнях для галузей кодування, медицини та права. Як зазначає її CEO Брендан Фуді, “мало хто розуміє, наскільки великий потенціал ринку RL-середовищ”.

Scale AI, що раніше домінувала у сфері анотації даних, поступово втрачає позиції через кадрові зміни та конкуренцію з боку Meta, Google та OpenAI. Проте компанія також переключається на розробку RL-середовищ. Нові стартапи, такі як Mechanize, прагнуть автоматизувати всі робочі процеси, хоча наразі зосереджені на створенні RL-середовищ для агентів-кодерів. Mechanize пропонує програмістам зарплати до $500 тис. на рік, щоб залучити таланти до своїх проектів, і вже співпрацює з Anthropic. Prime Intellect, за підтримки Андрія Карпатого, Founders Fund і Menlo Ventures, створює відкриту платформу RL-середовищ для широкого кола розробників, продаючи їм доступ до обчислювальних потужностей.

За словами дослідника Prime Intellect Вілла Брауна, тренування агентів у RL-середовищах вимагає значно більше ресурсів, ніж попередні підходи, що відкриває ринок для постачальників GPU та хмарних сервісів.

Масштабування та виклики

Хоча підкріплювальне навчання вже забезпечило вагомі прориви — наприклад, у моделях OpenAI o1 та Anthropic Claude Opus 4 — питання масштабування RL-середовищ залишається відкритим. Дослідники вважають, що інтерактивні симуляції дозволяють агентам ефективніше набувати нових навичок, проте процес є значно дорожчим та складнішим, ніж робота з текстовими датасетами. Окремі експерти, зокрема Росс Тейлор з General Reasoning, застерігають від ризиків «reward hacking» — коли моделі навчаються обманювати систему для отримання винагороди, не виконуючи завдання належним чином.

Шервін Ву з OpenAI також зазначає, що ринок RL-середовищ дуже конкурентний, а швидкі темпи розвитку AI роблять його ще складнішим для компаній і стартапів. Інвестор Prime Intellect Андрій Карпати підкреслює, що хоч він і “оптимістично налаштований щодо середовищ та агентних взаємодій”, однак скептично ставиться до перспектив RL як основної технології подальшого прогресу AI.