Аналіз, проведений некомерційним інститутом дослідження штучного інтелекту Epoch AI, свідчить про те, що індустрія штучного інтелекту може незабаром зіткнутися із труднощами у досягненні значних приростів продуктивності для моделей «розуміння». Згідно з висновками звіту, вже через рік прогрес у цій сфері може сповільнитися.
Про це розповідає ProIT
Моделі «розуміння», такі як o3 від OpenAI, за останні місяці продемонстрували суттєві досягнення на бенчмарках штучного інтелекту, особливо в оцінках математичних та програмістських навичок. Ці моделі здатні застосовувати більше обчислювальної потужності до проблем, що покращує їхню продуктивність, але має недолік: вони потребують більше часу для виконання завдань у порівнянні з традиційними моделями.
Технологія навчання і її виклики
Розробка моделей «розуміння» починається зі стандартного навчання на величезних обсягах даних, після чого застосовується метод підкріплювального навчання, який фактично надає моделі «зворотний зв’язок» щодо її рішень у складних завданнях. За даними Epoch, наразі передові лабораторії штучного інтелекту, такі як OpenAI, не використовували значну обчислювальну потужність на етапі підкріплювального навчання.
Однак ситуація змінюється. OpenAI повідомила, що для навчання o3 було застосовано приблизно в 10 разів більше обчислювальної потужності, ніж для її попередника o1, і Epoch припускає, що більшість цієї потужності було витрачено саме на підкріплювальне навчання. Нещодавно дослідник OpenAI Дан Робертс також зазначив, що у планах компанії на майбутнє пріоритетом буде підкріплювальне навчання з використанням ще більшої обчислювальної потужності, ніж для початкового навчання моделей.
Перспективи розвитку
Однак, за словами Epoch, існує верхня межа того, скільки обчислювальної потужності може бути застосовано до підкріплювального навчання. Аналітик Epoch Джош Ю, автор аналізу, пояснює, що приріст продуктивності від стандартного навчання моделей штучного інтелекту наразі подвоюється щороку, у той час як приріст від підкріплювального навчання зростає в десять разів кожні 3-5 місяців. Він зазначає, що прогрес у навчанні моделей «розуміння», ймовірно, «конвергує з загальним фронтиром до 2026 року».
Аналіз Epoch містить низку припущень і частково спирається на публічні коментарі керівників компаній у сфері штучного інтелекту. Однак також підкреслюється, що масштабування моделей «розуміння» може виявитися складним через високі накладні витрати на дослідження. Джош Ю зазначає: «Якщо існують постійні накладні витрати, пов’язані з дослідженнями, моделі «розуміння» можуть не масштабуватися так далеко, як очікується. Швидке масштабування обчислювальної потужності є потенційно дуже важливим компонентом прогресу моделей «розуміння», тому це варто уважно відстежувати».
Будь-які ознаки того, що моделі «розуміння» можуть досягти певного обмеження в найближчому майбутньому, напевно, викличуть занепокоєння в індустрії штучного інтелекту, яка інвестувала величезні ресурси в розробку цих типів моделей. Вже було доведено, що моделі «розуміння», які можуть бути надзвичайно дорогими у використанні, мають серйозні недоліки, такі як схильність до «галюцинацій» більше, ніж деякі традиційні моделі.