Результати AI-челенджу K Prize: переможець з 7,5%

AI-челендж K Prize, започаткований для оцінки можливостей штучного інтелекту у програмуванні, оголосив переможця першого раунду, встановивши новий стандарт для індустрії. Переможцем став бразильський інженер-промптер Едуардо Роча де Андраде, який отримає $50 000. Втім, ключовою несподіванкою стало те, що для перемоги йому вистачило правильно відповісти лише на 7,5% завдань тесту.

Про це розповідає ProIT

Особливості та складність K Prize

K Prize організовано некомерційним інститутом Laude за підтримки співзасновника Databricks та Perplexity Енді Конвінскі. Конкурс проходить у декілька раундів і є аналогом відомої системи тестування SWE-Bench, але з унікальними особливостями. На відміну від SWE-Bench, яка використовує фіксований набір задач для тренування моделей, K Prize застосовує систему «вільну від забруднення». Це досягається завдяки відбору задач із GitHub, створених після встановленої дати, а самі моделі подаються в обмежений проміжок часу. Таким чином, учасники не мають змоги спеціально готувати моделі під конкретний тест.

Конвінскі зазначає, що основною метою було створити справді складний бенчмарк. Він підкреслив, що K Prize проводиться офлайн і з обмеженими обчислювальними ресурсами, тому перевагу отримують відкриті та менші моделі. Це, на його думку, сприяє більш справедливій конкуренції та вирівнює шанси для всіх учасників.

“Ми раді, що створили бенчмарк, який насправді є складним. Бенчмарки повинні бути складними, якщо вони мають значення”, – підкреслив Конвінскі.

Відмінності від SWE-Bench та подальші плани

Результати першого раунду помітно відрізняються від нинішніх досягнень SWE-Bench: там моделі досягають до 75% на простому тесті та 34% на більш складному. Це викликає питання щодо можливої «забрудненості» існуючих бенчмарків або ж про складність збору нових актуальних задач. Конвінскі сподівається, що подальші етапи K Prize дадуть відповідь на ці питання.

Для стимулювання розвитку відкритих рішень Конвінскі обіцяє $1 млн першій відкритій моделі, яка зможе набрати понад 90% балів у цьому тесті.

За словами дослідника з Принстонського університету Саяша Капура, створення нових тестів для існуючих бенчмарків є критично важливим для об’єктивної оцінки моделей. Він зазначає, що лише подібні експерименти дозволяють визначити, чи є проблема у забрудненості даних, чи у самій структурі випробувань.

Конвінскі вважає, що такі випробування є своєрідним викликом для всієї індустрії. За його словами, попри гучні заяви про можливості AI, реальні результати свідчать про необхідність тверезо оцінювати нинішній рівень розвитку технологій.