Новый AI-челлендж K Prize: победитель с 7,5% успеха

AI-челлендж K Prize, инициированный для оценки возможностей искусственного интеллекта в программировании, объявил победителя первого раунда, установив новый стандарт для индустрии. Победителем стал бразильский инженер-промптер Эдуардо Роча де Андраде, который получит $50 000. Однако ключевой неожиданностью стало то, что для победы ему хватило правильно ответить лишь на 7,5% заданий теста.

Об этом сообщает ProIT

Особенности и сложность K Prize

K Prize организован некоммерческим институтом Laude при поддержке соучредителя Databricks и Perplexity Энди Конвинки. Конкурс проходит в несколько раундов и является аналогом известной системы тестирования SWE-Bench, но с уникальными особенностями. В отличие от SWE-Bench, которая использует фиксированный набор задач для тренировки моделей, K Prize применяет систему «свободную от загрязнения». Это достигается благодаря отбору задач из GitHub, созданных после установленной даты, а сами модели подаются в ограниченный промежуток времени. Таким образом, участники не имеют возможности специально готовить модели под конкретный тест.

Конвинки отмечает, что основной целью было создать действительно сложный бенчмарк. Он подчеркнул, что K Prize проводится офлайн и с ограниченными вычислительными ресурсами, поэтому преимущество получают открытые и меньшие модели. Это, по его мнению, способствует более справедливой конкуренции и выравнивает шансы для всех участников.

«Мы рады, что создали бенчмарк, который на самом деле является сложным. Бенчмарки должны быть сложными, если они имеют значение», – подчеркнул Конвинки.

Отличия от SWE-Bench и дальнейшие планы

Результаты первого раунда заметно отличаются от нынешних достижений SWE-Bench: там модели достигают до 75% на простом тесте и 34% на более сложном. Это вызывает вопросы относительно возможной «загрязненности» существующих бенчмарков или же о сложности сбора новых актуальных задач. Конвинки надеется, что дальнейшие этапы K Prize дадут ответ на эти вопросы.

Для стимулирования развития открытых решений Конвинки обещает $1 млн первой открытой модели, которая сможет набрать более 90% баллов в этом тесте.

По словам исследователя из Принстонского университета Саяша Капура, создание новых тестов для существующих бенчмарков является критически важным для объективной оценки моделей. Он отмечает, что лишь подобные эксперименты позволяют определить, есть ли проблема в загрязненности данных или в самой структуре испытаний.

Конвинки считает, что такие испытания являются своеобразным вызовом для всей индустрии. По его словам, несмотря на громкие заявления о возможностях AI, реальные результаты свидетельствуют о необходимости трезво оценивать нынешний уровень развития технологий.