Институт Laude представил первую группу победителей грантовой программы Slingshots, направленной на поддержку развития науки и практики искусственного интеллекта. Программа создана как акселератор для исследователей, предоставляя им ресурсы, которые обычно недоступны в традиционных академических условиях – это финансирование, вычислительные мощности, а также поддержка продуктового и инженерного направлений.
Об этом сообщает ProIT
Первый набор и фокус на оценке ИИ
В первой когорте поддержано 15 проектов, значительная часть которых сосредоточена на сложных вопросах оценки систем искусственного интеллекта. Среди них – хорошо известные в профессиональном сообществе бенчмарки, такие как Terminal Bench для проверки командного программирования, а также новая версия долгосрочного проекта ARC-AGI.
Некоторые проекты предлагают инновационные подходы к традиционным задачам оценки. Так, команда из Caltech и UT Austin разрабатывает Formula Code для проверки способности ИИ-агентов оптимизировать существующий код. Другой проект – BizBench, основанный в Колумбии, создает общий бенчмарк для оценки так называемых «белых воротничков» – ИИ-агентов, выполняющих офисную работу. Отдельные гранты сосредоточены на новых структурах для обучения с подкреплением и сжатии моделей.
Инновации в подходах к оцениванию
В когорту также вошел Джон Бода Ян, соучредитель SWE-Bench, который возглавил новый проект CodeClash. Вдохновленный успехом SWE-Bench, этот проект будет проверять качество кода в условиях динамического соревнования, что должно стимулировать развитие отрасли.
“Я действительно думаю, что продолжение оценки по основным сторонним бенчмаркам способствует прогрессу,” сказал Ян в интервью TechCrunch. “Меня немного беспокоит будущее, в котором бенчмарки станут специфичными для компаний.”
Программа Slingshots предполагает, что грантоодержатели обязуются продемонстрировать конкретный результат – это может быть стартап, база открытого кода или другой значимый продукт. Такой подход должен стимулировать не только научные открытия, но и их практическую реализацию в сфере искусственного интеллекта.