Инструменты ИИ для программирования: не всегда эффективны

В последние годы программирование претерпело значительные изменения благодаря внедрению инструментов на основе искусственного интеллекта, таких как Cursor и GitHub Copilot. Эти сервисы, построенные на моделях OpenAI, Google DeepMind, Anthropic и xAI, призваны повысить эффективность разработчиков, автоматизируя написание кода, устранение ошибок и тестирование изменений. Однако результаты нового исследования, проведенного некоммерческой исследовательской группой METR, ставят под сомнение масштаб ожидаемого роста продуктивности благодаря таким инструментам для опытных специалистов.

Об этом сообщает ProIT

Опытные разработчики не всегда выигрывают от ИИ

В рамках эксперимента METR было проведено рандомизированное контролируемое испытание с участием 16 опытных разработчиков open source, которые выполнили 246 реальных задач в крупных репозиториях кода, в которые они регулярно вносят изменения. Половина задач позволяла использование современных AI-инструментов, в частности Cursor Pro, а другая половина выполнялась без помощи ИИ.

Перед началом работы участники спрогнозировали, что применение инструментов на базе искусственного интеллекта позволит сократить время выполнения задач на 24%. Однако результаты оказались неожиданными.

“Удивительно, но мы обнаружили, что использование ИИ на самом деле увеличивает время завершения на 19% — разработчики работают медленнее, когда используют инструменты ИИ,” — отметили исследователи.

Стоит отметить, что только 56% участников имели опыт работы с Cursor — основным инструментом исследования. Почти все разработчики (94%) уже применяли различные веб-ориентированные большие языковые модели в своей практике, однако для части из них это был первый опыт использования Cursor. Перед началом тестирования все участники прошли подготовку по работе с этим инструментом.

Причины замедления и перспективы развития

Авторы исследования объясняют, что замедление работы связано, в частности, с затратами времени на формулирование запросов к ИИ и ожиданием ответов, тогда как в сложных и больших кодовых базах ИИ может работать менее эффективно. Тем не менее, специалисты METR подчеркивают, что не стоит делать категорических выводов о неспособности современных инструментов ускорять работу программистов: более масштабные исследования демонстрируют, что ИИ все же помогает повысить скорость выполнения задач многих разработчиков.

Исследователи также подчеркивают стремительный прогресс в развитии искусственного интеллекта за последние годы и отмечают, что результаты могут измениться даже в течение нескольких месяцев. В частности, METR фиксирует ощутимое увеличение способности AI-инструментов решать сложные и долгосрочные задачи.

Однако полученные выводы побуждают критически оценивать обещанный универсальный прирост продуктивности от использования ИИ в программировании. Кроме того, другие исследования указывают на вероятность появления ошибок или даже уязвимостей в безопасности кода из-за применения таких инструментов.