Компанія Anthropic оприлюднила результати дослідження, в якому сучасні моделі штучного інтелекту продемонстрували здатність знаходити вразливості у смартконтрактах. Для тестування було використано моделі Claude Sonnet 4.5, Claude Opus 4.5 і GPT-5, які працювали з набором SCONE-bench, що містить дані про вразливості контрактів Ethereum і BNB Chain за 2020-2025 роки.
Про це розповідає ProIT
Ефективність ШІ у виявленні експлойтів
У ході дослідження моделі змогли ідентифікувати експлойти приблизно для половини історичних інцидентів. Загальна оціночна сума активів, що перебували у вразливих контрактах на момент атак, сягнула понад $550 млн. Особливу увагу приділено тестуванню на контрактах, зламаних після березня 2025 року – це дати, після якої моделі не мали знань про нові події. Саме на цих контрактах штучний інтелект виявив 19 із 34 вразливостей, що відповідає близько $4,6 млн потенційних втрат.

Модель Claude Opus 4.5 показала найкращий результат на SCONE-bench, згенерувавши експлойти для 17 випадків, що становить половину вибірки й еквівалентно $4,5 млн умовної «виручки». У поєднанні з Claude Sonnet 4.5 та GPT-5 ШІ-моделі виявили 19 вразливостей із 34 протестованих контрактів, що дає 55,8% успішного виявлення і приблизно $4,6 млн потенційних втрат.
Виявлення «нульового дня» та перспективи впровадження
У процесі тестування експерти Anthropic перевірили здатність ШІ знаходити нові, раніше невідомі помилки у щойно розгорнутих контрактах. Системи виявили дві вразливості «нульового дня» на нових адресах, демонструючи потенціал моделей до ідентифікації дефектів без наявності історичних даних.
“Ці випадки не були відомі моделям заздалегідь і містили кілька нових типів дефектів, зазначили представники компанії”.
У компанії підкреслюють, що дослідження спрямоване не на експлуатацію вразливостей, а на розробку інструментів для оцінки здатності ШІ виявляти помилки у коді. Anthropic планує зробити SCONE-bench відкритим стандартом для тестування та порівняння можливостей великих мовних моделей у сфері безпеки.
Фахівці компанії вважають, що такі моделі можуть стати в пригоді під час розробки та аудиту смартконтрактів, допомагаючи знаходити критичні вразливості ще до їхнього запуску у мережі.
У той же час, Anthropic наголошує, що представлене дослідження не дає повної оцінки ризиків, оскільки аналіз обмежено історичними контрактами й контрольованим середовищем. У майбутньому компанія планує розширювати бенчмарк та досліджувати потенціал ШІ-інструментів для підтримки команд, які відповідають за безпеку блокчейн-протоколів.