Мінцифра запускає національну LLM: особливості проєкту

У лютому Міністерство цифрової трансформації України повідомило про створення WINWIN AI Center of Excellence — спеціалізованого підрозділу, покликаного впроваджувати рішення на основі штучного інтелекту на державному рівні. Однією з головних цілей ініціативи є створення конкурентної великої мовної моделі (LLM), яка може стати аналогом для таких глобальних продуктів, як OpenAI, Anthropic, Google Gemini чи DeepSeek.

Про це розповідає ProIT

Переваги та завдання національної LLM

Розробка української LLM спрямована на подолання обмежень глобальних моделей, які здебільшого орієнтовані на англомовний контент. Як зазначають у Мінцифри, «українська LLM даватиме якісніші відповіді, аніж глобальні англомовні моделі, оскільки буде натренована на українських даних. Національна LLM може краще розуміти діалекти, термінологію та контекст в країні, даючи якісніші відповіді як лінгвістично, так і стосовно фактів та ідеологічних запитань, які стосуються історії України, політичної ситуації та війни».

“Українська LLM даватиме якісніші відповіді, аніж глобальні англомовні моделі, оскільки буде натренована на українських даних. Національна LLM може краще розуміти діалекти, термінологію та контекст в країні, даючи якісніші відповіді як лінгвістично, так і стосовно фактів та ідеологічних запитань, які стосуються історії України, політичної ситуації та війни”.

Важливою перевагою є збереження і обробка даних на території України, що має стратегічне значення для оборони, медицини, державного управління та фінансової сфери. Національна LLM також забезпечить захист конфіденційної інформації, яка у разі використання закордонних рішень може опинитися за межами країни.

Технологічні особливості LLM та етапи впровадження

Великі мовні моделі — це складні нейронні мережі, натреновані на величезних обсягах текстових даних для розуміння, обробки й генерації природної мови. Їх застосовують у чат-ботах, перекладачах, пошукових системах тощо. Архітектура таких моделей базується на трансформерах, що дозволяє ефективно працювати з контекстом і довгими текстами, враховуючи взаємозв’язки між словами. Навчання LLM включає кілька етапів: підбір і очищення даних, токенізація, початкове навчання (pre-training), подальше донавчання (fine-tuning) та генерація тексту у відповідь на запит користувача.

Розробка національної LLM проходитиме в шість етапів: від формування команди експертів, збору та підготовки даних до запуску пілотної моделі, її масштабування і фінального розгортання. Запуск повноцінної моделі запланований на листопад-грудень 2025 року. Усього на це відведено дев’ять місяців.

Створення конкурентного рішення потребує якісних корпусів текстів українською мовою, сучасної інфраструктури для тренування моделей та значного фінансування. За оцінками, розробка LLM може коштувати від $1,5 до $8 млн. Держава не використовуватиме бюджетні кошти — фінансування шукатимуть серед бізнесу, міжнародних компаній і шляхом співпраці з Big Tech. Водночас, як зазначають в Мінцифри, українські дата-центри готують потужності для майбутніх навантажень. Інфраструктурні провайдери вже пропонують ресурси для тренування LLM.

Проєкт реалізується у партнерстві між державою, бізнесом та науковою спільнотою. Бізнес виступить основним провайдером інфраструктури, а університети та профільні спільноти допоможуть зі збором і підготовкою даних. Координацію здійснюють Мінцифра та WINWIN AI Center of Excellence.

Виклики та перспективи української LLM

Головним викликом залишається дефіцит якісних україномовних даних. Найбільший національний датасет «Малюк» містить 113 ГБ очищеного тексту, до тренування також залучають корпуси NER-UK, UA-GEC, БрУК. Для масштабних моделей потрібні ще більші обсяги даних, тому продовжується співпраця з університетами та науковими установами щодо розширення корпусу.

Для реалізації такого масштабного проєкту залучаються фахівці з комп’ютерної лінгвістики, data science, розробники, інженери, експерти з етики, а також спеціалісти з кібербезпеки. В Україні вже сформована потенційна команда розробників, а профільна спільнота мотивована до участі через стратегічне значення проєкту. Водночас війна створює додаткові виклики для кадрового ринку, але багато українських спеціалістів, зокрема з-за кордону, готові долучатися до ініціативи.

Створення LLM для України — це не лише технологічний прорив, але й важливий елемент національної безпеки. Модель розробляється як open-source рішення для некомерційного сектору, що дозволить компаніям і розробникам створювати власні чат-боти, ШІ-асистентів та інші сервіси. Очікується, що поява національної LLM стане поштовхом для розвитку ШІ-стартапів та інновацій у державному секторі.

WINWIN AI Center of Excellence вже працює над першими продуктами на базі ШІ: асистентом для Дії, інструментом аналізу нормативно-правових актів, перекладачем європейського законодавства, а також внутрішніми HR-асистентами. Окрім того, планується впровадження ШІ у сферу освіти та безпеки, зокрема для побудови персоналізованих навчальних траєкторій і аналізу оборонних даних.

Хоча створення повноцінної LLM — складне завдання, міжнародний досвід показує, що навіть найбільші країни Європи поки не мають конкурентів для глобальних моделей. Україна обрала шлях використання open-source рішень із подальшою адаптацією під власні потреби, що дозволить зекономити ресурси та сфокусуватися на локальних завданнях. Результати запуску національної LLM очікують наприкінці 2025 року.