Південнокорейські вчені розробили інноваційний інструмент Chain-of-Zoom, який використовує штучний інтелект для покрокового збільшення зображень із низькою роздільною здатністю до 256 разів, забезпечуючи при цьому збереження реалістичної деталізації.
Про це розповідає ProIT
Особливості та принцип роботи Chain-of-Zoom
Дослідники з KAIST AI під керівництвом Кіма Джечула сфокусувалися на вирішенні проблеми масштабування фото з мінімальною втратою якості. Традиційні моделі для покращення роздільної здатності зображень зазвичай вгадують відсутні деталі, однак їх ефективність суттєво знижується при значному збільшенні масштабу. Як пояснюють розробники:
«Сучасні моделі чудові відносно масштабних коефіцієнтів, на яких вони були навчені, але зазнають невдачі, коли їх просять збільшити зображення, що виходить за цей діапазон».
Chain-of-Zoom вирішує це завдання поетапно: система не намагається одразу збільшити зображення у 256 разів, а застосовує серію кроків масштабування. На кожному етапі ШІ використовує модель надвисокої роздільної здатності, зокрема дифузійну модель, щоб уточнювати деталі на основі попереднього результату. Допоміжну роль відіграє Vision-Language модель, яка генерує мовні підказки на кшталт «прожилки листа», «текстура хутра», «цегляна стіна» — вони спрямовують подальшу деталізацію зображення.
Навчання і практичне застосування технології
Щоб підвищити якість підказок, розробники застосували навчання з підкріпленням і зворотнім зв’язком від людини. Система отримувала оцінки від людини-критика, штрафувалася за некоректні фрази, а спеціальний фільтр відсіював повтори. У результаті підказки ставали дедалі чіткішими та конкретними, що позитивно вплинуло на якість масштабованих зображень.
Ефективність Chain-of-Zoom перевірялася за допомогою метрик NIQE та CLIPIQA на чотирьох рівнях збільшення (4×, 16×, 64×, 256×), де система стабільно перевершувала альтернативи, особливо на високих масштабах. Ще одна перевага — базова модель надвисокої роздільної здатності не потребує перенавчання, що робить Chain-of-Zoom зручним для впровадження у додатках з високими вимогами до швидкості та точності, без значних обчислювальних ресурсів.
Серед потенційних сфер використання Chain-of-Zoom — медицина (деталізовані знімки для діагностики), відеоспостереження, відновлення архівних фото, наукова візуалізація, мікроскопія та астрономія.
Однак дослідники визнають і певні ризики: після значного масштабування оригінал фотографії фактично зникає, залишаючи лише створену ШІ копію, що може бути використано для маніпулювання зображеннями або створення фейків. Як зауважують розробники:
«Високоякісна генерація на основі вхідних даних з низьким дозволом може спричинити побоювання щодо дезінформації або несанкціонованої реконструкції конфіденційних візуальних даних».
Результати дослідження були оприлюднені на сервері препринтів arXiv. Chain-of-Zoom уже привертає увагу фахівців різних галузей завдяки своїй здатності масштабувати зображення без втрати деталей та розширювати можливості аналізу візуальних даних.