Інноваційний інструмент Chain-of-Zoom для масштабування фото

Південнокорейські вчені розробили інноваційний інструмент Chain-of-Zoom, який використовує штучний інтелект для покрокового збільшення зображень із низькою роздільною здатністю до 256 разів, забезпечуючи при цьому збереження реалістичної деталізації.

Про це розповідає ProIT

Особливості та принцип роботи Chain-of-Zoom

Дослідники з KAIST AI під керівництвом Кіма Джечула сфокусувалися на вирішенні проблеми масштабування фото з мінімальною втратою якості. Традиційні моделі для покращення роздільної здатності зображень зазвичай вгадують відсутні деталі, однак їх ефективність суттєво знижується при значному збільшенні масштабу. Як пояснюють розробники:

«Сучасні моделі чудові відносно масштабних коефіцієнтів, на яких вони були навчені, але зазнають невдачі, коли їх просять збільшити зображення, що виходить за цей діапазон».

Chain-of-Zoom вирішує це завдання поетапно: система не намагається одразу збільшити зображення у 256 разів, а застосовує серію кроків масштабування. На кожному етапі ШІ використовує модель надвисокої роздільної здатності, зокрема дифузійну модель, щоб уточнювати деталі на основі попереднього результату. Допоміжну роль відіграє Vision-Language модель, яка генерує мовні підказки на кшталт «прожилки листа», «текстура хутра», «цегляна стіна» — вони спрямовують подальшу деталізацію зображення.

Навчання і практичне застосування технології

Щоб підвищити якість підказок, розробники застосували навчання з підкріпленням і зворотнім зв’язком від людини. Система отримувала оцінки від людини-критика, штрафувалася за некоректні фрази, а спеціальний фільтр відсіював повтори. У результаті підказки ставали дедалі чіткішими та конкретними, що позитивно вплинуло на якість масштабованих зображень.

Ефективність Chain-of-Zoom перевірялася за допомогою метрик NIQE та CLIPIQA на чотирьох рівнях збільшення (4×, 16×, 64×, 256×), де система стабільно перевершувала альтернативи, особливо на високих масштабах. Ще одна перевага — базова модель надвисокої роздільної здатності не потребує перенавчання, що робить Chain-of-Zoom зручним для впровадження у додатках з високими вимогами до швидкості та точності, без значних обчислювальних ресурсів.

Серед потенційних сфер використання Chain-of-Zoom — медицина (деталізовані знімки для діагностики), відеоспостереження, відновлення архівних фото, наукова візуалізація, мікроскопія та астрономія.

Однак дослідники визнають і певні ризики: після значного масштабування оригінал фотографії фактично зникає, залишаючи лише створену ШІ копію, що може бути використано для маніпулювання зображеннями або створення фейків. Як зауважують розробники:

«Високоякісна генерація на основі вхідних даних з низьким дозволом може спричинити побоювання щодо дезінформації або несанкціонованої реконструкції конфіденційних візуальних даних».

Результати дослідження були оприлюднені на сервері препринтів arXiv. Chain-of-Zoom уже привертає увагу фахівців різних галузей завдяки своїй здатності масштабувати зображення без втрати деталей та розширювати можливості аналізу візуальних даних.