Южнокорейские ученые разработали инновационный инструмент Chain-of-Zoom, который использует искусственный интеллект для пошагового увеличения изображений с низким разрешением до 256 раз, обеспечивая при этом сохранение реалистичной детализации.
Об этом сообщает ProIT
Особенности и принцип работы Chain-of-Zoom
Исследователи из KAIST AI под руководством Кима Джечула сосредоточились на решении проблемы масштабирования фото с минимальной потерей качества. Традиционные модели для улучшения разрешения изображений обычно угадывают отсутствующие детали, однако их эффективность существенно снижается при значительном увеличении масштаба. Как объясняют разработчики:
«Современные модели великолепны относительно масштабных коэффициентов, на которых они были обучены, но терпят неудачу, когда их просят увеличить изображение, выходящее за этот диапазон».
Chain-of-Zoom решает эту задачу поэтапно: система не пытается сразу увеличить изображение в 256 раз, а применяет серию шагов масштабирования. На каждом этапе ИИ использует модель сверхвысокого разрешения, в частности диффузионную модель, чтобы уточнять детали на основе предыдущего результата. Вспомогательную роль играет модель Vision-Language, которая генерирует языковые подсказки, такие как «жилки листа», «текстура меха», «кирпичная стена» — они направляют дальнейшую детализацию изображения.
Обучение и практическое применение технологии
Чтобы повысить качество подсказок, разработчики применили обучение с подкреплением и обратной связью от человека. Система получала оценки от человека-критика, штрафовалась за некорректные фразы, а специальный фильтр отсеивал повторы. В результате подсказки становились все более четкими и конкретными, что положительно сказалось на качестве масштабируемых изображений.
Эффективность Chain-of-Zoom проверялась с помощью метрик NIQE и CLIPIQA на четырех уровнях увеличения (4×, 16×, 64×, 256×), где система стабильно превосходила альтернативы, особенно на высоких масштабах. Еще одно преимущество — базовая модель сверхвысокого разрешения не требует дообучения, что делает Chain-of-Zoom удобным для внедрения в приложениях с высокими требованиями к скорости и точности, без значительных вычислительных ресурсов.
Среди потенциальных сфер использования Chain-of-Zoom — медицина (детализированные снимки для диагностики), видеонаблюдение, восстановление архивных фото, научная визуализация, микроскопия и астрономия.
Однако исследователи признают и определенные риски: после значительного масштабирования оригинал фотографии фактически исчезает, оставляя лишь созданную ИИ копию, что может быть использовано для манипуляции изображениями или создания фейков. Как отмечают разработчики:
«Высококачественная генерация на основе входных данных с низким разрешением может вызвать опасения по поводу дезинформации или несанкционированной реконструкции конфиденциальных визуальных данных».
Результаты исследования были опубликованы на сервере препринтов arXiv. Chain-of-Zoom уже привлекает внимание специалистов различных областей благодаря своей способности масштабировать изображения без потери деталей и расширять возможности анализа визуальных данных.