Компанія Stability AI анонсувала Stable Diffusion 3 — модель синтезу зображень «наступного покоління». Вона «використовує напрацювання своїх попередників, генеруючи детальні, багатопредметні зображення з покращеною якістю та точністю за текстовим описом».
Про це розповідає ProIT
Stability заявляє, що сімейство моделей Stable Diffusion 3 (яке бере текстові описи, що називаються «підказками», і перетворює їх на відповідні зображення) має від 800 мільйонів до 8 мільярдів параметрів. Цей діапазон дає змогу запускати різні версії моделі локально на різних пристроях ` від смартфонів до серверів. Кількість параметрів приблизно відповідає можливостям моделі з погляду того, скільки деталей вона може згенерувати. Більші моделі також потребують більше VRAM на графічних прискорювачах для запуску, передає ArsTechnica.
Stability створює прогресивні моделі генерації зображень ШІ з 2022 року: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo, а тепер і 3. Компанія зробила собі ім’я як більш відкрита альтернатива пропрієтарним моделям синтезу зображень, як-от DALL-E 3 від OpenAI, хоча і не без суперечок щодо використання захищених авторським правом навчальних даних, упередженість і можливість зловживань. Моделі Stable Diffusion можна запускати локально і тонко налаштовувати для зміни результатів.
Генеральний директор Stability Емад Мостак написав на X:
Тут використовується новий тип дифузійного трансформатора (подібний до Sora) у поєднанні з узгодженням потоку та іншими вдосконаленнями. Він використовує переваги трансформаторних удосконалень і може не тільки масштабуватися далі, але й приймати мультимодальні вхідні дані.
Some notes:
– This uses a new type of diffusion transformer (similar to Sora) combined with flow matching and other improvements.
– This takes advantage of transformer improvements & can not only scale further but accept multimodal inputs..
– More technical details soon— Emad (@EMostaque) February 22, 2024
Stable Diffusion 3 також використовує «узгодження потоку» (flow matching) — метод створення ШІ-моделей, які можуть генерувати зображення, навчаючись плавно переходити від випадкового шуму до структурованого зображення. Вона робить це без необхідності моделювати кожен крок процесу, натомість зосереджуючись на загальному напрямку або потоці, якому має слідувати створення зображення.
Stable Diffusion 3 не є широкодоступною, але Stability стверджує, що після завершення тестування можна буде безплатно завантажити й запустити локально.