Google представила суттєве оновлення для свого чат-бота Gemini – нову AI-модель обробки зображень під назвою Gemini 2.5 Flash Image, яка дає користувачам значно більше можливостей для точного редагування фотографій. Це нововведення дозволяє Google краще конкурувати з OpenAI, яка вже встигла завоювати популярність серед користувачів завдяки своїм інструментам редагування зображень у ChatGPT.
Про це розповідає ProIT
Детальні можливості та технологічні переваги нового генератора
Оновлена модель штучного інтелекту Gemini від Google дозволяє виконувати складні редагування зображень за допомогою природної мови, при цьому зберігаючи цілісність облич, тварин та важливих деталей на фото. Це вирізняє її серед конкурентів: аналогічні інструменти часто спотворюють зображення під час редагування, наприклад, змінюючи фон або обличчя під час зміни кольору одягу.
Gemini 2.5 Flash Image вже доступна всім користувачам у додатку Gemini, а також розробникам через API Gemini, Google AI Studio та платформу Vertex AI. Користувачі соціальних мереж відзначили унікальність редактора ще до офіційного релізу, тестуючи його під псевдонімом “nano-banana” на краудсорсинговій платформі LMArena.
“Ми дійсно робимо великий крок уперед у якості візуалізації, а також у здатності моделі точно виконувати інструкції”, – розповіла Ніколь Бріхтова, менеджерка продукту з візуальних генеративних моделей Google DeepMind.
За словами Google, їхня нова модель є однією з найпотужніших на LMArena та інших рейтингах. На графіках продуктивності Gemini 2.5 Flash Image стабільно випереджає конкурентів, забезпечуючи високий рівень реалістичності й точності результатів.
Конкуренція на ринку та захист від зловживань
Сфера генеративних AI-моделей для зображень стала основним полем для змагання провідних технологічних компаній. Вихід GPT-4o від OpenAI зі своїм вбудованим генератором зображень у березні суттєво збільшив популярність ChatGPT. На цьому фоні Meta минулого тижня оголосила про ліцензування моделей Midjourney, а німецький стартап Black Forest Labs продовжує тримати лідерство у бенчмарках завдяки своїм моделям FLUX.
Зараз Gemini від Google має 450 мільйонів щомісячних користувачів, тоді як у ChatGPT цей показник сягає понад 700 мільйонів активних на тиждень. Новий редактор зображень може допомогти Google скоротити відрив від лідера ринку.
Модель Gemini 2.5 Flash Image розроблена з урахуванням повсякденних потреб користувачів, зокрема для візуалізації дизайну дому чи саду. Вона також здатна об’єднувати кілька різних зображень або референсів в одному запиті, наприклад, поєднувати фото дивану, кімнати та палітру кольорів у єдину композицію. Крім того, користувачі можуть вести “багатохідні” діалоги з AI, уточнюючи побажання щодо редагування у реальному часі.
З метою запобігання зловживанням Google впровадила низку обмежень на створення небажаного чи неетичного контенту. Компанія вже мала досвід із проблемними зображеннями, тож наразі діє чітка політика: генерація “неконсесуальних інтимних зображень” заборонена. Для боротьби з діпфейками Google маркує згенеровані AI-зображення водяними знаками та спеціальними ідентифікаторами у метаданих, хоча компанія визнає, що це не завжди помітно для пересічного користувача у соцмережах.