Google представила значительное обновление для своего чат-бота Gemini – новую AI-модель обработки изображений под названием Gemini 2.5 Flash Image, которая предоставляет пользователям значительно больше возможностей для точного редактирования фотографий. Это нововведение позволяет Google лучше конкурировать с OpenAI, которая уже успела завоевать популярность среди пользователей благодаря своим инструментам редактирования изображений в ChatGPT.
Об этом сообщает ProIT
Детальные возможности и технологические преимущества нового генератора
Обновленная модель искусственного интеллекта Gemini от Google позволяет выполнять сложные редактирования изображений с помощью естественного языка, при этом сохраняя целостность лиц, животных и важных деталей на фото. Это выделяет её среди конкурентов: аналогичные инструменты часто искажают изображения во время редактирования, например, изменяя фон или лицо при изменении цвета одежды.
Gemini 2.5 Flash Image уже доступна всем пользователям в приложении Gemini, а также разработчикам через API Gemini, Google AI Studio и платформу Vertex AI. Пользователи социальных сетей отметили уникальность редактора еще до официального релиза, тестируя его под псевдонимом “nano-banana” на краудсорсинговой платформе LMArena.
«Мы действительно делаем большой шаг вперед в качестве визуализации, а также в способности модели точно выполнять инструкции», – рассказала Николь Бріхтова, менеджер продукта по визуальным генеративным моделям Google DeepMind.
По словам Google, их новая модель является одной из самых мощных на LMArena и других рейтингах. На графиках производительности Gemini 2.5 Flash Image стабильно опережает конкурентов, обеспечивая высокий уровень реалистичности и точности результатов.
Конкуренция на рынке и защита от злоупотреблений
Сфера генеративных AI-моделей для изображений стала основным полем для соревнования ведущих технологических компаний. Выход GPT-4o от OpenAI со своим встроенным генератором изображений в марте значительно увеличил популярность ChatGPT. На этом фоне Meta на прошлой неделе объявила о лицензировании моделей Midjourney, а немецкий стартап Black Forest Labs продолжает удерживать лидерство в бенчмарках благодаря своим моделям FLUX.
В настоящее время Gemini от Google имеет 450 миллионов ежемесячных пользователей, тогда как у ChatGPT этот показатель превышает 700 миллионов активных на неделю. Новый редактор изображений может помочь Google сократить отставание от лидера рынка.
Модель Gemini 2.5 Flash Image разработана с учетом повседневных потребностей пользователей, в частности для визуализации дизайна дома или сада. Она также способна объединять несколько различных изображений или референсов в одном запросе, например, сочетать фото дивана, комнаты и палитру цветов в единую композицию. Кроме того, пользователи могут вести «многоходовые» диалоги с AI, уточняя пожелания по редактированию в реальном времени.
С целью предотвращения злоупотреблений Google внедрила ряд ограничений на создание нежелательного или неэтичного контента. Компания уже имела опыт с проблемными изображениями, поэтому в настоящее время действует четкая политика: генерация «неконсенсуальных интимных изображений» запрещена. Для борьбы с дипфейками Google маркирует сгенерированные AI-изображения водяными знаками и специальными идентификаторами в метаданных, хотя компания признает, что это не всегда заметно для рядового пользователя в соцсетях.