OpenAI представила новый генератор изображений в GPT-4o для ChatGPT

|
OpenAI представила новый генератор изображений в GPT-4o для ChatGPT

OpenAI анонсировала значительное улучшение генерации изображений в ChatGPT-4o. Теперь, вместо отдельной модели, как DALL·E, новый усовершенствованный генератор изображений является частью GPT-4o.

Об этом сообщает ProIT

На рынке представлено множество моделей искусственного интеллекта, которые обеспечивают впечатляющие визуальные сцены, но они обычно сталкиваются с трудностями в отображении текста, логотипов и других элементов, которые часто встречаются в повседневной жизни. OpenAI утверждает, что новое поколение изображений в GPT-4o успешно решает эти проблемы. Оно способно точно воспроизводить текст и лучше выполнять инструкции благодаря своей базе знаний и контексту чата.

«Кроме того, модель позволяет редактировать загруженные изображения или создавать новые, используя загруженное изображение в качестве визуального вдохновения».

Доступность и новые функции

Обновленный генератор изображений в GPT-4o уже начинает разворачиваться для всех пользователей ChatGPT Plus, Pro, Team и Free. Поскольку эта модель станет стандартной для генерации изображений в ChatGPT, пользователям больше не нужно будет выбирать ее вручную перед вводом запроса.

Пользователи могут настраивать изображения, указывая соотношение сторон, точные цвета (HEX-коды) или даже прозрачный фон. В ближайшие недели новый генератор также появится для пользователей ChatGPT Enterprise и Edu.

Новая модель также может быть использована в Sora для создания изображений или через специальный DALL·E GPT. Для разработчиков поддержка генерации изображений через API GPT-4o появится в ближайшие недели.

Ограничения модели

Несмотря на многочисленные улучшения, в модели остаются определенные ограничения:

  • Время генерации: из-за повышенной детализации создание изображения может занимать до одной минуты.
  • Обрезка: длинные изображения, например постеры, могут обрезаться слишком плотно, особенно в нижней части.
  • Выдумывание деталей: в запросах с недостаточной контекстной информацией модель может «додумывать» детали.
  • Ограничения знаний: при создании сложных концепций модель может неточно воспроизводить более 10-20 объектов одновременно.
  • Трудности с нелатинскими языками: символы могут отображаться некорректно или искажаться.
  • Редактирование частей изображения: исправление отдельных деталей (например, орфографических ошибок) не всегда работает без побочных изменений в изображении.
  • Проблемы с детализацией на малых размерах: модель может некорректно отображать мелкие детали.

OpenAI планирует работать над устранением этих ограничений в ближайшие недели и месяцы. Все изображения, созданные с помощью этого генератора, будут содержать C2PA-метаданные, а внутренний инструмент OpenAI сможет проверять их происхождение.

Несмотря на некоторые ограничения, новый генератор изображений в GPT-4o значительно улучшает точность и гибкость создания изображений. OpenAI обещает дальнейшие усовершенствования, поэтому пользователей ожидает еще более качественный и удобный инструмент для работы с изображениями.

Недавно OpenAI запустила GPT-4.5, но с ограниченным доступом – из-за проблем с наличием GPU.