OpenAI анонсувала значне покращення генерації зображень у ChatGPT-4o. Тепер, замість окремої моделі, як DALL·E, новий удосконалений генератор зображень є частиною GPT-4o.
Про це розповідає ProIT
На ринку присутня безліч моделей штучного інтелекту, які забезпечують вражаючі візуальні сцени, але вони зазвичай стикаються з труднощами у відображенні тексту, логотипів та інших елементів, що часто зустрічаються в повсякденному житті. OpenAI стверджує, що нова генерація зображень у GPT-4o успішно вирішує ці проблеми. Вона здатна точно відтворювати текст і краще виконувати інструкції завдяки своїй базі знань та контексту чату.
«Крім того, модель дозволяє редагувати завантажені зображення або створювати нові, використовуючи завантажене зображення як візуальне натхнення».
Доступність та нові функції
Оновлений генератор зображень у GPT-4o вже починає розгортатися для всіх користувачів ChatGPT Plus, Pro, Team та Free. Оскільки ця модель стане стандартною для генерації зображень у ChatGPT, користувачам більше не потрібно буде вибирати її вручну перед введенням запиту.
Користувачі можуть налаштовувати зображення, вказуючи співвідношення сторін, точні кольори (HEX-коди) або навіть прозорий фон. У найближчі тижні новий генератор з’явиться також для користувачів ChatGPT Enterprise та Edu.
Нова модель також може бути використана в Sora для створення зображень або через спеціальний DALL·E GPT. Для розробників підтримка генерації зображень через API GPT-4o з’явиться найближчими тижнями.
Обмеження моделі
Попри численні покращення, у моделі залишаються певні обмеження:
- Час генерації: через підвищену деталізацію створення зображення може займати до однієї хвилини.
- Кадрування: довгі зображення, наприклад постери, можуть обрізатися надто щільно, особливо в нижній частині.
- Вигадування деталей: у запитах з недостатньою контекстною інформацією модель може «домислювати» деталі.
- Обмеження знань: при створенні складних концепцій модель може неточно відтворювати більше ніж 10-20 об’єктів одночасно.
- Труднощі з нелатинськими мовами: символи можуть відображатися некоректно або спотворюватися.
- Редагування частин зображення: виправлення окремих деталей (наприклад, орфографічних помилок) не завжди працює без побічних змін у зображенні.
- Проблеми з деталізацією на малих розмірах: модель може некоректно відображати дрібні деталі.
OpenAI планує працювати над усуненням цих обмежень у найближчі тижні та місяці. Усі зображення, створені за допомогою цього генератора, міститимуть C2PA-метадані, а внутрішній інструмент OpenAI зможе перевіряти їхнє походження.
Незважаючи на деякі обмеження, новий генератор зображень у GPT-4o значно покращує точність і гнучкість створення зображень. OpenAI обіцяє подальші вдосконалення, тому користувачів очікує ще якісніший та зручніший інструмент для роботи із зображеннями.
Нещодавно OpenAI запустила GPT-4.5, але з обмеженим доступом – через проблеми з наявністю GPU.