OpenAI добавила в GPT‑4o «свой самый продвинутый» генератор изображений

Генерация изображений в GPT‑4o отличается точной визуализацией текста и выполнением промптов, отметила компания. Модель использует базу знаний и контекст из чата — картинки и текст.
Например, при генерации персонажа для видеоигры его внешний вид будет оставаться неизменным, сколько бы правок не внёс пользователь.

Источник здесь и далее: OpenAI

Модель может обрабатывать до 10-20 различных объектов в одном изображении. Она также анализирует загруженные пользователем картинки и учитывает их в будущих генерациях.

Поскольку модель создаёт «более детальные изображения», генерация занимает больше времени, часто до минуты.
OpenAI отметила, что модель не всегда работает идеально. Например, иногда она может обрезать вытянутые изображения, некорректно визуализировать что-то, если картинка предполагает большое количество объектов (например, таблицу Менделеева), или галлюцинировать при использовании не латинских букв.
Генерация изображений 4o будет доступна в Sora, а также всем пользователям ChatGPT, в том числе бесплатным. Доступ к нейросети для генерации изображений DALL-E останется через отдельный DALL-E GPT.