Компания OpenAI интегрировала новые возможности генерации изображений непосредственно в ChatGPT – эта функция получила название «Изображение в ChatGPT». Теперь пользователи могут использовать GPT-4o для создания изображений в самом ChatGPT.
Фото: freepik.com
Эта функция фокусируется исключительно на создании изображений и будет доступна на всех уровнях подписки ChatGPT Plus, Pro, Team и Free. Как сообщила представительница компании Тая Кристиансон, лимит использования бесплатного уровня такой же, как и у DALL-E, но добавила, что они "не имеют конкретной цифры, которой можно было бы поделиться", и "она может изменяться со временем в зависимости от спроса".
"Эта модель является шагом вперед по сравнению с предыдущими моделями", - сказал руководитель исследования Габриэль Го, добавив, что команда использовала GPT-4o "омнимодальную" - или модель, которая может генерировать любые данные, такие как текст, изображение, аудио и видео - в качестве основы для этой функции.
Среди усовершенствований, отмеченных Го, — «привязка», касающаяся того, насколько хорошо ИИ-генераторы изображений поддерживают правильные взаимосвязи между атрибутами и объектами; например модель с плохой привязкой может получить запрос «синяя звезда плюс красный треугольник» и создать красную звезду без треугольника.
По словам Го, большинство моделей изображений борются с этой проблемой, часто смешивая цвета и формы, когда их просят отрендерить несколько объектов - обычно от 5 до 8. Он говорит, что этот новый инструмент генерации изображений может правильно связать атрибуты для 15-20 объектов без путаницы, что является значительным улучшением точности.
Пользователи также заметят улучшение рендеринга текста, что облегчает создание связного текста без ошибок на изображении (в существующих инструментах часто можно заметить, что текст довольно легко искажается). По словам Го, правильный рендеринг текста являлся значительным вызовом. Если небольшие заголовки или текстовые элементы содержат ошибки, все изображения могут оказаться непригодными для использования.
«Это было похоже на процесс итераций, занявший много месяцев», — сказал Го.
Он говорит, что, хоть и не безупречно, но команда достигла точки, когда качество текста стабильно пригодно для использования.
Новая система генерирует изображение длиннее, чем раньше, но OpenAI считает, что это оправданный компромисс.
«Хотя нам, безусловно, есть куда усовершенствовать задержку… качество этих изображений, возможности, знание мира действительно компенсируют дополнительные секунды, которые они потратят на ожидания», — сказала Джеки Шеннон, ведущая специалистка по мультимодальным продуктам ChatGPT.
Автор Ольга Деркач
Источник psm7.com