DALL-E vs. ChatGPT-4o — generowanie obrazów

Od kilku lat dzięki rozwijającym się modelom sztucznej inteligencji mamy możliwość prostego generowania obrazów i zdjęć. Efekty są przeróżne w zależności od użytego narzędzia, a przede wszystkim tematyki.

Jednym z popularnych modeli, opracowanym przez firmę OpenAI, jest DALL-E, obecnie w wersji 3. W ostatnim czasie firma udostępniła kolejną bardzo ciekawą funkcję dającą możliwość generowania obrazów przy użyciu modelu ChatGPT-4o, który znacząco lepiej radzi sobie ze skomplikowanymi zapytaniami oraz generowaniem złożonych obrazów.

Z mojego doświadczenia wynika, że dużo lepiej oddaje to co autor miał na myśli i uwzględnia najdrobniejsze szczegóły podane w zapytaniu.
Spójrzmy teraz na kilka poniższych przykładów.

Na początek zdjęcia starszego człowieka czytającego książkę. Zwróćcie uwagę, że ChatGPT-4o poprawnie generuje tekst na okładce, w przeciwieństwie do swojego poprzednika. Jest to niewątpliwy przełom, ponieważ jak dotąd żaden z modeli nie radził sobie z tym zadaniem.

Obraz starszego człowieka generowany przez DALL-E oraz ChatGPT-4o

Spójrzmy teraz na drawniany dom o zachodzie słońca. Oba obrazy wydają się interesujące, ale to ChatGPT-4o generuje ciekawszą kompozycję przypominającą obraz malowany farbą olejną.

Obraz drewnianego domu generowany przez DALL-E oraz ChatGPT-4o

A na koniec jeszcze coś w stylu kreskówkowym, rysunek stołu warsztatowego. DALL-E nie poradził sobie zupełnie i wygenerował jakiś kolorowy, przejaskrawiony, wręcz surrealistyczny chaos. ChatGPT-4o pomimo drobnych niedociągnięć stworzył obraz, który jest całkiem przyjemny w odbiorze.

Obraz stołu warsztatowego generowany przez DALL-E oraz ChatGPT-4o

Niewątpliwie nowe narzędzie od OpenAI, to wielki przełom w dziedzinie generowania obrazów na podstawie prostych zapytań tekstowych.

Zobacz także