Nowe możliwości generowania obrazów w ChatGPT

OpenAI wprowadza funkcję generowania obrazów bezpośrednio w ChatGPT, co pozwala użytkownikom na tworzenie grafik bez opuszczania interfejsu czatu. Nowa opcja stanowi część strategii firmy mającej na celu uczynienie narzędzi AI bardziej funkcjonalnymi i dostępnymi.

Rozwój technologii generowania obrazów

Nowa funkcja jest kontynuacją rozwoju modelu DALL·E 3, który został uruchomiony we wrześniu 2023 roku. Choć początkowo cieszył się popularnością, z czasem użytkownicy zaczęli preferować bardziej zaawansowane modele, takie jak Flux, MidJourney v6, SD 3.5, Recraft czy Reve. Teraz, zamiast oddzielnych modeli, GPT-4o samodzielnie obsługuje zarówno tekst, jak i generowanie obrazów.

Nowa jakość generowania obrazów

OpenAI twierdzi, że GPT-4o znacząco poprawia jakość wizualizacji, pozwalając na precyzyjne odwzorowanie tekstu oraz dokładniejsze interpretowanie instrukcji użytkowników. Dodatkowo model potrafi przekształcać przesłane obrazy lub wykorzystywać je jako inspirację do nowych grafik.

GPT-4o jako model wszechstronny

Włączenie funkcji generowania obrazów do GPT-4o wpisuje się w cel OpenAI, aby stworzyć model multimodalny, zdolny do obsługi wielu zadań jednocześnie. Dzięki temu możliwe jest płynne przechodzenie między tekstem, obrazami oraz innymi typami danych w jednym interfejsie.

Pokaz możliwości modelu

CEO OpenAI, Sam Altman, zaprezentował nowe funkcje modelu w specjalnym materiale wideo. Przedstawiono w nim między innymi generowanie mangi wyjaśniającej teorię względności, tworzenie spersonalizowanych kart kolekcjonerskich na podstawie zdjęć, a także monet pamiątkowych z przezroczystymi tłami.

Dokładność kosztem szybkości

Nowy model generuje obrazy znacznie wolniej niż poprzednie wersje, jednak według Altmana jakość grafik rekompensuje dłuższy czas oczekiwania. OpenAI planuje stopniowe przyspieszanie procesu w przyszłości.

Stopniowe wdrażanie nowej funkcji

Nowe rozwiązanie nie jest jeszcze dostępne dla wszystkich użytkowników. OpenAI wdraża je stopniowo, a użytkownicy mogą rozpoznać, z jakiego modelu korzystają, obserwując sposób wyświetlania obrazów – GPT-4o renderuje grafiki progresywnie, od góry do dołu.

Zastosowanie poza sztuką

Nowa funkcjonalność nie ogranicza się jedynie do tworzenia efektownych grafik. OpenAI podkreśla, że model może służyć do generowania naukowych diagramów, plakatów informacyjnych z dokładnie odwzorowanym tekstem oraz edytowania obrazów przy zachowaniu spójności ich elementów.

Bezpieczeństwo i odpowiedzialność

W celu ograniczenia nadużyć OpenAI wprowadziło mechanizmy ochronne, zapobiegające generowaniu deepfake’ów oraz nielegalnych treści. Choć obrazy nie będą zawierać widocznych znaków wodnych, zostaną oznaczone metadanymi C2PA, pozwalającymi na ich identyfikację jako grafik stworzonych przez AI.

Plany na przyszłość

OpenAI zamierza wprowadzić nową funkcjonalność do swojego API, co umożliwi deweloperom integrację technologii w ich własnych aplikacjach. Użytkownicy generujący obrazy zachowają prawo własności, pod warunkiem zgodności z regulaminem OpenAI.

Nowa wersja ChatGPT zintegrowana z generowaniem obrazów pokazuje, jak AI może rozwijać się w kierunku wszechstronnej, multimodalnej platformy. Dzięki temu użytkownicy otrzymują jeszcze więcej możliwości w jednym, spójnym środowisku.

Tags:ai, chat gpt, dall-e, modele, openai, sztuczna inteligencja

Sora bez ograniczeń dla subskrybentów OpenAI

Firmy stawiają na lokalne AI

OpenAI zastępuje DALL-E 3 generowaniem obrazów w ChatGPT