
Nowe możliwości generowania obrazów w ChatGPT
OpenAI wprowadza funkcję generowania obrazów bezpośrednio w ChatGPT, co pozwala użytkownikom na tworzenie grafik bez opuszczania interfejsu czatu. Nowa opcja stanowi część strategii firmy mającej na celu uczynienie narzędzi AI bardziej funkcjonalnymi i dostępnymi.
Rozwój technologii generowania obrazów
Nowa funkcja jest kontynuacją rozwoju modelu DALL·E 3, który został uruchomiony we wrześniu 2023 roku. Choć początkowo cieszył się popularnością, z czasem użytkownicy zaczęli preferować bardziej zaawansowane modele, takie jak Flux, MidJourney v6, SD 3.5, Recraft czy Reve. Teraz, zamiast oddzielnych modeli, GPT-4o samodzielnie obsługuje zarówno tekst, jak i generowanie obrazów.
Nowa jakość generowania obrazów
OpenAI twierdzi, że GPT-4o znacząco poprawia jakość wizualizacji, pozwalając na precyzyjne odwzorowanie tekstu oraz dokładniejsze interpretowanie instrukcji użytkowników. Dodatkowo model potrafi przekształcać przesłane obrazy lub wykorzystywać je jako inspirację do nowych grafik.
GPT-4o jako model wszechstronny
Włączenie funkcji generowania obrazów do GPT-4o wpisuje się w cel OpenAI, aby stworzyć model multimodalny, zdolny do obsługi wielu zadań jednocześnie. Dzięki temu możliwe jest płynne przechodzenie między tekstem, obrazami oraz innymi typami danych w jednym interfejsie.
Pokaz możliwości modelu
CEO OpenAI, Sam Altman, zaprezentował nowe funkcje modelu w specjalnym materiale wideo. Przedstawiono w nim między innymi generowanie mangi wyjaśniającej teorię względności, tworzenie spersonalizowanych kart kolekcjonerskich na podstawie zdjęć, a także monet pamiątkowych z przezroczystymi tłami.
Dokładność kosztem szybkości
Nowy model generuje obrazy znacznie wolniej niż poprzednie wersje, jednak według Altmana jakość grafik rekompensuje dłuższy czas oczekiwania. OpenAI planuje stopniowe przyspieszanie procesu w przyszłości.
Stopniowe wdrażanie nowej funkcji
Nowe rozwiązanie nie jest jeszcze dostępne dla wszystkich użytkowników. OpenAI wdraża je stopniowo, a użytkownicy mogą rozpoznać, z jakiego modelu korzystają, obserwując sposób wyświetlania obrazów – GPT-4o renderuje grafiki progresywnie, od góry do dołu.
Zastosowanie poza sztuką
Nowa funkcjonalność nie ogranicza się jedynie do tworzenia efektownych grafik. OpenAI podkreśla, że model może służyć do generowania naukowych diagramów, plakatów informacyjnych z dokładnie odwzorowanym tekstem oraz edytowania obrazów przy zachowaniu spójności ich elementów.
Bezpieczeństwo i odpowiedzialność
W celu ograniczenia nadużyć OpenAI wprowadziło mechanizmy ochronne, zapobiegające generowaniu deepfake’ów oraz nielegalnych treści. Choć obrazy nie będą zawierać widocznych znaków wodnych, zostaną oznaczone metadanymi C2PA, pozwalającymi na ich identyfikację jako grafik stworzonych przez AI.
Plany na przyszłość
OpenAI zamierza wprowadzić nową funkcjonalność do swojego API, co umożliwi deweloperom integrację technologii w ich własnych aplikacjach. Użytkownicy generujący obrazy zachowają prawo własności, pod warunkiem zgodności z regulaminem OpenAI.