Google udostępniło bezpłatnie zaawansowany generator obrazów Imagen 3. Korporacja zapewnia, że narzędzie to cechuje wysoki stopień fotorealizmu.
Imagen 3, wprowadzony po raz pierwszy podczas konferencji Google I/O, jest najnowszą wersją modelu AI, który generuje obrazy na podstawie opisów tekstowych. Wcześniej dostępny wyłącznie dla użytkowników płatnych wersji Gemini Advanced, od października 2024 roku każdy może korzystać z tej technologii w darmowej wersji chatbota Gemini.
Fotorealizm na wyższym poziomie
Jednym z kluczowych elementów, który wyróżnia Imagen 3, jest wysoki stopień fotorealizmu. „Imagen 3 to nasz najwyższej jakości model przetwarzania tekstu na obraz, zdolny do generowania obrazów o jeszcze lepszej szczegółowości, bogatszym oświetleniu i mniejszej liczbie rozpraszających artefaktów niż nasze poprzednie modele.” – czytamy na stronie Google DeepMind. Jest to szczególnie ważne w przypadku obrazów ludzi, gdzie sztuczna inteligencja często miała problemy z odtworzeniem detali, takich jak mimika czy proporcje twarzy.
Przewaga technologiczna
Według Googla Imagen 3 wyróżnia się także możliwością generowania obrazów w rozdzielczości 2048×2048 pikseli. Daje mu to przewagę nad konkurencją, która często oferuje obrazy o maksymalnej rozdzielczości 1024×1024. Z tego względu wygenerowane obrazy Google mogą znaleźć zastosowanie w projektach kreatywnych, reklamach czy ilustracjach. Dodatkowo, Imagen 3 ma doskonale sobie radzić z generowaniem tekstu na obrazach, co można wykorzystać do tworzenia grafik promocyjnych, kartek okolicznościowych czy banerów.
Jednym z ograniczeń, które może nie przypaść do gustu wszystkim użytkownikom, jest to, że dla każdego opisu (tzw. promptu) generowany jest tylko jeden obraz. W przeciwieństwie do DALL-E 3 czy Midjourney, które oferują kilka wariantów do wyboru, Imagen 3 daje jedno, ostateczne rozwiązanie. Z jednej strony może to przyspieszyć proces twórczy, z drugiej ogranicza elastyczność w eksperymentowaniu z różnymi wersjami tego samego promptu.
Dostępność dla polskich użytkowników
Dużym atutem Imagen 3 jest obsługa języka polskiego. Wcześniej generator działał jedynie z poleceniami wpisywanymi w języku angielskim, co mogło stanowić przeszkodę w tworzeniu. Teraz, korzystając z chatbota Gemini, można kreować grafiki na podstawie opisów w języku polskim.
Imagen 3, mimo swojego imponującego potencjału, rodzi również pewne wyzwania. W miarę jak AI staje się coraz bardziej zaawansowane, zwiększa się ryzyko nadużyć związanych z generowaniem realistycznych obrazów. Google deklaruje, że pracuje nad rozwiązaniami, które pomogą w identyfikacji grafik stworzonych przez sztuczną inteligencję. Jednym z nich ma być funkcja w Zdjęciach Google, która pozwoli na rozpoznawanie obrazów wygenerowanych przez AI, choć na razie nie ujawniono wielu szczegółów na jej temat.