Generowanie obrazów przez AI

obraz-wygenerowany-ai — Obraz wygenerowany przez AI

Generowanie obrazów przez AI – technologia polegająca na wytwarzaniu różnego rodzaju obrazów, takich jak zdjęcia, rysunki, grafiki, animacje i inne, przy użyciu sztucznej inteligencji (AI).

Jednym z najpopularniejszych przykładów tej dziedziny są generatywne sieci neuronowe^[1], które używane są do tworzenia realistycznych wyników na podstawie danych wejściowych. Sieci te składają się z kilku warstw neuronów, które uczą się na podstawie dużych zbiorów istniejących obrazów. Po zakończonym etapie uczenia, sieć jest w stanie wygenerować nowe, realistyczne obrazy.

Proces generowania może polegać na tworzeniu obrazów od podstaw lub poprzez modyfikacje istniejących utworów poprzez zastosowanie efektów lub zmian stylistycznych. Możliwe jest skopiowanie stylu malarskiego konkretnego artysty i przeniesienie go na inne zdjęcie lub obraz. Można więc tworzyć obrazy w różnych stylach lub gatunkach, takich jak realistyczne, abstrakcyjne, komiksowe itp.

Niektóre z korzyści z wykorzystania generowania obrazów przez AI to oszczędność czasu i pieniędzy, ponieważ sieci neuronowe mogą generować obrazy szybciej niż ręczne tworzenie ich przez ludzi. Może to również pozwolić na tworzenie obrazów o wysokiej jakości, które byłyby trudne do osiągnięcia ręcznie. W przypadku sztuki generatywnej, AI może również otworzyć nowe możliwości twórcze dla artystów, pozwalając im na tworzenie nowych form i stylów.

Generowanie obrazów za pomocą AI może być również wykorzystywane do tworzenia sztucznych treści, takich jak fałszywe zdjęcia lub filmy, co stanowi poważne zagrożenie dla prawdy i integralności informacji.

Stable Diffusion[edytuj | edytuj kod]

Stable Diffusion to głęboko uczący się model dyfuzji utajonej (ang. latent diffusion) realizujący zamianę tekstu na obraz. Model ten został wydany w sierpniu 2022 roku. Służy do generowania szczegółowych obrazów uwarunkowanych opisami tekstowymi, chociaż można go również zastosować do innych zadań, jak np. przemalowywanie części obrazu, lub domalowywanie obrazu poza jego obręb, zachowując styl i motyw utworu^[2].

W odróżnieniu od innych modeli takich jak DALL-E, Caiyon, Latittude Voyage czy Midjourney, Stable Diffusion jest modelem otwartoźródłowym i nie nakłada ograniczeń na obrazy, jakie z jego pomocą można wygenerować.

We wrześniu 2022, Stability AI, główna firma odpowiedzialna za Stable Diffusion, pozyskała dofinansowanie w kwocie 101 milionów dolarów na dalszy rozwój^[3].

W oparciu o Stable Diffusion powstało wiele aplikacji webowych, które do wytrenowanych przez Stability AI modeli dodały własny User Interface, ułatwiając w ten sposób generowanie obrazków osobom mniej technicznym. Firmy te często tworzą również własne modele w oparciu o te udostępnione przez Stability AI. Warto w tym miejscu zaznaczyć, że wśród tych firm znajduje się polski startup - getimg.ai, który nie pozyskując finansowania zewnętrznego z powodzeniem konkuruje z firmami z całego świata.

Fotorealistyczne obrazy[edytuj | edytuj kod]

W grudniu 2022 roku, firma Lexica stworzyła model który pozwala generować fotorealistyczne obrazy, za pomocą techniki text-to-image. Model opracowany przez Lexica znacznie wierniej oddaje ludzkie twarze, wciąż jednak nie jest doskonały, co widać głównie na dłoniach oraz innych szczegółach wygenerowanych zdjęć.

Tworzenie obrazów ze swoich zdjęć[edytuj | edytuj kod]

Grupa badawcza z Boston University oraz zespół z Google, opracowali technikę^[4], dzięki której można dotrenować Stable Diffusion, używając własnych zdjęć. Taka personalizacja spowodowała popularyzację tematyki sztuki generatywnej poprzez powstały w mediach społecznościowych trend, polegający na generowaniu zdjęć profilowych, ze swoich zdjęć. Największym rozwiązaniem dostępnym jako aplikacja na telefon jest Lensa AI^[5].

Generowanie obrazów przez AI – wyzwania[edytuj | edytuj kod]

Obraz wygenerowany przez AI na podstawie zdjęć użytkownika

Dziedzina generatywna to stosunkowo młody temat i stoją przed nim wyzwania nie tylko technologiczne, ale też etyczne.

Etyka stosowania algorytmów sztucznej inteligencji: algorytmy sztucznej inteligencji są często uczone na podstawie dużych zbiorów danych, co może prowadzić do pytań dotyczących etyki ich stosowania. Dane, na podstawie których są uczone algorytmy, nie muszą być reprezentatywne dla całej ludzkości.
Etyka uczenia algorytmów AI poprzez udostępnianie zbiorów danych, których twórcy nie wyrazili na to zgody. Twórcy którzy przez lata wypracowywali swój warsztat, styl, klientów, coraz częściej zgłaszają, że widzą dzieła bardzo podobne do swoich, czasem nawet z ich podpisami rozmazanymi na etapie generowania nowego utworu przez AI^[6].
Autentyczność – dzieła sztuki generowane przez algorytmy sztucznej inteligencji nie są prawdziwymi dziełami, ponieważ są one tworzone przez maszyny, a nie przez ludzi. To prowadzi do pytania, co można uznać za autentyczne dzieło sztuki i czy sztuka generatywna jest w stanie stworzyć takie dzieła.
Ograniczenia kreatywności – algorytmy sztucznej inteligencji mogą być używane do tworzenia dzieł sztuki, ale ich kreatywność jest ograniczona przez to, co zostało im podane do nauczenia. To prowadzi do pytania, czy sztuka generatywna jest w stanie tworzyć dzieła, które są rzeczywiście nowe i oryginalne, czy też jest ona ograniczona przez to, co zostało już zaprogramowane.
Ochrona praw autorskich: Sztuka generatywna może prowadzić do pytań dotyczących tego, kto jest autorem dzieła sztuki generowanego przez algorytm sztucznej inteligencji. Czy autorem jest twórca algorytmu, czy też osoba, która go używa? Czy można przypisać autorstwo dziełu sztuki generowanemu przez algorytm?

Przypisy[edytuj | edytuj kod]

↑ TeroT. Karras TeroT., SamuliS. Laine SamuliS., TimoT. Aila TimoT., A Style-Based Generator Architecture for Generative Adversarial Networks, „arXiv:1812.04948 [cs, stat]”, 29 marca 2019, arXiv:1812.04948 [dostęp 2022-12-17] .
↑ Stable Diffusion Launch Announcement. Stability AI. [dostęp 2022-12-17]. (ang.).
↑ Kyle Wiggers: Stability AI, the startup behind Stable Diffusion, raises $101M. TechCrunch, 2022-10-17. [dostęp 2022-12-17]. (ang.).
↑ NatanielN. Ruiz NatanielN. i inni, DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation, „arXiv:2208.12242 [cs]”, 25 sierpnia 2022, arXiv:2208.12242 [dostęp 2022-12-17] .
↑ Zrobiłeś sobie „magiczny awatar” w tej apce? Nie rób tego więcej, bo są z tym same problemy [online], naTemat.pl [dostęp 2022-12-17] (pol.).
↑ Rachel Metz: These artists found out their work was used to train AI. Now they’re furious. CNN, 2022-10-21. [dostęp 2022-12-17]. (ang.).

[1] TeroT. Karras TeroT., SamuliS. Laine SamuliS., TimoT. Aila TimoT., A Style-Based Generator Architecture for Generative Adversarial Networks, „arXiv:1812.04948 [cs, stat]”, 29 marca 2019, arXiv:1812.04948 [dostęp 2022-12-17] .

[2] Stable Diffusion Launch Announcement. Stability AI. [dostęp 2022-12-17]. (ang.).

[3] Kyle Wiggers: Stability AI, the startup behind Stable Diffusion, raises $101M. TechCrunch, 2022-10-17. [dostęp 2022-12-17]. (ang.).

[4] NatanielN. Ruiz NatanielN. i inni, DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation, „arXiv:2208.12242 [cs]”, 25 sierpnia 2022, arXiv:2208.12242 [dostęp 2022-12-17] .

[5] Zrobiłeś sobie „magiczny awatar” w tej apce? Nie rób tego więcej, bo są z tym same problemy [online], naTemat.pl [dostęp 2022-12-17] (pol.).

[6] Rachel Metz: These artists found out their work was used to train AI. Now they’re furious. CNN, 2022-10-21. [dostęp 2022-12-17]. (ang.).

[1]

[2]

[3]

[4]

[5]

[6]