Page cover image

Midjourney - czym jest i jak działa?

Midjourney (albo MJ jak skrótowo będę go określał) jest narzędziem wykorzystującym generatywną sztuczną inteligencją (generative AI) do tworzenia obrazów na bazie słów (text-to-image)

Trzeba niestety poznać trochę specjalistycznych wyrażeń i definicji żeby dokładnie zrozumieć z czym mamy do czynienia i jak możemy wykorzystać taki generator grafik AI jakim jest Midjourney.

Czym jest Midjourney?

Midjourney w dużym skrócie to generator obrazów, który wykorzystuje kombinację dużych modeli językowych (LLM - Large Language Model), Machine Learning (ML) i dyfuzyjne do tworzenia unikalnych obrazów na podstawie podpowiedzi tekstowych zwanych promptami (czyli komendy tekstowe w stylu "stwórz biały kwiat na łące").

MJ korzysta z danych (w tym wypadku miliardów obrazów) na podstawie których algorytm nauczył się styli oraz "rozumie" prompty w których użytkownicy opisują lokacje, ubiór danej osoby czy kolory.

Duży model językowy pomaga zrozumieć znaczenie podpowiedzi i przekształca je w wektory liczbowe. Wektory te kierują procesem dyfuzji, w którym losowy szum jest stopniowo dodawany i odwracany w celu wygenerowania wysokiej jakości obrazów.

Modele dyfuzyjne (zwłaszcza stabilna dyfuzja) zyskały ostatnio na popularności, umożliwiając komputerom uczenie się na podstawie zestawów danych szkoleniowych i odzyskiwanie oryginalnych obrazów poprzez usuwanie szumów.

Midjourney wykorzystuje tę technikę do tworzenia grafik poprzez odszumianie losowych obrazów.

Jak w dużym skrócie działa Midjourney?

Gdy użytkownik wprowadza prompta, generator obrazu zaczyna od pola szumu wizualnego, podobnego do zakłóceń telewizyjnych (można ten proces podejrzeć w procesie tworzenia grafiki).

Szum jest stopniowo odejmowany poprzez ukrytą dyfuzję, w wyniku czego powstaje obraz reprezentujący obiekty opisane w promptach.

Ważne jest, aby pamiętać, że proces generowania obrazu za pomocą Midjourney wymaga zasobów sprzętowych i czasu (minut potrzebnych na wykonanie obliczeń na kartach graficznych).

Jak tworzyć obrazy ze słów?

Za pomocą komend (nazywanych promptami) opisujemy co algorytm ma stworzyć i dzięki różnym opcjom możemy modyfikować efekty.

W przeciwieństwie do programów do obróbki cyfrowych grafik (jak Photoshop) nie musimy znać ani uczyć się obsługiwać samego narzędzia, żeby uzyskiwać naprawdę spektakularne efekty.

Obecna wersja silnika MJ to 5.2 (wprowadzona 23 czerwca 2023), ale patrząc historycznie po tempie zmian kolejne iteracje silnika MJ będą pojawiać się często co pozwoli na szybki rozwój samego narzędzia.

Kiedy opanujesz podstawy możesz chcieć pobawić się wersjami poprzednimi silnika MJ – każda z nich ma swoje ciekawe zalety i warto je poznać na etapie zaawansowanym.

Aby nie przegapić nowych lekcji zapraszam do zostawienia tutaj swojego adresu email

Oprócz Midjourney drugim, bardzo popularnym narzędziem generatywnej AI tworzącym grafiki z tekstów jest Stable Diffusion. Niestety jego obsługa wiąże się z potrzebą dysponowania większą wiedzą programistyczną.

Last updated