Tipy

Jak umělá inteligence vytváří 3D fotky a stereoskopické obrazy

Složení 3D obrazu v 3DJournal DX, původní obr.: GetImg.ai
Složení 3D obrazu v 3DJournal DX, původní obr.: GetImg.ai

Generování obrázků prostřednictvím některé z mnoha umělých inteligencí, které se v posledním roce vyrojily, je stále populárnější, a tak vás logicky napadne: Co kdybychom nám AI vytvořila stereoskopickou (3D) fotku? A od otázky už je jen krůček k zadání prvního promptu.

Sdílet:  

Hned na úvod si řekněme dvě věci: S umělou inteligencí 3D obrazy vytvoříte. Ale nebude to zřejmě tak přímočaré, jak byste si mysleli.

Na začátku naší "3D AI" cesty jsme pátrali, jestli už někdo má nějaké pozitivní zkušenosti s 3D tvorbou prostřednictvím AI (Artificial Intelligence, umělá inteligence). Výsledek nás vlastně nepřekvapil: Různě po webu najdete dostatek anaglyphových 3D obrázků především od Midjourney, ale když si na ně vezmete modro-červené brýle, ukáže se, že prostorový efekt chybí. Umělá inteligence vytvoří obrázek s modrozelenými a červenými „duchy“, ale tak nějak jí chybí "pochopení", k čemu jsou dobré. A jak by v nich měla být zakódována prostorovost obrazu.

Jdeme testovat AI

Jsou ale i umělé inteligence, tedy, vlastně, spíše jejich autoři, kteří se chlubí, že jejich modely stereoskopii zvládají. A tak jsme našli Civit.AI. Při prvním testu jsme ponechali velkou část jejich standardního promptu a napjatě očekávali výsledek.

Prompt: lora:lora3DAnaglyphImage_lora3DLight:1 colorful, highly detailed beautiful girl in forest, sharp focus, 2k, 4k, 8k, hdr, highres, absurdres, best quality, sharp, smooth, cinematic lighting, detailed background, extremely detailed, powerful impression, hyperdetailed, hyperrealistic, CG, unity, polished, high-definition

Negative prompt: bad-hands-5bad_prompt_version2By bad artist-neg verybadimagenegative_v1.1-6400Unspeakable-Horrors-Composition-4vEasyNegative

Vypadly na nás první obrázky (jeden z nich můžete vidět níže) a my jsme samozřejmě experimentovali dál.

Jeden z prvních výsledků tvorby anaglyphu v Civitai.ai

Jeden z prvních výsledků tvorby anaglyphu v Civitai.ai

Napodruhé jsme třeba použili zjednodušený prompt:

lora:lora3DAnaglyphImage_lora3DLight:1 colorful, highly detailed beautiful girl in a modern city, sharp focus, 2k, 4k, 8k, hdr, best quality, sharp, smooth, cinematic lighting, detailed background, extremely detailed, powerful impression, high-definition

Negative prompt: bad-hands, By bad artist

A další testy, další pokusy. Máme nějak shrnout výsledek? Inu: Vypadá to jako anaglyph, ale 3D efekt v brýlích příliš nepozorujeme. Nebo, snad, možná, trochu. Je tu přání otcem myšlenky? Slib, že tahle AI zvládne stereoskopické obrazy, se zdá být spíše planý.

Zeptáme se na 3D Bingu

Pojďme tedy zkusit Bing. Ten od nás dostal dotaz: Uměl bys nakreslit stereoskopický obrázek? (Zadáváme ho ale raději anglicky: Hello, can you paint a stereoscopic image?) Odpovídá, že to zkusí. A výsledek?

Po pravdě - poněkud zmatečný: Použitý systém AI Dall-E totiž vygeneroval obrázky rozpůlené - jako by zvlášť pro levé a zvlášť pro pravé oko; současně je ale každý z nich anaglyph, tedy obrázek, který už je určený pro obě oči. Zajímavé je, že jeho anaglyphy po prohlédnutí blankytně-červenými (nebo modro-červenými) brýlemi skutečně působí, jako by měly nějakou hloubku.

Trochu zmatený pokus o 3D obraz od Bingu.

Trochu zmatený pokus o 3D obraz od Bingu.

Navnaděni částečným úspěchem to zkoušíme trochu jinak: Hello, please, paint an anaglyph where is a nice young girl in the foreground and a forest in background. (Dobrý den, prosím, namalujte anaglyf, kde je v popředí pěkná mladá dívka a v pozadí les.)

Tentokrát nám Bing překvapivě nabídl jen tři obrázky - a i když na první pohled vypadají jako anaglyphy, ve skutečnosti na nich 3D efekt po nasazení brýlí vidět není. I tady tedy umělá inteligence sice napodobuje anaglyph, ale "nechápe" (ano, to možná není úplně to správné slovo) jejich princip.

Protože šla Bingu v pokusu číslo jedna lépe architektura, zkusíme jiné zadání: Hello, please, paint an anaglyph of a huge modern city of the future. (Zdar, namaluj prosím anaglyf obrovského moderního města budoucnosti.) Výsledek je podobný jako při druhém pokusu.

Tak co to zkusit jinak? Hello, please, try to paint paint an stereoscopic image, but NOT anaglyph. (Zdar, prosím, zkus namalovat stereoskopický obraz, ale NE anaglyf.) V tomto případě vypadá obrázek slibně: Dostáváme vždy obrázek rozdělený na dvě půlky, jednu pro levé oko, jednu pro pravé. A zdá se, že jsou na nich předměty posunuté, takže by to mohlo fungovat. Při testu prostorovosti se ale i tentokrát ukazuje, že jde zase jen o simulaci - a ve skutečnosti nejde o 3D obraz.

Poslední pokus: Try, please, to create a stereoscopic - 3D - anaglyph image, but NOT splitted vertically in the center. (Pokus se, prosím, vytvořit stereoskopický - 3D - anaglyfický obraz, ale NE vertikálně rozdělený uprostřed.) Vytvoří tentokrát konečně anaglyph, na kterém bude správný stereoskopický efekt, ale který nebude současně uprostřed rozdělený na dvě půlky? Bude tam nějaký 3D efekt?

Kdybychom se hodně snažili 3D efekt vidět, snad bychom tam nějaký náznak spatřili. Ale i tady je spíše přání otcem myšlenky.

Další pokus o anaglyph od Bingu

Další pokus o anaglyph od Bingu

Zkoušíme vysvětlovat

Pojďme to zkusit ještě jinak. Budeme AI Bingu vysvětlovat, co přesně chceme:

„Děkuji za tvou snahu vytvořit stereoskopický anaglyph. Řeknu ti upřímně, že výsledky nejsou moc dobré. Zkusme to znovu - a já ti vysvětlím, jak by měl výsledek fungovat. Tentokrát, prosím, nakresli anaglyph, kde daleko v pozadí je poušť s oázou. Protože jsou od pozorovatele daleko, modrá, zelená a červená složka tohoto obrazu jsou na stejném místě. Vpředu je letící helikoptéra. Protože je u pozorovatele blízko a on ji musí vnímat jako blízkou při použití cyan-red brýlí, musí být červená složka obrazu helikoptéry o trochu více vlevo než modrá a zelená složka jejího obrazu. Zvládneš to takto nakreslit?“

(Thank you for your efforts to create a stereoscopic anaglyph. I'll be honest with you, the results aren't very good. Let's try again - and I'll explain how the result should work. This time, please draw an anaglyph where far in the background is a desert with an oasis. Because they are far away from the observer, the blue, green and red components of this image are in the same place. In the foreground is a helicopter flying. Because it is close to the observer and he must perceive it as close when using cyan-red glasses, the red component of the helicopter's image must be slightly further to the left than the blue and green components of its image. Can you draw it like that?)

Ano, je to trochu naivní snaha, ale co kdyby... Je možné, že by jazykový model Chat GPT, který je používán Bingem, dokázal dát modelu Dall-E, který kreslí obrázky, takové instrukce, aby opravdu vytvořil použitelný anaglyph? Odpověď už známe: Krátce a stručně – ne.

Jak vytvořit anaglyph s umělou inteligencí

Zdá se, že zatím jedinou spolehlivou cestou, je rozložit úkol do tří kroků. Prvním z nich je klasické vytvoření obrázku. Zadáte tedy jakýkoli prompt, díky němuž umělá inteligence – a je vlastně asi celkem jedno, která to bude – nakreslí zdařilý obraz.

Druhým krokem je pomocí jiné umělé inteligence vytvořit mapu hloubky obrazu, tedy černobílý obraz, v němž jas jednotlivých oblastí ukazuje, jak daleko jsou od pozorovatele. Takovou umělou inteligencí je třeba MiDaS a můžete ji online využít na této stránce.

A třetím krokem je použití původního obrázku a mapy hloubky k vytvoření stereoskopického (3D) obrazu. Použít můžete třeba náš software 3DJournal DX, který si zdarma stáhnete v sekci software (odkaz nahoře v menu).

Obrázek vytvořený výše uvedeným postupem. Původní obr.: GetImg.ai

Obrázek vytvořený výše uvedeným postupem. Původní obr.: GetImg.ai

Naši galerii s takto vytvořenými obrazy pak najdete tady. Za pozornost určitě stojí, že zatímco ve formátu anaglyph lze chyby celkem přehlédnout, pokud použijete brýle pro virtuální realitu, je jasně patrné, že převod do 3D je nedokonalý. Snad se to bude s novými verzemi zlepšovat.

A my se těšíme, že třeba už za pár týdnů nebo měsíců zvládne některá umělá inteligence tvoru stereoskopických fotek sama. Vždyť by jí vlastně stačilo propojit to, co už různé AI umějí, dohromady. Anebo třeba někdo z nás objeví ten správný trik, jak k tomu přimět už ty současné AI :).

3DJournal, leden 2024
Sdílet: