Tipps

Wie KI 3D-Fotos und stereoskopische Bilder erstellt

3D-Bildkomposition in 3DJournal DX, Originalbild: GetImg.ai
3D-Bildkomposition in 3DJournal DX, Originalbild: GetImg.ai

Die Erzeugung von Bildern durch eine der vielen künstlichen Intelligenzen, die im letzten Jahr entstanden sind, wird immer beliebter. Da liegt der Gedanke nahe: Wie wäre es, wenn wir KI ein stereoskopisches (3D-)Foto für uns erstellen ließen? Und von der Frage bis zur Eingabe der ersten Eingabeaufforderung ist es nur ein kleiner Schritt.

Teilen:  

Lassen Sie uns zwei Dinge vorwegnehmen: Mit AI (oder KI (Künstliche Intelligenz)) kann man 3D-Bilder erstellen. Aber es ist wahrscheinlich nicht so einfach, wie Sie vielleicht denken.

Zu Beginn unserer "3D-KI"-Reise haben wir gefragt, ob jemand positive Erfahrungen mit der 3D-Erstellung durch KI gemacht hat. Das Ergebnis hat uns eigentlich nicht überrascht: Man kann im Internet viele anaglyphe 3D-Bilder finden, vor allem bei Midjourney, aber wenn man eine blaue und rote Brille aufsetzt, fehlt der räumliche Effekt. Die KI erzeugt ein Bild mit blaugrünen und roten "Geistern", aber irgendwie fehlt ihr das "Verständnis" dafür, wozu sie gut sind. Und wie die Räumlichkeit des Bildes in ihnen kodiert werden sollte.

Testen wir AI

Aber es gibt auch künstliche Intelligenzen, oder besser gesagt, ihre Autoren, die sich damit brüsten, dass ihre Modelle Stereoskopie beherrschen. Und so sind wir auf Civit.AI gestoßen. In unserem ersten Test haben wir die Standard-Eingabeaufforderung nicht sehr modifiziert und waren gespannt auf das Ergebnis.

Aufforderung: lora:lora3DAnaglyphImage_lora3DLight:1 colorful, highly detailed beautiful girl in forest, sharp focus, 2k, 4k, 8k, hdr, highres, absurdres, best quality, sharp, smooth, cinematic lighting, detailed background, extremely detailed, powerful impression, hyperdetailed, hyperrealistic, CG, unity, polished, high-definition

Negative Aufforderung: bad-hands-5bad_prompt_version2By bad artist-neg verybadimagenegative_v1.1-6400Unspeakable-Horrors-Composition-4vEasyNegative

Die ersten Bilder sind entstanden (eines davon ist unten zu sehen), und natürlich haben wir weiter experimentiert.

Eines der ersten Ergebnisse der Anaglyphenerstellung in Civitai.ai

Eines der ersten Ergebnisse der Anaglyphenerstellung in Civitai.ai

Beim zweiten Mal haben wir eine vereinfachte Aufforderung verwendet:

lora:lora3DAnaglyphImage_lora3DLight:1 colorful, highly detailed beautiful girl in a modern city, sharp focus, 2k, 4k, 8k, hdr, best quality, sharp, smooth, cinematic lighting, detailed background, extremely detailed, powerful impression, high-definition

Negative Aufforderung: bad-hands, By bad artist

Und mehr Tests, mehr Experimente. Lässt sich das Ergebnis irgendwie zusammenfassen? Nun ja: Es sieht aus wie ein Anaglyphenbild, aber wir beobachten keinen großen 3D-Effekt in der Brille. Oder vielleicht doch ein wenig. Ist hier der Wunsch der Vater des Gedankens? Das Versprechen, dass diese KI mit stereoskopischen Bildern umgehen kann, wirkt eher hohl.

Lassen Sie uns Bing nach 3D fragen

Versuchen wir es also mit Bing. Er hat eine Anfrage von uns bekommen: Kannst du ein stereoskopisches Bild zeichnen? Und das Ergebnis?

In Wahrheit - ein bisschen verwirrend: Das KI-System Dall-E, das zur Erstellung des Bildes verwendet wurde, erzeugte geteilte Bilder - sozusagen getrennt für das linke und das rechte Auge; aber gleichzeitig ist jedes von ihnen ein Anaglyph, d. h. ein Bild, das bereits für beide Augen bestimmt ist. Interessanterweise scheinen seine Anaglyphen, wenn sie durch eine blau-rote (oder blau-rote) Brille betrachtet werden, tatsächlich eine gewisse Tiefe zu haben.

Ein etwas wirrer Versuch eines 3D-Bildes von Bing.

Ein etwas wirrer Versuch eines 3D-Bildes von Bing.

Ermutigt durch unseren Teilerfolg, versuchen wir es ein wenig anders: Hallo, bitte malen Sie ein Anaglyph, auf dem ein nettes junges Mädchen im Vordergrund und ein Wald im Hintergrund zu sehen ist.

Dieses Mal bot uns Bing überraschenderweise nur drei Bilder an - und obwohl sie auf den ersten Blick wie Anaglyphen aussehen, kann man den 3D-Effekt nicht wirklich sehen, wenn man die Brille aufsetzt. Auch hier ahmt die KI zwar Anaglyphen nach, aber sie "versteht" (ja, das ist vielleicht nicht ganz das richtige Wort) ihr Prinzip nicht.

Da Bing bei Experiment Nummer eins mit der Architektur besser abgeschnitten hat, versuchen wir es mit einer anderen Aufgabe: Hallo, bitte malen Sie ein Anaglyphenbild einer großen modernen Stadt der Zukunft. Kein Erfolg.

Wie wäre es also mit einem anderen Versuch? Hallo, bitte, versuchen Sie, ein stereoskopisches Bild zu malen, aber KEIN Anaglyphenbild. In diesem Fall sieht das Bild vielversprechend aus: Wir erhalten immer ein Bild, das in zwei Hälften geteilt ist, eine für das linke und eine für das rechte Auge. Und die Objekte scheinen auf beiden Seiten verschoben zu sein, also könnte es funktionieren. Aber wenn wir die Räumlichkeit testen, stellt sich heraus, dass es sich wieder nur um eine Simulation handelt - und nicht wirklich um ein 3D-Bild.

Letzter Versuch: Versuchen Sie bitte, ein stereoskopisches - 3D - Anaglyphenbild zu erstellen, aber NICHT vertikal in der Mitte geteilt. Wird Bing dieses Mal endlich ein Anaglyphenbild erzeugen, das den richtigen stereoskopischen Effekt hat, aber nicht gleichzeitig in zwei Hälften geteilt ist? Wird es einen 3D-Effekt geben?

Wenn wir uns anstrengen würden, den 3D-Effekt zu sehen, würden wir vielleicht einen Hauch davon erkennen. Aber auch hier ist der Wunsch eher der Vater des Gedankens.

Ein weiterer Anaglyphenversuch von Bing

Ein weiterer Anaglyphenversuch von Bing

Wir versuchen zu erklären

Versuchen wir es auf eine andere Art. Wir werden der KI von Bing genau erklären, was wir wollen:

"Vielen Dank für Ihre Bemühungen, ein stereoskopisches Anaglyph zu erstellen. Ich will ehrlich sein, die Ergebnisse sind nicht sehr gut. Lassen Sie es uns noch einmal versuchen - und ich erkläre Ihnen, wie das Ergebnis aussehen soll. Diesmal zeichnen Sie bitte ein Anaglyphenbild, bei dem sich weit im Hintergrund eine Wüste mit einer Oase befindet. Da sie weit vom Betrachter entfernt sind, befinden sich die blauen, grünen und roten Komponenten dieses Bildes an der gleichen Stelle. Im Vordergrund ist ein fliegender Hubschrauber zu sehen. Da er sich in der Nähe des Betrachters befindet und er ihn bei Verwendung einer Cyan-Rot-Brille als nah wahrnehmen muss, muss die rote Komponente des Hubschrauberbildes etwas weiter links liegen als die blaue und grüne Komponente seines Bildes. Kannst du das so zeichnen?

Ja, das ist ein bisschen naiv, aber was wäre, wenn... Wäre es möglich, dass das Chat-GPT-Sprachmodell, das von Bing verwendet wird, dem Dall-E-Modell, das Bilder zeichnet, die Anweisungen geben könnte, um tatsächlich ein brauchbares Anaglyph zu erzeugen? Wir kennen die Antwort bereits: Kurz gesagt: Nein.

Wie man Anaglyphen mit künstlicher Intelligenz erstellt

Der einzige zuverlässige Weg scheint bisher darin zu bestehen, die Aufgabe in drei Schritte aufzuteilen. Der erste ist die klassische Erstellung eines Bildes. Man gibt also eine beliebige Eingabeaufforderung an, die eine KI - und es ist wahrscheinlich völlig egal, welche es ist - dazu bringt, ein schönes Bild zu zeichnen.

Der zweite Schritt besteht darin, eine andere KI zu verwenden, um eine Tiefenkarte des Bildes zu erstellen, ein Schwarz-Weiß-Bild, in dem die Helligkeit jedes Bereichs angibt, wie weit er vom Betrachter entfernt ist. Eine solche KI ist MiDaS, und Sie können sie online verwenden unter diese Seite.

Der dritte Schritt besteht darin, das Originalbild und die Tiefenkarte zu verwenden, um ein stereoskopisches (3D) Bild zu erstellen. Sie können zum Beispiel unsere Software 3DJournal DX verwenden, die Sie kostenlos in unserem Software-Bereich herunterladen können (Link im Menü oben).

Das Bild wurde mit dem oben erwähnten Verfahren erstellt. Originalbild: GetImg.ai

Das Bild wurde mit dem oben erwähnten Verfahren erstellt. Originalbild: GetImg.ai

Unsere Galerie mit den auf diese Weise erstellten Bildern finden Sie hier. Es ist sicherlich erwähnenswert, dass die Fehler im Anaglyphenformat zwar leicht zu übersehen sind, aber wenn Sie eine Virtual-Reality-Brille verwenden, können Sie deutlich sehen, dass die Konvertierung in 3D unvollkommen ist. Hoffentlich wird sich dies mit neuen Versionen verbessern.

Und wir freuen uns darauf, dass vielleicht in ein paar Wochen oder Monaten eine KI in der Lage sein wird, selbständig stereoskopische Fotos zu erstellen. Eigentlich müsste sie nur das miteinander verknüpfen, was verschiedene KIs bereits können. Oder vielleicht findet einer von uns den richtigen Trick, um die derzeitigen KIs dazu zu bringen, das zu tun :).

3DJournal, Januar 2024
Teilen: