Adventure-Treff

Verfasst: **14.06.2026, 15:53**

Generative KI - und um die geht es hier vorrangig, vermute ich -, braucht diese Unsicherheit, um überhaupt "kreativ" zu werden. Angenommen, ich habe drei Bedingungen: "generiere mir einen Elefanten in einem Wohnzimmer, der auf vier Porzellantassen steht", so gibt es zwar drei Bedingungen, die erfüllt werden sollen, aber die Hierarchie wird jedesmal neu ausgewürfelt (1. Elefant, 2. Wohnzimmer, 3. steht auf Tassen).

Und das hängt wiederum stark vom Modell und den Berechnungsmethoden (den Samplern) ab. Die Art und Weise der Berechnung ist so eine Art "Hauptstraße", die zwar eingehalten wird, aber der genaue Verlauf ist zufällig. Und da die Entscheidung, ob es wichtiger ist, ob da ein Elefant steht oder doch ein Nashorn, quasi ausgewertet und verglichen wird im Vergleich zu den Bedingungen "es soll ein Wohnzimmer sein und das Tier steht auf Tassen", fällt das Ergebnis jedes Mal anders aus. Jeder dieser drei Prompts erhält eine mathematische Bewertung, die vom Training und anderen Faktoren abhängt. Und da alles über Sprache geht, sind Interpretationen immer dabei.

Allein schon die Reihenfolge entscheidet, ob der Elefant oder das Wohnzimmer wichtiger sind. Und da jedesmal ein zufälliger Verlauf generiert wird, sieht jedes Bild auch anders aus. Da dort Wahrscheinlichkeiten entscheiden, kann es passieren, dass der Elefant 5 Beine bekommt, weil die Anzahl der Beine eines Elefanten nicht definiert wurde - die Anzahl entsteht alleine aus den Trainingsdaten. Da es Fotos gibt, auf denen ein Elefant vermeintlich drei Beine hat, weil die Fotoperspektive so gewählt wurde, "weiß" die KI nicht, wie viele Beine ein Elefant hat. Nur weil auf 80% der Trainingsbilder 4 Beine zu sehen sind, errechnet die KI daraus die Wahrscheinlichkeit, dass es 4 Beine sein müssen. Aber zu 20% eben nicht...

Und genau das unterscheidet die KI vom Künstler, der WEISS, dass der Elefant (prinzipiell) IMMER vier Beine haben muss. Für die KI ist das nur Statistik. Na, gut, ein Elefant kann ein Bein verloren haben, somit ist auch Wissen eigentlich statistisch. Aber im Alltag gehen wir von vier Beinen aus...

In vielen Bildgeneratoren gibt es deshalb die Möglichkeit zur Wichtung. Wenn ich schreibe: (((Ein Elefant mit vier Beinen))), sagen die Klammern, dass es dreimal wichtiger ist, dass er vier Beine hat (vereinfacht gesagt). Also wird zuerst darauf geachtet. Oder: (Ein Elefant mit vier Beinen:1.5) bedeutet, dass der Inhalt auf 1,5 Mal "wichtiger" gesetzt wurde.

Verfasst: **14.06.2026, 19:02**

Gemacht von Chatgtp Plus

Verfasst: **14.06.2026, 20:59**

Tja, in den zwei Plattformen, die ich z.Z. nutze, geht es nicht so einfach. Es braucht schon einige Fehlanläufe. Vielleicht mal wieder das blöde Englisch, das nervt...

Auf jeden Fall habe ich nach 15 Versuchen abgebrochen, weil IRGENDWAS immer falsch war. Entweder es waren fünf Tassen, oder ein Bein stand nicht auf einer Tasse, und außerdem malte die KI die Tassen immer oben offen (mit den Elefantenfüßen sozusagen schwebend drin), nie andersherum...

Also, man würde es nach 30 Minuten vielleicht hingekriegt haben, aber nur durch dauerndes Anpassen der Modelle, Sampler und Prompts, die zwangsläufig immer mehr werden, um die Fehler im Text auszuschließen. Auf jeden Fall ist es richtig ARBEIT, mit KI etwas zu kreieren, das man wirklich haben will.

Verfasst: **14.06.2026, 21:19**

Habe nur ein Versuch gebraucht

Verfasst: **14.06.2026, 21:59**

Bei Chat GPT bin ich nicht. Plus auch nicht...

Was für ein Modell, welcher Sampler, mit wie vielen Sampler-Schritten und was für Prompts?

PS Wenn es denn so ist, wie es ist, zeigt es aber sehr deutlich, dass nicht jede KI dasselbe macht. Es bestätigt also, was ich sage.
Bei mir jedenfalls klappt es NICHT beim ersten Mal, obwohl es immer einen Elefanten, vier Tassen (manchmal auch fünf oder sechs...) und ein Wohnzimmer gibt. Nur eben - falsch oder doof zusammengesetzt. Dann ist Chat GPT vermutlich besser trainiert oder moderner. Ich habe in TensorArt jedenfalls über 300 Modelle und Sampler, die ich nacheinander ausprobieren könnte, bis dann EINE Kombination gut gelingt. Da das aber „Credits“ kostet, also nicht kostenlos ist, breche ich nach einer gewissen Zeit ab, weil es nichts bringt.

Diese Prompts reichen jedenfalls NICHT, um ein eindeutiges Bild zu generieren:

An elephant is standing on four upside-down porcelain tea cups in a living room.

Vermutlich muss man da mehr ins Detail gehen, damit die KI auch das Richtige zusammenbastelt...

Dass es bei dir gelingt, heißt ja nicht, dass ich falsch liege. Sondern dass du vermutlich Glück gehabt hast.

Verfasst: **14.06.2026, 22:32**

"generiere mir einen Elefanten in einem Wohnzimmer, der auf vier Porzellantassen steht. als bild

Das war der prompt modell gpt 5.5 das neuste

Verfasst: **14.06.2026, 22:43**

Ohne jetzt zu wissen, mit welchen Spezifikationen das generiert wurde, kann ich das natürlich nicht überprüfen. Es gibt auf jeden Fall Modelle, die es besser können als andere. Die SD-Modelle scheinen gleich rauszufallen - die liefern nur Müll. Die sind offensichtlich überholt.

Ich muss alles „von Hand“ eintragen. Es gibt keinen „Mach-schön“-Button. Flux arbeitet ziemlich gut, ist aber teurer. Und auch dort habe ich nach ca. 10 Bildern abgebrochen, ohne überhaupt einen winzigen Bruchteil der Möglichkeiten ausgetestet zu haben.
Sehr gut kommt auch Z-Image, aber dort ähneln sich die Bilder sehr stark, wenn man nicht viel an den Prompts ändert. Fast so, als würde sie mit fast demselben „Seed“ gerendert. Da müsste man einen flexibleren Sampler ausprobieren.

Verfasst: **14.06.2026, 23:01**

Sampler kann ich gar nicht einstellen

Adventure-Treff

[KI] Der "das-muss-ich-euch-zeigen"-Thread

Re: [KI] Der "das-muss-ich-euch-zeigen"-Thread

Re: [KI] Der "das-muss-ich-euch-zeigen"-Thread

Re: [KI] Der "das-muss-ich-euch-zeigen"-Thread

Re: [KI] Der "das-muss-ich-euch-zeigen"-Thread

Re: [KI] Der "das-muss-ich-euch-zeigen"-Thread

Re: [KI] Der "das-muss-ich-euch-zeigen"-Thread

Re: [KI] Der "das-muss-ich-euch-zeigen"-Thread

Re: [KI] Der "das-muss-ich-euch-zeigen"-Thread