Re: [KI] Der "das-muss-ich-euch-zeigen"-Thread
Verfasst: 14.06.2026, 15:53
Generative KI - und um die geht es hier vorrangig, vermute ich -, braucht diese Unsicherheit, um überhaupt "kreativ" zu werden. Angenommen, ich habe drei Bedingungen: "generiere mir einen Elefanten in einem Wohnzimmer, der auf vier Porzellantassen steht", so gibt es zwar drei Bedingungen, die erfüllt werden sollen, aber die Hierarchie wird jedesmal neu ausgewürfelt (1. Elefant, 2. Wohnzimmer, 3. steht auf Tassen).
Und das hängt wiederum stark vom Modell und den Berechnungsmethoden (den Samplern) ab. Die Art und Weise der Berechnung ist so eine Art "Hauptstraße", die zwar eingehalten wird, aber der genaue Verlauf ist zufällig. Und da die Entscheidung, ob es wichtiger ist, ob da ein Elefant steht oder doch ein Nashorn, quasi ausgewertet und verglichen wird im Vergleich zu den Bedingungen "es soll ein Wohnzimmer sein und das Tier steht auf Tassen", fällt das Ergebnis jedes Mal anders aus. Jeder dieser drei Prompts erhält eine mathematische Bewertung, die vom Training und anderen Faktoren abhängt. Und da alles über Sprache geht, sind Interpretationen immer dabei.
Allein schon die Reihenfolge entscheidet, ob der Elefant oder das Wohnzimmer wichtiger sind. Und da jedesmal ein zufälliger Verlauf generiert wird, sieht jedes Bild auch anders aus. Da dort Wahrscheinlichkeiten entscheiden, kann es passieren, dass der Elefant 5 Beine bekommt, weil die Anzahl der Beine eines Elefanten nicht definiert wurde - die Anzahl entsteht alleine aus den Trainingsdaten. Da es Fotos gibt, auf denen ein Elefant vermeintlich drei Beine hat, weil die Fotoperspektive so gewählt wurde, "weiß" die KI nicht, wie viele Beine ein Elefant hat. Nur weil auf 80% der Trainingsbilder 4 Beine zu sehen sind, errechnet die KI daraus die Wahrscheinlichkeit, dass es 4 Beine sein müssen. Aber zu 20% eben nicht...
Und genau das unterscheidet die KI vom Künstler, der WEISS, dass der Elefant (prinzipiell) IMMER vier Beine haben muss. Für die KI ist das nur Statistik. Na, gut, ein Elefant kann ein Bein verloren haben, somit ist auch Wissen eigentlich statistisch. Aber im Alltag gehen wir von vier Beinen aus...
In vielen Bildgeneratoren gibt es deshalb die Möglichkeit zur Wichtung. Wenn ich schreibe: (((Ein Elefant mit vier Beinen))), sagen die Klammern, dass es dreimal wichtiger ist, dass er vier Beine hat (vereinfacht gesagt). Also wird zuerst darauf geachtet. Oder: (Ein Elefant mit vier Beinen:1.5) bedeutet, dass der Inhalt auf 1,5 Mal "wichtiger" gesetzt wurde.
Und das hängt wiederum stark vom Modell und den Berechnungsmethoden (den Samplern) ab. Die Art und Weise der Berechnung ist so eine Art "Hauptstraße", die zwar eingehalten wird, aber der genaue Verlauf ist zufällig. Und da die Entscheidung, ob es wichtiger ist, ob da ein Elefant steht oder doch ein Nashorn, quasi ausgewertet und verglichen wird im Vergleich zu den Bedingungen "es soll ein Wohnzimmer sein und das Tier steht auf Tassen", fällt das Ergebnis jedes Mal anders aus. Jeder dieser drei Prompts erhält eine mathematische Bewertung, die vom Training und anderen Faktoren abhängt. Und da alles über Sprache geht, sind Interpretationen immer dabei.
Allein schon die Reihenfolge entscheidet, ob der Elefant oder das Wohnzimmer wichtiger sind. Und da jedesmal ein zufälliger Verlauf generiert wird, sieht jedes Bild auch anders aus. Da dort Wahrscheinlichkeiten entscheiden, kann es passieren, dass der Elefant 5 Beine bekommt, weil die Anzahl der Beine eines Elefanten nicht definiert wurde - die Anzahl entsteht alleine aus den Trainingsdaten. Da es Fotos gibt, auf denen ein Elefant vermeintlich drei Beine hat, weil die Fotoperspektive so gewählt wurde, "weiß" die KI nicht, wie viele Beine ein Elefant hat. Nur weil auf 80% der Trainingsbilder 4 Beine zu sehen sind, errechnet die KI daraus die Wahrscheinlichkeit, dass es 4 Beine sein müssen. Aber zu 20% eben nicht...
Und genau das unterscheidet die KI vom Künstler, der WEISS, dass der Elefant (prinzipiell) IMMER vier Beine haben muss. Für die KI ist das nur Statistik. Na, gut, ein Elefant kann ein Bein verloren haben, somit ist auch Wissen eigentlich statistisch. Aber im Alltag gehen wir von vier Beinen aus...
In vielen Bildgeneratoren gibt es deshalb die Möglichkeit zur Wichtung. Wenn ich schreibe: (((Ein Elefant mit vier Beinen))), sagen die Klammern, dass es dreimal wichtiger ist, dass er vier Beine hat (vereinfacht gesagt). Also wird zuerst darauf geachtet. Oder: (Ein Elefant mit vier Beinen:1.5) bedeutet, dass der Inhalt auf 1,5 Mal "wichtiger" gesetzt wurde.
