Lokale Bildgenerator AI Installation

von **RiiNagaja** » So 13 Jul, 2025 18:50

Hast du manchmal das Gefühl, dass dich Chatgpt einfach nicht richtig versteht? Haust du oft mit dem Kopf gegen den Paywall besserer dedizierter Bildgenerierungs AI-Seiten?
Was wäre wenn all diese Tools, die viele schlitzohrige Ganoven für blühende Finanzen verscherbeln in Wahrheit eigentlich schon seit 2+ Jahren Open Source und für jeden installierbar gewesen wären? ..Schon ist da ein Kopfloch in einem echten "Wall".

Okay, Witz beiseite, dies das angekündigte jetzt doch mehr als Chatformat detailiertes Tutorial für die absoluten Essentials der Installation und Ausführung all der einschlägigen Modelle, die im Rahmen des Themas immer vorgezeigt werden. In der Tat sind diese immer schon Open Source gewesen, - die Seiten, die gegen Geld Zugang verlangen haben lediglich "Finetuning" bzw. weiterführendes Training vorgenommen, dass zwar einen einzigartigen Twist verleiht, aber den großen 95% Mammutschritt der Entwicklung immer noch bei den orginalen Architektengenies von Stable Diffusion, Flux etc. belässt. Obwohl es sich um eine fortgeschrittene Anwendung handelt diese Basis weiterzuentwickeln/-trainieren, stehen auch für diese letzten 5% eine große Auswahl an Open Source Optionen aus der breiten Community vor, die extrem hohe Spezialisierung, - im Prinzip "Modding" -, eures eigenen Modells zulassen.
Besonders einschlägige Quelle dafür CivitAI, aber zuerst zur Installation. Oh, und bedenkt, dass man im mindesten 6gb VRAM benötigt, um die normalen (aber legendären) Stable Diffusion Modelle zum Laufen zu bringen. Keine Chance mit weniger, denn es ist keine Geschwindikeitsfrage, sondern eine von "passt es überhaupt in den Speicher?". Danach ist alles tiptop.

WebUI Forge Installation
Alle Modelle und ihre optionalen Moddings werden über ein einfaches Tool namens WebUI Forge ausgeführt. Das läuft nachher im Browser, das aber nur, weil es sich als praktisch und nahbar herausstellt. Tatsächlich ist es 100% lokal. Um das zu installieren und mit ersten Modellen laufen zu lassen, braucht man nur 4 Schritte, denn das ganze ist mittlerweile so raffiniert geworden, dass der One-Click Installer einfach Python und die sehr defizielen CUDA Anforderungen (das ist Nvidia Developer GPU Ansteuerungstools) einfach perfekt abgestimmt mitinstalliert. (Cuda war in den letzten 4 Jahren immer das schlimmste und fehleranfälligste)

Schritt 1 (falls noch notwendig) Github installieren: https://git-scm.com/downloads/win
Die erste Initialisierung bezieht die offenen aktuellsten Ressourcen von Github und braucht die "Git" Befehle, so wie es Brauch ist.
Schritt 2 WebUI von Github beziehen: https://github.com/lllyasviel/stable-diffusion-webui-forge
Erster Installationslink hier

: Screenshot 2025-07-13 164734.png (27.07 KIB) 176-mal betrachtet

Das gibt euch ein .7z Verzeichnis, dass ihr in einem Ordner für eure AI-Vorhaben entpacken solltet. Da sowohl die 6-12gb großen Modelle viel Speicher wegnehmen, als auch eure generierten Bilder hier erstmal in einem Unterordner abgelegt werden würden, ist es ratsam 30+gb auf der Festplatte mit dem Ordner frei zu haben.

Schritt 3 Modell besorgen. Obwohl man die Originalmodelle von Marktführer Stable Diffusion oder upcoming challengers wie Flux immer noch woanders bzw. an der Quelle der Originalentwickler bekommt, würde ich euch raten einfach direkt hier schon ein Modell aus der oben verlinkten CivitAI Seite zu besorgen. (Erklärung folgt nach der Installation unten bei Terminologie)
Für Leute mit 6 oder 8gb VRAM ist zu raten sich auf Stable Diffusion 1.5 Modelle zu beschränken (= SD1.5), z.B. eins von diesen:

Spoiler:

Bei 8gb könnt ihr auch die SDXL Variante hier versuchen, die den Output von 512x512 zu 1024x1024 hochskaliert hat. Allerdings gerät es an die Grenzen von 8gb und könnte daher fehlschlagen:

Spoiler:

Für glückliche Leute wie mich, die seit kurzem einen neuen PC mit preisgünstiger 16gb VRAM 60ti Karte haben, könnt ihr auch die neuen tollen Flux Modelle testen. Z.B.:

Spoiler:

Download gibt es entweder oben rechts blau "download" oder unten rechts "File" und dann "download". Plazieren tut ihr es in "[WebUIFolder]/webui/models/Stable-diffusion". Ja, auch später wenn es keine Stable-Diffusion Modelle sein sollten. (spürt ihr die SD Marktführerdominanz? Bild

Allerdings haben sie bei SD 2 und wahrscheinlich 3 durch zuviel Zensur versagt. Ein bisschen wie Antipirating Software, - es hat nicht nur illegitime Nutzung beschränkt, sondern auch die normalen Funktionen beeinträchtigt. )

Schritt 4 Initialisierung. Geht in den WebUI Forge folder und führt update.bat aus. Sobald alles fertig ist, run.bat um das Programm zu starten. Kann beim ersten mal etwas dauern, aber vlt auch nicht.
Das CMD Window wird euch dann zeigen "Running on local URL: http://127.0.0.1:7860" oder ähnliches. Die Adresse könnt ihr kopieren und in den Browser tun. (sollte aber auch alleine aufgehen, aber falls ihr den Tab verliert bekommt ihr es so wieder)
Sieht dann so aus:

: WebuiReady.png (87.16 KIB) 176-mal betrachtet

Terminologie
So, und von hier könntet ihr direkt anfangen, aber vielleicht noch ein paar Schnellerklärungen zum Interface und den Begriffen.

Checkpoint - Klingt wie irgendetwas zwischenstufiges, ist aber in Wahrheit euer ganzes Modell. Es ist so benannt, weil es eine Weiterentwicklung des (wahrscheindlich Stable Diffusion basierendes) Basismodells ist, das hier eine Stufe erreicht hat, in der die neuen Trainingsdaten zu genügender Reife einmassiert worden sind. Daher "Checkpoint mit neuen Daten".
Das ist auch der Grund, weswegen ihr nicht die Originalmodelle herunterladen solltet, da bei vielen Detailierungswünschen am Ende ohnehin ein getunter vollständiger Ersatz her muss. Es sei denn...
LoRA - Steht für Low Rank Adjustment und bezeichnet dass statt dem ganzen Modell hier nur die entscheidenden letzten paar Layer des Neuralen Netzwerkes nachtrainiert wurden. NNs entwickeln ihre Bilder von unscharfen amorphen Massen und Formen über Verständnis von z.B. "was ist ein Mund?" in mittleren Bereichen bis hin zum Zusammenfügen in den letzten Layers immer mehr, sodass es für viele Aufgaben ausreicht nur diese finale Ergebnisausgabe nachzutrainieren. (warum nochmal ATP Verbrennung und Muskelkontrolle üben, wenn wir nur Tennis mit einem schon funktionierendem Körper üben wollen?)
Ein weiterer Nutzen besteht darin, dass die Lora wie eine Überlage zum Originalmodell wirkt, sprich, man kann sie quasi mit Transparenz, -mehr oder weniger stark-, anwenden.
Wenn ihr diese von CivitAI beziehen wollt, müssen sie in "[WebUIFolder]/webui/models/Lora" abgelegt werden.
Die Anwendung auf eine Keywordgenerierung erfolgt dann als: <lora:[LoraName]:[eine Zahl zwischen 0 und 1 / 0-100%]>
Müsst ihr nicht gleich verstehen. Sowas kommt alles mit der Anwendung wenn man sich irgendwann wünscht "geht das nicht auch noch irgendwie?".

Mehr zum UI. Text2Img und Img2Img und die Prompts und Antiprompts sollten selbsterklärend sein, also nur zu Generation:
Sampling Method - Hat viel mit der Geschwindigkeit und Qualität zu tun. Alles mit DPM++ (Schedule: Karras) läuft wesentlich schneller und trotzdem genau. Mehr muss man da erstmal nicht wissen.
Sampling Steps - Wie oft soll die AI versuchen das Bild zu verbessern. 20 für Geschwindigkeit. Etwa 40 bis 60 für Qualität. Mehr ist mitunter sogar kontraproduktiv.
Batch Count/Size - Unterschied ist Count ist nur totale Nummer der Ausgaben. Wenn ihr 50 Bilder für euren momentanen Prompt wollt, dann hier 50 eintragen. Batch Size hingegen bestimmt wieviele Bilder eure Grafikkarte >mit einem Mal< ausrechnet. Da dies die Geschwindigkeit deutlich erhöht, sollte es so hoch wie möglich sein, sprengt aber schnell den VRAM Rahmen.
CFG Scale - Sehr wichtig; steht für Classifier Free Guidance, und ist imgrunde die "Transparenz"-Einstellung auf euren Prompt. Je höher desto genauer wird sich die Generierung an euren Prompt halten. Je weniger, desto mehr erlaubt ihr die Kreativität des Modells Dinge zu ändern, z.B. eine unerwartete neue Frisur. (s. unten mein kleines CFG Demonstrationsbild)
Seed - Ist offensichtlich was es tut, aber ich wollte noch vermerken, dass es sich lohnen kann statt der -1 notierte Seeds zu nehmen, die man dann eventuell wiederholen kann. Ein fixierter Seed macht es z.B. leichter zu unterscheiden, wie ein leicht veränderter Prompt das Resultat beeinflusst.

Der Rest darunter ist für den Anfang erstmal unwichtig. Wenn man gute Personen generieren will, stellt sich oft heraus, dass eine sekündare AI für Gesichtsüberarbeitung angemessen ist (geht alles in WebUI Forge), aber das führt erstmal zu weit.

Auf eigenes Datenset trainieren
Als das vor 2 Jahren alles noch neu war, war es schon möglich das an Tag 1 oder 2 mit diesen Tools hinzukriegen. Eigene Themen (Mittelalter) oder eigene Personen (man selbst) in die Modelle einzuspeisen und einen neuen Checkpoint zu generieren, ist dank fortschreitender Automatisierung insgesamt auch nicht so schwer, aber vielleicht eher Thema für eine Vertiefung, bzw. vlt. finden es besonders Interessierte so wie ich damals einfach selbst heraus.
Hier mal zwei Beispiel Slideshows von Bildern die schon im Frühjahr 2023 möglich waren, als diese Technik gerade neu und für alle unerhört war. Eine Freundin von mir hatte mir nicht geglaubt, dass die Technik schon so weit war, also habe ich mich angestrengt ihr das Gegenteil zu beweisen.

Spoiler:

Mit nur 5 Source Fotos und wahlweise 5h oder 30min Training (mit gemieteten Google GPUs) war es möglich ein hauseigenes Checkpointmodell zu haben, das ihren Namen wie eine Celebrity erkannte und sie überall einfügen konnte. Danach wollte sie allerlei falsche Urlaubsfotos, z.b in einem Boot vor der griechischen Küste, als Pilot in einem Jet usw. . (wie immer mit tollen neuen Spielzeugen Bild

)
Hier auch eine Demonstration der CFG Skala, die sie dann mehr oder weniger Originalgetreu repliziert hat (mehr Falten bei höher CFG war aber falsch. ka was da los war):

Spoiler:

So, bei Fragen, fragen.

Lokale Bildgenerator AI Installation

Lokale Bildgenerator AI Installation

Wer ist online?