Stable Diffusion

Der bahnbrechende Open-Source-KI-Bildgenerator, der generative KI demokratisiert hat. Vollständig anpassbar durch Tausende von Community-Modellen, LoRAs, ControlNets und Erweiterungen, lokal auf eigener Hardware ausführbar.

FreeOpen SourceLocalCustomizableControlNet

Website besuchen Tutorial ansehen

Unternehmen

Stability AI

Lizenz

Open Source

Community-Modelle

Thousands

Min. VRAM

6GB (SD 1.5)

Veröffentlichung

August 2022

Kosten

Free (local)

Einführung

Stable Diffusion, entwickelt von Stability AI in Zusammenarbeit mit Forschern von CompVis und Runway, ist das Open-Source-Modell, das KI-Bildgenerierung demokratisierte, als es 2022 gestartet wurde. Anders als proprietäre Alternativen, die Nutzer in Abonnementdienste einschließen, sind Stable Diffusions Gewichte frei verfügbar, sodass jeder die Technologie herunterladen, ausführen, modifizieren und darauf aufbauen kann -- was ein massives Innovationsökosystem auslöste, das das gesamte Feld transformierte.

Was Stable Diffusion einzigartig macht, ist seine Kombination aus Zugänglichkeit und grenzenloser Flexibilität. Das Modell kann auf Consumer-Hardware (GPUs mit 6-12GB VRAM) laufen und ermöglicht unbegrenzte kostenlose Generierungen ohne Abonnementgebühren oder Pro-Bild-Kosten. Noch wichtiger ist, dass seine offene Natur Tausende von feinabgestimmten Modellen, LoRA-Anpassungen, ControlNet-Implementierungen, benutzerdefinierten Erweiterungen und mehreren Benutzeroberflächen hervorgebracht hat, die die Fähigkeiten weit über das hinaus erweitern, was jede einzelne geschlossene Plattform bieten kann.

Das Stable-Diffusion-Ökosystem hat sich über mehrere Generationen entwickelt: SD 1.5 bleibt weit verbreitet für seine riesige Modellbibliothek und niedrige Hardwareanforderungen, SDXL bietet deutlich verbesserte Qualität bei höheren Auflösungen (1024px), und SD3/SD3.5 repräsentiert die neueste Architektur mit besserem Prompt-Verständnis und Komposition. Obwohl das Ökosystem fragmentiert ist, bietet diese Vielfalt unübertroffene kreative Kontrolle für Nutzer, die bereit sind, Zeit in das Erlernen der Tools und Workflows zu investieren.

Vorteile

+Komplett kostenlos für lokale Nutzung ohne Abonnements oder Limits
+Riesiges Ökosystem von Community-Modellen, LoRAs und Erweiterungen
+ControlNet bietet unübertroffene strukturelle Kontrolle über Generierung
+Volle Privatsphäre -- alle Verarbeitung bleibt auf lokaler Hardware
+Keine Inhaltsbeschränkungen (Nutzer trägt Verantwortung)
+Hoch anpassbar für jeden Stil, jedes Genre oder jeden Anwendungsfall
+Aktive Community verbessert ständig Tools und Techniken
+Mehrere Oberflächenoptionen für verschiedene Erfahrungsstufen

Nachteile

-GPU-Hardware-Investition erforderlich (200-500$+ für fähige Karte)
-Erhebliche Lernkurve für optimale Ergebnisse
-Einrichtung kann komplex sein, besonders auf nicht-NVIDIA-Hardware
-Ausgabequalität hängt stark von Modell- und Einstellungswissen ab
-Fragmentiertes Ökosystem mit vielen Auswahlmöglichkeiten
-Text-Rendering deutlich schlechter als Flux oder Midjourney

Hauptfunktionen

Open Source und Kostenlos

Modellgewichte frei unter permissiven Lizenzen verfügbar. Lokal ausführbar für unbegrenzte Generierungen ohne Abonnementgebühren, API-Kosten oder jegliche Nutzungslimits

Riesiges Modell-Ökosystem

Tausende feinabgestimmte Modelle auf Civitai und Hugging Face für jeden erdenklichen Stil -- Anime, Fotorealismus, Concept Art, Pixel Art, Ölmalerei und unzählige Nischen-Ästhetiken

LoRA-Unterstützung

Leichtgewichtige Anpassungen für spezifische Charaktere, Stile, Konzepte oder Objekte ohne Neutraining des vollständigen Modells. Mischen und Kombinieren mehrerer LoRAs mit einstellbaren Gewichten für einzigartige Ergebnisse

ControlNet

Präzise strukturelle Kontrolle mit Tiefenkarten, Kantenerkennung (Canny), Pose-Skeletten (OpenPose), Segmentierungsmasken und mehr. Revolutionär für geführte Generierung mit Kompositionskontrolle

Inpainting und Outpainting

Spezifische Bereiche von Bildern bearbeiten, während der umgebende Inhalt erhalten bleibt. Bilder nahtlos über ihre ursprünglichen Grenzen hinaus in jede Richtung erweitern

Bild-zu-Bild

Bestehende Bilder mit Textprompts und einstellbarer Entrauschungsstärke transformieren. Ideal für Stiltransfer, iterative Verfeinerung und Entwicklung von Konzepten aus groben Skizzen

Mehrere Benutzeroberflächen

Wählen Sie zwischen Automatic1111 (funktionsreich), ComfyUI (knotenbasierte Workflows), Fooocus (einfach), Forge (optimiert) und anderen. Jede passt zu verschiedenen Erfahrungsstufen und Anwendungsfällen

Textual Inversion

Benutzerdefinierte Einbettungen trainieren, um spezifische Konzepte, Stile oder Motive in nur wenigen Tokens zu erfassen. Leichtgewichtige Alternative zu LoRA für einfaches Konzeptlernen

Vollständige Privatsphäre

Alle Verarbeitung erfolgt lokal auf Ihrer Hardware. Keine Daten an Cloud-Server gesendet, kein Nutzungstracking und volle Kontrolle über das, was Sie generieren und speichern

Versionsflexibilität

Wählen Sie zwischen SD 1.5 (riesiges Ökosystem, niedrige Anforderungen), SDXL (höhere Qualität bei 1024px) oder SD3/3.5 (neueste Architektur mit verbessertem Text und Komposition)

Für wen geeignet

Unbegrenzte kreative Erkundung

Generieren Sie so viele Bilder, wie Sie möchten, ohne sich um Credits, Tokens oder Abonnementkosten zu sorgen. Die lokale Einrichtung bedeutet, dass Sie endlos mit verschiedenen Modellen, LoRAs, Prompts und Einstellungen experimentieren können, um einzigartige visuelle Stile zu entdecken -- ohne finanzielle Einschränkungen.

Hobbyisten, digitale Künstler und kreative Experimentierer

Benutzerdefinierte Modell- und Stilentwicklung

Trainieren Sie LoRAs mit Ihren eigenen Bildern, um konsistente Charaktere, Markenidentitäten oder künstlerische Stile zu erstellen. Das offene Ökosystem unterstützt vollständiges Fine-Tuning, Textual Inversion und LoRA-Training mit Community-Tools. Kombinieren Sie mehrere trainierte Modelle für Effekte, die mit geschlossenen Plattformen unmöglich sind.

KI-Künstler, Charakterdesigner und Kreativstudios

Produktions-Asset-Pipeline

Erstellen Sie automatisierte Bildgenerungs-Workflows mit ComfyUI knotenbasierten Pipelines. Verwenden Sie ControlNet für präzise strukturelle Kontrolle, verarbeiten Sie Hunderte von Bildern im Batch und integrieren Sie in Produktions-Pipelines über API. Vollständige Privatsphäre stellt sicher, dass sensible kommerzielle Arbeit intern bleibt.

Studios, Produktionsteams und technische Künstler

Datenschutzsensible Bildgenerierung

Generieren Sie Bilder vollständig lokal, ohne dass Daten an Server übertragen werden. Essentiell für Organisationen mit strengen Datenrichtlinien, HIPAA-Anforderungen, militärischer/staatlicher Nutzung oder jeden, der vollständige Kontrolle über seine generierten Inhalte wünscht.

Unternehmen, Regierungsbehörden und datenschutzbewusste Fachleute

Preismodelle

Lokale Installation

$0/für immer

Unbegrenzte Generierungen ohne Limits
Vollständige Anpassung und Kontrolle
Alle Community-Modelle und LoRAs
Vollständige Privatsphäre (lokale Verarbeitung)
GPU erforderlich (mindestens 6GB+ VRAM)
Technische Einrichtung erforderlich (30-60 Minuten)

DreamStudio

$10/für 1.000 Credits

Offizieller Stability AI Cloud-Dienst

Keine Einrichtung oder Hardware erforderlich
Neueste offizielle SD-Modelle
Einfache webbasierte Oberfläche
~5 Credits pro Bild (~200 Bilder)
Begrenzte Anpassungsoptionen
Keine LoRA- oder ControlNet-Unterstützung

Cloud-GPU-Miete

$0.30-1.00+/pro GPU-Stunde

RunPod, Vast.ai, Google Colab usw.

Keine lokale GPU-Hardware nötig
Volle Anpassung wie lokale Einrichtung
Jede UI, Modell oder Workflow ausführbar
Nur für tatsächliche Nutzungszeit zahlen
Etwas technische Einrichtung erforderlich
VRAM variiert je nach Instanztyp

Drittanbieter-Plattformen

Varies/Abonnement oder Credits

Leonardo, Civitai, NightCafe usw.

Vorkonfigurierte Web-Oberflächen
Kuratierte Modellbibliotheken
Community-Features und Teilen
Einfacher als lokale Einrichtung
Kann zusätzliche Tools enthalten
Plattformspezifische Einschränkungen gelten

Vergleich

Stable Diffusion vs FLUX

Stable Diffusion und Flux sind beide für lokale Nutzung verfügbar, repräsentieren aber unterschiedliche Kompromisse. Flux bietet deutlich bessere Basisqualität, Text-Rendering und Fotorealismus. Stable Diffusion hat ein weit größeres Ökosystem von Community-Modellen, LoRAs und Tools, plus läuft auf viel günstigerer Hardware (SD 1.5 auf 6GB VRAM).

Stable Diffusion überzeugt bei

+Weit größeres Ökosystem von Community-Modellen und LoRAs
+Läuft auf viel schwächerer Hardware (6GB VRAM für SD 1.5)
+Mehr ControlNet-Varianten und Erweiterungsoptionen
+Größere Community mit mehr Tutorials und Ressourcen

FLUX überzeugt bei

+Flux hat deutlich besseres Text-Rendering
+Flux produziert höhere Basisqualität ohne Tuning
+Flux hat bessere Prompt-Befolgung und Fotorealismus
+Flux-Architektur ist rechnerisch effizienter

Stable Diffusion vs Midjourney

Stable Diffusion und Midjourney bedienen fundamental unterschiedliche Nutzerprofile. Midjourney ist ein ausgereifter Dienst, der schöne Bilder mit minimalem Aufwand produziert. Stable Diffusion erfordert technische Einrichtung und Wissen, bietet aber unbegrenzte kostenlose Generierung, vollständige Anpassung, volle Privatsphäre und keine Inhaltsbeschränkungen.

Stable Diffusion überzeugt bei

+Komplett kostenlos ohne Abonnement erforderlich
+Unbegrenzte Generierungen ohne Nutzungslimits
+Volle Privatsphäre -- alle Verarbeitung bleibt lokal
+Tausende Community-Modelle für jeden Stil
+Keine Inhaltsbeschränkungen (Eigenverantwortung des Nutzers)
+ControlNet bietet unübertroffene strukturelle Kontrolle

Midjourney überzeugt bei

+Midjourney produziert ästhetisch verfeinertere Ergebnisse
+Midjourney erfordert keine technische Einrichtung
+Midjourney hat bessere Standardqualität mit einfachen Prompts
+Midjourneys Stil-/Charakterreferenzen sind einfacher zu nutzen

1. Eine Oberfläche wählen

Entscheiden Sie vor der Installation, welche Oberfläche Ihren Bedürfnissen entspricht: **Automatic1111 WebUI**: Die beliebteste Wahl. Funktionsreich mit einem umfangreichen Erweiterungs-Ökosystem. Am besten für Anfänger, die umfassende Funktionalität in einer traditionellen Web-Oberfläche wünschen. **ComfyUI**: Knotenbasierter Workflow-Editor. Steilere Lernkurve, aber weit leistungsfähiger für komplexe, wiederholbare Generierungs-Pipelines. Der Standard für fortgeschrittene Nutzer und Produktions-Workflows. **Fooocus**: Vereinfachte Oberfläche, inspiriert von Midjourneys Benutzerfreundlichkeit. Minimale Einstellungen mit automatischen Optimierungen. Am besten für Nutzer, die schnelle, einfache Generierung ohne Lernkurve wünschen. **Forge**: Fork von Automatic1111, optimiert für Geschwindigkeit und Speichereffizienz. Empfohlen für Nutzer mit schwächeren GPUs (8-12GB VRAM), die das A1111 Feature-Set wünschen. Wählen Sie Fooocus für Einfachheit, Automatic1111 für umfassende Features, ComfyUI für fortschrittliche Workflows oder Forge für Leistung auf begrenzter Hardware.

2. Lokale Installation (Automatic1111)

**Hardwareanforderungen:** - NVIDIA GPU mit mindestens 6GB+ VRAM (8GB+ empfohlen für komfortablen Gebrauch) - Python 3.10.x installiert - Windows, Linux oder macOS (Apple Silicon über MPS unterstützt) **Installationsschritte:** 1. Python 3.10 und Git installieren 2. Repository klonen: `git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui` 3. Modell-Checkpoint herunterladen (z.B. SDXL-Basis von Hugging Face oder Community-Modell von Civitai) 4. Die .safetensors-Modelldatei in `models/Stable-diffusion/` platzieren 5. `webui.bat` (Windows) oder `webui.sh` (Linux/Mac) ausführen 6. Browser öffnen auf `localhost:7860` Erster Start lädt Abhängigkeiten automatisch herunter und kann 10-20 Minuten dauern. Nachfolgende Starts sind viel schneller (unter 1 Minute).

3. LoRAs und Community-Modelle nutzen

**Modelle und LoRAs finden:** Durchstöbern Sie Civitai.com für Tausende von Community-erstellten Modellen und LoRAs. Filtern Sie nach Basismodell-Kompatibilität (SD 1.5 oder SDXL), Stilkategorie und Beliebtheit. Lesen Sie Modellseiten sorgfältig für empfohlene Einstellungen. **Modelle installieren:** 1. Die .safetensors-Datei von Civitai oder Hugging Face herunterladen 2. Checkpoint-Modelle in `models/Stable-diffusion/` platzieren 3. LoRA-Dateien in `models/Lora/` platzieren 4. Modellliste in der UI aktualisieren (kein Neustart nötig) **LoRAs in Prompts verwenden:** Fügen Sie das LoRA-Triggerwort und die Stärke zu Ihrem Prompt hinzu: `<lora:character_name:0.8>` Die Zahl steuert die Einflussstärke (0,5-1,0 ist für die meisten LoRAs typisch). **Mehrere LoRAs kombinieren:** Sie können mehrere LoRAs stapeln, achten Sie aber auf Konflikte und Qualitätseinbußen. Beginnen Sie mit niedrigen Gewichten (0,3-0,5) und erhöhen Sie schrittweise. Zwei LoRAs sind in der Regel sicher; drei oder mehr erfordern sorgfältiges Tuning.

4. ControlNet für strukturelle Kontrolle

ControlNet ermöglicht präzise Kontrolle über die Bildstruktur mittels Referenzbildern: **Kontrolltypen:** - **Canny/Kante**: Kantenumrisse eines Referenzbildes erhalten - **Tiefe**: 3D-Raumbeziehungen und Distanzen beibehalten - **OpenPose**: Menschliche Körperposen und Gesten kopieren - **Scribble**: Generierung mit groben Handzeichnungen leiten - **Segmentierung**: Semantische Karten zur Kontrolle von Bereichsinhalten verwenden **Einrichtung in Automatic1111:** 1. ControlNet-Erweiterung über den Erweiterungen-Tab installieren 2. Kontrollmodelle passend zu Ihrer SD-Version herunterladen (sd15 oder sdxl) 3. Modelldateien in `models/ControlNet/` oder den Models-Ordner der Erweiterung platzieren **Grundlegender Workflow:** Referenzbild hochladen > Geeigneten Preprocessor auswählen (z.B. Canny für Kanten) > Passendes Kontrollmodell wählen > Kontrollgewicht anpassen (0,5-1,0) > Generieren ControlNet ist transformativ für die Beibehaltung der Komposition bei vollständigem Stilwechsel, Übertragung von Posen zwischen Charakteren oder Generierung konsistenter Layouts über eine Bildserie hinweg.

Häufig gestellte Fragen

Minimum 6GB VRAM (GTX 1060 6GB) für SD 1.5 bei Grundeinstellungen. 8GB+ empfohlen für komfortablen Alltagsgebrauch. 12GB+ VRAM (RTX 3060 12GB, RTX 4070) ideal für SDXL und ControlNet. AMD-GPUs funktionieren, erfordern aber komplexere Einrichtung. Apple Silicon Macs werden über MPS-Backend unterstützt.

SD 1.5: Größtes Modell-/LoRA-Ökosystem, läuft auf schwächerer Hardware, meiste Tutorials verfügbar. SDXL: Deutlich bessere Qualität bei 1024px Auflösung, wachsendes Ökosystem, empfohlen für die meisten neuen Nutzer mit 12GB+ VRAM. SD3/3.5: Neueste Architektur mit besserem Prompt-Verständnis, aber kleinerem Ökosystem und anderen Lizenzbedingungen.

SD 1.5 und SDXL verwenden die CreativeML Open RAIL-M Lizenz, die kommerzielle Nutzung mit angemessenen Einschränkungen erlaubt (keine illegalen Inhalte, medizinische Beratung ohne Haftungsausschluss usw.). SD3 hat eine restriktivere Lizenz, die für einige Nutzungen eine kommerzielle Lizenzierung erfordert. Benutzerdefinierte Community-Modelle können eigene Bedingungen haben -- immer prüfen.

Ja. LoRA-Training erfordert 10-50 Bilder Ihres Motivs und kann auf Consumer-GPUs (8GB+ VRAM empfohlen) mit Tools wie Kohya_ss durchgeführt werden. Training dauert 30-120 Minuten je nach Einstellungen. Viele Tutorials behandeln das Training von Charakteren, Stilen, Konzepten und Objekten.

Ergebnisse hängen stark ab von: exakter Modellversion, angewandten LoRAs, Sampler-Wahl (Euler, DPM++ usw.), CFG-Skala, Schrittzahl, Seed-Wert und Prompt-Formulierung. Prüfen Sie immer Modellseiten auf Civitai für empfohlene Einstellungen. Kleine Parameteränderungen können Ausgabequalität und -stil dramatisch beeinflussen.

Verwenden Sie Upscaler (ESRGAN, Real-ESRGAN) für Auflösung. Aktivieren Sie Hires.fix in Automatic1111 für native hochauflösende Generierung. Wenden Sie Gesichtsrestaurierung (GFPGAN, CodeFormer) für Porträts an. Verwenden Sie img2img für iterative Verfeinerung. Probieren Sie höherwertige Modelle, fügen Sie detailverbessernde LoRAs hinzu und experimentieren Sie mit Sampler-Einstellungen.

Selbst ältere GPUs können funktionieren: SD 1.5 läuft auf 6GB VRAM-Karten. Falls Sie keine fähige GPU haben, nutzen Sie Cloud-GPU-Dienste (RunPod, Vast.ai, Google Colab Free Tier), probieren Sie Forge UI für bessere Speichereffizienz oder erkunden Sie CPU-only-Generierung (sehr langsam, aber funktionsfähig). LCM/Turbo-Varianten generieren schneller auf begrenzter Hardware.

Negativprompts sagen dem Modell, was es beim Generieren vermeiden soll. Häufige Negative: "verschwommen, niedrige Qualität, deformierte Hände, zusätzliche Finger, schlechte Anatomie, Wasserzeichen." Negative Einbettungen wie "EasyNegative" bündeln viele Qualitätsverbesserungen in einem einzigen Token. Fast jede Generierung profitiert von einem grundlegenden Negativprompt.

Midjourney ist einfacher zu nutzen und produziert ausgereiftere Ergebnisse mit minimalem Aufwand. Stable Diffusion ist kostenlos, unbegrenzt, vollständig anpassbar und privat. SD erfordert mehr technisches Wissen, bietet aber weit mehr Flexibilität durch Community-Modelle, ControlNet und LoRAs. Viele ernsthafte Kreative nutzen beides.

SD 1.5 und SDXL sind sehr schlecht beim Text-Rendering. SD3 hat das Texthandling verbessert, hinkt aber immer noch Flux und Ideogram hinterher. Für zuverlässigen Text in Bildern ziehen Sie Flux (bestes Text-Rendering) oder Ideogram in Betracht, oder fügen Sie Text in der Nachbearbeitung mit Designsoftware hinzu.