Flux

Flux

Black Forest Labs' Bildmodell mit branchenführendem Text-Rendering, außergewöhnlichem Fotorealismus und starker Prompt-Befolgung. Verfügbar in Open-Source- und kommerziellen Varianten für diverse Workflows.

Free AvailableOpen SourceText RenderingPhotorealismAPI

Parameter

12B

Unternehmen

Black Forest Labs

Open Source

Schnell (Apache 2.0)

Pro-Preis

$0.04/image

Architektur

DiT + Flow Matching

Max. Auflösung

4MP (2048x2048)

Einführung

Flux repräsentiert einen bedeutenden Sprung vorwärts in der generativen KI-Bilderstellung, entwickelt von Black Forest Labs -- einem Team, gegründet von Forschern, die Stable Diffusion erschaffen haben. Seit seiner Veröffentlichung hat Flux schnell Anerkennung für die Umwandlung von Textbeschreibungen in atemberaubende Visuals erlangt, die etablierte Anbieter rivalisieren oder übertreffen, mit besonderer Exzellenz beim Rendering von klarem, lesbarem Text innerhalb von Bildern -- eine anhaltende Herausforderung, die andere KI-Bildgeneratoren geplagt hat.

Die technische Grundlage von Flux ist eine ausgeklügelte 12-Milliarden-Parameter-Hybridarchitektur, die Transformer- und Diffusionsmodelle unter Verwendung des DiT-Ansatzes (Diffusion Transformer) kombiniert. Dies wird mit einer "Flow Matching"-Methodik gepaart, die eine effizientere, qualitativ hochwertigere Bildgenerierung im Vergleich zu traditionellen Diffusionstechniken ermöglicht. Das Ergebnis ist außergewöhnliche Prompt-Befolgung, fotorealistische Ausgaben, akkurate menschliche Anatomie (besonders Hände und Gesichter) und -- am bemerkenswertesten -- das beste Text-Rendering aller KI-Bildmodelle.

Flux bietet eine gestufte Modellfamilie für verschiedene Bedürfnisse: Schnell für blitzschnelle Generierung mit vollständiger Open-Source-Lizenzierung, Dev für hochwertige nicht-kommerzielle Experimente, Pro für professionelle kommerzielle Anwendungen und Ultra/Raw für maximale Auflösung und Fotorealismus. Dieser Ansatz ermöglicht Black Forest Labs, Open-Source-Community-Adoption zu fördern und gleichzeitig Premium-Fähigkeiten zu monetarisieren, was Flux sowohl für Hobbyisten als auch für Unternehmen zugänglich macht.

Vorteile

  • +Branchenbestes Text-Rendering in generierten Bildern
  • +Ausgezeichneter Fotorealismus und menschliche Anatomie-Genauigkeit
  • +Starke Prompt-Befolgung und Anweisungsbefolgung
  • +Kostenlose Schnell-Variante mit vollständiger Open-Source-Kommerziallizenz
  • +Ultra-Modus für hochauflösende 4MP-Ausgabe
  • +Wachsendes LoRA- und Fine-Tuning-Ökosystem
  • +Wettbewerbsfähige API-Preise über alle Stufen
  • +Mehrere Zugangsoptionen (Web, API, lokale Bereitstellung)

Nachteile

  • -Volle Modelle erfordern erhebliche Hardware für lokale Nutzung
  • -Kleineres Ökosystem als Stable Diffusion (weniger Community-Modelle)
  • -Dev-Modell-Lizenzkomplexität (lokale vs. Plattformregeln unterscheiden sich)
  • -Weniger künstlerische Stilisierung im Vergleich zu Midjourney
  • -Nicht-englisches Text-Rendering weniger zuverlässig
  • -Neueres Modell mit weniger Community-Tutorials und Ressourcen

Hauptfunktionen

Branchenführendes Text-Rendering

Außergewöhnliche Fähigkeit, klaren, lesbaren, korrekt geschriebenen Text in Bildern zu generieren -- ein großer Fortschritt gegenüber allen vorherigen Modellen. Zuverlässig für Schilder, Logos, Poster und Markeninhalte

Starker Fotorealismus

Produziert hochrealistische Bilder mit akkurater menschlicher Anatomie, natürlichen Hauttexturen, korrekter Lichtphysik und kohärenten feinen Details, die professioneller Fotografie Konkurrenz machen

Außergewöhnliche Prompt-Befolgung

Interpretiert und befolgt komplexe, detaillierte Prompts mit mehreren Elementen akkurat. Reagiert gut auf spezifische Anweisungen zu Komposition, Stil, Farbe und räumlichen Beziehungen

Schnell-Modell (Fast)

Apache 2.0 Open-Source-Modell, optimiert für Geschwindigkeit. Generiert qualitative Ergebnisse in nur 4 Schritten (Sekunden). Vollständige kommerzielle Nutzung ohne Einschränkungen erlaubt

Dev-Modell

Open-Weight-Modell mit nahezu Pro-Qualität für Entwicklung und Experimente. Direkt vom Pro-Modell destilliert. Nicht-kommerziell lokal, kommerziell über API-Plattformen

Pro und Pro 1.1 Modelle

Kommerzielle Flaggschiff-Modelle mit höchster Qualität, bester Prompt-Befolgung und feinsten Details. Pro 1.1 liefert verbesserte Qualität mit schnelleren Generierungszeiten

Ultra-Modus (4MP)

Bilder bis zu 2048x2048 (4 Megapixel) mit außergewöhnlichem Detail, fortschrittlichen Lichteffekten und akkuratem Text-Rendering in hoher Auflösung generieren

Raw-Modus

Spezialisierter Modus für authentische, fotografische Ästhetik. Ideal für Porträts, Produktfotografie und realistische Bilder, die den "KI-Look" vermeiden

LoRA Fine-Tuning

Trainieren Sie benutzerdefinierte Stile, Charaktere oder Markenidentitäten mit 10-20 Bildern. Verfügbar über Replicate, Together.ai und lokale Setups. Mehrere LoRAs können kombiniert werden

FLUX.1 Tools und ControlNets

Inpainting, Outpainting, Redux-Variationen und ControlNet-Unterstützung (Canny-Kanten, Tiefenkarten) für präzise strukturelle Kontrolle über generierte Bilder

Für wen geeignet

Textlastiges Design und Branding

Erstellen Sie Logos, Poster, Social-Media-Grafiken, Produktmockups und Marketingmaterialien, die klaren, lesbaren Text erfordern. Flux' Text-Rendering-Fähigkeit ist unübertroffen und macht es zur idealen Wahl für jedes Design, das Bildmaterial mit Typografie kombiniert -- von T-Shirt-Designs bis zu Veranstaltungsbannern.

Grafikdesigner, Markenmanager und Marketingteams

Fotorealistische Inhaltserstellung

Generieren Sie realistische Produktfotografie, Stock-Bilder, Porträtfotografie und redaktionelle Inhalte. Der Raw-Modus produziert authentische fotografische Ästhetik, während der Ultra-Modus hochauflösende Ausgabe für Druck und großformatige Anzeige liefert.

Fotografen, E-Commerce-Teams und Content-Ersteller

Benutzerdefinierte KI-Modellentwicklung

Trainieren Sie LoRA-Anpassungen für spezifische Stile, Charaktere oder Markenidentitäten mit nur 10-20 Trainingsbildern. Flux' Open-Source-Ökosystem unterstützt Fine-Tuning über mehrere Plattformen, und Modelle können über API bereitgestellt oder lokal für vollständige Kontrolle ausgeführt werden.

KI-Entwickler, Kreativstudios und Forscher

Lokale und private Bildgenerierung

Führen Sie Schnell- oder Dev-Modelle lokal auf Ihrer eigenen Hardware für unbegrenzte Generierungen mit vollständiger Privatsphäre aus. ComfyUI bietet einen knotenbasierten Workflow-Editor für komplexe Pipelines, während quantisierte Versionen die Hardwareanforderungen in Reichweite von Consumer-GPUs bringen.

Datenschutzbewusste Nutzer, Hobbyisten und Entwickler

Preismodelle

FLUX.1 Schnell

$0/für immer
  • Apache 2.0 Open-Source-Lizenz
  • 4-Schritt-Schnellgenerierung (Sekunden)
  • Vollständige kommerzielle Nutzung erlaubt
  • Lokale oder API-Bereitstellungsoptionen
  • Gute Qualität bei sehr hoher Geschwindigkeit
  • Community-LoRA-Unterstützung
Empfohlen

FLUX.1 Dev

$0 lokal / ~$0.025 API/pro Bild über API

Nicht-kommerziell lokal; kommerziell über Plattformen

  • Offene Gewichte auf Hugging Face
  • Nahezu Pro-Qualitätsausgabe
  • Nicht-kommerzielle Lizenz für lokale Nutzung
  • Kommerziell über Replicate/Fal.ai APIs
  • Ideal für Entwicklung und Prototyping
  • LoRA-Trainingsunterstützung

FLUX 1.1 Pro

$0.04/pro Bild

Über BFL-API oder Partnerplattformen

  • Höchste verfügbare Ausgabequalität
  • Beste Prompt-Befolgung und Detail
  • Vollständige kommerzielle Lizenz enthalten
  • Schnellere Generierung als Original-Pro
  • Zugang über mehrere API-Partner
  • Enterprise-taugliche Zuverlässigkeit

FLUX 1.1 Pro Ultra

$0.06/pro Bild

Hochauflösungsmodus bis 4MP

  • Bis zu 4MP Auflösung (2048x2048)
  • Außergewöhnliches Feindetail und Textur
  • Fortschrittliche Beleuchtung und Atmosphäre
  • ~10 Sekunden pro Bildgenerierung
  • Text-Rendering in hoher Auflösung
  • Kommerzielle Lizenz enthalten

Web-Plattformen

$10.90-25.90/Monatsabonnement

Flux1.ai, FluxPro.ai, getimg.ai usw.

  • Keine technische Einrichtung erforderlich
  • Benutzerfreundliche Web-Oberfläche
  • Zugang zu mehreren Flux-Modellen
  • Kommerzielle Lizenz enthalten
  • Kostenlose Stufen oder Testversionen verfügbar
  • Kreditbasierte Abrechnungssysteme

Vergleich

Flux vs Stable Diffusion

Flux und Stable Diffusion sind beide für lokale Nutzung verfügbar, bedienen aber unterschiedliche Stärken. Flux bietet deutlich bessere Ausgabequalität, Text-Rendering und Prompt-Befolgung von Haus aus. Stable Diffusion hat ein viel größeres Ökosystem von Community-Modellen, LoRAs und Erweiterungen plus niedrigere Hardwareanforderungen für ältere Versionen.

Flux überzeugt bei

  • +Viel besseres Text-Rendering in generierten Bildern
  • +Höhere Basisqualität ohne umfangreiches Tuning
  • +Überlegene Prompt-Befolgung und Fotorealismus
  • +Effizientere Architektur mit Flow Matching

Stable Diffusion überzeugt bei

  • +Stable Diffusion hat ein weit größeres Modell-Ökosystem (Tausende Modelle)
  • +SD 1.5 läuft auf viel schwächerer Hardware (6GB VRAM)
  • +Stable Diffusion hat mehr ControlNet-Varianten und Erweiterungen
  • +Größere Community mit mehr Tutorials und Ressourcen

Flux vs Midjourney

Flux und Midjourney zielen auf unterschiedliche kreative Bedürfnisse ab. Midjourney produziert die ästhetisch ansprechendsten, künstlerischsten Bilder mit überlegener Komposition und Stimmung. Flux zeichnet sich bei technischer Genauigkeit aus -- Text-Rendering, Fotorealismus, Prompt-Befolgung und anatomische Korrektheit. Midjourney ist nur per Abonnement; Flux bietet kostenlose Open-Source-Optionen.

Flux überzeugt bei

  • +Weit überlegenes Text-Rendering in Bildern
  • +Open-Source-Modell für kostenlose lokale Nutzung verfügbar
  • +Besserer Fotorealismus und anatomische Genauigkeit
  • +Flexible Pro-Bild-API-Preise vs. Abonnement

Midjourney überzeugt bei

  • +Midjourney hat überlegene künstlerische Qualität und Ästhetik
  • +Midjourney bietet Stil- und Charakterreferenzen für Konsistenz
  • +Midjourney hat ein ausgereifteres Nutzererlebnis
  • +Midjourney hat eine größere kreative Community

1. Erste Schritte (Web-Plattformen)

Der einfachste Weg, Flux zu nutzen, sind Web-Oberflächen, die keine technische Einrichtung erfordern: **Flux1.ai / FluxPro.ai:** 1. Besuchen Sie die Seite und erstellen Sie ein Konto 2. Erhalten Sie kostenlose Credits zum Experimentieren 3. Geben Sie Ihren Textprompt ein, der das gewünschte Bild beschreibt 4. Wählen Sie Ihr Modell (Schnell für Geschwindigkeit, Dev für Qualität, Pro für beste Ergebnisse) 5. Wählen Sie Seitenverhältnis und zusätzliche Einstellungen 6. Klicken Sie auf Generieren und laden Sie Ihre Bilder herunter **getimg.ai:** - Bietet 100 kostenlose Bilder pro Monat - Zugang zu Schnell, Dev und Ultra im Essential-Modus - Übersichtliche Oberfläche mit Batch-Verarbeitungsunterstützung Diese Plattformen übernehmen die gesamte technische Komplexität und machen Flux unabhängig vom technischen Hintergrund für jeden zugänglich.

2. Flux über API nutzen

Für Entwickler und Power-User bietet API-Zugang mehr Kontrolle und Integrationsmöglichkeiten: **Replicate:** ```python import replicate output = replicate.run( "black-forest-labs/flux-schnell", input={"prompt": "Eine Cyberpunk-Stadtlandschaft bei Nacht mit Neonschildern 'GEÖFFNET 24/7'"} ) ``` **Together.ai, Fal.ai und BFL Direct API** bieten ebenfalls Flux-Zugang mit OpenAI SDK-Kompatibilität in vielen Fällen. **Preisvergleich pro Bild:** - Schnell: ~$0,003 (praktisch kostenlos) - Dev: ~$0,025 - Pro 1.1: ~$0,04 - Ultra: ~$0,06 Für Hochvolumen-Nutzung ist API-Preisgestaltung oft kostengünstiger als abonnementbasierte Plattformen.

3. Flux lokal ausführen (ComfyUI)

**Hardwareanforderungen:** - 12GB+ VRAM empfohlen für volle Qualität (RTX 4070 Ti oder besser) - 8GB VRAM möglich mit FP8- oder NF4-Quantisierung (etwas Qualitätsverlust) - 24GB+ VRAM ideal für volle Modelle ohne Kompromisse **Einrichtung in ComfyUI:** 1. ComfyUI auf die neueste Version aktualisieren 2. Modelldateien von Hugging Face herunterladen: - UNET: flux1-schnell.safetensors (oder flux1-dev.safetensors) - VAE: ae.safetensors - CLIP-Encoder: clip_l.safetensors + t5xxl_fp8_e4m3fn.safetensors 3. Dateien in die entsprechenden ComfyUI-Modellverzeichnisse legen 4. Einen vorgefertigten Flux-Workflow-JSON aus der Community laden **Für niedrigeren VRAM (8-12GB):** - FP8- oder GGUF-quantisierte Modellversionen verwenden - Modell-Offloading auf System-RAM aktivieren - Forge UI für bessere Speichereffizienz in Betracht ziehen - Schnell (4 Schritte) statt Dev (20+ Schritte) verwenden

4. LoRA-Training für benutzerdefinierte Stile

Benutzerdefinierte Stile, Charaktere oder Markenidentitäten trainieren: **Über Replicate (am einfachsten):** 1. 10-20 hochwertige, konsistente Trainingsbilder vorbereiten 2. Den flux-dev-lora-trainer auf Replicate verwenden 3. Training kostet typischerweise ~$1,85 und dauert 15-30 Minuten 4. LoRA-Gewichtsdatei für sofortige Nutzung erhalten **Über Together.ai:** 1. Trainingsdatensatz hochladen 2. Trainingsparameter konfigurieren (Epochen, Lernrate) 3. Pro-Megapixel-Preise zahlen ($0,035/MP) **Lokales Training:** Community Kohya-Style-Trainer verwenden, angepasst für Flux-Architektur **Trainierte LoRAs verwenden:** - Trigger-Wort zum Prompt hinzufügen - LoRA-Stärke anpassen (0,5-1,0 ist typisch) - Mehrere LoRAs können für komplexe Effekte kombiniert werden - Funktioniert in ComfyUI, Automatic1111/Forge und über API

Häufig gestellte Fragen

Flux zeichnet sich bei Text-Rendering (deutlich besser als beide), Fotorealismus und Prompt-Befolgung aus. Midjourney produziert künstlerischere und stilisiertere Ergebnisse mit überlegener Komposition. Stable Diffusion hat ein viel größeres Modell-Ökosystem und niedrigere Hardwareanforderungen. Viele Kreative nutzen mehrere Tools für verschiedene Bedürfnisse.
Ja. Schnell ist unter Apache 2.0 für vollständige kommerzielle Nutzung ohne Einschränkungen lizenziert. Pro- und Ultra-Modelle beinhalten kommerzielle Lizenzen beim Zugang über bezahlte APIs. Dev ist nicht-kommerziell bei lokaler Ausführung, aber kommerziell bei Generierung über Plattformen wie Replicate -- überprüfen Sie immer die spezifischen Plattformbedingungen.
Volle Modelle funktionieren am besten mit 24GB+ VRAM (RTX 4090, A100). Optimierte Versionen (FP8, GGUF, NF4-Quantisierung) können auf 12GB Consumer-GPUs wie der RTX 4070 Ti laufen. 8GB sind mit starker Quantisierung und Qualitätseinbußen möglich. Für die meisten Gelegenheitsnutzer ist API-Zugang praktischer.
Schnell: Am schnellsten (4 Schritte), Open Source, gute Qualität, kostenlos. Dev: Höhere Qualität, vom Pro destilliert, nicht-kommerziell lokal. Pro/Pro 1.1: Beste Qualität und Detail, kommerziell, Closed Source. Ultra: 4MP hohe Auflösung. Raw: Optimiert für authentische fotografische Ästhetik.
Flux hat das beste Text-Rendering aller KI-Bildmodelle, deutlich besser als Stable Diffusion, Midjourney oder DALL-E. Es kann zuverlässig lesbaren englischen Text auf Schildern, Postern, Logos und Produktetiketten generieren. Nicht-lateinische Schriften und sehr langer Text können weniger zuverlässig sein.
Flux Pro (~$0,04/Bild) ist sehr wettbewerbsfähig. Schnell ist für lokale Nutzung unter Apache 2.0 komplett kostenlos. Im Vergleich zu Midjourney-Abonnements (10-120$/Monat) ist Flux API für Hochvolumen-Nutzung günstiger. Web-Plattform-Abonnements (10-25$/Monat) bieten vorhersehbare monatliche Kosten.
Ja. LoRA-Training ist über Replicate ($1-2 pro Trainingslauf), Together.ai und lokale Setups mit Community-Trainingsskripts verfügbar. Sie benötigen 10-20 hochwertige Trainingsbilder. Mehrere LoRAs können während der Generierung für komplexe Effekte kombiniert werden.
Flow Matching ist die zentrale Generierungstechnik, die Flux anstelle traditioneller Diffusions-Entrauschung verwendet. Statt iterativ Rauschen Schritt für Schritt zu entfernen, lernt es direkte Transformationspfade zwischen Verteilungen, was zu schnellerer, effizienterer und qualitativ hochwertigerer Bildgenerierung führt.
Videogenerierungsfähigkeiten entstehen, sind aber noch kein primäres Feature. Einige Community-Implementierungen existieren für kurze Videoclips, aber Flux ist primär ein Bildgenerierungsmodell. Für KI-Video ziehen Sie dedizierte Tools wie Runway, Kling oder Sora in Betracht.
Flux bietet deutlich besseres Text-Rendering, überlegenen Fotorealismus und flexiblere Bereitstellungsoptionen (Open Source, API, lokal). DALL-E 3 ist über ChatGPT zugänglicher und besser darin, komplexe konversationelle Anweisungen zu befolgen. Beide produzieren hochwertige Bilder, bedienen aber unterschiedliche Workflows.