Flux

Modelo de imagem do Black Forest Labs com renderização de texto líder do setor, fotorrealismo excepcional e forte aderência ao prompt. Disponível em código aberto e variantes comerciais para diversos fluxos de trabalhos.

Free AvailableOpen SourceText RenderingPhotorealismAPI

Visitar site Ver tutorial

Parâmetros

12B

Empresa

Black Forest Labs

Código aberto

Schnell (Apache 2.0)

Preço Pro

$0.04/image

Arquitetura

DiT + Flow Matching

Resolução máxima

4MP (2048x2048)

Introdução

O Flux representa um salto significativo na criação de imagens generativas de IA, desenvolvido pelo Black Forest Labs – uma equipe fundada por pesquisadores que criaram o Stable Diffusion. Desde o seu lançamento, o Flux ganhou rapidamente reconhecimento por transformar descrições de texto em visuais impressionantes que rivalizam ou superam jogadores estabelecidos, com particular excelência na renderização de texto claro e legível dentro de imagens – um desafio persistente que tem atormentado outros geradores de imagens de IA.

A base técnica do Flux é uma sofisticada arquitetura híbrida de 12 bilhões de parâmetros que combina modelos de transformador e difusão usando a abordagem DiT (Diffusion Transformer). Isto é combinado com a metodologia de "correspondência de fluxo" que permite uma geração de imagens mais eficiente e de alta qualidade em comparação com as técnicas tradicionais de difusão. O resultado é excepcional aderência ao prompt, resultados fotorrealistas, anatomia humana precisa (especialmente mãos e rostos) e - mais notavelmente - a melhor renderização de texto de qualquer modelo de imagem de IA.

Flux oferece uma família de modelos escalonados para atender a diferentes necessidades: Schnell para geração extremamente rápida com licenciamento completo de código aberto, Dev para experimentação não comercial de alta qualidade, Pro para aplicações comerciais profissionais e Ultra/Raw para máxima resolução e fotorrealismo. Essa abordagem permite que o Black Forest Labs promova a adoção do código aberto pela comunidade enquanto monetiza recursos premium, tornando o Flux acessível tanto para hobbyistas quanto para empresas.

Vantagens

+A melhor renderização de texto do setor em imagens geradas
+Excelente fotorrealismo e precisão da anatomia humana
+Forte aderência ao prompt e instruções seguindo
+Variante Schnell gratuita com licença comercial completa de código aberto
+Modo Ultra para saída de 4MP de alta resolução
+Crescente LoRA e ecossistema de ajuste fino
+Preços competitivos de API em todos os níveis
+Múltiplas opções de acesso (web, API, implantação local)

Desvantagens

-Modelos completos requerem hardware substancial para uso local
-Ecossistema menor que Difusão Estável (menos modelos de comunidade)
-Complexidade da licença do modelo de desenvolvimento (as regras locais e da plataforma são diferentes)
-Menos estilização artística em comparação com Midjourney
-Texto diferente do inglês tornando-se menos confiável
-Modelo mais recente com menos tutoriais e recursos da comunidade

Principais funcionalidades

Renderização de texto líder do setor

Capacidade excepcional de gerar texto claro, legível e escrito com precisão nas imagens – um grande avanço em relação a todos os modelos anteriores. Confiável para sinalização, logotipos, pôsteres e conteúdo de marca

Fotorrealismo Forte

Produz imagens altamente realistas com anatomia humana precisa, texturas naturais da pele, física de iluminação adequada e detalhes finos coerentes que rivalizam com a fotografia profissional

Adesão imediata excepcional

Interpreta e segue com precisão instruções complexas e detalhadas com vários elementos. Responde bem a instruções específicas sobre composição, estilo, cor e relações espaciais

Modelo Schnell (rápido)

Modelo de código aberto do Apache 2.0 otimizado para velocidade. Gera resultados de qualidade em apenas 4 passos (segundos). Uso comercial completo permitido sem restrições

Modelo de desenvolvimento

Modelo aberto que oferece qualidade quase profissional para desenvolvimento e experimentação. Destilado diretamente do modelo Pro. Não comercial localmente, comercial por meio de plataformas API

Modelos Pro e Pro 1.1

Modelos comerciais emblemáticos com a mais alta qualidade, melhor aderência ao prompt e melhores detalhes. Pro 1.1 oferece qualidade aprimorada com tempos de geração mais rápidos

Modo Ultra (4MP)

Gere imagens de até 2048x2048 (4 megapixels) com detalhes excepcionais, efeitos de iluminação avançados e renderização de texto precisa em alta resolução

Modo bruto

Modo especializado que produz uma estética fotográfica autêntica. Ideal para retratos, fotografia de produtos e imagens realistas que evitam a "aparência de IA"

Ajuste fino de LoRA

Treine estilos, personagens ou identidades de marca personalizados usando de 10 a 20 imagens. Disponível por meio de Replicate, Together.ai e configurações locais. Vários LoRAs podem ser combinados

Ferramentas FLUX.1 e ControlNets

Inpainting, outpainting, variações redux e suporte ControlNet (canny edge, mapa de profundidade) para controle estrutural preciso sobre imagens geradas

Quem deve usar

Design e branding com muito texto

Crie logotipos, pôsteres, gráficos para mídias sociais, modelos de produtos e materiais de marketing que exijam texto claro e legível. A capacidade de renderização de texto do Flux é incomparável, tornando-o a escolha ideal para qualquer design que combine imagens com tipografia – desde designs de camisetas até banners de eventos.

Designers gráficos, gerentes de marca e equipes de marketing

Criação de Conteúdo Fotorrealista

Gere fotografias realistas de produtos, imagens em estilo stock, retratos e conteúdo editorial. O modo Raw produz uma estética fotográfica autêntica, enquanto o modo Ultra oferece resultados de alta resolução adequados para impressão e exibição em grandes formatos.

Fotógrafos, equipes de comércio eletrônico e criadores de conteúdo

Desenvolvimento de modelo de IA personalizado

Treine adaptações LoRA para estilos, personagens ou identidades de marca específicos com apenas 10 a 20 imagens de treinamento. O ecossistema de código aberto do Flux suporta ajuste fino através de múltiplas plataformas, e os modelos podem ser implantados via API ou executados localmente para controle completo.

Desenvolvedores de IA, estúdios criativos e pesquisadores

Geração de Imagens Local e Privada

Execute modelos Schnell ou Dev localmente em seu próprio hardware por gerações ilimitadas com total privacidade. O ComfyUI fornece um editor de fluxo de trabalho baseado em nó para pipelines complexos, enquanto as versões quantizadas colocam os requisitos de hardware ao alcance das GPUs do consumidor.

Usuários, amadores e desenvolvedores preocupados com a privacidade

Planos de preços

FLUX.1 Schnell

$0/para sempre

Licença Apache 2.0 código aberto
Geração rápida em 4 etapas (segundos)
Uso comercial total permitido
Opções de implantação local ou de API
Boa qualidade em alta velocidade
Apoio comunitário LoRA

Recomendado

FLUX.1 Dev

$0 local / ~$0.025 API/por imagem via API

Local não comercial; comercial através de plataformas

Pesos abertos no rosto abraçado
Saída com qualidade quase profissional
Licença não comercial para uso local
Comercial via APIs Replicate/Fal.ai
Ótimo para desenvolvimento e prototipagem
Suporte de treinamento LoRA

FLUX 1.1 Pro

$0.04/por imagem

Via API BFL ou plataformas parceiras

Saída da mais alta qualidade disponível
Melhor aderência ao prompt e detalhe
Licença comercial completa incluída
Geração mais rápida que o Pro original
Acesso por meio de vários parceiros de API
Confiabilidade pronta para empresas

FLUX 1.1 Pro Ultra

$0.06/por imagem

Modo de alta resolução até 4MP

Resolução de até 4MP (2048x2048)
Detalhes finos e textura excepcionais
Iluminação e atmosfera avançadas
~10 segundos por geração de imagens
Renderização de texto em alta resolução
Licença comercial incluída

Web Platforms

$10.90-25.90/assinatura mensal

Flux1.ai, FluxPro.ai, getimg.ai, etc.

Nenhuma configuração técnica necessária
Interface web amigável
Acesso a múltiplos modelos Flux
Licença comercial incluída
Plano gratuito ou testes disponíveis
Sistemas de cobrança baseados em crédito

Comparativo

Flux vs Stable Diffusion

Flux e Stable Diffusion estão disponíveis para uso local, mas atendem a diferentes dosagens. O Flux oferece qualidade de saída significativamente melhor, renderização de texto e aderência imediata ao prompt. Stable Diffusion possui um ecossistema muito maior de modelos de comunidade, LoRAs e extensões, além de requisitos de hardware mais baixos para versões mais antigas.

Flux se destaca em

+Renderização de texto muito melhor em imagens geradas
+Maior qualidade de base sem ajustes extensos
+Maior aderência ao prompt e fotorrealismo
+Arquitetura mais eficiente com correspondência de fluxo

Stable Diffusion se destaca em

+A Difusão Estável tem um ecossistema de modelos muito maior (milhares de modelos)
+SD 1.5 roda em hardware de baixo custo (6GB VRAM)
+Stable Diffusion tem mais variantes e extensões ControlNet
+Comunidade maior com mais tutoriais e recursos

Flux vs Midjourney

Flux e Midjourney atendem a diferentes necessidades criativas. Midjourney produz imagens artísticas esteticamente mais agradáveis, com composição e clima superiores. O Flux se destaca pela precisão técnica – renderização de texto, fotorrealismo, aderência ao prompt e correção anatômica. Midjourney é apenas para assinatura; Flux oferece opções gratuitas de código aberto.

Flux se destaca em

+Renderização de texto muito superior em imagens
+Modelo de código aberto disponível para uso local gratuito
+Melhor fotorrealismo e precisão anatômica
+Preço flexível da API por imagem versus assinatura

Midjourney se destaca em

+Midjourney tem qualidade artística e estética superiores
+Midjourney oferece referências de estilo e personagem para consistência
+Midjourney oferece uma experiência de usuário mais refinada
+Midjourney tem uma comunidade criativa maior

1. Primeiros Passos (Plataformas Web)

A maneira mais fácil de usar o Flux é através de interfaces web que não requerem configuração técnica: **Flux1.ai/FluxPro.ai:** 1. Visite o site e crie uma conta 2. Obtenha créditos grátis para começar a experimentar 3. Digite seu prompt de texto descrevendo a imagem desejada 4. Selecione seu modelo (Schnell para velocidade, Dev para qualidade, Pro para melhores resultados) 5. Escolha a proporção e quaisquer configurações adicionais 6. Clique em Gerar e baixe suas imagens **getimg.ai:** - Oferece 100 imagens gratuitas por mês - Acesse Schnell, Dev e Ultra no modo Essential - Interface limpa com suporte para processamento em lote Essas plataformas lidam com toda a complexidade técnica, tornando o Flux acessível a todos, independentemente da formação técnica.

2. Usando Flux via API

Para desenvolvedores e usuários avançados, o Acesso à API oferece mais possibilidades de controle e integração: **Replicar:** ```píton importar replicar saída=replicar.run( "labs-floresta negra/flux-schnell", input={"prompt": "Uma paisagem urbana cyberpunk à noite com letreiros de néon dizendo 'ABERTO 24 horas por dia, 7 dias por semana'"} ) ``` **Together.ai, Fal.ai e API direta BFL** também oferecem acesso Flux com compatibilidade OpenAI SDK em muitos casos. **Comparação de preços por imagem:** - Schnell: ~$0,003 (essencialmente grátis) -Desenvolvimento: ~$0,025 - Pró 1.1: ~$0,04 -Ultra: ~$0,06 Para uso em alto volume, o preço da API costuma ser mais econômico do que as plataformas baseadas em assinatura. O cache de contexto em algumas plataformas reduz os custos de prefixos de prompt repetidos.

3. Executando o Flux localmente (ComfyUI)

**Requisitos de hardware:** - 12GB+ VRAM recomendado para qualidade total (RTX 4070 Ti ou melhor) - 8GB VRAM possível com quantização FP8 ou NF4 (alguma perda de qualidade) - 24 GB + VRAM ideal para modelos completos sem compromissos **Configuração no ComfyUI:** 1. Atualize o ComfyUI para a versão mais recente 2. Baixe os arquivos do modelo do Hugging Face: - UNET: flux1-schnell.safetensors (ou flux1-dev.safetensors) - VAE: ae.safetensors - Codificadores CLIP: clip_l.safetensors + t5xxl_fp8_e4m3fn.safetensors 3. Coloque os arquivos nos diretórios apropriados do modelo ComfyUI 4. Carregue um JSON de fluxo de trabalho pré-fabricado do Flux da comunidade **Para VRAM inferior (8-12 GB):** - Use versões de modelo quantizado FP8 ou GGUF - Habilitar o descarregamento do modelo para a RAM do sistema - Considere o Forge UI para melhor eficiência de memória - Use Schnell (4 etapas) em vez de Dev (mais de 20 etapas)

4. Treinamento LoRA para estilos personalizados

Treine estilos, personagens ou identidades de marca personalizados: **Via replicar (mais fácil):** 1. Prepare 10-20 imagens de treinamento consistentes e de alta qualidade 2. Use o flux-dev-lora-trainer no Replicate 3. O treinamento normalmente custa cerca de US$ 1,85 e leva de 15 a 30 minutos 4. Receba arquivo de pesos LoRA para uso imediato **Via Juntos.ai:** 1. Faça upload do seu conjunto de dados de treinamento 2. Configure parâmetros de treinamento (épocas, taxa de aprendizagem) 3. Preço de pagamento por megapixel (US$ 0,035/MP) **Treinamento local:** Use treinadores comunitários no estilo Kohya adaptados para a arquitetura Flux **Usando LoRAs treinados:** - Adicione sua palavra-gatilho ao prompt - Ajustar a força LoRA (0,5-1,0 é típico) - Vários LoRAs podem ser combinados para efeitos complexos - Funciona em ComfyUI, Automatic1111/Forge e via API

Perguntas frequentes

O Flux é excelente na renderização de texto (significativamente melhor que ambos), fotorrealismo e aderência ao prompt. Midjourney produz resultados mais artísticos e estilizados com composição superior. O Stable Diffusion possui um ecossistema de modelos muito maior e requisitos de hardware mais baixos. Muitos criadores usam várias ferramentas para diferentes necessidades.

Sim. Schnell é Apache 2.0 licenciado para uso comercial completo sem restrições. Os modelos Pro e Ultra incluem licenças comerciais quando acessados por meio de APIs pagas. Dev não é comercial quando executado localmente, mas comercial quando gerado por meio de plataformas como Replicate – sempre verifique os termos específicos da plataforma.

Os modelos completos funcionam melhor com 24 GB + VRAM (RTX 4090, A100). Versões otimizadas (quantização FP8, GGUF, NF4) podem ser executadas em GPUs de consumo de 12 GB, como o RTX 4070 Ti. 8 GB são possíveis com quantização pesada e algumas compensações de qualidade. Para a maioria dos usuários casuais, o Acesso à API é mais prático.

Schnell: Mais rápido (4 etapas), código aberto, boa qualidade, gratuito. Dev: Qualidade superior, destilado do Pro, não comercial localmente. Pro/Pro 1.1: Melhor qualidade e detalhes, comercial, código fechado. Ultra: 4MP de alta resolução. Raw: Otimizado para uma estética fotográfica autêntica.

Flux tem a melhor renderização de texto de qualquer modelo de imagem AI, significativamente melhor que Stable Diffusion, Midjourney ou DALL-E. Ele pode gerar texto legível em inglês de maneira confiável em placas, pôsteres, logotipos e rótulos de produtos. Escritas não latinas e textos muito longos podem ser menos confiáveis.

Flux Pro (~$0,04/imagem) é muito competitivo. Schnell é totalmente gratuito para uso local no Apache 2.0. Em comparação com as assinaturas Midjourney (US$ 10-120/mês), a API Flux é mais barata para uso em alto volume. Assinaturas de plataforma web (US$ 10-25/mês) oferecem custos mensais previsíveis.

Sim. O treinamento LoRA está disponível por meio do Replicate (US$ 1-2 por treinamento), Together.ai e configurações locais com scripts de treinamento comunitário. Você precisa de 10 a 20 imagens de treinamento de alta qualidade. Vários LoRAs podem ser combinados durante a geração para efeitos complexos.

A correspondência de fluxo é a principal técnica de geração que o Flux usa em vez da tradicional eliminação de ruído por difusão. Em vez de remover o ruído iterativamente, passo a passo, ele aprende caminhos de transformação direta entre distribuições, resultando em uma geração de imagens mais rápida, eficiente e de maior qualidade.

As capacidades de geração de vídeo estão surgindo, mas ainda não são um recurso principal. Existem algumas implementações comunitárias para videoclipes curtos, mas o Flux é principalmente um modelo de geração de imagens. Para vídeo de IA, considere ferramentas dedicadas como Runway, Kling ou Sora.

O Flux oferece renderização de texto significativamente melhor, fotorrealismo superior e opções de implantação mais flexíveis (código aberto, API, local). DALL-E 3 é mais acessível através do ChatGPT e melhor para seguir instruções de conversação complexas. Ambos produzem imagens de alta qualidade, mas atendem a diferentes fluxos de trabalho.