Flux

소개

Flux는 Stable Diffusion을 만든 연구원들이 설립한 팀인 Black Forest Labs가 개발한 생성적 AI 이미지 생성 분야에서 중요한 도약을 나타냅니다. Flux는 출시 이후 텍스트 설명을 기성 플레이어에 필적하거나 능가하는 놀라운 시각적 요소로 변환하는 것으로 빠르게 인정을 받았으며, 특히 이미지 내의 명확하고 읽기 쉬운 텍스트를 렌더링하는 데 탁월한 능력을 발휘했습니다. 이는 다른 AI 이미지 생성기를 괴롭혀온 지속적인 과제입니다.

Flux의 기술적 기반은 DiT(확산 변환기) 접근 방식을 사용하여 변환기와 확산 모델을 결합한 정교한 120억 매개변수 하이브리드 아키텍처입니다. 이는 기존 확산 기술에 비해 더 효율적이고 고품질의 이미지 생성을 가능하게 하는 "흐름 매칭" 방법과 결합됩니다. 그 결과 탁월한 신속한 준수, 사실적인 출력, 정확한 인체 해부학(특히 손과 얼굴), 그리고 무엇보다도 AI 이미지 모델 중 최고의 텍스트 렌더링이 가능해졌습니다.

Flux는 다양한 요구 사항을 충족할 수 있는 계층형 모델 제품군을 제공합니다. 완전한 오픈 소스 라이선스를 갖춘 초고속 생성을 위한 Schnell, 고품질 비상업적 실험을 위한 Dev, 전문 상업용 애플리케이션을 위한 Pro, 최대 해상도 및 포토리얼리즘을 위한 Ultra/Raw. 이 접근 방식을 통해 Black Forest Labs는 오픈 소스 커뮤니티 채택을 촉진하는 동시에 프리미엄 기능으로 수익을 창출하여 애호가와 기업 모두가 Flux에 액세스할 수 있도록 합니다.

장점

+생성된 이미지의 업계 최고의 텍스트 렌더링
+뛰어난 사실적 표현과 인체 해부학적 정확성
+강력하고 신속한 준수 및 지시 따르기
+전체 오픈소스 상업 라이선스를 갖춘 무료 Schnell 모델
+고해상도 4MP 출력을 위한 울트라 모드
+LoRA 성장 및 생태계 미세 조정
+모든 계층에 걸쳐 경쟁력 있는 API 가격
+다중 액세스 옵션(웹, API, 로컬 배포)

단점

-전체 모델에는 로컬 사용을 위해 상당한 하드웨어가 필요합니다.
-Stable Diffusion보다 작은 생태계(더 적은 커뮤니티 모델)
-개발 모델 라이선스 복잡성(로컬 규칙과 플랫폼 규칙이 다름)
-Midjourney에 비해 예술적 스타일이 덜함
-영어가 아닌 텍스트 렌더링의 안정성이 떨어짐
-커뮤니티 튜토리얼 및 리소스가 더 적은 최신 모델

주요 기능

업계 최고의 텍스트 렌더링

이미지 내에서 명확하고 읽기 쉽고 철자가 정확한 텍스트를 생성하는 탁월한 기능은 이전 모델에 비해 크게 발전한 것입니다. 표지판, 로고, 포스터 및 브랜드 콘텐츠에 대한 신뢰성

강력한 포토리얼리즘

정확한 인체 해부학, 자연스러운 피부 질감, 적절한 조명 물리학, 전문 사진에 필적하는 일관되고 미세한 디테일을 통해 매우 사실적인 이미지를 생성합니다.

탁월한 신속한 준수

여러 요소가 포함된 복잡하고 상세한 프롬프트를 정확하게 해석하고 따릅니다. 구성, 스타일, 색상 및 공간 관계에 대한 구체적인 지시에 잘 반응합니다.

Schnell(빠른) 모델

속도에 최적화된 Apache 2.0 오픈 소스 모델입니다. 단 4단계(초)만에 고품질 결과를 생성합니다. 제한 없이 완전한 상업적 사용이 허용됩니다.

개발 모델

개발 및 실험을 위해 Pro에 가까운 품질을 제공하는 개방형 모델입니다. Pro 모델에서 직접 증류되었습니다. 비상업적 로컬, API 플랫폼을 통한 상업용

Pro 및 Pro 1.1 모델

최고의 품질, 최고의 신속한 준수, 최고의 디테일을 갖춘 상용 플래그십 모델입니다. Pro 1.1은 더 빠른 생성 시간으로 향상된 품질을 제공합니다.

울트라 모드(4MP)

탁월한 디테일, 고급 조명 효과 및 고해상도의 정확한 텍스트 렌더링을 통해 최대 2048x2048(4메가픽셀)의 이미지를 생성합니다.

원시 모드

진정한 사진의 미학을 만들어내는 특수 모드. "AI 룩"을 피하는 인물 사진, 제품 사진 및 사실적인 이미지에 적합합니다.

LoRA 미세 조정

10~20개의 이미지를 사용하여 사용자 정의 스타일, 캐릭터 또는 브랜드 아이덴티티를 교육합니다. Replicate, Together.ai, 로컬 설정을 통해 사용할 수 있습니다. 여러 LoRA를 결합할 수 있습니다.

FLUX.1 도구 및 ControlNet

생성된 이미지에 대한 정밀한 구조 제어를 위한 인페인팅, 아웃페인팅, redux 변형 및 ControlNet 지원(Canny edge, Depth map)

요금제

FLUX.1 Schnell

$0/forever

Apache 2.0 오픈 소스 라이선스
4단계 빠른 생성(초)
전체 상업적 사용 허용
로컬 또는 API 배포 옵션
매우 빠른 속도에서도 좋은 품질
커뮤니티 LoRA 지원

FLUX.1 Dev

$0 local / ~$0.025 API/per image via API

비상업적인 지역; 플랫폼을 통한 상업

Hugging Face의 오픈 웨이트
Near-Pro 품질 출력
로컬 사용을 위한 비상업적 라이센스
Replicate/Fal.ai API를 통한 상용화
개발 및 프로토타이핑에 적합
LoRA 훈련 지원

FLUX 1.1 Pro

$0.04/per image

BFL API 또는 파트너 플랫폼을 통해

최고 품질의 출력 가능
최고의 신속한 준수 및 세부 사항
전체 상용 라이센스 포함
원래 Pro보다 빠른 생성
여러 API 파트너를 통해 액세스
엔터프라이즈급 안정성

FLUX 1.1 Pro Ultra

$0.06/per image

최대 4MP의 고해상도 모드

최대 4MP 해상도(2048x2048)
뛰어난 디테일과 질감
고급스러운 조명과 분위기
이미지 생성당 ~10초
고해상도의 텍스트 렌더링
상업용 라이센스 포함

Web Platforms

$10.90-25.90/monthly subscription

Flux1.ai, FluxPro.ai, getimg.ai 등

기술적인 설정이 필요하지 않습니다.
사용자 친화적인 웹 인터페이스
다중 Flux 모델 액세스
상업용 라이센스 포함
무료 등급 또는 평가판 이용 가능
신용 기반 결제 시스템

비교

Flux vs Stable Diffusion

Flux와 Stable Diffusion은 모두 국소적으로 사용할 수 있지만 서로 다른 장점을 제공합니다. Flux는 훨씬 더 나은 출력 품질, 텍스트 렌더링 및 즉각적인 준수를 제공합니다. Stable Diffusion은 커뮤니티 모델, LoRA 및 확장으로 구성된 훨씬 더 큰 생태계를 갖추고 있으며 이전 버전에 대한 하드웨어 요구 사항도 더 낮습니다.

Flux이(가) 뛰어난 점

+생성된 이미지의 텍스트 렌더링이 훨씬 향상되었습니다.
+광범위한 조정 없이 기본 품질 향상
+뛰어난 신속한 접착력과 포토리얼리즘
+흐름 일치를 통해 더욱 효율적인 아키텍처

Stable Diffusion이(가) 뛰어난 점

+Stable Diffusion은 훨씬 더 큰 모델 생태계(수천 개의 모델)를 가지고 있습니다.
+SD 1.5는 훨씬 낮은 수준의 하드웨어(6GB VRAM)에서 실행됩니다.
+Stable Diffusion에는 더 많은 ControlNet 변형 및 확장 기능이 있습니다.
+더 많은 튜토리얼과 리소스를 갖춘 대규모 커뮤니티

Flux vs Midjourney

Flux와 Midjourney는 다양한 창의적 요구 사항을 목표로 합니다. Midjourney는 뛰어난 구도와 분위기로 가장 미적으로 아름답고 예술적인 이미지를 만들어냅니다. Flux는 텍스트 렌더링, 포토리얼리즘, 신속한 준수, 해부학적 정확성 등 기술적 정확성이 뛰어납니다. Midjourney는 구독 전용입니다. Flux는 무료 오픈 소스 옵션을 제공합니다.

Flux이(가) 뛰어난 점

+이미지에서 훨씬 뛰어난 텍스트 렌더링
+무료로 로컬에서 사용할 수 있는 오픈 소스 모델
+더 나은 사실감과 해부학적 정확성
+유연한 이미지별 API 가격과 구독 비교

Midjourney이(가) 뛰어난 점

+Midjourney는 예술적 품질과 미학이 뛰어납니다.
+Midjourney는 일관성을 위해 스타일 및 문자 참조를 제공합니다.
+Midjourney는 더욱 세련된 사용자 경험을 제공합니다.
+Midjourney에는 더 큰 창작 커뮤니티가 있습니다.

1. 시작하기(웹 플랫폼)

Flux를 사용하는 가장 쉬운 방법은 기술적인 설정이 필요하지 않은 웹 인터페이스를 이용하는 것입니다. **Flux1.ai / FluxPro.ai:** 1. 사이트를 방문하여 계정을 만드세요 2. 실험을 시작하려면 무료 크레딧을 받으세요. 3. 원하는 이미지를 설명하는 텍스트 프롬프트를 입력하세요. 4. 모델을 선택하세요(속도는 Schnell, 품질은 Dev, 최상의 결과는 Pro) 5. 종횡비 및 추가 설정을 선택하십시오. 6. 이미지 생성 및 다운로드를 클릭하세요. **getimg.ai:** - 매월 100개의 무료 이미지 제공 - 필수 모드에서 Schnell, Dev 및 Ultra에 액세스 - 일괄 처리 지원으로 깔끔한 인터페이스 이러한 플랫폼은 모든 기술적 복잡성을 처리하므로 기술적 배경에 관계없이 모든 사람이 Flux에 액세스할 수 있습니다.

2. API를 통해 Flux 사용

개발자와 고급 사용자에게 API 액세스는 더 많은 제어 및 통합 가능성을 제공합니다. **복제:** ``파이썬 가져오기 복제 출력 = 복제.실행( "검은 숲 연구소/flux-schnell", input={"prompt": "'연중무휴'라고 적힌 네온사인이 있는 밤의 사이버펑크 도시 풍경"} ) ```` **Together.ai, Fal.ai 및 BFL 직접 API**도 많은 경우 OpenAI SDK와 호환되는 Flux 액세스를 제공합니다. **이미지별 가격 비교:** - Schnell: ~$0.003(기본적으로 무료) - 개발: ~$0.025 - 프로 1.1: ~$0.04 - 울트라: ~$0.06 대량 사용의 경우 API 가격이 구독 기반 플랫폼보다 비용 효율적인 경우가 많습니다. 일부 플랫폼의 컨텍스트 캐싱은 반복되는 프롬프트 접두사에 대한 비용을 줄여줍니다.

3. Flux를 로컬에서 실행(ComfyUI)

**하드웨어 요구 사항:** - 최고 품질을 위해서는 12GB+ VRAM 권장(RTX 4070 Ti 이상) - FP8 또는 NF4 양자화로 8GB VRAM 가능(일부 품질 손실) - 타협 없는 전체 모델에 이상적인 24GB+ VRAM **ComfyUI에서 설정:** 1. ComfyUI를 최신 버전으로 업데이트하세요. 2. Hugging Face에서 모델 파일을 다운로드합니다. - UNET: flux1-schnell.safetensors(또는 flux1-dev.safetensors) - VAE: ae.safetensors - CLIP 인코더:clip_l.safetensors + t5xxl_fp8_e4m3fn.safetensors 3. 적절한 ComfyUI 모델 디렉터리에 파일을 배치합니다. 4. 커뮤니티에서 미리 만들어진 Flux 워크플로 JSON을 로드합니다. **낮은 VRAM(8~12GB)의 경우:** - FP8 또는 GGUF 양자화 모델 버전 사용 - 시스템 RAM으로 모델 오프로드 활성화 - 더 나은 메모리 효율성을 위해 Forge UI를 고려하십시오. - Dev(20+ 단계) 대신 Schnell(4단계) 사용

4. 맞춤형 스타일을 위한 LoRA 교육

맞춤형 스타일, 캐릭터 또는 브랜드 아이덴티티 교육: **복제를 통해(가장 쉬움):** 1. 10~20개의 고품질의 일관된 훈련 이미지 준비 2. 복제에서 flux-dev-lora-trainer를 사용하십시오. 3. 교육 비용은 일반적으로 $1.85 정도이며 15~30분 정도 소요됩니다. 4. 즉시 사용할 수 있는 LoRA 가중치 파일 수신 **Together.ai를 통해:** 1. 훈련 데이터 세트 업로드 2. 훈련 매개변수 구성(에포크, 학습률) 3. 메가픽셀당 가격 지불($0.035/MP) **현지 교육:** Flux 아키텍처에 적합한 커뮤니티 Kohya 스타일 트레이너 사용 **훈련된 LoRA 사용:** - 프롬프트에 유발 단어를 추가하세요. - LoRA 강도 조정(0.5~1.0이 일반적임) - 복잡한 효과를 위해 여러 LoRA를 결합할 수 있습니다. - ComfyUI, Automatic1111/Forge 및 API를 통해 작동

자주 묻는 질문

Flux는 텍스트 렌더링(두 가지 모두보다 훨씬 우수함), 포토리얼리즘 및 신속한 준수에 탁월합니다. Midjourney는 뛰어난 구성으로 더욱 예술적이고 스타일리시한 결과를 만들어냅니다. Stable Diffusion은 훨씬 더 큰 모델 생태계와 더 낮은 하드웨어 요구 사항을 가지고 있습니다. 많은 제작자는 다양한 요구에 맞게 여러 도구를 사용합니다.

예. Schnell은 아무런 제한 없이 완전한 상업적 사용이 가능한 Apache 2.0 라이센스를 받았습니다. Pro 및 Ultra 모델에는 유료 API를 통해 액세스할 때 상용 라이선스가 포함됩니다. Dev는 로컬에서 실행될 때 비상업적이지만 Replicate와 같은 플랫폼을 통해 생성될 때 상업적입니다. 항상 특정 플랫폼 용어를 확인하십시오.

전체 모델은 24GB+ VRAM(RTX 4090, A100)에서 가장 잘 작동합니다. 최적화된 버전(FP8, GGUF, NF4 양자화)은 RTX 4070 Ti와 같은 12GB 소비자 GPU에서 실행될 수 있습니다. 8GB는 대량 양자화와 일부 품질 절충이 가능합니다. 대부분의 일반 사용자에게는 API 액세스가 더 실용적입니다.

Schnell: 가장 빠른(4단계), 오픈 소스, 좋은 품질, 무료. Dev: 더 높은 품질, Pro에서 증류됨, 비상업적 로컬. Pro/Pro 1.1: 최고의 품질과 디테일, 상업용, 비공개 소스. 울트라: 4MP 고해상도. Raw: 진정한 사진 미학에 최적화되었습니다.

Flux는 모든 AI 이미지 모델에 대해 최고의 텍스트 렌더링을 제공하며 Stable Diffusion, Midjourney 또는 DALL-E보다 훨씬 뛰어납니다. 표지판, 포스터, 로고 및 제품 라벨에 읽기 쉬운 영어 텍스트를 안정적으로 생성할 수 있습니다. 라틴어가 아닌 스크립트와 매우 긴 텍스트는 신뢰성이 떨어질 수 있습니다.

Flux Pro(~$0.04/이미지)는 매우 경쟁력이 있습니다. Schnell은 Apache 2.0에서 로컬 사용 시 완전 무료입니다. Midjourney 구독(월 10~120달러)에 비해 Flux API는 대량 사용 시 더 저렴합니다. 웹 플랫폼 구독(월 10-25달러)은 예측 가능한 월 비용을 제공합니다.

예. LoRA 교육은 Replicate(교육 실행당 1~2달러), Together.ai 및 커뮤니티 교육 스크립트가 포함된 로컬 설정을 통해 제공됩니다. 10~20개의 고품질 훈련 이미지가 필요합니다. 복잡한 효과를 위해 생성 중에 여러 LoRA를 결합할 수 있습니다.

흐름 일치는 전통적인 확산 노이즈 제거 대신 Flux가 사용하는 핵심 생성 기술입니다. 노이즈를 단계별로 반복적으로 제거하는 대신 분포 간의 직접적인 변환 경로를 학습하여 더 빠르고 효율적이며 고품질의 이미지 생성이 가능합니다.

비디오 생성 기능이 등장하고 있지만 아직 주요 기능은 아닙니다. 짧은 비디오 클립을 위한 일부 커뮤니티 구현이 존재하지만 Flux는 주로 이미지 생성 모델입니다. AI 비디오의 경우 Runway, Kling 또는 Sora와 같은 전용 도구를 고려하십시오.

Flux는 훨씬 더 나은 텍스트 렌더링, 탁월한 사실적 표현 및 보다 유연한 배포 옵션(오픈 소스, API, 로컬)을 제공합니다. DALL-E 3는 ChatGPT를 통해 더 쉽게 접근할 수 있으며 복잡한 대화 지침을 더 잘 따릅니다. 둘 다 고품질 이미지를 생성하지만 서로 다른 작업 흐름을 제공합니다.

소개

장점

단점