[개념정리] Stable Diffusion, DALL-E, DALL-E 2
1. Stable Diffusion
잠복 확산 모델을 기반으로 하며, 사전 학습된 자동 인코더를 활용해 구조화된 잠재 공간에서 고품질 이미지를 효율적으로 생성한다.
<학습 단계>
[1] VAE 인코딩: 압축 단계
VAE 인코더는 픽셀 공간의 입력 이미지를 저 차원의 잠재 공간으로 압축하며, 이 과정에서 이미지의 필수적인 의미 정보를 캡처한다.
[2] 포워드 확산: 노이즈 추가
잠재 공간 표현에 가우시안 노이즈를 반복적으로 추가하여, 무작위성과 다양성을 부여한다.
[3] 역확산: 노이즈 제거
포워드 확산 과정과 반대 방향으로 동작하여, 잠재 공간에서 노이즈를 제거하고 깨끗하고 안정적인 잠재 표현을 생성한다.
[4] VAE 디코딩: 복원 단계
VAE 디코더는 정제된 잠재 표현을 픽셀 공간으로 변환하여 최종 이미지를 생성한다.
2. DALL-E
DALL-E는 텍스트와 이미지를 단일 데이터 스트림으로 결합하여 자동 회귀 방식으로 모델링하는 트랜스포머 기반 생성 모델이다.
<단계>
[1] dVAE 훈련
dVAE는 인코딩 및 디코딩된 RGB 영상의 분포와 관련하여 증거 하한을 최대화하도록 훈련된다.
[2] 텍스트-이미지 토큰 학습
텍스트와 이미지 토큰의 사전 분포를 Adam을 사용해 ELB를 최대화하여 학습한다.
<정량적 결과>
- 예상치 못한 설명이나 창의적인 아이디어에 기반한 이미지 생성 작업을 잘 수행한다.
- 복잡한 창작물을 효과적으로 처리할 수 있다.
3. DALL-E 2
CLIP을 활용하여 텍스트와 이미지의 공동 표현 공간을 학습하는 고도화된 생성 모델이다.
기존의 자동 회귀 방식을 넘어 Diffusion Model을 사용하여 더욱 정교하고 사실적인 이미지를 생성한다.
<CLIP, Contrastive Language-Image Pre-training model>
이미지와 텍스트 쌍으로 훈련된 신경망으로, 텍스트와 이미지 임베딩을 대비 학습을 통해 일치시킨다.
코사인 유사도를 기반으로 벡터를 정렬하여 텍스트와 이미지 간의 관계를 학습한다.
<결과>
- DALL-E 2의 확장된 접근법인 unCLIP은 사실성과 캡션 유사성을 유지하며, 이미지 생성의 다양성을 균형 있게 조정한다.
- GLIDE 모델에 비해 FID에 미치는 부정적인 영향을 줄이면서 높은 품질의 이미지를 생성한다.
- 텍스트 프롬프트를 캡처하여 사실적이고 복잡한 장면을 생성하는 데 능숙하다.