Sceneary image generation

Sceneary image generation

2024. 12. 27. 11:41ㆍ인공지능/플젝

Subject: Image Segmentation

2차. Sceneary image generation with Mit+UperNet and LDM+ControlNet

Period: a week(24/11/13~24/11/19)

Goal: Generate Image with model trained by scenery dataset after semantic segmentation

Dataset: ADE20K Outdoor

Model: Mixed Vision Transformer+UperNet, Latent Diffusion Model+ControlNet

1. Semantic segmentation

1) Unet+ControlNet(for trial)
해당 모델 선정 이유: 생성에 디퓨전 모델을 사용할 것이기에 해당 모델의 백본인 Unet을 동일하게 사용.

성능 향상을 위해 ControlNet block 추가. (Diffusion 계열 모델은 주로 ControlNet과 같이 씀)

2) Mit+UperNet

해당 모델 선정 이유: 성능 향상을 위해 Transformer 계열의 모델로 변경하고 ControlNet head 추가.

(Transformer 계열 모델은 주로 UperNet과 같이 씀)
2. Generation

1) LDM+ControlNet

해당 모델 선정 이유: Sota 모델중 하나이고 프롬프트 기반 이미지 생성 모델에서 가장 유명.

ControlNet block을 추가하여 조건부 제어 성능 향상.

- 생성이 잘 된 케이스(Prompt: Snowy)

- 생성이 잘 안된 케이스(Prompt: Dreams come true)

Note:

1. 모델의 페어링도 존재한다. 백본에만 주로 쓰는 것들도 있고, 블럭이나 헤드로 주로 쓰는 것 또한 있다.

2. 물체 크기가 크고 뚜렷해야 분할이 잘 되는 만큼, 자연물을 가지고 학습한 모델의 지표는 좋지 않다.

3. 이미지를 생성할 때에는 적절하게 프롬프트를 주어야 결과물이 좋다.

728x90

LennyLemony