Sceneary image generation

2024. 12. 27. 11:41인공지능/플젝

Subject: Image Segmentation

2차. Sceneary image generation with Mit+UperNet and LDM+ControlNet

Period: a week(24/11/13~24/11/19)


Goal: Generate Image with model trained by scenery dataset after semantic segmentation

Dataset: ADE20K Outdoor

Model: Mixed Vision Transformer+UperNet, Latent Diffusion Model+ControlNet

 

1. Semantic segmentation

    1) Unet+ControlNet(for trial)
    해당 모델 선정 이유: 생성에 디퓨전 모델을 사용할 것이기에 해당 모델의 백본인 Unet을 동일하게 사용.

                                    성능 향상을 위해 ControlNet block 추가. (Diffusion 계열 모델은 주로 ControlNet과 같이 씀)

    2) Mit+UperNet

    해당 모델 선정 이유: 성능 향상을 위해 Transformer 계열의 모델로 변경하고 ControlNet head 추가.

                                    (Transformer 계열 모델은 주로 UperNet과 같이 씀)
2. Generation

    1) LDM+ControlNet

    해당 모델 선정 이유: Sota 모델중 하나이고 프롬프트 기반 이미지 생성 모델에서 가장 유명.

                                    ControlNet block을 추가하여 조건부 제어 성능 향상.

 

 

 

- 생성이 잘 된 케이스(Prompt: Snowy)

 

 

- 생성이 잘 안된 케이스(Prompt: Dreams come true)


Note:

1. 모델의 페어링도 존재한다. 백본에만 주로 쓰는 것들도 있고, 블럭이나 헤드로 주로 쓰는 것 또한 있다.

2. 물체 크기가 크고 뚜렷해야 분할이 잘 되는 만큼, 자연물을 가지고 학습한 모델의 지표는 좋지 않다.

3. 이미지를 생성할 때에는 적절하게 프롬프트를 주어야 결과물이 좋다.

 

728x90

'인공지능 > 플젝' 카테고리의 다른 글

YouTube Video Analyzer  (0) 2025.03.31
Furniture retrieval  (0) 2025.01.29
Car Damage Detection  (1) 2024.12.09