2024. 12. 27. 11:41ㆍ인공지능/플젝
Subject: Image Segmentation
2차. Sceneary image generation with Mit+UperNet and LDM+ControlNet
Period: a week(24/11/13~24/11/19)
Goal: Generate Image with model trained by scenery dataset after semantic segmentation
Dataset: ADE20K Outdoor
Model: Mixed Vision Transformer+UperNet, Latent Diffusion Model+ControlNet
1. Semantic segmentation
1) Unet+ControlNet(for trial)
해당 모델 선정 이유: 생성에 디퓨전 모델을 사용할 것이기에 해당 모델의 백본인 Unet을 동일하게 사용.
성능 향상을 위해 ControlNet block 추가. (Diffusion 계열 모델은 주로 ControlNet과 같이 씀)
2) Mit+UperNet
해당 모델 선정 이유: 성능 향상을 위해 Transformer 계열의 모델로 변경하고 ControlNet head 추가.
(Transformer 계열 모델은 주로 UperNet과 같이 씀)
2. Generation
1) LDM+ControlNet
해당 모델 선정 이유: Sota 모델중 하나이고 프롬프트 기반 이미지 생성 모델에서 가장 유명.
ControlNet block을 추가하여 조건부 제어 성능 향상.
- 생성이 잘 된 케이스(Prompt: Snowy)
- 생성이 잘 안된 케이스(Prompt: Dreams come true)
Note:
1. 모델의 페어링도 존재한다. 백본에만 주로 쓰는 것들도 있고, 블럭이나 헤드로 주로 쓰는 것 또한 있다.
2. 물체 크기가 크고 뚜렷해야 분할이 잘 되는 만큼, 자연물을 가지고 학습한 모델의 지표는 좋지 않다.
3. 이미지를 생성할 때에는 적절하게 프롬프트를 주어야 결과물이 좋다.
'인공지능 > 플젝' 카테고리의 다른 글
YouTube Video Analyzer (0) | 2025.03.31 |
---|---|
Furniture retrieval (0) | 2025.01.29 |
Car Damage Detection (1) | 2024.12.09 |