https://arxiv.org/abs/2211.09800
Background
Diffusion Model,
Conditional Diffusion Model : 원본 이미지 x → 잠재 공간 → noise가 추가되는 Diffusion Model ; 조건이 반영되며 de noising 과정 반복
Introduction
이전에 본 적 없는 이미지에 대해서 결과를 도출하는 zero-shot도 가능
Prior work
거대한 두가지 모델을 결합하여, 두 가지 training 모델을 만듦
편집할 부분을 mask로 지정해줘야하는데, 전체적인 무드 변환이 불가능하다는 단점을 보완
Method
- 거대한 모델 결합하여 trainning 모델 만들기?
- 어떻게 learning?
- input 이미지 → 지시 → 지시 기반 output이미지
- 적절한 p 값을 찾기 어려우므로, 캡션당 이미지 100개 생성 후, CLIP 기반 방향 유사성 지표로 최대 4개의 데이터 필터링
- Prompt - to - Prompt 사용으로 데이터가 완강해짐
x축 증가 방향 :
text 지시에 대한 일관성이 높아져서, 지시에 대해 공격적으로 변함
y축 증가 방향 :
이전 이미지에서, 크게 변하지 않는 방향으로 변화한다.
Results
초록색 : 필터링을 아예 하지 않음 : 이미지 일관성이 큰 폭으로 떨어짐.
주황색 : 데이터를 10% 줄임.
빨간색 : 데이터를 1% 줄임.
결국은 양질의 데이터를 다량으로 확보하는 것이 중요하다.
Discussion
Limitations : 사람이 말하는 지시와, AI 가 받아들이는 지시 사이에 차이가 존재한다.
- 화질이 좋지 못하다.
- GPT-3와 Prompt-to-Prompt의 한계로 정확한 연관성을 갖지 못함
- 객체의 수, 공간적 추론, 학습 데이터의 편항을 그대로 “상속”을 받음
추가 사항
prompt-to-ptompt를 사용함으로써, 일관성을 유지.
원문 논문 :
한국어 번역 논문 :
'AI, 논문, 데이터 분석' 카테고리의 다른 글
[논문 리뷰] Zero-Shot Text-to-Image Generation (DALL-E) (1) | 2025.01.31 |
---|---|
[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (0) | 2025.01.31 |
[논문 리뷰] Language Models are Few-Shot Learners (0) | 2025.01.31 |
[Reinforcement] Temporal-Difference RL (Bootstrapping Approaches) (0) | 2025.01.25 |
[Off-Policy Learning] 개념 (0) | 2025.01.24 |