다른 image generation model
- Variational Autoencoders(VAEs)
: 분할된 데이터를 학습하는 동안, 압축된 사이즈로 이미지를 부호화하고 원래 사이즈로 다시 해독한다.
- Generative Adversarial Models(GANs)
: 이미지를 생성하는 신경망(generator)과 이 이미지가 진짜인지, 가짜인지 식별하는 신경망(discriminator)을 서로에게 붙인다. 딥페이크라고도 불린다.
- Autoregressve Models
: 이미지를 픽셀의 시퀀스로 취급하여 이미지를 생성하며 현재는 LLM이 텍스트를 다루는 방식으로부터 영감을 얻고 있다.
Diffusion Models(확산 모델)
: 물리학, 특히 열역학으로부터 영감을 얻었고 오늘날까지 잘 쓰이고 있다.
핵심 아이디어는 순방향 확산과정(이미지에 반복적으로 노이즈를 추가하는 것)을 반복해서 질서정연하고 천천히 데이터 분할 구조를 파괴하는 것이다. 매우 유연하고 다루기 쉬운 데이터의 generative model를 얻기 위해서 이미지를 de-noise하고 데이터의 구조를 저장하는 역확산 과정을 model에게 학습시킨다.
하나의 초기의 이미지(x0)에 노이즈를 반복적으로 더한다. 전 과정에 의해 결정되는 분할(q)도 있다. 이렇게 충분히 노이즈를 추가하면 pure noise 상태에 도달할 수 있다. 이때 x0에 있는 모든 구조는 완벽하게 사라졌다. 이 단계에, 노이즈를 더할때마다 우리는 역확산 과정을 학습할 수 있었다. 즉 우리는 noisy 이미지를 입력으로 추가될 노이즈(ouput)를 예측하는 ML모델을 훈련할 수 있다. 우리는 실제 확산과정을 통해서 우리의 예측과 실제를 비교하며 다른점을 최소화한다.
우리가 훈련시킨 모델에게 순수 노이즈를 보내면, 처음의 노이즈로부터 예측된 노이즈(output)을 빼는 과정을 반복되면 이미지가 생성된다.
Unconditioned Diffusion Models
: 추가적인 input이나 명령어가 필요하지 않고 특정한 이미지를 통해 새로운 이미지를 생성하는 훈련할 수 있다.
e.g. 사람의 얼굴 합성, super-resolution(낮은 퀄리티의 이미지를 높은 퀄리티로 올리는 데 효과적)
- Conditioned Diffiusion Models
e.g. text-to-image, image-inpainting(remove, add..), text guided image to image(inpaint image self)
vertex AI의 새로운 사진 기술은 확산 모델에 기반을 두고 있다.
▼출처
'ML' 카테고리의 다른 글
구글 ML 스터디 잼 6] Encoder-Decoder Architecture (0) | 2023.10.11 |
---|---|
구글 ML 스터디 잼 3] Introduction to Responsible AI (0) | 2023.09.27 |
구글 ML 스터디 잼 2] Introduction to Large Language Models (0) | 2023.09.21 |
구글 ML 스터디 잼 1] Introduction to Generative AI (0) | 2023.09.20 |