본문 바로가기

ML

구글 ML 스터디 잼 5] Introduction to Image Generation

다른 image generation model

- Variational Autoencoders(VAEs)

: 분할된 데이터를 학습하는 동안, 압축된 사이즈로 이미지를 부호화하고 원래 사이즈로 다시 해독한다.

- Generative Adversarial Models(GANs)

: 이미지를 생성하는 신경망(generator)과 이 이미지가 진짜인지, 가짜인지 식별하는 신경망(discriminator)을 서로에게 붙인다. 딥페이크라고도 불린다.

- Autoregressve Models

: 이미지를 픽셀의 시퀀스로 취급하여 이미지를 생성하며 현재는 LLM이 텍스트를 다루는 방식으로부터 영감을 얻고 있다.

Diffusion Models(확산 모델)

: 물리학, 특히 열역학으로부터 영감을 얻었고 오늘날까지 잘 쓰이고 있다.

핵심 아이디어는 순방향 확산과정(이미지에 반복적으로 노이즈를 추가하는 것)을 반복해서 질서정연하고 천천히 데이터 분할 구조를 파괴하는 것이다. 매우 유연하고 다루기 쉬운 데이터의 generative model를 얻기 위해서 이미지를 de-noise하고 데이터의 구조를 저장하는 역확산 과정을 model에게 학습시킨다.

하나의 초기의 이미지(x0)에 노이즈를 반복적으로 더한다. 전 과정에 의해 결정되는 분할(q)도 있다. 이렇게 충분히 노이즈를 추가하면 pure noise 상태에 도달할 수 있다. 이때 x0에 있는 모든 구조는 완벽하게 사라졌다. 이 단계에, 노이즈를 더할때마다 우리는 역확산 과정을 학습할 수 있었다. 즉 우리는 noisy 이미지를 입력으로 추가될 노이즈(ouput)를 예측하는 ML모델을 훈련할 수 있다. 우리는 실제 확산과정을 통해서 우리의 예측과 실제를 비교하며 다른점을 최소화한다.

우리가 훈련시킨 모델에게 순수 노이즈를 보내면, 처음의 노이즈로부터 예측된 노이즈(output)을 빼는 과정을 반복되면 이미지가 생성된다.

Unconditioned Diffusion Models

: 추가적인 input이나 명령어가 필요하지 않고 특정한 이미지를 통해 새로운 이미지를 생성하는 훈련할 수 있다.

e.g. 사람의 얼굴 합성, super-resolution(낮은 퀄리티의 이미지를 높은 퀄리티로 올리는 데 효과적)

- Conditioned Diffiusion Models

e.g. text-to-image, image-inpainting(remove, add..), text guided image to image(inpaint image self)

vertex AI의 새로운 사진 기술은 확산 모델에 기반을 두고 있다.


▼출처

https://www.cloudskillsboost.google/course_templates/541?catalog_rank=%7B%22rank%22%3A1%2C%22num_filters%22%3A0%2C%22has_search%22%3Atrue%7D&search_id=25863287