DALL·E

Created	@February 28, 2024
Tags	NN

two stage: prior and decoder

prior: 根据文本生成image embedding

decoder: 根据image embedding生成图像

相比较于GAN，更加多样，有创造力

zero-shot 不需要预训练

prior和decoder都是diffusion model

不能把物体和属性结合在一起：CLIP不了解逻辑关系，只会比较相似度

BPE编码器，使得生成文字不好

细节不够高清

Previous work:

Not stable

VAE, VQVAE

Dalle:

Diffusion model:

Classifier guided diffusion

Classifier free guidance- GLIDE

Dalle-2

Prior, hierarchical