MultiModal (Text-Image)

Created
TagsNN

VSE, CLIP, VilBert uniter, VilT:

AlBEF:

VLMo:

BLIP

BeiT3