Vision TransformerCreated@February 28, 2024TagsNN 整个Vit其实思路真的很简单。1.首先就是划分Patch,映射到trm的维度,转化成一个个的token embedding,2.其次就是加上位置编码。一维,二维,和相对位置编码其实作者都做了实验,没太大区别,作者用了一维。swintrm使用的相对位置信息,加在了注意力那里。3.就是借鉴Bert 加了一个cls符号。作者也有做实验不加的话也行,直接用所有token的池化输出就够了。4然后直接输出进trm就够了。