Vision Transformer

Created
TagsNN

整个Vit其实思路真的很简单。

1.首先就是划分Patch,映射到trm的维度,转化成一个个的token embedding,

2.其次就是加上位置编码。一维,二维,和相对位置编码其实作者都做了实验,没太大区别,作者用了一维。swintrm使用的相对位置信息,加在了注意力那里。

3.就是借鉴Bert 加了一个cls符号。作者也有做实验不加的话也行,直接用所有token的池化输出就够了。

4然后直接输出进trm就够了。