Vision Transformer

Created	@February 28, 2024
Tags	NN

整个Vit其实思路真的很简单。

1.首先就是划分Patch，映射到trm的维度，转化成一个个的token embedding，

2.其次就是加上位置编码。一维，二维，和相对位置编码其实作者都做了实验，没太大区别，作者用了一维。swintrm使用的相对位置信息，加在了注意力那里。

3.就是借鉴Bert 加了一个cls符号。作者也有做实验不加的话也行，直接用所有token的池化输出就够了。

4然后直接输出进trm就够了。