在传统的 CNN 结构中,输入图像会被滑动窗口(Sliding Window)方式分割成重叠的小块,然后通过多个卷积层和池化层进行处理。 而在 ViT中,图像被分割为不重叠的块(Patches),然后将这些块作为输入 token 送入 Transformer 编码器,如 图 5所示。 CNN 依赖于局部感受 ...