0%

Transformer综述

最近一段时间都在研究ViT相关的工作,需要多读论文多多总结

ViT

DeiT

CaiT

Swin

ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias

作者:Dacheng Tao 悉尼大学

动机:

  • ViT训练需要大量数据以及很多个epoch:原因是Transformer结构不存在归纳偏好(IB)因此收敛较慢,需要慢慢学习隐性的归纳偏好
  • Transformer擅长获取跨度较长的全局信息;但是不具备归纳偏好
  • CNNs具有很好的归纳偏好,比如局部性和尺度不变性;但不擅长获取全局信息
    • 卷积关注相邻的pixels之间的信息
    • 浅层卷积关注low-level特征
    • 深层卷积关注high-level特征
    • 在不同的layer可以提取不同尺度的特征
    • layer内部还可以通过卷积的大小、步长、膨胀等提取不同特征
    • layer内部或外部特征的融合也可以提供更多信息
  • 尝试将Transformer和CNN并行连接在一起
生词
  • intrinsic:内在的
  • inductive bias (IB) 归纳偏好 inductive:诱导的;感应的;归纳的
  • IB implicitly:隐式归纳偏好 explicitly:明白地;明确地
  • scale invariance:尺度不变性
  • prevalent:普遍的;流行的
欲戴皇冠,必承其重,加油!