最近一段时间都在研究ViT相关的工作,需要多读论文多多总结
ViT
DeiT
CaiT
Swin
ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias
作者:Dacheng Tao 悉尼大学
动机:
- ViT训练需要大量数据以及很多个epoch:原因是Transformer结构不存在归纳偏好(IB)因此收敛较慢,需要慢慢学习隐性的归纳偏好
- Transformer擅长获取跨度较长的全局信息;但是不具备归纳偏好
- CNNs具有很好的归纳偏好,比如局部性和尺度不变性;但不擅长获取全局信息
- 卷积关注相邻的pixels之间的信息
- 浅层卷积关注low-level特征
- 深层卷积关注high-level特征
- 在不同的layer可以提取不同尺度的特征
- layer内部还可以通过卷积的大小、步长、膨胀等提取不同特征
- layer内部或外部特征的融合也可以提供更多信息
- 尝试将Transformer和CNN并行连接在一起
生词
- intrinsic:内在的
- inductive bias (IB) 归纳偏好 inductive:诱导的;感应的;归纳的
- IB implicitly:隐式归纳偏好 explicitly:明白地;明确地
- scale invariance:尺度不变性
- prevalent:普遍的;流行的