Transformer实验

发表于 2022-03-18 分类于计算机，计算机视觉阅读次数：
本文字数： 496 阅读时长 ≈ 1 分钟

在探索网络架构的过程中，需要做很多尝试和思考，同时也需要把实验数据和对于结果的思考等记录下来，从而一点点积累感觉

最近在做本科的毕业设计，题目是足球视频中的行为关键帧检测算法设计。在实验过程中，发现有很多细小的想法，但有时一晃而过，可能是一些小的尝试，但很少会做对比试验，因此将这些想法记录下来，方便之后再做改进。

探究BN和LN对于ViT的影响

modify3_10 vs modify3_11: 在baseline的基础上加入TMM结构（12 3, 27 3, 40 3, 80 3）

目前全部加TAM的效果最好

实验	设置	screen	nvidia	参数量（万）	s/epoch	ave-mAP on V	ave-mAP on T
modify4_1	全部卷积后面都加入TAM	1	0	32	43	55.97	54.74
modify4_2	只在TMM中加入TAM	2	1	27	36	57.92	54.11
modify4_3	只在分类网络内加入TAM	3	2	15	32	55.96	53.52
modify4_4	所有卷积后都不加TAM	4	3	15	32	57.05	54.98