在探索网络架构的过程中,需要做很多尝试和思考,同时也需要把实验数据和对于结果的思考等记录下来,从而一点点积累感觉
最近在做本科的毕业设计,题目是足球视频中的行为关键帧检测算法设计。在实验过程中,发现有很多细小的想法,但有时一晃而过,可能是一些小的尝试,但很少会做对比试验,因此将这些想法记录下来,方便之后再做改进。
探究BN和LN对于ViT的影响
对比试验一:
modify3_10 vs modify3_11: 在baseline的基础上加入TMM结构(12 3, 27 3, 40 3, 80 3)
- modify3_10:两个TMB都有跳连操作
- modify3_11:两个TMB都没有跳连操作
对比试验二:
目前全部加TAM的效果最好
实验 | 设置 | screen | nvidia | 参数量(万) | s/epoch | ave-mAP on V | ave-mAP on T |
---|---|---|---|---|---|---|---|
modify4_1 | 全部卷积后面都加入TAM | 1 | 0 | 32 | 43 | 55.97 | 54.74 |
modify4_2 | 只在TMM中加入TAM | 2 | 1 | 27 | 36 | 57.92 | 54.11 |
modify4_3 | 只在分类网络内加入TAM | 3 | 2 | 15 | 32 | 55.96 | 53.52 |
modify4_4 | 所有卷积后都不加TAM | 4 | 3 | 15 | 32 | 57.05 | 54.98 |