代码:https://github.com/c-yn/OKNet
研究动机:作者认为Transformer模型计算复杂度太高,因此提出了 omni-kernel module (OKM),可以有效的学习局部到全局的特征表示。该模块包括:全局、大分支、局部三个部分。
整体网络架构比较简单,就是非常简单的encoder-decoder结构,OKM插入在网络瓶颈位置,特征分辨率最低,计算高效。
OKM的细节如下图所示,包括局部、大核卷积、全局,三个分支。其中,局部分支( 1x1 的卷积)和大核卷积分支( 63x63 的大核卷积)如图所示,比较简单。下面重点介绍一下全局分支,由dual-domain channel attention module (DCAM) 和 frequency-based spatial attention module (FSAM)组成。
在DCAM中,首先计算频率域的 channel attention,然后计算一个空间域的 channel attention。GAP是生成通道维向量,所以是通道注意力,因此DCAM是粗粒度的增强双域特征。
在FSAM中,在空间维度应用基于频率的注意力,在细粒度上细化频域特征。
实验部分可以参考作者论文,这里不过多介绍。