SAIL&新加坡国立大学提出iFormer：Inception Transformer混合架构

作者丨Ziyang Li

编辑丨极市平台

写在前面的话

当以平衡网络宽度与深度著称的Inception与以建模远程依赖关系著称的Transformer相遇，会擦出怎样的火花？本文针对Transformer捕获高频的局部信息时表现出的不足，提出Inception Transformer混合架构（iFormer）。灵活移植Inception的卷积与最大池化，并以通道拆分机制来提高效率和频率斜坡结构来权衡高低频分量。代码将开源。

论文地址：https://arxiv.org/abs/2205.12956v2

代码地址：https://github.com/sail-sg/iFormer

一、预备知识——什么是图像高低频？

图像中的低频信息和高频信息也叫做低频分量和高频分量。其中高频信息包括图像强度（亮度/灰度）变化剧烈的像素点，例如局部的边缘和纹理。而低频信息则包括图像强度（亮度/灰度）变换平缓的像素点，例如场景或物体的全局形状和结构。如图1所示，将原图进行高低频信号分离后，可以很明显看出高频信号相比低频包含显著的边缘与轮廓信息。

图1：图像高低频比较。（取自论文《Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convol》）

一般地，在图像处理中，高频特征图更有利于显著性检测。然而如何区分图像高低频，则可以使用设置阈值的方法来划分。

二、为什么要用Inception？

ViT系列架构在建模远距离依赖关系时表现出强大的能力，这得益于self-attention的全局计算方式，然而在捕获更多全局信息（低频）的同时，却忽略了局部信息（高频）同样重要。

作者等人对ViT进行傅里叶频谱和相对对数振幅可视化比对，证明了上述结论，即ViT拥有对低频信号的偏好。

图2：(a) ViT和iFormer的傅里叶光谱。(b) 傅里叶变换的特征图的相对对数振幅。

显然这种架构是不合理的，一味地捕获低频信息可能会恶化高频成分从而削弱ViT系列架构的性能，同时如上所述，高频信息在图像处理中更有利于显著性检测、细粒度分类任务等等。

因此一种能合理捕获并利用高低频信息的架构值得被提出。而卷积因其局部计算的特点，可以有效的提取高频信息，尽管目前已有不少工作将卷积神经网络与Transformer相结合，但缺点十分明显：

串联的结合方式，将导致在一层仅对一个方面进行建模，如在卷积层对局部建模，在Transformer层对全局建模。这样的结合方式并不能做到二者兼顾。
并行的结合方式，一般用一个分支处理局部信息，另一个分支用于处理全局信息。显而易见这样的方式如果对所有通道进行处理，将带来信息冗余。

而Inception结构可以很好的处理并行结合带来的问题，只需在进入分支前划分合适的通道即可。同时对于不同深度的层对于高低频信息的需求量不同，可以控制划分不同的通道数来适应深度。作者等人将iFormer进行特征图的傅里叶谱可视化，其结构如下所示：

图3：iFormer的特征图傅里叶谱可视化。

可以看到 iFormer 在第 6 层捕获更多高频分量，在第 18 层捕获更多低频信息。同时高频信息从第 6 层逐渐减少到第 18 层，而低频信息则相反。

三、Inception Transformer剖析Inception token mixer

图4：Inception token mixer的详细结构。

如图所示，输入特征沿通道维度被切分为和，分别被送入High-frequency mixer和Low-frequency mixer。

其中High-frequency mixer由两个分支组成，如图，第一个分支包含最大池化和一个线性层，第二个分支由串联的线性层和深度卷积层组成。

特征通道为在的特征图输入这两个分支前，被均分为二，即 -> + 。

为什么要分成两个分支去学习高频分量呢？ 作者等人解释为“考虑到最大滤波器的敏感性和卷积运算的细节感知”。事实上，对于高频分量的计算，如果仅使用一个简单的卷积去提取，效果一定是大打折扣的。本文设计其为分支结构，一个分支用以最大池化，计算局部最大值；一个分支用以深度卷积，在有效减轻参数量的情况下来提取局部特征，即高频分量。最终将二者的计算结果相融合，得到的效果远非一个简单的局部卷积可比。

在Low-frequency mixer中，仅由一个单独的分支所构成。平均池化的操作一方面是为了减轻计算负担，另一方面，“平均”后的特征图可以为接下来的全局学习带来更好的表达。该分支最后的Upsample则用以恢复维度。

Inception Transformer

图5：Inception Transformer的整体架构。

如图所示，iFormer包含四个阶段。在上文有提及，为解决并行结合方式带来的问题，需要在进行分支前划分不同的通道数。而在网络的不同深度，对高低频信息的需求量也不同。因此本文的具体通道划分如下表所示：

表1：不同版本iFormer的详细配置对比。

每一个iFormer Blocks的结构如图4最右侧所示，除了上文介绍过的Inception Mixer外，增加了残差连接与与前馈层来提升模型性能。

四、性能对比

下表展示了各模型在ImageNet-1K上的性能对比。除此之外，论文中还对COCO 2017以及ADE20K等数据集进行了性能对比。iFormer的不同容量版本均表现出优良的性能。

表2：各模型在ImageNet-1K上的性能对比。

一张效果明显的CAM可视化结果对比：（在这张图中，Swin捕获了部分无关信息，而iFormer则准确定位对象）

图6：CAM可视化结果对比。

五、思考与总结

本文重点关注以下两个问题：

ViT系列模型对局部信息（高频）捕获能力不足，因此有必要结合卷积来弥补性能损失。紧接着针对现有并行结合方式存在的计算冗余，提出通道划分原则来缓解。
为契合人类视觉系统，即高频分量中的细节有助于较低层捕捉视觉基本特征，并逐渐收集局部信息以对输入有全局理解，设计了频率斜坡结构。当然缺点也是显而易见的：需要手动设定通道比。这样对于不同的任务，需要一定的经验才可以很好的完成这项工作。

在本文之前，从频率角度对网络机制进行分析的文章并不少。如在当年引起轰动的八度卷积（ICCV 2019），尽管是纯卷积的网络，但将特征图划分为高低频并行的结构，同时进行高低频并行的卷积，甚至还有高低频信息交互操作。

这些都是充分考虑应用的视觉任务而提出的方法，如高频特征图更有利于显著性检测，低频信息不可或缺等等。

本文为未来Transformer与卷积相结合的架构设计提供了一种有效的思路，也希望在未来能将理论与实际相结合，看到这样架构在现实场景中的部署~

南山铝业印尼一期100万吨项目顺利达产海外氧化铝业绩打开想象空间

新加坡盛裕控股集团林丰坚一行到农综区寒亭农协考察调研

把粉丝们在新加坡合租或托管发生的凹糟事说给你听#新加坡...
在新加坡合租/托管劝君三思而后行。宝宝们现在我在外面，刚刚接了一个粉丝的电话，思虑再三觉得还是有必要录一个视频提醒一下大家，主要聊什么话题？合租到底靠不靠谱？有哪些因素要考虑到？其实合租这种形式很也很普及的，虽然我觉得肯定是合租的人是更多，但是合租也不在少数。我能够理解合租人的心情的，比尤其是只带...
新加坡的法律有多严格？#出国
新加坡法律非常严格，一旦被定罪，就会被永久拉黑，甚至会影响到子孙后代。因此，在新加坡开展业务必须严格遵守法律规定，否则将面临巨大的法律风险。我们一直致力于协助客户合规经营，确保业务安全。比如，有些老板虽然已经退休，但仍希望通过购买物业或投资小型企业来获得额外收入。我们建议他们可以与他人合作，投资小餐...
新加坡移民的9个方法，非常全面，值得收藏
每个国家都有移民政策和移民项目，适用于不同身份背景的人，目的是吸纳人才，帮助国家发展，比如新加坡就有至少九种移民方法，涵盖了各类人才，适用人群很多，大家可以根据自己的条件来选择。今天给大家分享新加坡移民的9个方法，非常全面，值得收藏。方法1、教育移民顾名思义就是通过去新加坡读书的方式移民，这也是...
霉霉新加坡演唱会连加3场！各种抢票渠道别错过
自从霉霉（泰勒·斯威夫特）宣布要来新加坡开演唱会后，大家就开始等票，前有800万人注册大华银行卡获得优先购票权，后有学生请求教育部放“买票假”，如此热烈的回应当然引起了演唱会官方的注意。 6月25日一早，新加坡国家体育场就宣布——演出再加3场！原先，霉霉只会在2024年3月2至4日进行演出，加的3场为3月7至9日，一共6场...
马来西亚东马古晋的房屋尤其好，家家都像别墅，越往南就越富裕
马来西亚东马古晋的房屋尤其好，家家都像别墅，越往南就越富裕其实，只要能使国家富强，社会又是公平和正义主导的，不管由什么民族当政，人民还是能安居乐业的。从我所接触到的马来西亚社会来看，由于政治比较稳定，多年来直持续发展。马来西亚当今的经济发展水平是相当高的，明显超过中国，也超过当今中国最发达的珠三角...