2021年11月24日

分类: 娱乐

颜水成发了个“简单到尴尬”的模型证明Transformer威力源自架构

梦晨发自凹非寺
量子位报道 | 公众号 QbitAI

Transformer做视觉取得巨大成功，各大变体频频刷榜，其中谁是最强？

早期人们认为是其中的注意力机制贡献最大，对注意力模块做了很多改进。

后续研究又发现不用注意力换成Spatial MLP效果也很好，甚至使用傅立叶变换模块也能保留97%的性能。

争议之下，颜水成团队的最新论文给出一个不同观点：

其实这些具体模块并不重要，Transformer的成功来自其整体架构。

他们把Transformer中的注意力模块替换成了简单的空间池化算子，新模型命名为PoolFormer。

这里原文的说法很有意思，“简单到让人尴尬”……

测试结果上，PoolFormer在ImageNet-1K上获得了82.1%的top-1精度。

（PyTorch版代码已随论文一起发布在GitHub上，地址可在这篇推文末尾处获取。）

同等参数规模下，简单池化模型超过了一些经过调优的使用注意力（如DeiT）或MLP模块（如ResMLP）的模型。

这个结果让一些围观的CVer直接惊掉下巴：

太好奇了，模型简单到什么样才能令人尴尬？

PoolFormer

整体结构与其他模型类似，PoolFormer只是把token mixer部分换了一下。

因为主要验证视觉任务，所以假设输入数据的格式为通道优先，池化算子描述如下：

PyTorch风格的伪代码大概是这样：

池化算子的复杂度比自注意力和Spatial MLP要小，与要处理的序列长度呈线性关系。

其中也没有可学习的参数，所以可以采用类似传统CNN的分阶段方法来充分发挥性能，这次的模型分了4个阶段。

假设总共有L个PoolFormer块，那么4个阶段分配成L/6、L/6、L/2、L/6个。

每个阶段的具体参数如下：

PoolFormer基本情况介绍完毕，下面开始与其他模型做性能对比。

首先是图像分类任务，对比模型分为三类：

CNN模型ResNet和RegNetY
使用注意力模块的ViT、DeiT和PVT
使用Spatial MLP的MLP-Mixer、ResMLP、Swin-Mixer和gMLP

在ImageNet-1K上，无论是按累计乘加操作数（MACs）还是按参数规模为标准，PoolFormer性能都超过了同等规模的其他模型。

目标检测和实例分割任务上用了COCO数据集，两项任务中PoolFormer都以更少的参数取得比ResNet更高的性能。

△目标检测

△实例分割

最后是ADE20K语义分割任务，PoolFormer的表现也超过了ResNet、ResNeXt和PVT。

消融实验

上面可以看出，几大视觉任务上PoolFormer都取得了有竞争力的成绩。

不过这还不足以支撑这篇论文开头提出的那个观点。

到底是整体架构重要？还是说PoolFormer中的池化模块刚好是一种简单却有效的Token Mixer？

团队的验证方法是把池化模块直接替换成恒等映射（Identity Mapping）。

结果令人惊讶，替换后在ImageNet-1K上也保留了74.3%的Top-1精度。

在此基础上无论是改变池化核尺寸、归一化方法、激活函数影响都不大。

最重要的是，在4个阶段中把注意力和空间全连接层等机制混合起来用性能影响也不大。

其中特别观察到，前两阶段用池化后两阶段用注意力这种组合表现突出。

这样的配置下稍微增加一下规模精度就可达到81%，作为对比的ResMLP-B24模型达到相同性能需要7倍的参数规模和8.5倍的累计乘加操作。

最终，消融实验结果说明Transformer中具体到token mixer这个部分，具体用了哪种方法并不关键。

不增加模型规模的情况下，网络的整体结构才是对性能提升最重要的。

这样的整体结构被团队提炼出来，命名为MetaFormer。

NLP上还会成立吗？

这项研究由颜水成领导的Sea AI Lab和来自新加坡国立大学的成员共同完成。

△颜水成

论文的最后，团队表示下一步研究方向是在更多场景下继续验证，如自监督学习和迁移学习。

除了视觉任务，也要看看在NLP任务上结论是否也成立。

另外发这篇论文还有一个目的：

呼吁大家把研究的重点放在优化模型的基础结构，而不是在具体模块上花太多精力去打磨。

论文地址：
https://arxiv.org/abs/2111.11418

GitHub仓库：
https://github.com/sail-sg/poolformer

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

因为拍摄不戴口罩聚赌，新加坡女经理被揍到脸颊骨折

中国小伙爱上79岁的新加坡富婆，却上演了惊天骗局，密谋2亿家产

长电科技——半导体芯片封装和设计龙头企业
长电科技是全球领先的集成电路制造和技术服务提供商，提供全方位的芯片成品制造一站式服务，包括集成电路的系统集成、设计仿真、技术开发、产品认证、晶圆中测、晶圆级中道封装测试、系统级封装测试、芯片成品测试并可向世界各地的半导体客户提供直运服务。通过高集成度的晶圆级（WLP）、2.5D/3D、系统级（SiP）封装技...
【行业前沿】人工智能十年发展总结，中国进步神速，专利占全球七成
编者语：人工智能在过去十年中从实验室走向产业化生产，重塑传统行业模式、引领未来的价值已经凸显，并为全球经济和社会活动做出了不容忽视的贡献。当前，人工智能已经迎来其发展史上的第三次浪潮。人工智能理论和技术取得了飞速发展，在语音识别、文本识别、视频识别等感知领域取得了突破，达到或超过人类水准，成为引...
普华永道驾驭不确定的全球形势：第23期全球CEO调研
获取报告请登陆未来智库www.vzkoo.com。执行摘要过去12个月以来，受贸易和制造业增速放缓、地缘政治不确定性、新型冠状病毒疫情和外国直接投资下降等诸多因素影响，全球宏观经济放缓。因此，国际货币基金组织将2019年全球经济增速下调至2.9%，为全球金融危机以来的最低水平，预计2020年该比例将上调至3.3%。中国以及全球...
实现论文零突破！清华研发新型芯片登上Nature封面
来源|中国日报、清华大学官微、募格学术编辑|学术君摘要8月1日，清华大学研制出的一款自行车登上了最新一期全球顶尖期刊《自然》杂志（Nature）的封面！先来看看，自行车“成精”后的样子。自我平衡↓↓ 绕开障碍物↓↓ S型路线↓↓ 向左转↓↓这辆无人自行车可实时感知周围环境。它可以在跟随前方试验人员的同时自动进...
2018年视频人物识别挑战赛冠军是如何养成的？
2018年，爱奇艺与中国模式识别与计算机视觉大会（PRCV2018）共同发起“多模态视频人物识别挑战赛”，在来自包括纽约大学、瑞典隆德大学、新加坡国立大学、百度、小米、微软等全球顶尖高校以及行业领先公司在内的397支参赛队伍中,WitcheR团队脱颖而出，荣获冠军。下面是该团队的经验分享，希望可以为对多模态领域研究感兴趣的...