2017 年,最让大家印象深刻的就是何恺明一举拿下 ICCV 2017 两项大奖。10 月 27 日-11 月 2 日,今年的计算机视觉领域顶级会议 International Conference on Computer Vision(ICCV)在首尔召开。昨天大会正式公布了最佳论文奖由论文《SinGAN:从单张图像学习生成模型》获得,最佳学生论文奖则由《PLMP——完整的多视图可见性中的点线最小问题》获得。
整理 | AI科技大本营编辑部
出品 | AI科技大本营(ID:rgznai100)
ICCV 2019 最佳论文
论文标题:SinGAN:从单张图像学习生成模型
《SinGAN: Learning a Generative Model from a Single Natural Image》
作者:Tamar Rott Shaham(以色列理工学院),Tali Dekel(谷歌),Tomer Michaeli(以色列理工学院)
论文简介:该论文介绍了一种无条件生成模型——SinGAN,它可以从单个自然图像中学习。该模型经过训练,可以捕获图像内斑块的内部分布,之后生成高质量、多样化的样本,视觉内容与原图像相同。SinGAN 包含一个完全卷积的金字塔结构 GAN ,每个 GAN 负责按不同比例学习图像的斑状分布。这样就可以生成具有任意大小和纵横比的新样本,这些样本具有明显的可变性,同时又可以保持训练图像的整体结构和精细纹理。与以前的单图像 GAN 方案相比,我们的方法不仅限于纹理图像,而且是无条件的(即它从噪声中生成样本)。用户研究证实,生成的样本通常可以假乱真,SinGAN 在各种图像处理任务中具有广泛的实用性。
论文地址:
https://arxiv.org/abs/1905.01164
ICCV 2019 最佳学生论文
论文标题:PLMP——完整的多视图可见性中的点线最小问题
PLMP -- Point-Line Minimal Problems in Complete Multi-View Visibility
作者:Timothy Duff(乔治亚理工大学),Kathlen Kohn(瑞典皇家理工学院),Anton Leykin(乔治亚理工大学),Tomas Pajdla(捷克理工大学)
论文简介:我们提出了完全通过校准透视相机,观察完整点和线的一般排列最小问题分类的方法。我们证明总计仅有 30 个最小问题,对 6 个以上的摄像机,5 个以上的点以及 6 条以上的线不存在任何问题。我们进行了一系列检测最小值的测试,这些测试从自由度计数开始,到对代表示例进行完整的符号和数字验证结束。对于发现的所有最小问题,我们将介绍它们的代数次数,即解决方案的数量,以衡量其固有难度。结果显示,问题的难度随着视图数量的增长而增长。重要的是,几个新的次数较小的最小问题在图像匹配和 3D 重建中可能具有实用性。
论文链接:
https://arxiv.org/abs/1903.10008
ICCV 2019 回顾
1、投稿情况
3 月 22 日,ICCV 2019 的截稿日,ICCV 官方公布了本届会议的论文投稿数据,共收到了 4328 篇论文(注:大会期间公布的数据是 4303 篇),这个数量是上一届 ICCV 2017 的两倍。
不仅投稿数量破纪录,国内高校和企业的投稿数量分外吸睛。ICCV 2019 共收到 23 来自中国机构和企业的投稿,其中,科院、清华大学、华为、百度,分别以 237、175、91、47 篇的投稿数量位列第 1 、第 2、第 6 和第 15 位。
2、接收情况
7 月 23 日,ICCV 2019 公布,本届会议共接收 1075 篇论文,接收率为 25% 左右,虽然和 CVPR 2019 的接收率 25.2% 相差不大,不过相比上届 ICCV 2017 投稿数量翻番的情况,今年的竞争可谓非一般的激烈。
ICCV 2017 共接收 621 篇论文,接受率达 28.9%;其中 Poster、Spotlight、Oral 的比例分别为 24.61%、2.61% 以及 2.09%。
ICCV 2019 论文接收列表:
http://openaccess.thecvf.com/ICCV2019.py
ICCV 2019 大会官网:
http://iccv2019.thecvf.com
3、热词与个人发表论文数量统计
ICCV 2019 中的论文关键词都有哪些?据 Twitter 网友 Shao-Hua Sun 统计分析,本届会议中:学习、网络、图像、目标检测、深度、3D、视频、语义分割等都是论文中提及最多的词汇。
而“ICCV 2019 Paper Top Authors”的统计更是可以看到这一届大神们的论文提交数量。其中,作者 Ling Shao 以 15 篇入选位居榜首,紧随其后的 Yi Yang 和 Qi Tian 分别有 10 篇论文,而有 9 篇和 8 篇论文的作者也分别有 6 位,7 篇论文的作者多达 12 位,6 篇论文作者更是达 17 位。
注:入选论文最多的邵岭(Ling Shao)是阿联酋国家级“起源人工智能研究院”(IIAI)CEO兼首席科学家,他曾是英国东安格利亚大学计算机学院的教授,英国计算机学会 Fellow、IET Fellow、IEEE 高级会员以及 ACM 终身会员。他署名投稿的论文,共有15篇被接收。而本届ICCV,IIAI成绩斐然,共有28篇论文入选。
入选论文排名第二的分别都有10篇论文入选:一位是悉尼科技大学教授杨易(Yi Yang),去年加入了百度研究院;另一位是 IEEE Fellow、华为诺亚方舟实验室计算视觉首席科学家田奇(Qi Tian),他曾是美国德克萨斯大学圣安东尼奥分校计算机系教授。
此外,大会还公布了论文接收数量排名,前三位的国家或地区分别是中国、美国、德国。
商汤科技 57 篇论文入选
ICCV 2019 大会的其中一位主席是来自香港中文大学的信息工程系系主任汤晓鸥,同时他还是中国科学院深圳先进技术研究院的副院长兼商汤科技创始人。
其他三名大会主席则分别是首尔大学的 Kyoung Mu Lee 教授、伊利诺伊大学厄巴纳 - 香槟分校的 David Forsyth 教授以及苏黎世联邦理工学院的 Marc Pollefeys 教授。
本届会议,商汤科技及联合实验室有 57 篇论文入选 ICCV 2019(包含 11 篇 Oral 论文),录取的论文在多个领域实现突破,包括:面向目标检测的深度网络基础算子、基于插值卷积的点云处理主干网络、面向AR/VR场景的人体感知与生成、面向全场景理解的多模态分析等。这些突破性的计算机视觉算法有着丰富的应用场景。
下面,从 4 大方向选出 6 篇商汤及商汤联合实验室入选 ICCV 2019 的代表性论文,阐释计算机视觉和深度学习技术最新突破。
(一)面向目标检测的深度网络基础算子
代表性论文:《CARAFE: 基于内容感知的特征重组》
特征上采样是深度神经网络结构中的一种基本的操作,例如:特征金字塔。它的设计对于需要进行密集预测的任务,例如物体检测、语义分割、实例分割,有着关键的影响。本工作中,我们提出了基于内容感知的特征重组(CARAFE),它是一种通用的,轻量的,效果显著的特征上采样操作。
CARAFE有这样一些引人注目的特性:1.大视野。不同于之前的上采样方法(如:双线性插值),仅使用亚像素的临近位置。CARAFE可以聚合来自大感受野的环境特征信息。2.基于特征感知的处理。不同于之前方法对于所有样本使用固定的核(如:反卷积),CARAFE可以对不同的位置进行内容感知,用生成的动态的核进行处理。3.轻量和快速计算。CARAFE仅带来很小的额外开销,可以容易地集成到现有网络结构中。我们对CARAFE在目标检测,实例分割,语义分割和图像修复的主流方法上进行广泛的测试,CARAFE在全部4种任务上都取得了一致的明显提升。CARAFE具有成为未来深度学习研究中一个有效的基础模块的潜力。
(二)面向三维视觉的点云处理基础网络
代表性论文:《基于插值卷积的点云处理主干网络》
点云是一种重要的三维数据类型,被广泛地运用于自动驾驶等场景中。传统方法依赖光栅化或者多视角投影,将点云转化成图像、体素其他数据类型进行处理。近年来池化和图神经元网络在点云处理中展现出良好的性能,但仍然受限于计算效率,并且算法易受物体尺度、点云密度等因素影响。
本文提出了一种全新的卷积方式,即插值卷积,能够从点云中高效地学习特征。插值卷积从标准图像卷积和图像插值中获取灵感,卷积核被划分成一组空间中离散的向量,每个向量拥有各自的三维坐标,当点云中的某点落在卷积向量的邻域时,参考图像插值的过程,我们将该点对应的特征向量插值到卷积向量对应的位置上,然后进行标准的卷积运算,最后通过正则化消除点云局部分布不均的影响。
面向不同的任务,我们提出了基于插值卷积的点云分类和分割网络。分类网络采用多路径设计,每一条路径的插值卷积核具有不同的大小,从而网络能够同时捕获全局和细节特征。分割网络参考图像语义分割的网络设计,利用插值卷积做降采样。在三维物体识别,分割以及室内场景分割的数据集上,我们均取得了领先于其他方法的性能。
(三)面向AR/VR场景的人体感知与生成
代表性论文:《深入研究用于无限制图片3D人体重建中的混合标注》
虽然计算机视觉研究者在单目3D人体重建方面已经取得长足进步,但对无限制图片进行3D人体重建依然是一个挑战。主要原因是在无限制图片上很难取得高质量的3D标注。为解决这个问题,之前的方法往往采用一种混合训练的策略来利用多种不同的标注,其中既包括3D标注,也包括2D标注。虽然这些方法取得了不错的效果,但是他们并没有研究不同标注对于这个任务的有效程度。
本篇论文的目标就是详细地研究不同种类标注的投入产出比。特别的,我们把目标定为重建给定无限制图片的3D人体。通过大量的实验,我们得到以下结论:1.3D标注非常有效,同时传统的2D标注,包括人体关键点和人体分割并不是非常有效。2.密集响应是非常有效的。当没有成对的3D标注时,利用了密集响应的模型可以达到使用3D标注训练的模型92%的效果。
代表性论文:《基于卷积网络的人体骨骼序列生成》
现有的计算机视觉技术以及图形学技术已经可以生成或者渲染出栩栩如生的影像片段。在这些方法中,人体骨骼序列的驱动是不可缺少的。高质量的骨骼序列要么使用动作捕捉设备从人身上获取,要么由动作设计师手工制作。而让计算机代为完成这些动作,高效地生成丰富、生动、稳定、长时间的骨骼序列,就是这一工作的目标。
本文使用高斯过程产生随机序列,使用对抗网络和时空图卷积网络来学习随机序列和动作序列之间的映射关系。该方法既可以产生动作序列,也可将动作序列映射到随机序列所在的空间,并利用高斯过程进行编辑、合成、补全。
本方法在由真人动作捕捉得到的NTU-RGB+D数据集上,以及我们收集的虚拟歌手“初音未来”的大量舞蹈设计动作上,完成了详细的对比实验。实验表明,相对于传统的自回归模型(Autoregressive Model),本文使用的图卷积网络可以大大提高生成的质量和多样性。
(四)面向全场景理解的多模态分析
代表性论文:《基于图匹配的电影视频跨模态检索框架》
电影视频检索在日常生活中拥有极大需求。例如,人们在浏览某部电影的文字简介时,时常会被其中的精彩部分吸引而想要看相应的片段。但是,通过文字描述检索电影片段目前还存在许多挑战。相比于日常生活中普通人拍摄的短视频,电影有着极大的不同:1.电影是以小时为单位的长视频,时序结构很复杂。2.电影中角色的互动是构成故事情节的关键元素。因此,我们利用了电影的这两种内在结构设计了新的算法来匹配文本段落与电影片段,进而达到根据文本检索电影片段的目标。
首先,我们提出事件流模块以建模电影的时序特性。该模块基于二分图匹配,将文本中的每一句话按照事件与电影片段的对应子片段匹配。其次,我们提出人物互动模块,该模块通过图匹配算法计算文本中解析得到的人物互动图和视频中提取的人物互动图的相似度。综合两个模块的结果,我们能得到与传统方法相比更精准的匹配结果,从而提高检索的正确率。
代表性论文:《融合视觉信息的音频修复》
多模态融合是交互智能发展的重要途径。在多媒体信息中,一段音频信号可能被噪声污染或在通信中丢失,从而需要进行修复。本文我们提出依据视频信息对缺失音频信息进行修复的一种融合视觉信息的音频修复方案。
此方案核心思想在于:1.将音频信号在频谱上进行操作,并将频谱作为二维图像信号进行处理,可以极大地利用计算机视觉领域的优势,超越传统的音频解决方案。2.为了融合视觉信息,基于音视频同步学习得到的联合子空间会发挥巨大的优势。
针对此问题的研究,我们将已有的多模态乐器演奏数据集MUSIC扩大成为一个新的更全面的数据集,MUSICES。实验证明我们提出的视觉融合的音频修复系统可以在没有视频信息注入的情况下取得可观的效果,并在加入视频信息后,生成与视频和谐的音频片段。
商汤科技获 13 项竞赛冠军
除了论文工作取得的突破性成绩,商汤在 Open Images、COCO、LVIS 等 13 项竞赛中夺冠。
在 Google AI 主办的 ICCV 2019 Open Images 比赛中,来自香港中文大学和商汤研究院的联合团队夺得了物体检测和实例分割两个主要赛道的冠军。此次主办方提供了千万级别的实例框,涵盖了 500 类结构性类别,其中包含大量漏标、类别混淆和长尾分布等问题。竞赛中,得益于团队提出的两个全新技术:头部空间解耦检测器(Spatial Decoupling Head)和模型自动融合技术(Auto Ensemble)。前者可以令任意单模型在 COCO 和 Open Images 上提升 3~4 个点的 mAP,后者相对于朴素模型融合能提升 0.9mAP。
在 ICCV 2019 COCO 比赛中,来自香港中文大学-商汤科技联合实验室和南洋理工大学-商汤科技联合实验室的 MMDet 团队获得目标检测(Object Detection)冠军(不使用外部数据集),这也是商汤连续两届在COCO Detection项目中夺冠。同时,商汤科技新加坡研究团队也获得COCO全景分割(Panoptic)冠军(不使用外部数据集)。
COCO比赛中,MMDet团队提出了两种新的方法来提升算法性能。针对于当前目标框定位不够精确的缺陷,MMDet团队提出了一种解耦的边缘感知的目标框定位算法(Decoupled Boundary-Aware Localization <DBAL>),该方法专注于物体边缘的信息而非物体全局的信息,使用一种从粗略估计到精确定位的定位流程,在主流的物体检测方法上取得了显著的提升。
而商汤科技新加坡研究团队深入探索了全景分割任务的独特性质,并提出了多项创新算法。由于全景分割任务既涵盖目标检测又包含语义分割,往届比赛队伍大多分别提升目标检测算法与语义分割算法。商汤新加坡研究团队打破惯例,探索了这两项任务的互补性,提出了一种简单高效的联合训练模型Panoptic-HTC。该模型分别借助Panoptic-FPN共享权重的特点与Hybrid Task Cascade联合训练的优势,在特征层面完成了两项视觉任务的统一,从而同时在两项任务上获得显著提升。
在 Facebook AI Research 主办的第一届 LVIS Challenge 2019 大规模实例分割比赛中,来自商汤科技研究院团队获得了冠军,同时获得该项目最佳论文奖。相比于以往的实例分割数据集,LVIS 最大的特点在于超过 1000 多类的类别和更加接近于自然存在的数据长尾分布。这些特点对现有的实例分割算法提出了非常大的挑战。商汤研究团队从原有模型训练的监督方式进行分析,针对长尾问题提出了一种新的损失函数,能够有效的缓解频率高的类别对小样本类别的影响,从而大大提升了处于长尾分布中小样本的性能。另外还通过对额外的检测数据进行有效的利用,减少了因为 LVIS 数据集构建方式中带来的标注不完全问题,从而进一步提升了性能。
此外,在 Facebook AI Research 主办的 ICCV 2019 自监督学习比赛中,来自香港中文大学-商汤科技联合实验室和南洋理工大学-商汤科技联合实验室团队一举获得了全部四个赛道冠军;在 MIT 主办的 ICCV 2019 Multi-Moments In Time Challenge 比赛中,来自香港中文大学和商汤研究院的联合团队夺得了多标签视频分类赛道的冠军;在 Insight Face 主办的 ICCV 2019 Lightweight Face Recognition Challenge 比赛中,来自香港中文大学和商汤研究院的联合团队夺得了大模型-视频人脸识别的冠军;在 ETH 举办的 ICCV AIM 2019 Video Temporal Super-Resolution Challenge 比赛中,商汤科技团队获得了冠军;在视觉目标跟踪领域国际权威比赛 VOT2019 Challenge 比赛中,来自商汤科技团队获得 VOT-RT 2019 实时目标跟踪挑战赛冠军。
【END】