魏云超：弱监督语义分割研究的早期开拓者，推动计算机视觉发展，或将为数字农业带来巨大变革 | 创新35人专栏

1 月 22 日，由 DeepTech 携手络绎科学举办的“MEET35：创新者说”论坛暨“35 岁以下科技创新 35 人”2021 年中国线上发布仪式成功举行。来自科学界和产业界的人士在云端共同见证了新一届中国青年科技领军人物登场。

络绎科学邀请到了“创新 35 人” 2021 中国入选者北京交通大学教授魏云超，做客直播间，从面向非完美数据像素理解方面的研究工作与我们进行了分享。

作为“先锋者”入选的魏云超主要研究集中在开发基于不完美标注数据的深度学习相关技术，进而帮助计算机“看到”和理解复杂场景中的各种物体。因其提出一系列原创的弱监督语义分割解决方案，而成功入选“创新 35 人”。

获奖时年龄：35 岁

获奖时职位：北京交通大学教授

获奖理由：他是弱监督语义分割研究的早期开拓者，推动了非完美数据条件下视觉理解的发展。

人类认知世界的信息中 83% 来自于视觉，而在人工智能时代，计算机视觉则是机器认知世界的基础。

计算机视觉的发展历史可以追溯至 20 世纪 60 年代，随着机器学习的兴起，以及互联网的崛起使得大量数据随之产生，大规模数据集也随之产生，这为机器学习应用于计算机视觉领域提供了一个良好的环境。2010 年左右，因深度学习的产生，人工智能迎来了一次大变革。在过去 10 年中，基于深度学习的监督学习极大地提升了计算机视觉相关任务的性能。

监督学习的成功主要归功于大规模标注数据的出现和计算机硬件的发展。然而，这些监督学习的算法通常都依赖大量完美标注的数据，即“data-hungry”。在很多真实场景中，往往很难获得足够多高质量的标注数据，导致这些监督算法很难被直接用于真实的工业级应用中。

为了解决这个问题，魏云超自 2014 年开始从事基于不完美数据的相关研究，开发基于不完美标注数据的深度学习相关技术，是该领域早期的开拓者之一。他已经在国际顶级期刊和顶级会议论文上发表了众多具有国际影响力的研究论文，包括在模式识别和机器智能领域最好的国际期刊 IEEE TPAMI 上发表的 12 篇高质量论文，并多次受邀作为专家参与研究领域的同行评审工作。

弱监督语义分割早期开拓者，多种方案推动计算机视觉发展

2013 年底，魏云超以访问学者的身份进入新加坡国立大学颜水成教授的机器学习与计算机视觉实验室。当时由于深度学习的兴起，大量计算机视觉基础问题的解决方案被重新定义，魏云超在颜水成教授的指导下开始涉猎分类、检测和分割等核心问题。

弱监督语义分割

在研究过程中，魏云超发现所有跟深度学习相关的计算机视觉算法都依赖大量的标注样本，若没有足够多的训练样本，结果就会很差。这个问题在语义分割上的表现尤为突出，因为一张完美的像素级标注样本往往需要消耗几分钟甚至一个小时。基于此，魏云超提出了一系列弱监督语义分割解决方案，利用相对容易获取的图像标签作为监督信息进行训练，在测试中完成复杂的图像分割任务，即像素级分类，这种方法比当时最高的弱监督的结果提高了 10%。

但在研究过程中，魏云超发现标注数据并不直接含有标签和像素的对应关系，存在语义关联鸿沟。针对这些问题，魏云超提出了物体显著性引导、识别-擦除相对抗、注意力迁移等多种解决方案，并在过去三年将模型在 PASCAL 数据集上的分类性能提升了 20%。

识别-擦除相对抗

在络绎科学 APP 上中国区第五届“35 岁以下科技创新 35 人”的线上发布仪式中，魏云超重点分享了他在识别-擦除相对抗这一方案的工作。

分类网络通常仅依赖于物体的某些判别区域。比如，在一张以狗为主体的图片中，狗的头部通常具有较强的判别力，可以使网络识别出图片中包含狗，从而忽略狗的其他区域。但对于弱监督学习的语义分割任务而言，需要比较稠密和完整的定位图去训练更好的模型，仅仅依赖于分类网络直接生成的定位图很难训练出有效模型。

受计算机辅助制造（CAM）的启发，魏云超先将包含狗的图片输入分类网络，通过训练得到对于狗而言最具判别力的区域，如狗的头部。接下来，将狗的头部从图片中擦除掉，并将擦除后的图片输入分类网络进行再训练。网络会寻找其他证据来使得图像可以被正确分类，进而找到狗的胸部。重复此操作后，狗的脚部区域也可以被发现。最后，将擦除掉的区域合并从而获取相对完整的区域。通过挖掘出很多高质量的物体的区域用来去训练分割网络的方式，可以得到比之前更高的结果。

基于以上工作，魏云超发表了两篇对该领域有重要推动作用的文章，一篇利用显著性分析图来建立图像类别标签和像素的关联，文章发表在 2016 年的 IEEE T-PAMI 上，他引次数为 275，这一工作将分割性能至少提升了 10%。另一篇是创新性地提出了对抗-擦除（adversarial erasing）这一概念，该文章 2017 年被 CVPR 接收为 oral 报告文章（录用率仅2.67%），他引次数为 254，并在随后影响了很多其它方向的研究人员。

为推动相关研究，魏云超还组织了第一届和第二届 CVPR Learning from Imperfect Data (LID) 研讨会和 ICCV Real-World Recognition from Low Quality Images and Videos (RLQ) 研讨会，吸引了数百位来自世界各地的研究人员，推动了利用有限标注或噪声等不完美数据来解决计算机视觉及其应用方面的相关研究。

创建免费开放的高校标注平台，将重点研究农业图像和无人机视觉

最近几年，除了之前的研究方向外，魏云超主要针对视觉媒体的物体和场景分割展开研究，并在半监督视频分割、交互式图像/视频分割领域进行了深入研究。他提出的 Inside-Outside Guidance (IOG) 交互分割方法，在 10 个数据集上都取得了国际领先的分割结果。基于 IOG，魏云超快速且精准地标注国际知名的包含 1000 类物体的 ImageNet 数据集。

图像/视频分割具备非常广阔的应用场景，包括自动驾驶、医疗图像分割、农业图像分割、卫星图像识别及视频编辑等。但所有的应用场景目前都受制于数据的缺失，即很难获取大量高精度的标注数据。因此，魏云超计划将自己在图像和视频分割上的研究成果整合成一个高效的标注平台，利用深度学习技术辅助标注，并免费对外开放。

谈到下一个阶段的研究方向和目标时，魏云超表示，除之前的研究方向外，还将在农业图像和无人机视觉这两个方向投入更多精力。

“中国是农业大国，但针对农业方面的计算机视觉相关研究，在国内几乎没有。我今年同伊利诺伊大学厄本那香槟分校和美国 IntelinAir 公司合作推出了首个大规模的农业图像分割数据集 AGRICULTURE-VISION。但在构建数据集过程中标注非常困难，我们也引入了一些弱监督和交互式物体分割技术来解决这一问题。后面希望这一方向能在中国得到更多重视和发展。”魏云超说道。

“随着新冠疫情的全球爆发，无人配送也得到了更多关注。如何使得无人机自动感知整个场景实现自动配送或定点投放，有可能会成为将来重要的实际应用点。但由于无人机下真实场景的数据收集非常困难，我利用 Google Earth 的 3D 引擎构建一个无人机目标定位数据集 University-1652，目标是希望通过卫星图或地面图使得无人机自动识别建筑。虽然图像是虚拟的不完美数据，但希望通过领域自适应等技术在未来解决这一问题。”

扫描上图二维码，下载络绎科学 APP，输入邀请码 RHP2HD，观看直播回顾

【关于创新35人】
自 1999 年起，《麻省理工科技评论》每年从世界范围内的新兴科技、创新应用中遴选出 35 岁以下对未来科技发展产生深远影响的创新领军人物，涵盖但不限于生物技术、能源材料、人工智能、信息技术、智能制造等新兴技术领域。“35 岁以下科技创新 35 人”（MIT Technology Review Innovators Under 35，简称 TR35）堪称科技领域最权威的青年人才评价体系之一，在产业界和学术界获得了广泛认同。2017 年，TR35 中国评选正式推出，目前已历经五届。

【正在提名】

【咨询邮箱】[email protected]

魏云超：弱监督语义分割研究的早期开拓者，推动计算机视觉发展，或将为数字农业带来巨大变革 | 创新35人专栏