“智能交通视频分析界的ImageNet竞赛”——英伟达城市挑战赛落下帷幕。新加坡松下研究院联合中科院自动化所,提出了一种双模态动静联合检测方案,在交通异常检测比赛中拔得头筹,获得了很高检测准确度的同时保持了极低的检测时间误差。由于提出的方案具有准确度高,鲁棒性强,对数据的分辨率敏感度低等优点,可以作为真实场景下的异常检测的一种可靠的解决方案。
2020年,全球将有十亿个摄像头。未来,智能视频分析可以解决交通、公共安全、预防犯罪、高效资源利用等一些城市规模问题,改善大型公共和私人空间(比如商场、体育馆、火车站、机场等)的用户体验。
虽然目前存在一些用于视频检索的语料库和基准(例如,NIST TRECVID),但对于交通或公共安全来说,还缺少大规模带标记的高质量视频数据的语料库,而要将视频分析应用在现实世界问题中,这样的数据库必不可少。
英伟达 AI City 挑战赛正是在这样的背景下提出,受 ImageNet 数据集启发,AI City 竞赛旨在创建优质视频数据集,使全球的学术和工业研究团队能够推动各种智能视频分析的最新技术,解决现实世界的问题。
AI City 挑战赛由英伟达联合纽约州立大学奥尔巴尼分校、爱荷华州立大学、圣何塞州立大学、华盛顿大学发起,吸引了来自华盛顿大学、UIUC、北京大学、IBM等全球多所高校和机构的参与。
竞赛从 2018 年 1 月 20 日开始,4 月 5 日结束,一共有三项任务(track)。最开始有 70 多支队伍报名,但由于问题很难、时间很紧等种种原因,最终 22 支队伍提交了方案。在CVPR 2018上,主办方公布了结果[2]。
其中,华盛顿大学取得了任务 1 和任务 3 的冠军,而任务 2 交通异常检测的冠军,则由新加坡松下研究院申省梅团队,联合中科院自动化所获得。任务 2 的亚军,是北京邮电大学的团队。
AI City 竞赛:智能交通视频分析的ImageNet
去年,第一届 AI City 挑战赛,重点是对岔路口交通摄像头视频语料库进行对象检测、定位和分类。今年第二届 AIC18,组织者决定“跳出边界框”,向更加接近现实世界问题的场景靠拢。
比如说,美国的道路交通管理局,急需能够自动分析交通视频内容的系统,因为让人类来观看所有这些视频是不现实的;实际上,现在很多摄像头采集的大量数据都被浪费了,没有得到有效利用。
在与多个交通运输机构以及公共安全机构磋商后,竞赛组织者将重点放在三项任务上:
估计交通流量特征,例如在任何时间每辆可见车辆的精确位置和速度。
利用无监督的方法来检测由碰撞、停车等引起的异常情况。这可以让人也加入到决策的过程中来,注意到有意义的视觉信息,以便及时干预可以被挽救的生命。
城市环境中多摄像机跟踪和对象重识别。这对交通分析以及识别和预防犯罪非常有用,也能使用户尽可能快地对正在发生中的事件做出反应。
竞赛的数据从美国多个城市和州挑选交叉路口和高速公路的数据(见下图)收集而来。他们专门组建了一组作为对照组的车队,并使用这些车辆产生的数据来生成Ground Truth。
AIC18数据集:从爱荷华州和硅谷高速路上获取的数据样本
交通异常检测:问题定义难、数据匮乏,算法设计难度高
交通事故的异常检测在安全城市中扮演着非常关键的角色,交通的异常状况会大大降低交通通行效率,因此需要对其进行检测和监控,如果发生异常就进行报警和救援,尽快排出由事件带来的交通不便,恢复正常的交通。
传统的的交通异常检测方法,主要有电磁感应环形线圈式和波式,它们均是基于车辆经过时利用反射波的频率变化来检测车辆信息。但使用“磁”与“波”检测的方法均不能提供全面的交通信息,因此有很大的局限性。
基于视频的交通异常检测,是应用摄像机等视觉传感器和以计算机视觉理论为基础,依靠交通流动的信息(比如光流)和跟踪单个车辆去检测异常,比如用物体跟踪的方法去识别异常的行为[3]。
但是,获取的车辆轨迹由于遮挡问题通常包含一定的噪音。为了克服这个问题,一些学者尝试利用视频中 low-level 的特征去提出一种基于概率模型的异常检测框架进行判断[4][5]。
实际场景中的交通异常行为存在定义困难,无法获取异常的先验的信息,同时存在摄像机视角的变化,高密度车流,目标遮挡,天气情况(比如下雪天气),光照的变化(比如白天和黑夜),采集数据分辨率低和真实场景数据匮乏等因素的影响,设计一套鲁棒性强的异常检测系统面临着巨大的挑战。
冠军技术分享:首创双模态动静联合检测方法
任务2 的视频是以各种视角、在不同天气和道路状况下记录下的真实交通视频。 这些问题让设计异常检测的方法变得十分困难。因此,大多数成功的方法都基于交通运动流分析(例如,使用光流),而不是试图检测和跟踪各个车辆。
冠军团队提出的方案叫做“双模型车辆动态学习”(Dual-Mode Vehicle Motion Pattern Learning)[1]。比赛负责人、论文第一作者徐炎向新智元介绍,在交通异常检测的任务中,他们是首次提出以双模态动静态联合检测的方法去解决这个问题。
“我们充分挖掘了交通异常检测的特性,即异常车辆的速度有明显的变化和车辆会被迫停止。基于这两个特性,我们分别提出了动静态两种模态进行分析。”
动态方案的结果。上图显示了正常时的速度,下图则是发生异常的情况。在下排右边的图表中,可以看见一辆车的速度与其他不同,最后停下来。
“在动态方案中,我们首先对行驶车辆进行检测,基于可靠光流信息对各个车辆进行追踪。同时,我们设计了一种简单有效的基于近邻规则的噪点去除方法,去解决跟踪过程中车辆的遮挡问题。获取得到比较鲁棒的车辆轨迹后,通过计算不同车辆的相对速度大小及其变化趋势,我们可以很精准的找到异常车辆。
“在静态方案中,我们首先对视频进行背景建模,提取背景图片。同时,异常的车辆也会被保留在背景图片中。我们训练了一个只包含背景和车辆二分类器,有效地去除背景图片进行车辆检测过程中出现的 false positive 结果。
“最后,我们提出了一种基于 vehicle re-identification 方案,对两种模态进行整合,极大地提高了整个检测系统的准确度。相比其他的方案,我们提出的双模态动静联合检测方案有准确度高,鲁棒性强,对数据的分辨率敏感度低等优点。”
基于静态车辆分析检测道路异常的流程图
总结:数据、数据、数据
徐炎表示,他们对这次比赛投入了很大的精力,从一开始熟悉比赛规则、数据下载分析、任务问题的定义、中间的不同算法设计、快速实验验证、失败结果分析,到最后的多模型融合、提交实验结果,“每一个步骤我们都去做到最好”。
其中,花费精力最多的一个步骤是算法设计及快速验证。团队当时尝试提出了好几种不同的解决方案,通过快速的实验验证方法,最后只选取了两个方案(双模态分析)用于提交结果。
当时有一个方案是尝试用 supervised 的方法去做,去收集一些数据,对数据进行标注,最后用于训练。但实验结果差强人意,原因是收集的数据量太小,而且与测试数据差异明显,经过快速的实验验证后,团队最后放弃了这个方案。
由于异常场景定义困难,训练数据缺乏,导致监控场景下的异常检测是一个非常挑战性的任务。这一次松下申省梅团队基于对测试数据的分析,挖掘了其中特性,针对性地设计出了有效的规则,使得在测试数据集上获得非常好的效果。
“通过对失败结果的观察,我们设计的模型会漏检极其小的异常车辆,或者会把背景错检成车辆,”徐炎说:“原因是我们采用的车辆检测模型在小型车辆上表现不佳,并且训练检测模型的数据和最终测试的数据分布不一致,所以提高检测型的性能是未来工作的一个方向。”
“另一方面,我们的模型在已定义的两种异常情况下(车祸和抛锚)表现很好,但是对于其他异常(比如车辆非法转向)可能表现不佳。如果能够获取得到类似异常的真实数据,我们可以通过分析这些数据,掌握一些规律,用这些数据去训练模型,当做一个有监督学习的task,会极大的提高系统的稳健性。”
智慧城市竞赛(AIC18):https://www.aicitychallenge.org
相关论文:
[1] Y. Xu, X. Ouyang, Y. Cheng and S. Yu et al. Dual-ModeVehicle Motion Pattern Learning for High Performance Road Traffic AnomalyDetection. Proceedings of the IEEEConference onComputer Vision and Pattern Recognition Workshops. 2018.
[2] Naphade, Milind, et al. The 2018 NVIDIA AI City Challenge. Proceedingsof the IEEEConference onComputer Vision and Pattern Recognition Workshops. 2018.
[3] A. Basharat, A. Gritai, and M. Shah. Learning object motion patternsfor anomaly detection and improved object detection. In CVPR, pages 1–8. IEEE,2008.
[4] V. Reddy, C. Sanderson, and B. C. Lovell. Improved anomaly detectionin crowded scenes via cell-based analysis of foreground speed, size andtexture. In CVPR Workshop, pages 55–61. IEEE, 2011.
[5] V. Saligrama and Z. Chen. Video anomaly detectionbased on local statistical aggregates. In CVPR, pages 2112–2119. IEEE, 2012
新加坡松下研究院成立于1990年,致力于多媒体和网络,机器学习,人工智能,计算机视觉及3D技术算法的软硬件的研发。在申省梅的带领下,在人工智能领域有着多年的技术积累。团队曾多次获得国际计算机视觉领域竞赛的冠军。