CVPR 2017 有什么值得关注的亮点?

关注者
4,604
被浏览
289,748

29 个回答

收录于编辑推荐 ·

谢鸭哥 @grapeot 邀,知乎小透明首答还是有点压力,斗胆来介绍一下我们今年的oral工作:

哥大这边最近两年做视频分析,主要是做Temporal Video Localization:给一个很长的视频,其中可能发生了一些我们感兴趣的action,event,或者activity,剩下的部分则是background,如何能够让机器自动找到我们感兴趣的部分,在视频中的开始时间和结束时间呢?

先把干货给了吧:


CDC的技术细节在上面这些链接里都可以了解到,另外前面答案里 @林天威 已经大概概况了一下最近一年这个方向的几项工作,后面的话我主要想安利一下Temporal Localization这个课题,同时介绍一下这两年的发展:

  • Temporal Localization到底是在解决什么问题?

这个问题比较像temporal版本的object detection(给一张图片,recognize the object class and locate the bounding box of the object);temporal localization的话则是,检测action class,同时找到每个action instance的start time和end time。问题challenging或者unique的地方是,视频里面需要考虑model temporal information比如motion,另一方面,处理视频对计算资源的要求相对较高(现在基本上是做untrimmed video),通常不像image里面把一张raw image直接输入网络中,技术上会有一些frame sub-sampling或者sliding window的操作,等等。

  • Temporal Localization现在state-of-the-art做到了什么样的水平?

前些年video里面大家主要还是做video classification或者很短的trimmed video里面的localization;随着一个叫THUMOS'14的dataset出现,16年大家逐渐开始做untrimmed video里面detection的问题,也就是temporal localization。最近也出现了ActivityNet,Charades等等新的各具特色的datasets,为这个课题提供了更多新的探索方向,比如做ActivityNet需要解决how to detect very long instances的问题,Charades里面multi-modal的annotation,hierarchical/multi-label的categories如何利用起来。这些问题在image里面已经有被探讨过,但在video里面如何做,还是non-trivial的。目前这些benchmarks,state-of-the-art的mAP也只做到了百分之二三十,相对于object detection里面的结果,感觉还是有很大的空间,和不少细致的工作可以做和需要做的。

  • 去年这个方向的工作有什么局限?

我们组去年CVPR'16的工作 (Segment-CNN:[1601.02129] Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs),就是对这个问题的,用end-to-end deep learning方法的初步尝试,也是今年大家工作的baseline之一,本质上可以看成是video版本的faster-rcnn:先用multi-scale sliding window生成proposal segment;然后用proposal network判断是background还是可能含有action;如果可能含有action,再判断具体的action类别。这个方法的局限是,proposal的temporal boundaries可能不准,只做classification的话,还是保留了不准的边界。

  • 我们组今年CVPR'17的工作(Conv-De-Conv Networks)是如何解决上面的局限的?

对于这个局限,一种方法是做regression(类似于object detection里面调整bounding box的center和height/width);另一种方法,也就是我们CVPR'17的工作,则是尝试detect at the finer temporal granularity (e.g. frame-level),得到per-frame score sequence,然后用这个来调整proposal segment从而找到更准确的边界(如下图左)。

对网络模型本身而言,我们希望基于C3D(SoA的video classifier)来做,但是如何能得到per-frame score呢?很多semantic segmentation近来的工作都是基于de-convolution来做up-sampling的,可以参考;但这里我们的问题不太一样,从pool5到最后prediction,时间上我们要做up-sampling,但是空间上我们得做down-sampling,来得到每一帧的类别预测;所以,我们构建了一个CDC layer(上图右c),可以同时地,在时间维度上up-sample但是空间维度上down-sample。总体来说想法比较straightforward,能够得到更准确的边界,同时也比较efficient,在一张TITAN X卡上CDC网络本身的速度可以达到500FPS,具体细节大家感兴趣的话可以参考开头的链接。


最后,过几天夏威夷见啦,希望能向各位老师同学交流学习:)

在2D目标识别、检测、分割这个领域,个人感觉以下几篇文章是值得关注的:

1. Lin, Tsung-Yi, et al. "Feature Pyramid Networks for Object Detection." arXiv preprint arXiv:1612.03144 (2016).

[1612.03144] Feature Pyramid Networks for Object Detection

利用简单设计的多层网络融合策略有效解决多尺度目标定位困难的问题。


2. A-Fast-RCNN: Hard positive generation via adversary for object detection abhinavsh.info/papers/p

将对抗学习和Fast R-CNN结合,来增加遮挡和姿态变化的物体的数量。


3. Li, Yi, et al. "Fully Convolutional Instance-aware Semantic Segmentation." arXiv preprint arXiv:1611.07709 (2016).

[1611.07709] Fully Convolutional Instance-aware Semantic Segmentation

COCO2016分割冠军,在全卷积的框架下,利用 fg/bg score maps 对ROI区域内进行像素级分割。


4. Jeon, Yunho, and Junmo Kim. "Active Convolution: Learning the Shape of Convolution for Image Classification." arXiv preprint arXiv:1703.09076 (2017).

Learning the Shape of Convolution for Image Classification

可形变的卷基层,针对图像中物体的形变问题。与jifeng组的文章[1703.06211] Deformable Convolutional Networks idea类似


5. Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[J]. arXiv preprint arXiv:1612.08242, 2016.

YOLO9000: Better, Faster, Stronger

YOLO加强版


另外,我们也有一个2D目标检测的工作“ RON: Reverse Connection with Objectness Prior Networks for Object Detection ”会尽快把文章和相应的代码放出来。


在3D方面,今年出现了很多非常有意思的工作,以下列出的都是oral,自己本身之前不专门做这个方向,不做评价。

Fan, Haoqiang, Hao Su, and Leonidas Guibas. "A Point Set Generation Network for 3D Object Reconstruction from a Single Image." arXiv preprint arXiv:1612.00603 (2016).

Qi, Charles R., et al. "PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation." arXiv preprint arXiv:1612.00593 (2016).

Hold-Geoffroy, Yannick, et al. "Deep Outdoor Illumination Estimation." arXiv preprint arXiv:1611.06403 (2016).

Song, Shuran, et al. "Semantic Scene Completion from a Single Depth Image." arXiv preprint arXiv:1611.08974 (2016).

Zeng, Andy, et al. "3DMatch: Learning the matching of local 3D geometry in range scans." arXiv preprint arXiv:1603.08182 (2016).


等paperlist放出来之后再更。