如何评价ILSVRC2016的比赛结果?

关注者
701
被浏览
33,391

20 个回答

作为参加ImageNet比赛的成员之一,也来说说一些自己的浅见。
1.首先祝贺国内众多参与者取得好成绩!很多国外重要团队没有参加说是幸运与不幸都可以的。个人也在猜测是不是很多国外团队参加COCO,而没有参加ImageNet了。
2.数年比赛第一名的都是取名叫model ensemble. 包括当年的VGG, GoogleNet, ResNet。证据在
ImageNet Large Scale Visual Recognition Competition 2014 (ILSVRC2014)
ILSVRC2015 Results 所以model ensemble作为方法的描述并不代表方法没有创新,只是所有参赛者用来刷名次的无奈之举。ensemble最好的,单个model的结果通常也是最好的。今年有没有神作不知道,但是佳作应该还是有的。个人还是非常期待在workshop上能向各位参赛者学习到一些新的东西。
3.以往ImageNet备受关注,主要是提供了很好的feature(CNN feature)和训练feature的方法。相信今年在ImageNet上应该会有更work的feature公布出来(我们组也会放出一些好的feature来)。
4.除了各种CNN feature和以前Pascal VOC上的的HOG feature在这些比赛的有效性得到验证外,其实ImageNet和原来的Pascal VOC应该也会催生一些在各个topic(如detection, segmentation, image/scene classification)好的方法,比如DPM, selective search, R-CNN, fast-RCNN。这些方法在各个不同的领域可能有借鉴性,实际上也产生了很大的影响。希望今年也能看到这方面的工作。
5. (现在进入广告环节,不喜者请忽略)我们组熊元俊写了一个能省memory的caffe code(源代码:GitHub - yjxiong/caffe at mem),正是由于有这个code,我们在269层ResNet的基础上训练了我们自己的GBD-Net。我们也在准备关于GBD-Net的Journal和源代码。争取在ImageNet workshop前放出来。
我是这次Places Scene Classification和Scene Parsing的主办者。在这里说明下'pre-trained model'和'provided data track'的问题。

总结来说,对于Places scene classification和scene parsing challenge,使用标准的pre-trained models trained on imagenet or places并不违反比赛规定。这里标准的pre-trained models指各种常用的imagenet-pretrained resnets, vgg, googlenet或者places1-CNNs or Places365-CNNs。pre-trained model并不等同于external data。

这次Places Scene Classification(Places2: A Large-Scale Database for Scene Understanding)是第二次作为ILSVRC的比赛项目,而Scene Parsing Challenge(MIT Scene Parsing Challenge 2016)是第一次纳入ILSVRC比赛,两者都是ILSVRC比较新的项目。因为考虑以往参与provided data track人数远远大于external data track,今年这两个项目这次都只设provided data track。

在当初设定这两个项目时,我就注意到了pre-trained model这个问题。在Pascal VOC object detection, cityscape等比赛中,使用Imagenet pre-trained models已经是常态,如经典的Faster-RCNN和常用的semantic segmentation networks (FCN, DilatedNet, segnet), 都是基于pre-trained model的weight作为初始化构建出来的。所以这里我认为使用标准的pre-trained model并不违反规定。使用pre-trained model跟使用external data并不等同。在比赛过程中,两个比赛项目的有些参赛者也邮件询问过我这个问题,我都回复可以使用常用的pre-trained models.

若真要抠字眼,Provided data track在ILSVRC官方的定义(ILSVRC2016)是:"provided data" track: entries only using ILSVRC2016 images and annotations from any aforementioned tasks.Places Scene Classification, scene parsing, ImageNet都算ILSVRC2016的项目,那ILSVRC2016各个子项目间互相使用数据并不违反规定。这里我个人并不希望这种混用training图片和标注的事情发生。我会提醒ILSVRC组织者在下次更明确的指出pre-trained model的使用范围。

这个帖子里面的讨论对于我们比赛的组织者是很好的信息。我也收到其他一些挺好的建议,比如说设定open-sourced single-model track: “Likewise, single-model is almost as important as in real production environments where your serving millions of requests, running huge ensembles is unrealistic.” (摘自加州一个科技公司的manager给我的邮件)。我们将更好的改进以后的比赛。

设立比赛的初衷是为了推进这个研究方向的更有效地进步。在深度学习统治计算机视觉研究的今天,占有更多计算资源和颇多优秀人才的科技公司掌握了更大的主动权。我很期待这些公司的研究者们能在arXiv上或者会议论文上跟大家分享他们的模型和比赛心得体会。最后,感谢各位参加和关注scene understanding相关任务的朋友们,有机会咱们ECCV‘16细聊。