[转]COCO数据集

黑崎一护 · 发表于 2018-8-24 16:45:20

本帖最后由黑崎一护于 2018-8-27 14:14 编辑

本文转载于https://www.cnblogs.com/geekvc/p/6657369.html

1 COCO简介

COCO数据集是微软团队获取的一个应用于图像识别、图像分割、图像描述的数据集，其官方说明网址：http://mscoco.org/。

该数据集主要有的特点如下：

（1）Object segmentation
（2）Recognition in Context
（3）Multiple objects per image
（4）More than 300,000 images
（5）More than 2 Million instances
（6）80 object categories
（7）5 captions per image
（8）Keypoints on 100,000 people

复制代码

微软在ECCV Workshops里发表了这篇文章介绍COCO数据集：Microsoft COCO: Common Objects in Context。从这篇文章中，我们了解了这个数据集以场景理解为目标，主要从复杂的日常场景中截取，图像中的目标通过精确的分割进行位置的标定。图像包括91类目标，328,000影像和2,500,000个label。

该数据集主要解决3个问题：目标检测，目标之间的上下文关系，目标的2维上的精确定位。数据集的对比示意图：

图1-1

2 数据集分类

图片分类：

分类需要二进制的标签来确定目标是否在图像中。早期数据集主要是位于空白背景下的单一目标，如MNIST手写数据库，COIL household objects。在机器学习领域的著名数据集有CIFAR-10 and CIFAR-100，在32*32影像上分别提供10和100类。最近最著名的分类数据集即ImageNet，22,000类，每类500-1000影像。

目标检测：

通过bounding box确定目标位置，主要用于人脸检测与行人检测，数据集如Caltech Pedestrian Dataset包含350,000个bounding box标签。PASCAL VOC数据包括20个目标超过11,000图像，超过27,000目标bounding box。ImageNet数据下获取的目标检测数据集有200类，400,000张图像，350,000个边界框。由于一些目标之间有着强烈的关系，在特定场景下检测某种目标不确定是否有意义，因此精确的位置信息比边界框更加重要。

语义场景标注：

这类问题需要pixel级别的标签，其中个别目标很难定义，如街道和草地。数据集主要包括室内场景和室外场景的，一些数据集包括深度信息。其中，SUN dataset包括908个场景类，3,819个常规目标类(person, chair, car)和语义场景类(wall, sky, floor)，每类的数目具有较大的差别（这点COCO数据对其进行了改进，保证每一类数据足够）。

图2-1

其他视觉数据集

一些数据集如Middlebury datasets，包含立体相对，多视角立体像对和光流；同时还有Berkeley Segmentation Data Set (BSDS500)，可以评价语义分割和边缘检测算法。

3 COCO展示

该数据集标记流程如下：

图3-1

COCO数据集有91类，虽然比ImageNet和SUN类别少，但是每一类的图像多，这有利于获得更多的每类中位于某种特定场景的能力，对比PASCAL VOC，其有更多类和图像。

COCO数据集分两部分发布，前部分于2014年发布，后部分于2015年发布。

2014年版本：

82,783 training, 40,504 validation, and 40,775 testing images，有270k的segmented people和886k的 segmented object；

2015年版本：

165,482 train, 81,208 val, and 81,434 test images。

其性能对比和一些例子：

图3-2

图3-3

图3-4

5小结

本篇文章主要介绍了MS COCO数据集，分别介绍了三个部分：COCO介绍，数据集分类和COCO展示。

污妖王 · 发表于 2018-9-13 10:41:02

好数据集，收藏了

马猴烧酒 · 发表于 2018-9-13 10:47:18

mark一下。

opencv键盘侠 · 发表于 2018-9-25 15:58:01

这个数据集还是很经典的，收藏一哈

此间少年 · 发表于 2018-10-8 08:42:04

收藏+1！

莫晓沙 · 发表于 2018-10-8 08:45:32

楼主很棒，整个这一模块都是数据集哈哈哈，收藏

3529956381 · 发表于 2018-10-9 08:12:21

就需要这种数据集

2919005896 · 发表于 2018-10-11 08:07:52

数据集挺好的

黑崎一护 · 发表于 2018-10-11 08:18:05

莫晓沙发表于 2018-10-8 08:45
楼主很棒，整个这一模块都是数据集哈哈哈，收藏

满意就好了

黑崎一护 · 发表于 2018-10-11 08:18:25

2919005896 发表于 2018-10-11 08:07
数据集挺好的

阿里嘎多

帐号		自动登录	找回密码
密码			立即注册