易学智能

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 5970|回复: 4

[转]OpenImage数据集简介

[复制链接]

22

主题

107

帖子

266

积分

中级会员

Rank: 3Rank: 3

积分
266
发表于 2018-8-24 17:38:06 | 显示全部楼层 |阅读模式
本帖最后由 马猴烧酒 于 2018-8-27 08:45 编辑

本文转载于https://blog.csdn.net/u010167269/article/details/52717394
1 简介
    这约 900 万张的链接图像(基本来自 flickr),横跨了大约 6000 个类别,这些标签比 ImageNet(1000 类) 包含更多贴近实际生活的实体。这么大量的图像数据,足够保证从头训练一个深度网络模型。
Google Research Blob 对这组数据集做了简单的介绍:Introducing the Open Images Dataset
数据集的 Github 地址为:https://github.com/openimages/dataset
这些图像数据遵从 Creative Commons Attribution license。但是 Google 在注释里注明,不保证每张图像都可以遵从这个规则去使用,需要你自己去验证:
图像的 labels 是 image-level,即 图像层级的,类似于 Google Cloud Vision API,即对于一张图像,分析出图像中包含的实体、场景、文字等,如下所示:
1.png

图1-1

    对于一张包含两只狗的图像而言,Google Cloud Vision API 分析出的 labels 包含:Dog(狗)、Mammal(哺乳动物)、Vertebrate(脊椎动物)等等。这个 Google Cloud Vision API 非常强大,还可以检测自然场景文字检测:
1.png

图1-2

    对于 Open Image dataset 中的 validation set,Google 对上面的这些 labels 进行了人工的检验,将错误的 labels 剔除掉了。每一张图像大约有 8 个 labels,示例如下:
1.png

图1-3

    Google 已经基于这个 Open Image 数据集训练了 Inception v3 model,这个 model 也可以用于去 fine-tuning 其他的任务,如 Deep Dreamartistic style transfer,在未来的几个月中,Google 还会继续提升 Open Image 的标注质量。
    这个 Open Image 由 Google、CMU、Cornell 大学合作完成,这个 Open Image 数据集,以及最近放出的 Youtube-8M 对机器学习界又是一次助攻。
2 数据集内容
    图片数据集中有两个描述数据集的csv文件,分别是image.csv,label.csv,在csv中每一张图像被赋予一个唯一的 64-bit 的标识码(ID),image.csv和label.csv由这唯一id联系起来
数据集被分为 training set,包含 9011219 张图像,validation set,包含 167057 张图像。每一张图像包含 0 个,1 个或者多个 image-level 的 labels。
数据集都是由机器标注的,其中,validation set 是经过人的检验的,但是在 Machine image-level annotations (train and validation sets) 中也包含了机器标注的 validation set。
数据集太过庞大,提供了image.csv和label.csv来指定地址
images.csv 文件格式
    给的原图像地址文件格式,每一行包含了原图像 URL 地址,它们对应唯一的 ImageID、标题、作者,以及 license 信息:
  1. 000060e3121c7305,”https://c1.staticflickr.com/5/4129/5215831864_46f356962f_o.jpg“,\
  2. “https://www.flickr.com/photos/brokentaco/5215831864“,\
  3. “https://creativecommons.org/licenses/by/2.0/“,\
  4. “https://www.flickr.com/people/brokentaco/“,”David”,”28 Nov 2010 Our new house.”
复制代码

    打开看看,如下:
1.png

图2-1

labels.csv 文件格式
    首先,labels 各自对应的单词含义,在 词典 dict.csv 里描述如下:
1.png

图2-2

    标注 annotation 的格式如下:ImageID, confidence: labels, confidence: labels, ……,下面分别是 train、validation 的 csv 文件:

1.png

1.png

图2-3

    对于人工检验的 confidence 而言,其值只有两个取值:1和0,给定的 csv 文件如下:
1.png

图2-4
    可以看到,人工验证过的中的 ImageID 与 机器标注中的 ImageID 一样,但是 confidence 只1和0两个值。
Stats and data quality
    Open Image 数据中,各类是非常不均衡的。有些 label 对应着百万张图像,有些 label 只有几百、几十张图像:
1.png

1.png

图2-5

    同时,机器标注中,也包含了一些噪声,通常来说,label 对应的图像越多,这个 label 越准确。
1.png

图2-6


下载链接:






回复

使用道具 举报

10

主题

82

帖子

200

积分

中级会员

Rank: 3Rank: 3

积分
200
发表于 2018-9-15 09:14:21 | 显示全部楼层
OpenImage目前是第二大的图片数据集吧,第一大的是腾讯放的那个Tencent ML-Images数据集,有1500万张
回复

使用道具 举报

15

主题

97

帖子

310

积分

论坛管理

Rank: 4

积分
310
发表于 2018-9-17 11:56:49 | 显示全部楼层
get好数据集,可是这么多图片,一般人是训练不了吧
回复

使用道具 举报

4

主题

34

帖子

88

积分

注册会员

Rank: 2

积分
88
发表于 2018-10-16 08:43:38 | 显示全部楼层
污妖王 发表于 2018-9-15 09:14
OpenImage目前是第二大的图片数据集吧,第一大的是腾讯放的那个Tencent ML-Images数据集,有1500万张 ...

反正是很经典的数据集
回复

使用道具 举报

38

主题

84

帖子

243

积分

中级会员

Rank: 3Rank: 3

积分
243
发表于 2018-10-21 20:03:05 | 显示全部楼层
这是个大数据集

训大模型的必备
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|易学智能

GMT+8, 2024-4-27 08:31 , Processed in 0.039817 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表