易学智能

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2227|回复: 3

[转]Youtube-8M数据集简介

[复制链接]

22

主题

107

帖子

266

积分

中级会员

Rank: 3Rank: 3

积分
266
发表于 2018-8-25 17:07:23 | 显示全部楼层 |阅读模式
本帖最后由 马猴烧酒 于 2018-8-27 08:50 编辑

本文转载于https://blog.csdn.net/u010167269/article/details/52740990
1 简介
    Google 公布了一个大型的视频数据集:YouTube-8M 视频数据集(项目主页地址),这个数据集的技术报告在 arXiv 上也挂出来了:YouTube-8M: A Large-Scale Video Classification Benchmark
本文是对 Google 对这个数据集介绍的博文:Announcing YouTube-8M: A Large and Diverse Labeled Video Dataset for Video Understanding Research 的一个总结归纳,这个数据集包含 8,000,000 万个 YouTube 视频链接,这些视频集进行了 video-level(视频层级) 的标注,标注为 4800 种 Knowledge Graph entities(知识图谱实体)。
    这次公布的 YouTube-8M 数据集相比较于之前公布的数据集:YouTube-1M,又是一次的大提升。之前的 YouTube-1M 是包含 500 种体育项目的 YouTube 视频数据集,包含 1,000,000 个视频链接。
2 特点
    这个的数据集的特点如下:
1.png
图2-1
2.1 8 Million video URLs(8万视频链接)
    为了保证数据集的质量,在选取视频时,做了一些限制:
  • 每一个视频都是公开的,且每个视频至少有 1000 帧
  • 每一个视频的长度在 120s 到 500s 之间
  • 每一个视频至少与一个 Knowledge Graph entities(知识图谱实体)相联系
    成人视频由自动分类器移除
2.2 0.5 Million Hours of video(时长总量达5千小时的视频集)
    数据集中视频超过了5000 个小时,一般需要 1PB(1PB=1024TB1PB=1024TB) 的硬盘来存储,同时一般也需要 50 CPU-years 来处理这个视频。所以为了减小存储开销与计算时间开销,Google 提供了 pre-computed and compressed features,这样的话就可以在单台机子上一天内完成模型的训练。
2.3 1.9 Billion Frame Features(19亿帧特征)
    同时,已经用在 ImageNet 上训练得到的 Inception-V3 image annotation model 提取了这些视频的 frame-level、video-level 特征。这些特征是从 1.9 Billion 视频帧中,以每秒 1 帧的时间分辨率进行提取的。之后进行了 PCA 降维处理,使得最后的特征能够存储在一张硬盘中(小于 1.5T)。
2.4 4800 Classes(4800个类别)
    这些视频被标注的 annotation vocabulary 包含 4800 个 Knowledge Graph entities(知识图谱实体)。
每一个 entity 至少有 120 个训练视频,平均每个 entity 有 2229 个训练视频。annotation 的定义方式参照 YouTube Data API。其中最多的一个 entity 是 Vehicle,超过了 500K 个训练视频;拥有最少视频的 entity 是 Somersault,只有 120 个视频。
    4800 个 entity 被分为 24 种 frequent(频率),最高 frequent 的是 Arts & Entertainment,超过 2,800,000 个训练视频。最少 frequent 的是 Finance,小于 14,000 个训练视频。
这里所谓的 24 top-level verticals,详情可以参考 Youtube-8M 主页中的这个 Explore 页面:dataset browser,如下图:
1.png
图2.4-1
    具体的,如 Arts & Entertainment 这类,其 Entity 如下:
1.png
图2.4-2
    另外,关于数据集的具体的 labels,其归属的 Vertical,对应的 KnowledgeGraphID,可以参加这个 CSV 文件:train-labels-histogram:
1.png
图2.4-3
2.5 1.8 Avg.Labels/Video(1.8个标签/视频)
    每个视频平均有 1.8 个 标签,这些 ground truth labels 来自于 Youtube data API,根据视频的 content、metadata、contextual、user signals 对每个视频进行 annotation。每个视频的 标签个数从 1 到 39,平均每个视频有 1.8 个 标签。大约有 60% 到 80% 的视频,其 标签 个数在 2~3 个。
3 总结
    上面只是我对这个数据集的一点翻译式的记录描述,使用时的具体的详情,请参见 Google 对这份 YouTube-8M 的 Technical Report: YouTube-8M: A Large-Scale Video Classification Benchmark

1.png

图3-1


回复

使用道具 举报

0

主题

32

帖子

80

积分

注册会员

Rank: 2

积分
80
发表于 2018-9-10 09:43:27 | 显示全部楼层
好东西,这种东西得收藏了。找好久,还要掏钱下载,找半天就这么个免费的
回复

使用道具 举报

22

主题

107

帖子

266

积分

中级会员

Rank: 3Rank: 3

积分
266
 楼主| 发表于 2018-9-11 17:27:37 | 显示全部楼层
www呵呵 发表于 2018-9-10 09:43
好东西,这种东西得收藏了。找好久,还要掏钱下载,找半天就这么个免费的
...

,这个时代有价值的数据就是金钱
回复

使用道具 举报

9

主题

74

帖子

185

积分

注册会员

Rank: 2

积分
185
发表于 2018-10-8 08:20:34 | 显示全部楼层
资源好评
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|易学智能

GMT+8, 2024-11-23 17:38 , Processed in 0.017888 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表