易学智能

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 3078|回复: 3

[转]kinetics-600 dataset介绍

[复制链接]

22

主题

107

帖子

266

积分

中级会员

Rank: 3Rank: 3

积分
266
发表于 2018-8-25 17:30:34 | 显示全部楼层 |阅读模式
本帖最后由 马猴烧酒 于 2018-8-27 14:23 编辑

本文转载于https://blog.csdn.net/liuxiao214/article/details/80144375
1 简介
    Kinetics-600 dataset是一个行为识别的数据集,种类数量多,数据集大。activitynet比赛始于2016CVPR,是与ImageNet齐名的在视频理解方面最重要的比赛。在这个比赛下的Task A – Trimmed Action Recognition比赛是一个视频分类比赛,使用的数据集就是kinetics-600数据集。数据集由Google的deepmind团队提供,2017年是第一届比赛,当时有400个类别,20多万数据,今年又对数据集进行了扩增,现在有600个类别,共50万左右的视频。
    视频来源于YouTube,一共有600个类别,每个类别至少600个视频以上,每段视频持续10秒左右。类别主要分为三大类:单人运动,比如做体操。人与物互动,比如演奏乐器。人人互动,比如握手、拥抱、运动。即person、person-person、person-object。
2 数据集类别介绍
    下面这些介绍主要是参考于17年deepmind发的论文”The Kinetics Human Action Video Dataset”,当时还是400类的数据集。论文请见https://arxiv.org/abs/1705.06950
    数据集主要关注人类行为,action类的列表包括:
  • 单人行为,例如绘画,喝酒,大笑,抽拳;
  • 人与人之间的行为,例如拥抱,亲吻,握手;
  • 人与物之间的行为,例如打开礼物,修剪草坪,洗碗。
    一些行动是比较细粒度的,需要时序推理来区分,例如,不同类型的游泳。其他动作类别需要强调区分对象,例如演奏不同类型的乐器。这些类别并没有严格的层级划分,但是还是有些的,类似父类子类关系,例如音乐类(打鼓、长号、小提琴、……),个人卫生类(刷牙、剪指甲、洗手、……),跳舞类(芭蕾、macarena、tap、……),烹饪(切割、煎、脱皮、……)等。
    数据集有400个类别,每个动作都有400-1150个视频片段,每段视频的时长都在10秒左右。目前的版本有306245视频,分为三个部分,训练时每个类为250-1000个视频,验证时每个类50个视频,测试时每个类100个视频。
每个类都包含了一种行为。但是,一个特定的剪辑可以包含几种动作。例如,开车”时“发短信”;“弹奏尤克里里”时“跳草裙舞”;“跳舞”时“刷牙”。这种情况下,这个视频只会标记一个标签,并不会同时存在于两个类种。因此,取top-5的准确率更为合适。
3 行为识别的基准模型
    一共有三种处理行为识别的主流模型,分别是LSTM、two-stream和3D ConvNet。
1.png
图3.0-1
    准确率如下图,可以看出two-stream还是占据主导优势的。在kinetics数据集上,top-1是61.0,top-5是81.3。
1.png
图3.0-2


3.1分类结果分析
1.png
图3.1-1
    还有一点,由于很多动作比较细粒度,类别之间容易造成混淆,论文中也给出了最容易混淆的几个类别,比如,跳远和三级跳远,吃汉堡和吃甜甜圈。swing跳舞和跳萨尔萨舞等都会混淆。如下图:
1.png
图3.1-2
    当然,由于使用two stream模型,光流模型和RGB模型可能对不同的动作有不同的准确度,对于这些特定类别,可以在融合时对光流和RGB设定不同的权重。
1.png
图3.1-3
    上图中,对于机械舞,光流效果就会比RGB好很多,而对于做蛋糕,则是RGB效果更好。
3.2粒度划分
    最后给出这些类别的一个粒度划分,可能有多个类别都会属于同一大类。即父类子类关系。首先列出有哪些父类,然后再给出每个父类下的子类。父类:共38大类,每个类后面的数字代表有几个子类。如下。
  1. arts and crafts (12)

  2. athletics – jumping (6)

  3. athletics – throwing + launching (9)

  4. auto maintenance (4)

  5. ball sports (25)

  6. body motions (16)

  7. cleaning (13)

  8. cloths (8)

  9. communication (11)

  10. cooking (22)

  11. dancing (18)

  12. eating + drinking (17)

  13. electronics (5)

  14. garden + plants (10)

  15. golf (3)

  16. gymnastics (5)

  17. hair (14)

  18. hands (9)

  19. head + mouth (17)

  20. heights (15)

  21. interacting with animals (19)

  22. juggling (6)

  23. makeup (5)

  24. martial arts (10)

  25. miscellaneous (9)

  26. mobility – land (20)

  27. mobility – water (10)

  28. music (29)

  29. paper (12)

  30. personal hygiene (6)

  31. playing games (13)

  32. racquet + bat sports (8)

  33. snow + ice (18)

  34. swimming (3)

  35. touching person (11)

  36. using tools (13)

  37. water sports (8)

  38. waxing (4)
复制代码
    父类与子类较多,这里就不列出来了,可参考原文 https://blog.csdn.net/liuxiao214/article/details/80144375
参考链接:
activityNet:http://activity-net.org/challenges/2018/index.html
GitHub:https://github.com/activitynet/ActivityNet
kinetics:https://deepmind.com/research/op ... -datasets/kinetics/
paper:https://arxiv.org/abs/1705.06950

回复

使用道具 举报

1

主题

27

帖子

71

积分

注册会员

Rank: 2

积分
71
发表于 2018-9-11 10:37:40 | 显示全部楼层
Nice Nice,多发点
回复

使用道具 举报

22

主题

107

帖子

266

积分

中级会员

Rank: 3Rank: 3

积分
266
 楼主| 发表于 2018-9-11 17:25:06 | 显示全部楼层

额,最近比较忙,可能发不了几篇了
回复

使用道具 举报

4

主题

37

帖子

98

积分

注册会员

Rank: 2

积分
98
发表于 2018-10-8 08:58:29 | 显示全部楼层
好资源啊
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|易学智能

GMT+8, 2024-11-23 17:39 , Processed in 0.014050 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表