[转]kinetics-600 dataset介绍
本帖最后由 马猴烧酒 于 2018-8-27 14:23 编辑本文转载于https://blog.csdn.net/liuxiao214/article/details/80144375
1 简介
Kinetics-600 dataset是一个行为识别的数据集,种类数量多,数据集大。activitynet比赛始于2016CVPR,是与ImageNet齐名的在视频理解方面最重要的比赛。在这个比赛下的Task A – Trimmed Action Recognition比赛是一个视频分类比赛,使用的数据集就是kinetics-600数据集。数据集由Google的deepmind团队提供,2017年是第一届比赛,当时有400个类别,20多万数据,今年又对数据集进行了扩增,现在有600个类别,共50万左右的视频。
视频来源于YouTube,一共有600个类别,每个类别至少600个视频以上,每段视频持续10秒左右。类别主要分为三大类:单人运动,比如做体操。人与物互动,比如演奏乐器。人人互动,比如握手、拥抱、运动。即person、person-person、person-object。
2 数据集类别介绍
下面这些介绍主要是参考于17年deepmind发的论文”The Kinetics Human Action Video Dataset”,当时还是400类的数据集。论文请见https://arxiv.org/abs/1705.06950。
数据集主要关注人类行为,action类的列表包括:
[*]单人行为,例如绘画,喝酒,大笑,抽拳;
[*]人与人之间的行为,例如拥抱,亲吻,握手;
[*]人与物之间的行为,例如打开礼物,修剪草坪,洗碗。
一些行动是比较细粒度的,需要时序推理来区分,例如,不同类型的游泳。其他动作类别需要强调区分对象,例如演奏不同类型的乐器。这些类别并没有严格的层级划分,但是还是有些的,类似父类子类关系,例如音乐类(打鼓、长号、小提琴、……),个人卫生类(刷牙、剪指甲、洗手、……),跳舞类(芭蕾、macarena、tap、……),烹饪(切割、煎、脱皮、……)等。
数据集有400个类别,每个动作都有400-1150个视频片段,每段视频的时长都在10秒左右。目前的版本有306245视频,分为三个部分,训练时每个类为250-1000个视频,验证时每个类50个视频,测试时每个类100个视频。
每个类都包含了一种行为。但是,一个特定的剪辑可以包含几种动作。例如,开车”时“发短信”;“弹奏尤克里里”时“跳草裙舞”;“跳舞”时“刷牙”。这种情况下,这个视频只会标记一个标签,并不会同时存在于两个类种。因此,取top-5的准确率更为合适。
3 行为识别的基准模型
一共有三种处理行为识别的主流模型,分别是LSTM、two-stream和3D ConvNet。
图3.0-1 准确率如下图,可以看出two-stream还是占据主导优势的。在kinetics数据集上,top-1是61.0,top-5是81.3。
图3.0-2
3.1分类结果分析
图3.1-1 还有一点,由于很多动作比较细粒度,类别之间容易造成混淆,论文中也给出了最容易混淆的几个类别,比如,跳远和三级跳远,吃汉堡和吃甜甜圈。swing跳舞和跳萨尔萨舞等都会混淆。如下图:
图3.1-2 当然,由于使用two stream模型,光流模型和RGB模型可能对不同的动作有不同的准确度,对于这些特定类别,可以在融合时对光流和RGB设定不同的权重。
图3.1-3 上图中,对于机械舞,光流效果就会比RGB好很多,而对于做蛋糕,则是RGB效果更好。
3.2粒度划分
最后给出这些类别的一个粒度划分,可能有多个类别都会属于同一大类。即父类子类关系。首先列出有哪些父类,然后再给出每个父类下的子类。父类:共38大类,每个类后面的数字代表有几个子类。如下。
arts and crafts (12)
athletics – jumping (6)
athletics – throwing + launching (9)
auto maintenance (4)
ball sports (25)
body motions (16)
cleaning (13)
cloths (8)
communication (11)
cooking (22)
dancing (18)
eating + drinking (17)
electronics (5)
garden + plants (10)
golf (3)
gymnastics (5)
hair (14)
hands (9)
head + mouth (17)
heights (15)
interacting with animals (19)
juggling (6)
makeup (5)
martial arts (10)
miscellaneous (9)
mobility – land (20)
mobility – water (10)
music (29)
paper (12)
personal hygiene (6)
playing games (13)
racquet + bat sports (8)
snow + ice (18)
swimming (3)
touching person (11)
using tools (13)
water sports (8)
waxing (4) 父类与子类较多,这里就不列出来了,可参考原文 https://blog.csdn.net/liuxiao214/article/details/80144375
参考链接:
activityNet:http://activity-net.org/challenges/2018/index.html
GitHub:https://github.com/activitynet/ActivityNet
kinetics:https://deepmind.com/research/op ... -datasets/kinetics/
paper:https://arxiv.org/abs/1705.06950
Nice Nice,多发点 不忘初心 发表于 2018-9-11 10:37
Nice Nice,多发点
额,最近比较忙,可能发不了几篇了 好资源啊
页:
[1]