马猴烧酒 发表于 2018-8-25 17:30:34

[转]kinetics-600 dataset介绍

本帖最后由 马猴烧酒 于 2018-8-27 14:23 编辑

本文转载于https://blog.csdn.net/liuxiao214/article/details/80144375
1 简介
    Kinetics-600 dataset是一个行为识别的数据集,种类数量多,数据集大。activitynet比赛始于2016CVPR,是与ImageNet齐名的在视频理解方面最重要的比赛。在这个比赛下的Task A – Trimmed Action Recognition比赛是一个视频分类比赛,使用的数据集就是kinetics-600数据集。数据集由Google的deepmind团队提供,2017年是第一届比赛,当时有400个类别,20多万数据,今年又对数据集进行了扩增,现在有600个类别,共50万左右的视频。
    视频来源于YouTube,一共有600个类别,每个类别至少600个视频以上,每段视频持续10秒左右。类别主要分为三大类:单人运动,比如做体操。人与物互动,比如演奏乐器。人人互动,比如握手、拥抱、运动。即person、person-person、person-object。
2 数据集类别介绍
    下面这些介绍主要是参考于17年deepmind发的论文”The Kinetics Human Action Video Dataset”,当时还是400类的数据集。论文请见https://arxiv.org/abs/1705.06950。
    数据集主要关注人类行为,action类的列表包括:

[*]单人行为,例如绘画,喝酒,大笑,抽拳;
[*]人与人之间的行为,例如拥抱,亲吻,握手;
[*]人与物之间的行为,例如打开礼物,修剪草坪,洗碗。
    一些行动是比较细粒度的,需要时序推理来区分,例如,不同类型的游泳。其他动作类别需要强调区分对象,例如演奏不同类型的乐器。这些类别并没有严格的层级划分,但是还是有些的,类似父类子类关系,例如音乐类(打鼓、长号、小提琴、……),个人卫生类(刷牙、剪指甲、洗手、……),跳舞类(芭蕾、macarena、tap、……),烹饪(切割、煎、脱皮、……)等。
    数据集有400个类别,每个动作都有400-1150个视频片段,每段视频的时长都在10秒左右。目前的版本有306245视频,分为三个部分,训练时每个类为250-1000个视频,验证时每个类50个视频,测试时每个类100个视频。
每个类都包含了一种行为。但是,一个特定的剪辑可以包含几种动作。例如,开车”时“发短信”;“弹奏尤克里里”时“跳草裙舞”;“跳舞”时“刷牙”。这种情况下,这个视频只会标记一个标签,并不会同时存在于两个类种。因此,取top-5的准确率更为合适。
3 行为识别的基准模型
    一共有三种处理行为识别的主流模型,分别是LSTM、two-stream和3D ConvNet。
图3.0-1    准确率如下图,可以看出two-stream还是占据主导优势的。在kinetics数据集上,top-1是61.0,top-5是81.3。
图3.0-2

3.1分类结果分析
图3.1-1    还有一点,由于很多动作比较细粒度,类别之间容易造成混淆,论文中也给出了最容易混淆的几个类别,比如,跳远和三级跳远,吃汉堡和吃甜甜圈。swing跳舞和跳萨尔萨舞等都会混淆。如下图:
图3.1-2    当然,由于使用two stream模型,光流模型和RGB模型可能对不同的动作有不同的准确度,对于这些特定类别,可以在融合时对光流和RGB设定不同的权重。
图3.1-3    上图中,对于机械舞,光流效果就会比RGB好很多,而对于做蛋糕,则是RGB效果更好。
3.2粒度划分
    最后给出这些类别的一个粒度划分,可能有多个类别都会属于同一大类。即父类子类关系。首先列出有哪些父类,然后再给出每个父类下的子类。父类:共38大类,每个类后面的数字代表有几个子类。如下。
arts and crafts (12)

athletics – jumping (6)

athletics – throwing + launching (9)

auto maintenance (4)

ball sports (25)

body motions (16)

cleaning (13)

cloths (8)

communication (11)

cooking (22)

dancing (18)

eating + drinking (17)

electronics (5)

garden + plants (10)

golf (3)

gymnastics (5)

hair (14)

hands (9)

head + mouth (17)

heights (15)

interacting with animals (19)

juggling (6)

makeup (5)

martial arts (10)

miscellaneous (9)

mobility – land (20)

mobility – water (10)

music (29)

paper (12)

personal hygiene (6)

playing games (13)

racquet + bat sports (8)

snow + ice (18)

swimming (3)

touching person (11)

using tools (13)

water sports (8)

waxing (4)    父类与子类较多,这里就不列出来了,可参考原文 https://blog.csdn.net/liuxiao214/article/details/80144375
参考链接:
activityNet:http://activity-net.org/challenges/2018/index.html
GitHub:https://github.com/activitynet/ActivityNet
kinetics:https://deepmind.com/research/op ... -datasets/kinetics/
paper:https://arxiv.org/abs/1705.06950

不忘初心 发表于 2018-9-11 10:37:40

Nice Nice,多发点

马猴烧酒 发表于 2018-9-11 17:25:06

不忘初心 发表于 2018-9-11 10:37
Nice Nice,多发点

额,最近比较忙,可能发不了几篇了

德国骨科 发表于 2018-10-8 08:58:29

好资源啊
页: [1]
查看完整版本: [转]kinetics-600 dataset介绍