本帖最后由 黑崎一护 于 2018-8-27 14:14 编辑
本文转载于 https://blog.csdn.net/xingwei_09/article/details/79148294
1 ImageNet简介IMAGENET Large Scale Visual Recognition Challenge(ILSVRC) 是从2010年开始,每年举办的ILSVRC图像分类和目标检测大赛。 - Imagenet数据集是目前深度学习图像领域应用得非常多的一个领域,关于图像分类、定位、检测等研究工作大多基于此数据集展开。
- Imagenet数据集文档详细,有专门的团队维护,使用非常方便,在计算机视觉领域研究论文中应用非常广,几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。
- Imagenet数据集有1400多万幅图片,涵盖2万多个类别;
- 其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。
具体信息如下: - Total number of non-empty synsets: 21841
- Total number of images: 14,197,122
- Number of images with bounding boxannotations: 1,034,908
- Number of synsets with SIFT features: 1000
- Number of images with SIFT features: 1.2million
复制代码
Imagenet数据集是一个非常优秀的数据集,但是标注难免会有错误,几乎每年都会对错误的数据进行修正或是删除,建议下载最新数据集并关注数据集更新,示意图如下。 图1-1 数据集大小:~1TB(ILSVRC2016比赛全部数据); 2 ImageNet数据集应用与Imagenet数据集对应的有一个享誉全球的“ImageNet国际计算机视觉挑战赛(ILSVRC)”,以往一般是google、MSRA等大公司夺得冠军,2016 ILSVRC2016中国团队包揽全部项目的冠军。 目前包含的比赛项目有: 目标定位给定一幅图像,算法需要生成5个带有置信度的类别标签及其分别对应的目标物边框信息。算法准确率的评估是基于与标注的类别标签最匹配的预测标签,图片中可能存在多个物体及其对应的标注信息和与标注的边框信息重叠的预测边框图片中可能存在多个同类物体。为什么这样做呢?因为这样就允许算法识别图像中的多个目标物,并且当其中一个目标物确实存在于图像中但没有被标注出来时算法不会受到惩罚。可能说的有不清楚或不正确的地方,大家可以看下官方的评估规则。
目标检测
给定一幅图像,算法需要生成多组(ci,si,bi)形式的预测信息,其中ci为类别标签、si为置信度、bi为边框信息。需要注意的是,算法必须检测出图像中出现的每一个训练过的目标物,漏检和重复检测都会受到惩罚。
视频序列的目标检测
这一项和上一项目标检测类似。
场景分类
这个比赛使用了Places2 dataset,比赛规则是对于给定图像,允许算法产生5个场景分类,并挑选匹配度最高的作为评估结果,详看他们的评估规则吧。为什么这么做呢?因为同一幅图片可以包含有多个场景类别,事实上同一幅图片本来就是用多个类别标注的。
场景分析这个比赛的目标是将图像分割成与语义类别相关联的不同图像区域,如天空,道路,人和床。具体规则见官网。
|