COCO数据集解析1

shaoheshaohe · 发表于 2019-6-11 20:08:16

JSON文件
json文件主要包含以下几个字段：
详细描述参考 COCO 标注详解

{
"info": info, # dict
"licenses": [license], # list ，内部是dict
"images": [image], # list ，内部是dict
"annotations": [annotation], # list ，内部是dict
"categories": # list ，内部是dict
}
1
2
3
4
5
6
7
打开JSON文件查看数据特点
由于JSON文件太大，很多都是重复定义的，所以只提取一张图片，存储成新的JSON文件，便于观察。

# -*- coding:utf-8 -*-

from __future__ import print_function
from pycocotools.coco import COCO
import os, sys, zipfile
import urllib.request
import shutil
import numpy as np
import skimage.io as io
import matplotlib.pyplot as plt
import pylab
import json

json_file='./annotations/instances_val2017.json' # # Object Instance 类型的标注
# person_keypoints_val2017.json  # Object Keypoint 类型的标注格式
# captions_val2017.json  # Image Caption的标注格式

data=json.load(open(json_file,'r'))

data_2={}
data_2['info']=data['info']
data_2['licenses']=data['licenses']
data_2['images']=[data['images'][0]] # 只提取第一张图片
data_2['categories']=data['categories']
annotation=[]

# 通过imgID 找到其所有对象
imgID=data_2['images'][0]['id']
for ann in data['annotations']:
if ann['image_id']==imgID:
      annotation.append(ann)

data_2['annotations']=annotation

# 保存到新的JSON文件，便于查看数据特点
json.dump(data_2,open('./new_instances_val2017.json','w'),indent=4) # indent=4 更加美观显示