易学智能

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 3394|回复: 1

人脸检测数据集

[复制链接]

665

主题

1234

帖子

6670

积分

xdtech

Rank: 5Rank: 5

积分
6670
发表于 2020-6-24 16:34:58 | 显示全部楼层 |阅读模式
所谓人脸检测任务,就是要定位出图像中人脸的大概位置。通常检测完之后根据得到的框再进行特征的提取,包括关键点等信息,然后做一系列后续的分析。
(1) Caltech 10000 Web Faces
发布于2007年,这是一个灰度人脸数据集,使用Google图片搜索引擎用关键词爬取所得,包含了7092张图,10524个人脸,平均分辨率在304×312。除此之外还提供双眼鼻子,和嘴巴共4个坐标位置,在早期被较多地使用,现在的方法已经很少用灰度数据集做评测。
(2) AFW
发布于2013年,目前官网数据链接已经失效,可以通过其他渠道获得。AFW数据集是人脸关键点检测非常早期使用的数据集,共包含205个图像,其中有473个标记的人脸。每一个人脸提供了方形边界框,6个关键点和3个姿势角度的标注。
(3) FDDB
数据集地址:http://vis-www.cs.umass.edu/fddb/index.html
发布于2010年,这是被广泛用于人脸检测方法评测的一个数据集。FDDB(Face Detection Data Set and Benchmark)的提出是用于研究无约束人脸检测。所谓无约束指的是人脸表情、尺度、姿态、外观等具有较大的可变性。FDDB的图片都来自于 Faces inthe Wild 数据集,图片来源于美联社和路透社的新闻报道图片,所以大部分都是名人,而且是自然环境下拍摄的。共2845张图片,里面有5171张人脸图像。
通常人脸检测数据集的标注采用的是矩形标注,即通过矩形将人脸的前额,脸颊和下巴通过矩形包裹起来,但是由于人脸是椭圆状的,所以不可能给出一个恰好包裹整个面部区域而无干扰的矩形。
在FDDB当中采用了椭圆标记法,它可以适应人脸的轮廓。具体来说,每个标注的椭圆形人脸由六个元素组成。(ra、rb、θ、cx、cy、s),其中ra、rb是椭圆的半长轴、半短轴,cx、cy是椭圆的中心点坐标,θ是长轴与水平轴夹角(头往左偏θ为正,头往右偏θ为负),s则是置信度得分。标注的结果是通过多人独立完成标注之后取标注的平均值,而且排除了长或宽小于20个像素的人脸,远离相机的人脸,被遮挡的人脸等。
(4) WIDER Face
发布于2015年,FDDB评测标准由于只有几千张图像,这样的数据集在人脸的姿态、尺度、表情、遮挡和背景等多样性上非常有限,训练出来的模型难以被很好的评判,算法很快就达到饱和。在这样的背景下香港中文大学提出了Wider-face数据集,在很长一段时间里,大型互联网公司和科研机构都在Wider-face上做人脸检测算法竞赛。
Wider-face总共有32203张图片,共有393703张人脸,比FDDB数据集大10倍,而且在面部的尺寸、姿势、遮挡、表情、妆容、光照上都有很大的变化,算法不仅标注了框,还提供了遮挡和姿态的信息,自发布后广泛应用于评估性能比传统方法更强大的卷积神经网络。
Wider-face中的图像分辨率较高,所有图像的宽都缩放到1024像素,最小标注的人脸大小为10×10,平均一张图超过10个人脸,密集小人脸非常多。训练集,验证集,测试集分别占40%,10%,50%,测试集非常大,结果可靠性高。
根据EdgeBox方法的检测率Wider-face评测被划分为三个难度等级:Easy, Medium, Hard,可以在各个任务维度上进行评测,比如Hard等级非常适合评测小脸检测框架。
(5) MALF
MALF(Multi-Attribute Labelled Faces)发布于2015年,是为了更加细粒度地评估野外环境中人脸检测模型而设计的数据库。数据主要来源于Internet,包含5250个图像、11931个人脸。每一幅图像包含正方形边界框,头部姿态的俯仰程度,包括小中大三个等级的标注。该数据集忽略了小于20×20或者非常难以检测的人脸,共包含大约838个人脸,占该数据集的7%。同时该数据集还提供了性别,是否带眼镜、是否遮挡、是否是夸张的表情等辅助信息。
(6) MAFA
发布于2017年,这是一个遮挡人脸检测数据集,总共包含30811张图、35806张被遮挡的人脸,包含各种方向和尺度的遮挡。
它们首先将人脸分为4个区域,分为眼睛、鼻子、嘴巴、下颌,根据遮挡区域数量将遮挡程度分为三档。weak occlusion对应一到两个区域的遮挡,medium occlusion对应3个区域的遮挡,heavy occlusion对应4个区域的遮挡。
人脸方向包含5个,left、front、right、left-front及right-front。遮挡类型分为4个,即人造的纯色遮挡物、人造的复杂纹理遮挡物、手/头发等身体造成的自遮挡以及复杂类型。
(7) Unconstrained Face Detection Dataset(UFDD)
数据集地址:https://ufdd.info/
发布于2018年,这是一个非限制场景下的人脸检测数据集,总共包含6425张图、10897张人脸,包含雨天(Rain)、雪天(Snow)、雾天(Haze)、模糊(Blur)、光照(Illumination)、晶体障碍(Lens impediments)和干扰物(Distractors)等7个场景。
除此之外,还有一些比较特殊的,比如鱼眼人脸检测数据集,由于比较小众,就不再集中介绍。总的来说,人脸检测数据集的发展历史,就是不断向真实复杂场景靠近。
6. 关键点检测
检测到人脸后,下一步就是定位出关键点,关键点是人脸形状的稀疏表示,它在人脸跟踪、美颜等任务中都很重要,现在已经从最开始的5个关键点发展到了超过200个关键点的标注。
(1) LFPW、HELEN、AFW、IBUG、XM2VTS、FRGC-V2
首先是一些比较小和比较老的数据集,AFW前面已经介绍。
XM2VTS,发布于1999年,网址为http://www.ee.surrey.ac.uk/CVSSP/xm2vtsdb/,包含295个人、2360张正面图,标注了68个关键点,大部分的图像是无表情的,而且是在同样的光照环境下。
AR人脸数据库发布于1998年,网址为http://www2.ece.ohio-state.edu/~aleix/ARdatabase.html,包括126个人,超过4000张图,标注了22个关键点。
FGVC-V2人脸数据库发布于2005年,网址为https://www.nist.gov/programs-pr ... rand-challenge-frgc,共466个人的4950张图,包括均匀的光照条件下的高质量图和不均匀的光照条件下的低质量图,标注了5个关键点。
LFPW人脸数据库,发布于2011年,网址为https://neerajkumar.org/projects/face-parts/,包括1432张图像,标注了29个关键点。
Helen人脸数据库,发布于2012年,网址为http://www.ifp.illinois.edu/~vuongle2/helen/,包括训练集和测试集,测试集包含了330张人脸图片,训练集包括了2000张人脸图片,都被标注了194个特征点。
IBUG人脸数据库,发布于2013年,网址为https://ibug.doc.ic.ac.uk/resources/facial-point-annotations/,这是随着300W一起发布的数据集,包含了135张人脸图片,每张人脸图片被标注了68个特征点。
(2) AFLW
AFLW(Annotated Facial Landmarks in the Wild)是一个包括多姿态、多视角的大规模人脸数据库,一般用于评估面部关键点检测效果,图片来自于flickr。总共有21997张图,2593张面孔,每张人脸标注21个关键点,共380k个关键点,由于是肉眼标记,不可见的关键点不进行标注。
除了关键点之外,还提供了矩形框和椭圆框的脸部位置标注,其中椭圆框的标注方法与FDDB相同。另外还有从平均3D人脸重建提供的3D的人脸姿态角标注。
大部分图像是彩色图,也有少部分是灰度图,59%为女性,41%为男性,这个数据集非常适合做多角度多人脸检测,关键点定位和头部姿态估计,是关键点检测领域里非常重要的一个数据集。
下图是上述数据集的标注的对比。
(3) 300W、300W挑战赛与300VW、300VW挑战赛
发布于2013年,包含了300张室内图和300张室外图,其中数据集内部的表情、光照条件、姿态、遮挡、脸部大小变化非常大,是通过Google搜索“party”,“conference”等较难等场景搜集而来。该数据集标注了68个关键点,一定程度上在这个数据集能取得好结果的,在其他数据集也能取得好结果。
300W挑战赛是非常有名的用于评测关键点检测算法的基准,2013在ICCV举办了第一次人脸关键点定位竞赛。300W挑战赛所使用的训练数据集实际上并不是一个全新的数据集,它是采用了半监督的标注工具,将AFLW、AFW、Helen、IBUG、LFPW、FRGC-V2、XM2VTS等数据集进行了统一标注然后得到的,关键信息是68个点。
在ICCV 2015年拓展成了视频标注,即300 Videos in the Wild(300-VW),数据集地址是
https://ibug.doc.ic.ac.uk/resources/300-VW/,感兴趣读者可以关注。
(4) MTFL与MAFL
发布于2014年,这里包含了两个数据集。
Multi-Task Facial Landmark(MTFL)数据集包含了12995张脸,5个关键点标注,另外也提供了性别、是否微笑、是否佩戴眼镜以及头部姿态的信息。
Multi-Attribute Facial Landmark(MAFL)数据集则包含了20000张脸,5个关键点标注与40个面部属性,实际上MAFL被包含在了Celeba数据集中,该数据集我们后面会进行介绍。这两个数据集都使用TCDCN方法将原来的标注拓展到了68个关键点的标注。
(5) WFLW
WFLW包含了10000张脸,其中7500用于训练,2500张用于测试,共98个关键点。除了关键点之外,还有遮挡、姿态、妆容、光照、模糊和表情等信息的标注。
由于人脸关键点是整个人脸任务中非常基础和重要的,所以在工业界有更多的关键点的标注,因为商业价值,这些数据集一般不会进行公开。
前面介绍的关键点标注都是针对二维人脸图像,超过200个点的标注已经是非常的密集,而对于3D人脸图像,相关的开源三维人脸数据集以及Face++,美图等企业都使用了超过1000个以上的稠密关键点。
7. 人脸属性数据集
人脸属性识别在人机交互、安全控制、直播娱乐、自动驾驶等领域都非常具有应用价值,因此也已经得到了广泛的研究。
7.1 通用人脸属性分析数据集
(1) FaceTracer
发布于2008年,该数据集包括15000张人脸,共10组属性,包括性别,种族,年龄,头发颜色,是否佩戴眼镜,是否有胡须,是否微笑,是否模糊,光照条件以及室内还是室外环境,这是比较早期的人脸属性数据集。
(2) PubFig
发布于2009年,该数据集包括200个人的58797张人脸,来自于互联网搜索,因此具有很好的姿态,光照,表情和场景多样性,总共标注了73个人脸属性。
(3) LFWA和CelebA
两者都发布于2015年,LFWA的图片全部来自于LFW人脸识别数据集,CelebA则包含了10177个名人的202599张人脸图片,它们标注的人脸属性有40种,包括是否戴眼镜,是否微笑等,是当前最大最广泛使用的人脸属性数据集。
(4) Fairface
发布于2019年,共包括108501张图。由于当前很多的人脸数据集中存在人种的不均衡,fairface建立了一个更加均衡的数据集。该数据集共包括white、black、Indian、East Asian、Southeast Asian、Middle East及Latino 7类人种,图片来源于YFCC-100M Flickr数据集,标注属性包括人种(Race)、性别(Gender)、年龄组(Age Group)。
类似的数据集还有IBM收集的Diversity in Faces(DiF),同样来自于YFCC-100M,有超过100万的图片。
7.2 人脸表情数据集
人脸表情识别(Facial Expression Recognition,FER)是人脸属性识别技术中的一个重要组成部分,在人机交互、安全控制、直播娱乐、自动驾驶等领域都非常具有应用价值,因此在很早前就已经得到了研究。
(1) The Japanese Female Facial Expression(JAFFE) Database
数据集链接:http://www.kasrl.org/jaffe.html
1998年发布,这是比较小和老的数据库。该数据库是由10位日本女性在实验环境下根据指示做出各种表情,再由照相机拍摄获取的人脸表情图像。整个数据库一共有213张图像,10个人,全部都是女性,每个人做出7种表情,这7种表情分别是sad、happy、angry、disgust、surprise、fear、neutral,每组大概20张样图。
(2) KDEF与AKDEF(Karolinska Directed Emotional Faces)
数据集地址:http://www.emotionlab.se/kdef/
发布于1998年,这个数据集最初是被开发用于心理和医学研究目的。它主要用于知觉、注意、情绪、记忆等实验。在创建数据集的过程中,特意使用比较均匀,柔和的光照,被采集者身穿统一的T恤颜色。这个数据集,包含70个人、35个男性、35个女性,年龄在20至30岁之间。没有胡须、耳环或眼镜,且没有明显的化妆。7种不同的表情,每个表情有5个角度。总共4900张彩色图,尺寸为562×762像素。
(3) GENKI
数据集地址:http://mplab.ucsd.edu
发布于2009年,GENKI数据集是由加利福尼亚大学的机器概念实验室收集。该数据集包含GENKI-R2009a、GENKI-4K、GENKI-SZSL三个部分。GENKI-R2009a包含11159个图像,GENKI-4K包含4000个图像,分为“笑”和“不笑”两种,每个图片拥有不同的尺度大小、姿势、光照变化、头部姿态,可专门用于做笑脸识别。这些图像包括广泛的背景、光照条件、地理位置、个人身份和种族等。
(4) RaFD
发布于2010年,该数据集是Radboud大学Nijmegen行为科学研究所整理的,这是一个高质量的脸部数据库,总共包含67个模特,其中20名白人男性成年人,19名白人女性成年人,4个白人男孩,6个白人女孩,18名摩洛哥男性成年人。总共8040张图,包含8种表情,即愤怒、厌恶、恐惧、快乐、悲伤、惊奇、蔑视和中立。每一个表情,包含3个不同的注视方向,且使用5个相机从不同的角度同时拍摄的。
(5) Cohn-Kanade AU-Coded Expression Database
发布于2010年,这个数据库是在Cohn-Kanade Dataset的基础上扩展来的,它包含137个人的不同人脸表情视频帧。这个数据库比起JAFFE要大的多。而且也可以免费获取,包含表情的标注和基本Action Units 的标注。
(6) Fer2013
发布于2013年,该数据集包含共26190张48×48灰度图,图片的分辨率比较低,共6种表情。分别为anger生气、disgust厌恶、fear恐惧、happy开心、sad伤心、surprised惊讶、normal中性。
(7) RAF(Real-world Affective Faces)
发布于2017年,包含总共29672张图片,其中7个基本表情和12个复合表情,而且每张图还提供了5个精确的人脸关键点,年龄范围和性别标注。
(8) EmotioNet
发布于2017年,共950,000张图,其中包含基本表情、复合表情,以及表情单元的标注。
(9) AffectNet
发布于2017年,数据集的采集使用6种不同语言的1250个关键词在搜索引擎中进行检索,最后超过42万张图。标注类型包括表情类型和幅度,其中表情类型包括中性表情(Neutral)、高兴(Happiness)、悲伤(Sadness)、惊讶(Surprise)、害怕(Fear)、厌恶(Disgust)、愤怒(Anger)、轻蔑(Contempt)等8种基本表情,以及无表情(None)、不确定(Uncertain)、无人脸(No-Face)。
表情识别目前的关注点已经从实验室环境下转移到具有挑战性的真实场景条件下,研究者们开始利用深度学习技术来解决如光照变化、遮挡、非正面头部姿势等问题,仍然有很多的问题需要解决。
另一方面,尽管目前表情识别技术被广泛研究,但是我们所定义的表情只涵盖了特定种类的一小部分,尤其是面部表情,而实际上人类还有很多其他的表情。表情的研究相对于颜值年龄等要难得多,应用也要广泛的多,相信这几年会不断出现有意思的应用。
7.3 人脸年龄与性别数据集
人脸的年龄和性别识别在安全控制,人机交互领域有着非常广泛的使用,而且由于收到妆造等影响,人脸的年龄估计仍然是一个难点。
(1) FGNet
发布于2000年,这是第一个意义重大的年龄数据集,包含了82个人的1002张图,年龄范围是0到69岁。
(2) CACD2000
发布于2013年,这是一个名人数据集,包含了2000个人的163446张名人图片,其范围是16到62岁。
(3) Adience
发布于2014年,这是采用iPhone5或更新的智能手机拍摄的数据,共2284个人26580张图像。它的标注采用的是年龄段的形式而不是具体的年龄,其中年龄段为(0-2、4-6、8-13、15-20、25-32、38-43、48-53、60+)。
(4) IMDB-wiki
发布于2015年,IMDB-WIKI人脸数据库是由IMDB数据库和Wikipedia数据库组成,其中IMDB人脸数据库包含了460723张人脸图片,而Wikipedia人脸数据库包含了62328张人脸数据库,总共523051张人脸数据。都是从IMDb和维基百科上爬取的名人图片,根据照片拍摄时间戳和出生日期计算得到的年龄信息,以及性别信息,对于年龄识别和性别识别的研究有着重要的意义,这是目前年龄和性别识别最大的数据集。
(5) MORPH
发布于2017年,包括13000多个人的55000张图,年龄范围是16到77。
7.4 人脸分割数据集
人脸属性分割可以用于对人脸进行编辑以及辅助其他人脸相关的任务。
(1) Helen Parsing Dataset
发布于2013年,Helen Parsing dataset是将关键点检测数据集Helen Dataset进行掩膜标注后得到的人脸图像分割数据集,包含2000张训练图像和330张测试图像。数据集共包含10类面部区域的标注,分别是Face skin、Left eye、Right eye、Left brow、Right brow、Nose、Inner mouth、Upper lip、Lower lip、Background,标注的方法是每一个类别都单独存储为一张图片。
(2) CelebAMask-HQ
发布于2019年,CelebAMask-HQ是从CelebA-HQ数据集中标注的30000张人脸属性分割数据集,其中图像大小均为512×512,包含19个类别,分别是skin、nose、eyes、eyebrows、ears、mouth、lip、hair、hat、eyeglass、earring、necklace、neck及cloth区域。
7.5 人脸颜值数据集
人脸颜值和吸引度在社交平台和图像质量评估上都有应用。
(1) SCUT-FBP5500
发布于2017年,数据集共5500个正面人脸,年龄分布为15-60,全部都是自然表情。包含不同的性别分布和种族分布(2000亚洲女性、2000亚洲男性、750高加索男性、750高加索女性),数据分别来自于数据堂,US Adult database等。每一张图由60个人进行评分,共评为5个等级,这60个人的年龄分布为18~27岁,均为年轻人。适用于基于表观和形状等的模型研究。同时,每一个图都提供了86个关键点的标注。
(2) Selfier
发布于2015年,作者们从http://selfeed.com网站上收集了46,836张自拍图,然后标注了36种属性,分为以下组别,前面是属性,后面是具体的分类。
性别:is female。
年龄:baby、child、teenager、youth、middle age、senior。
种族:white、black、asian。
脸型:oval、round、heart。
脸部表情:smiling、frowning、mouth open、tongue out、duck face。
头发颜色:black、blond、brown、red。
发型:curly、straight、braid。
装饰:glasses、sunglasses、lip- stick、hat、earphone。
其他.:showing cellphone、using mir-ror、having braces、partial face。
光照条件:harsh、dim。
每一张图像都标注了受欢迎的分数,该数据集可以用于研究人脸属性与受欢迎程度之间的关系。
7.6 人脸妆造数据集
妆造在人脸图像中是普遍存在的,人脸的上妆与去妆,抗装造干扰的人脸识别也是一种具有挑战性的问题。
(1) YMU,VMU,MIW,MIFS等妆造数据集
发布于2012年,这是一个女性面部化妆数据集,可用于研究化妆对面部识别的影响。总共包括4个子数据集:
YMU(YouTube化妆):这是从YouTube视频化妆教程中获取的面部图像,YouTube网址为http://www.antitza.com/URLs_YMU.txt
VMU(虚拟化妆):这是将从FRGC数据库中采集的高加索女性受试者的面部图像,使用
公开的软件来合成的虚拟化妆样本,软件来自http://www.taaz.com
MIW:从互联网获得有化妆和没有化妆的受试者的前后对比面部图像。
MIFS:化妆诱导面部欺骗数据集:这是从YouTube化妆视频教程的107个化妆视频中获取。每一组包含3张图片,其中一张图片是目标的化妆前的主体图像,一个是化妆后的,另一个是其他人化同样的妆试图进行欺骗的图片。
(2) 妆造迁移数据集
发布于2018年,包括3834张女性人脸图,其中1115张无妆造人脸,2719张有妆造人脸。妆造类型包括不同程度的烟熏妆(smoky-eyes makeup style)、华丽妆(flashy makeup style)、复古妆(Retro makeup style)、韩式妆(Korean makeup style)及日式妆(Japanese makeup style)。
总结
本次我们给大家介绍了人脸相关的主要数据集,人脸图像属于最早被研究的一类图像,也是计算机视觉领域中应用最广泛的一类图像,其中需要使用到几乎所有计算机视觉领域的算法,可以说掌握好人脸领域的各种算法,基本就玩转了计算机视觉领域。

回复

使用道具 举报

665

主题

1234

帖子

6670

积分

xdtech

Rank: 5Rank: 5

积分
6670
 楼主| 发表于 2020-6-24 16:35:13 | 显示全部楼层
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|易学智能

GMT+8, 2024-11-21 14:21 , Processed in 0.014363 second(s), 20 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表