CelebA人脸数据集

 
202599张图片
人朝镜头的上半身或全身 明星图片
几乎没有人中国人 

CelebA/Anno/list_bbox_celeba.txt
记录人脸框的坐标,格式如下 
image_id     x_1 y_1 width height
000001.jpg    95  71 226 313
000002.jpg    72  94 221 306


CelebA/Anno/list_landmarks_celeba.txt
记录眼睛,鼻子,嘴角,格式如下:
        lefteye_x lefteye_y righteye_x righteye_y nose_x nose_y leftmouth_x leftmouth_y rightmouth_x rightmouth_y
000001.jpg 165  184  244  176  196  249  194  271  266  260
000002.jpg 140  204  220  204  168  254  146  289  226  289
五点,一个点有(x,y)两个值,共10个值

生成训练集样本

 
读取框的坐标,向中心收缩10%形成新框坐标A 

新框坐标A抖动一下,生成多个框的坐标B 
计算B到A的偏移率 
计算五点定位坐标到B的偏移率 

根据B与A的重合程度,
低于0.2为负样本
介于0.4-0.6为部分样本
高于0.7为正样本 

根据坐标框去原图上截图,并resize成12/24/48大小的图片,
每张图片按重合程序分为 正/部分/负 保存 
同时,生成标注文件,格式如下:
图片名称,框的四个点的偏移率,五点的偏移率

参考