七三笔记

CelebA人脸数据集生成训练集样本参考

CelebA人脸数据集

 
202599张图片
人朝镜头的上半身或全身 明星图片
几乎没有人中国人 

CelebA/Anno/list_bbox_celeba.txt
记录人脸框的坐标，格式如下 
image_id     x_1 y_1 width height
000001.jpg    95  71 226 313
000002.jpg    72  94 221 306


CelebA/Anno/list_landmarks_celeba.txt
记录眼睛，鼻子，嘴角，格式如下：
        lefteye_x lefteye_y righteye_x righteye_y nose_x nose_y leftmouth_x leftmouth_y rightmouth_x rightmouth_y
000001.jpg 165  184  244  176  196  249  194  271  266  260
000002.jpg 140  204  220  204  168  254  146  289  226  289
五点，一个点有(x,y)两个值，共10个值

生成训练集样本

 
读取框的坐标，向中心收缩10%形成新框坐标A 

新框坐标A抖动一下，生成多个框的坐标B 
计算B到A的偏移率 
计算五点定位坐标到B的偏移率 

根据B与A的重合程度，
低于0.2为负样本
介于0.4-0.6为部分样本
高于0.7为正样本 

根据坐标框去原图上截图，并resize成12/24/48大小的图片，
每张图片按重合程序分为 正/部分/负 保存 
同时，生成标注文件，格式如下：
图片名称，框的四个点的偏移率，五点的偏移率

参考

七三笔记路线：学习，记录，分享