SSD目标检测流程深入理解
SSD目标检测流程深入理解
前言:
SSD是经典的一阶目标检测网络框架,特点是速度快,网络简洁。
主要思想:
(1)数据增强,包括光学变换和几何变换
(2)网络骨架,SSD在VGG基础上延伸了4个卷积模块(生成不同尺度的特征图)
(3)PriorBox与多层特征图:在不同尺度设置预选框,分别检测不同大小物体
(4)正、 负样本的选取与损失计算:按比例选取正负样本
流程图:
以下两个版本更好理解
一、数据增强 ![](https://img-blog.csdnimg.cn/20210918203643471.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LiA5aS056eA5Y-R55qE5YGH56iL5bqP54y_,size_14,color_FFFFFF,t_70,g_se,x_16)
数据增强流程如上图所示,通过光学变换和几何变换进行数据增强,分别调整光学特性和几何特性,该部分较好理解不做介绍。
二、网络骨架
(1)基础VGG结构
SSD不使用原始的VGG网络,因为全连接层参数太多故换为卷积。输入图像经过预处理后大小固定为300×300, 首先经过VGG16网络的前13个卷积层, 然后利用两个卷积Conv 6与Conv 7取代了原来的全连接网络。该部分最终输出的网络是1024通道的数据。
(2)深度卷积层
在SSD的VGG网络后面,紧接的是深度卷积层conv8-11每步都分两步卷积,第一步是1x1卷积,通道数分别为上一步输出数据的通道数,卷积核数目分别为256,128,128,128,第二步是3x3卷积,通道数为对应环节1x1卷积的卷积核数目,3x3卷积核数目分别为512,256,256,256个。
三、PriorBox与多层特征图
不同于faster-rcnn,SSD先验框的选择从特征图入手,特征图上的每个点对应原图上4个或6个不同大小的PriorBox。而且在不同尺度的特征图上都会生成PriorBox。
由图5.8可看出,每个特征图得到的priorbox的数目不定,所有加起来有8732个。经过分类与位置卷积,最终得出上图回归卷积、分类卷积,至此SSD框架已接近结束,回归卷积输出的是各个prior box的偏移量预测,分类卷积输出的是各个prior box的类别预测,分类卷积具体维度与分类种类有关。
在这之后经过维度转换,SSD300网络输出的是维度为[1,8732,4]和[1,8732,num_class]的特征图。
四、正、 负样本的选取与损失计算
该部分分为4步:
(1)按照规则对priorbox赋予正负样本标签,确定对应真实物体标签
(2)计算框的定位损失,只需正样本
(3)进行难样本挖掘,筛选出数量是正样本3倍的负样本
(4)计算筛选出的正负样本的类别损失
以下是各部分具体内容:
(1)按照规则对priorbox赋予正负样本标签,确定对应真实物体标签
求到8732个priorbox及类别预测、位置预测之后,首先要筛选出正负样本,以便于后期进行损失计算。
遵循原则:
1.IOU阈值设置为0.5,以此判断正负样本
2.priorbox位置标签选择,选与其最大IOU的真实框作为位置标签
3.不太好理解,与这一个真实框有最大IoU的PriorBox, 即使该IOU不是该priorbox与所有真实框的最大iou,也将该priorbox对应到该真实框,为了保证真实框的recall
4.预测边框位置,一样预测的是相对于预选框的偏移量,同fasterrcnn
(2)计算框的定位损失,只需正样本
计算方法同fasterrcnn,使用smoothL10函数作为定位损失函数, 并且只对正样本计算
(3)进行难样本挖掘,筛选出数量是正样本3倍的负样本
根据比例限制实现样本均衡,针对负样本,计算出所有的负样本的损失(分类损失)之后,选取损失大的部分进行计算,舍弃其他的负样本,负样本数目是正样本数目的3倍。
这里笔者当时不清楚的是负样本具体计算的什么损失,原理是什么,百度查后得出结论,此处使用的是softmax loss,也就是从分类卷积中得到的那些是各个框属于什么类别的概率,再使用一个公式来计算这个框预测的这个概率的损失是多少,比如这个概率应该是1,即为真实标签,但预测的概率是0.6,虽然是对的但有一定误差,概率是0.6时比概率是0.3时误差小。具体解释见下图。
(4)计算筛选出的正负样本的类别损失
在得到筛选后的正、 负样本后, 即可进行类别的损失计算。 SSD在此使用了交叉熵损失函数, 并且正、 负样本全部参与计算。