SSD目标检测网络模型详细介绍

R-CNN、Fast RCNN和Faster RCNN算法详细介绍和总结
YOLO系列（YOLOv1-YOLOv5）算法详细介绍和总结

文章目录

SSD目标检测网络模型详细介绍
前言
SSD网络框架
Default Box的scale以及aspect设定
SSD预测器
正负样本的选取
SSD损失函数

前言

SSD网络是作者Wei Liu在ECCV 2016上发表的论文。对于输入尺寸300x300的网络使用Nvidia Titan x在vOC 2007测试集上达到74.3%mAP以及59FPS，对于512x512的网络，达到了76.9%mAP超越当时最强的Faster RCNN(73.2%mAP)。

SSD网络框架

在这里插入图片描述

上图为SSD原文中展示的网络框架，可以很直观的展现SDD的网络结构。首先SSD的输入为300x300，通道为3的图像，将图像输入到VGG16的backbone中，其中VGG16模型如图。

在这里插入图片描述

首先SSD网络的前半部分和VGG16中的Conv5的第3个卷积层之前的所有部分相对应的，即图中SSD中的蓝色框部分和VGG16中的红色框部分相对应。而SSD中的Conv_4输出的特征图作为的第一特征层，SSD中的Conv_4对应VGG16中Conv_4所指的卷积层。这里要注意的是，VGG16中Conv4到Conv5使用最大池化进行了下采样，特征图从28x28下采样到14x14，但是SSD中Conv4到Conv5并没有下采样，仍是38x38。

在这里插入图片描述

然后就是SSD中的Conv6（19x19x1024），这一层对应的是VGG16中的第一层全连接层的位置，即SSD中蓝色框部分对应VGG16中的红色部分。

在这里插入图片描述
SSD中的Conv6经过1x1x1024的卷积后得到Conv7（19x19x1024），Conv7对应VGG16中的第二个全连接层的部分。即SSD中蓝色框部分对应VGG16中的红色部分。Conv7为第二预测特征层。

在这里插入图片描述
SSD中的Conv7通过1x1x255和3x3x512-s2的卷积得到Conv8（10x10x512），Conv8_2为第三特征层。Conv8再通过通过1x1x128和3x3x256-s2卷积的到Conv9（5x5x256），Conv9_2为第四特征层。Conv9再通过1x1x128和3x3x256-s1卷积得到Conv10（3x3x256），Conv10_2为第五特征层。Conv10再通过1x1x128和3x3x256-s1卷积得到Conv11（1x1x256），Conv11_2为第六特征层。

在这里插入图片描述

至此一共得到了6个特征层，通过6个特征层就可以预测不同大小的目标。第一层用来预测尺寸相对较小的目标，而随着网络的加深，特征图越来越抽象，则用来检测相对较大的目标。如图，8x8的特征图的抽象程度相比4x4的特征图要低，即所包含的目标细节信息更丰富，则在8x8的特征图中预测较小的目标“猫”，8x8的特征图中的蓝色虚线框（default box）能够和猫的GT box能更好的匹配。同理4x4的特征图中预测较大的目标“狗”，4x4的特征图中的红色虚线框（default box）能够和狗的GT box能更好的匹配。

在这里插入图片描述

Default Box的scale以及aspect设定

在这里插入图片描述
在scale中每一个尺寸包含两个值，例如（21,45），是因为在比率为1时，又额外增加了一个default box，而这个default box的尺寸为21x45的开平方根。

default box的比例设定分为两种，Conv4_3，Conv10_2和Conv11_2三个预测特征层使用4个default box，分别为小正方形框1:1，大正方形框1:1，矩形框1:2和矩形框2:1。而Conv7，Conv8_2和Conv9_2三个预测特征层使用6个default box，分别为小正方形框1:1，大正方形框1:1，矩形框1:2，矩形框2:1，矩形框1:3和矩形框3:1。

特征图层和对应的scale以及aspect设定如下表所示

在这里插入图片描述
根据上表可以得到在6个特征层上总共可以生成8732个default box

在这里插入图片描述

SSD预测器

对于尺寸为mxn，通道数为p的特征层，使用卷积核大小为3x3，通道为p的卷积层预测目标概率分数和相对default box边界框回归参数，这里的预测实现和Faster R-CNN基本类似。

对于特征层上的每一个位置会生成k个default box，对于每个default box会预测c个类别分数和4个坐标偏移量，所以总共需要（c+4）k个卷积核进行预测，所以对于mxn大小的feature map而言就会生成（c+4）kmn个输出值。

对于(c+4)k个3x3的卷积核，其中ck个用于预测目标类别分数，4k用于预测边界框回归参数。在目标分类预测部分，对于每个default box会预测c个目标分数，c中包括了背景类别的目标分数。在边界框回归参数预测部，对于每一个default box会预测中心坐标、宽度和高度4个偏移量。
在这里插入图片描述