1、ImageNet数据集背景介绍:
如果说Mnist数据集将初学者领进了深度学习领域,那么Imagenet数据集在深度学习中尤其是计算机视觉领域掀起了巨大的浪潮。ImageNet项目于2007年由斯坦福大学华人教授李飞飞创办,目标是收集大量带有标注信息的图片数据供计算机视觉模型训练。ImageNet拥有1500万张标注过的高清图片,总共拥有22000类,其中约有100万张标注了图片中主要物体的定位边框。Imagenet数据集是目前深度学习图像领域应用得非常多的一个数据,关于图像分类、定位、检测等研究工作大多基于此数据集展开。ImageNet国际计算机视觉挑战赛(ILSVRC)就是基于该数据集子集(120万张图片,以及1000类的标注),吸引了中美英等7个国家的25支顶尖人工智能团队参赛,该比赛每年举办一次。比赛采用top-5和top-1分类错误率作为模型性能的评测指标。
性能解释: top-5是指模型预测一个样本的结果前五中有预测正确的即为预测正确,否则错误。
top-1是指模型预测一个样本的最佳的最佳结果正确即为预测正确,否则错误。
2、ImageNet项目比赛的网络结构模型演进
自从2010年举办以来,各大公司和顶尖的团队参赛不断,包括Google、MSRA、DeepMind、港中文等。以下介绍几种得冠团队中经典的网络结构模型:AlexNet、VGGNet、Google
Inception Net和ResNet。
1、AlexNet(2012年冠军)
AlexNet的第一作者是Alex,是2012年被发表的一个金典之作,并在当年取得了ImageNet比赛的最好成绩。官方提供的数据显示准确率达到57.1%,AlexNet,
top-5错误率16.4%.
AlexNet特点:
- 卷积层:5层 ,当时用的还是5*5,3*3的大卷积层。
- 全连接层:3层
- 深度:8层
AlexNet将LeNet的思想发扬光大,把CNN的基本原理应用到了很深很宽的网络中。奠定了深度卷积神经网络在机器视觉领域的地位。
2、InceptionNet(2014年冠军)
InceptionNet是Google公司发明并创建的,当时还是InceptionV1,并在2014年获得了ImageNet比赛的冠军InceptionNet是一个22层神经网络,top-5错误率为6.7%。
Inception V1的特点:
- 22层,比AlexNet 的 8 层或者 VGGNet 的 19 层还要更深;
- 全局平均池化层(将图片尺寸变为1×11×1)取代全连接层;
- 小卷积核(1*1,3*3,5*5),最大池化层(3*3)
3、VGGnet(2014年亚军)
VGGNet由牛津大学的视觉几何组(Visual Geometry
Group)提出,是ILSVRC-2014中定位任务第一名和分类任务第二名。并且证明了使用很小的卷积(3*3),增加网络深度可以有效提升模型的效果,而且VGGNet对其他数据集具有很好的泛化能力。VGGnet有16层和19层两种。两种网络除了卷积层层数的差别,其他都不大,并且在准确率上也相差不大.VGG19,在14年的性能表现为top-5错误率7.3%。
VGG19网络结构:
- 卷积层:16层
- 全连接层:3层
- 连续使用多层小卷积核(3*3*M)
4、ResNet(2015年冠军)
ResNet在2015年被提出,主要是针对层数越深,训练集准确率反而出现下降的情况提出的深度残差网络,并在ImageNet比赛classification任务上获得第一名,因为它“简单与实用”并存,之后很多方法都建立在ResNet50或者ResNet101的基础上完成的,检测,分割,识别等领域都纷纷使用ResNet,Alpha
zero也使用了ResNet,所以可见ResNet确实很好用。 ResNet的top-5错误率为3.57%。
ResNet的结构特点:
- 152层
- 层之间用到了ShortCutting,减少了训练的难度。
在ImageNet图像识别项目中,几乎所有网络结构都是基于卷积神经网络的改进,改进方向一般是网络的深度(也就是卷积层的个数)、卷积核的个数,卷积核的大小,激活函数以及各层之间的连接方式(跳层连接)等等。在机器视觉的领域基本离不开卷积神经网络,并且随着语音识别的,自然语言的发展,卷积神经网络也在序列处理当中发挥了很强的特征提取的功能。
关于卷积神经网络的原理将在下一篇博客详细介绍。
https://blog.csdn.net/dyna_lidan/article/details/82686993
<https://blog.csdn.net/dyna_lidan/article/details/82686993>
热门工具 换一换