CV领域经典backbone模型小抄(1)

CV领域经典backbone模型小抄(1) 2022-09-09 307

前言

看了那么多cv模型，我也想把一些创新点或者需要注意的地方记下来，方便自己温习。本文会不断更新…

卷积操作后大小计算

模型

timm库也实现了很多模型，可以瞅瞅

前言，之前其实有LeNet(代码:)和alexNet(代码:), 不过他们没有预训练的权重，所以后续大伙其实用得少。因此这里我直接从VGG

VGG

模型结构,看着这个模型我们就能写出代码了。

论文: 代码: 该代码配有视频讲解: 博客

加载时其实可以用torchvision.models定义的类 torchvision官方VGG模型代码:

from torchvision import models
net = models.vgg16()

googleNet

，个人觉得改图不够简化，看起来挺费劲，最好学习一下iFormer的画图方式，整体框架由小模块构成，然后具体再展示小模块的网络层，这样更容易理解（纯属个人喜好）。

论文: , cvpr2015 讲解: 代码: 值得一提的是, inception的思想最近一篇文章 iFormer(Inception Transformer)用到transformer上，超越了swin transformer.

resNet

之前自个写过一篇resnet的博客, 简单复现了resnet，不得不说，resnet相较于googlenet的结构，真的很简单，性能又有一定提升。

论文: cvpr 2016 代码: 代码讲解:

其中代码还附带了 ResNeXt 的代码。( ResNeXt是resnet一个改进版本，网络结构视频讲解可见), resnext论文

shuffleNetV2

shuffleNet视频讲解:

论文: 代码:

denseNet

论文: 代码:

efficentNet

模型结构讲解: 论文: 代码: , 代码讲解视频:

RegNet

cvpr 2020 何恺明组的作品，但是总感觉这个网络在我看的领域里用得不多(也可能是我这个菜鸡鼠目寸光…)

论文：代码:

efficientNetV2

2021 CVPR, 相比efficientNet-v1，引入了FusedMBConv模块。

论文: 代码: 视频讲解:

ViT

ICLR 2021

相信这篇 vision transformer的NLP同学看到源码会觉得有点亲切的感觉，出现了self-attention模块。

论文: 模型讲解: 代码:

RepVGG

简单结构，也有好性能

论文: 代码: 模型结构讲解 , 有篇推送也是讲这个

Swin Transformer

模型结构:

几个可选规格的模型架构:

这个也是基于transformer的backbone模型，亮点在于移动窗口注意力机制以及层次结构。

论文: 代码: , 代码讲解模型讲解: , 需要对PatchMerging和WindowAttention弄明白，看代码才不会犯晕

ConvNeXt

模型block对比图

本文主要是有很多训练策略的提出。

论文: 代码: 模型视频讲解:

MLP-Mixer

没有CNN的全连接构成的模型。 NIPS2021 代码:

免费搭建微信查券返利机器人来轻松赚佣金

文章来自:IT技术分享网
分享地址:http://www.5ityx.cn/cate100/107590.html

上一篇： .gitignore 文件不生效问题 & 解决方法

下一篇： .gitignore与.git/info/exclude区别