深度学习模型架构：从CNN到Transformer

张

张建站

2026/4/26 8:07:14

10分钟阅读

深度学习模型架构从CNN到Transformer1. 引言深度学习模型架构的演进是人工智能领域的重要发展脉络。从早期的全连接神经网络到卷积神经网络CNN再到循环神经网络RNN直到近年来的Transformer架构每一次技术突破都带来了性能的显著提升。本文将系统梳理深度学习模型架构的发展历程重点分析CNN和Transformer的核心原理、应用场景以及它们之间的技术演进关系帮助读者理解深度学习模型架构的设计思想和发展趋势。2. 卷积神经网络CNN2.1 核心原理CNN的核心设计思想是利用卷积操作提取局部特征并通过池化操作降低特征维度同时保持特征的空间关系。其主要组件包括卷积层通过卷积核filter对输入数据进行滑动窗口操作提取局部特征池化层通过最大池化或平均池化降低特征图维度减少计算量全连接层将提取的特征映射到输出空间2.2 经典CNN架构2.2.1 LeNet-5LeNet-5是最早的CNN架构之一由Yann LeCun等人提出主要用于手写数字识别import torch import torch.nn as nn class LeNet5(nn.Module): def __init__(self): super(LeNet5, self).__init__() self.conv1 nn.Conv2d(1, 6, kernel_size5, stride1, padding0) self.pool1 nn.MaxPool2d(kernel_size2, stride2) self.conv2 nn.Conv2d(6, 16, kernel_size5, stride1, padding0) self.pool2 nn.MaxPool2d(kernel_size2, stride2) self.fc1 nn.Linear(16 * 4 * 4, 120) self.fc2 nn.Linear(120, 84) self.fc3 nn.Linear(84, 10) def forward(self, x): x torch.relu(self.conv1(x)) x self.pool1(x) x torch.relu(self.conv2(x)) x self.pool2(x) x x.view(-1, 16 * 4 * 4) x torch.relu(self.fc1(x)) x torch.relu(self.fc2(x)) x self.fc3(x) return x2.2.2 AlexNetAlexNet是2012年ImageNet竞赛的冠军模型显著提升了图像分类的性能使用ReLU激活函数解决梯度消失问题引入Dropout减少过拟合采用数据增强提高模型泛化能力2.2.3 VGGNetVGGNet通过堆叠更多的卷积层和池化层构建了更深的网络结构使用3×3的小卷积核增加网络深度采用相同的卷积核大小和池化策略简化网络设计2.2.4 ResNetResNet通过引入残差连接解决了深层网络的梯度消失问题class ResidualBlock(nn.Module): def __init__(self, in_channels, out_channels, stride1): super(ResidualBlock, self).__init__() self.conv1 nn.Conv2d(in_channels, out_channels, kernel_size3, stridestride, padding1, biasFalse) self.bn1 nn.BatchNorm2d(out_channels) self.conv2 nn.Conv2d(out_channels, out_channels, kernel_size3, stride1, padding1, biasFalse) self.bn2 nn.BatchNorm2d(out_channels) self.shortcut nn.Sequential() if stride ! 1 or in_channels ! out_channels: self.shortcut nn.Sequential( nn.Conv2d(in_channels, out_channels, kernel_size1, stridestride, biasFalse), nn.BatchNorm2d(out_channels) ) def forward(self, x): out torch.relu(self.bn1(self.conv1(x))) out self.bn2(self.conv2(out)) out self.shortcut(x) out torch.relu(out) return out2.3 CNN的应用场景图像分类识别图像中的物体类别目标检测定位并识别图像中的多个物体图像分割将图像分割为不同的语义区域人脸识别识别和验证人脸3. 循环神经网络RNN与序列模型3.1 核心原理RNN通过引入循环结构处理序列数据捕获序列中的时序依赖关系隐藏状态在时间步之间传递保留历史信息适用于处理变长序列数据3.2 经典RNN架构3.2.1 基本RNNclass SimpleRNN(nn.Module): def __init__(self, input_size, hidden_size, output_size): super(SimpleRNN, self).__init__() self.hidden_size hidden_size self.i2h nn.Linear(input_size hidden_size, hidden_size) self.i2o nn.Linear(input_size hidden_size, output_size) self.softmax nn.LogSoftmax(dim1) def forward(self, input, hidden): combined torch.cat((input, hidden), 1) hidden torch.tanh(self.i2h(combined)) output self.i2o(combined) output self.softmax(output) return output, hidden def initHidden(self): return torch.zeros(1, self.hidden_size)3.2.2 LSTMLSTM长短期记忆网络通过门控机制解决了RNN的长期依赖问题输入门控制新信息的输入遗忘门控制历史信息的遗忘输出门控制隐藏状态的输出3.2.3 GRUGRU门控循环单元是LSTM的简化版本减少了门控机制的数量提高了计算效率更新门结合了LSTM的输入门和遗忘门重置门控制历史信息的影响3.3 RNN的应用场景自然语言处理语言建模、机器翻译、文本分类时间序列预测股票价格预测、天气预测语音识别将语音转换为文本4. Transformer架构4.1 核心原理Transformer架构由Google团队在2017年提出完全基于自注意力机制摒弃了传统的循环和卷积结构自注意力机制计算序列中每个位置与其他位置的注意力权重位置编码为序列添加位置信息多头注意力并行计算多个注意力头捕获不同类型的依赖关系前馈网络对注意力输出进行非线性变换4.2 Transformer架构详解class Transformer(nn.Module): def __init__(self, input_dim, model_dim, num_heads, num_layers, output_dim, dropout0.1): super(Transformer, self).__init__() self.embedding nn.Embedding(input_dim, model_dim) self.pos_encoding PositionalEncoding(model_dim, dropout) self.encoder_layers nn.ModuleList([ EncoderLayer(model_dim, num_heads, model_dim*4, dropout) for _ in range(num_layers) ]) self.fc_out nn.Linear(model_dim, output_dim) def forward(self, src, src_maskNone): src self.embedding(src) src self.pos_encoding(src) for layer in self.encoder_layers: src layer(src, src_mask) output self.fc_out(src[:, 0, :]) # 使用[CLS] token的输出 return output4.3 自注意力机制class MultiHeadAttention(nn.Module): def __init__(self, model_dim, num_heads): super(MultiHeadAttention, self).__init__() self.num_heads num_heads self.dim_per_head model_dim // num_heads self.W_q nn.Linear(model_dim, model_dim) self.W_k nn.Linear(model_dim, model_dim) self.W_v nn.Linear(model_dim, model_dim) self.W_o nn.Linear(model_dim, model_dim) def forward(self, q, k, v, maskNone): batch_size q.size(0) # 线性变换并分拆为多个头 q self.W_q(q).view(batch_size, -1, self.num_heads, self.dim_per_head).transpose(1, 2) k self.W_k(k).view(batch_size, -1, self.num_heads, self.dim_per_head).transpose(1, 2) v self.W_v(v).view(batch_size, -1, self.num_heads, self.dim_per_head).transpose(1, 2) # 计算注意力分数 scores torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(self.dim_per_head) if mask is not None: scores scores.masked_fill(mask 0, -1e9) # 注意力权重归一化 attn_weights F.softmax(scores, dim-1) # 加权求和 attn_output torch.matmul(attn_weights, v) # 拼接多头输出 attn_output attn_output.transpose(1, 2).contiguous().view(batch_size, -1, self.num_heads * self.dim_per_head) # 最终线性变换 output self.W_o(attn_output) return output, attn_weights4.4 Transformer的变体BERT双向Transformer编码器通过掩码语言模型和下一句预测进行预训练GPT自回归Transformer解码器通过语言建模进行预训练T5将所有NLP任务统一为文本到文本的形式Vision Transformer (ViT)将Transformer应用于计算机视觉任务5. CNN与Transformer的比较5.1 计算复杂度CNN计算复杂度与输入大小和卷积核大小有关具有局部计算的优势Transformer计算复杂度与序列长度的平方成正比在长序列上计算成本较高5.2 并行性CNN卷积操作可以高度并行化Transformer自注意力机制也可以并行计算不受序列顺序限制5.3 长距离依赖捕获CNN需要通过堆叠多层来捕获长距离依赖Transformer通过自注意力机制直接捕获任意距离的依赖关系5.4 数据效率CNN在数据量有限的情况下表现较好因为卷积操作具有归纳偏置Transformer通常需要更多的数据进行训练但在大规模数据上表现更优6. 混合架构与未来趋势6.1 混合架构CNN-Transformer混合模型结合CNN的局部特征提取能力和Transformer的全局依赖建模能力例如DETR检测Transformer使用Transformer进行目标检测6.2 轻量级模型MobileNet使用深度可分离卷积减少计算量EfficientNet通过网络宽度、深度和分辨率的平衡优化模型性能DistilBERT通过知识蒸馏减小Transformer模型大小6.3 自监督学习预训练-微调范式在大规模无标签数据上预训练然后在下游任务上微调对比学习通过对比样本的相似性进行自监督学习6.4 模型压缩与部署量化降低模型权重的精度减少存储和计算需求剪枝移除不重要的模型参数知识蒸馏将大模型的知识转移到小模型7. 实践应用案例7.1 计算机视觉图像分类使用ResNet、EfficientNet等模型目标检测使用Faster R-CNN、YOLO、DETR等模型图像分割使用UNet、Mask R-CNN等模型图像生成使用GAN、VAE等模型7.2 自然语言处理文本分类使用BERT、RoBERTa等模型机器翻译使用Transformer、mBART等模型问答系统使用BERT、GPT等模型文本生成使用GPT、T5等模型7.3 多模态学习视觉-语言预训练使用CLIP、ALIGN等模型图文生成使用DALL-E、Stable Diffusion等模型8. 代码示例使用PyTorch实现简单的Transformerimport torch import torch.nn as nn import math class PositionalEncoding(nn.Module): def __init__(self, d_model, dropout0.1, max_len5000): super(PositionalEncoding, self).__init__() self.dropout nn.Dropout(pdropout) pe torch.zeros(max_len, d_model) position torch.arange(0, max_len, dtypetorch.float).unsqueeze(1) div_term torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model)) pe[:, 0::2] torch.sin(position * div_term) pe[:, 1::2] torch.cos(position * div_term) pe pe.unsqueeze(0).transpose(0, 1) self.register_buffer(pe, pe) def forward(self, x): x x self.pe[:x.size(0), :] return self.dropout(x) class EncoderLayer(nn.Module): def __init__(self, d_model, nhead, dim_feedforward2048, dropout0.1): super(EncoderLayer, self).__init__() self.self_attn nn.MultiheadAttention(d_model, nhead, dropoutdropout) self.linear1 nn.Linear(d_model, dim_feedforward) self.dropout nn.Dropout(dropout) self.linear2 nn.Linear(dim_feedforward, d_model) self.norm1 nn.LayerNorm(d_model) self.norm2 nn.LayerNorm(d_model) self.dropout1 nn.Dropout(dropout) self.dropout2 nn.Dropout(dropout) def forward(self, src, src_maskNone): src2, _ self.self_attn(src, src, src, attn_masksrc_mask) src src self.dropout1(src2) src self.norm1(src) src2 self.linear2(self.dropout(torch.relu(self.linear1(src)))) src src self.dropout2(src2) src self.norm2(src) return src class TransformerClassifier(nn.Module): def __init__(self, vocab_size, d_model512, nhead8, num_encoder_layers6, dim_feedforward2048, dropout0.1, num_classes2): super(TransformerClassifier, self).__init__() self.embedding nn.Embedding(vocab_size, d_model) self.pos_encoder PositionalEncoding(d_model, dropout) encoder_layers EncoderLayer(d_model, nhead, dim_feedforward, dropout) self.transformer_encoder nn.TransformerEncoder(encoder_layers, num_encoder_layers) self.fc_out nn.Linear(d_model, num_classes) def forward(self, src, src_maskNone): src self.embedding(src) src self.pos_encoder(src) output self.transformer_encoder(src, src_key_padding_masksrc_mask) output output.mean(dim1) # 平均池化 output self.fc_out(output) return output # 使用示例 model TransformerClassifier(vocab_size10000, num_classes2) src torch.randint(0, 10000, (32, 50)) # 批量大小为32序列长度为50 output model(src) print(output.shape) # 输出: torch.Size([32, 2])9. 总结与展望深度学习模型架构的发展经历了从CNN到Transformer的重要演进。CNN通过局部卷积操作在计算机视觉任务中取得了巨大成功而Transformer通过自注意力机制在处理长距离依赖方面展现出独特优势已经成为NLP领域的主流架构。近年来Transformer也被成功应用于计算机视觉等领域展现出强大的通用性。未来深度学习模型架构的发展趋势包括模型效率优化设计更轻量级、计算效率更高的模型自监督学习减少对标注数据的依赖多模态融合整合不同模态的信息实现更复杂的任务可解释性增强提高模型的可解释性增强用户信任领域特定优化针对特定领域的需求设计专用模型随着技术的不断发展深度学习模型架构将继续演进为人工智能的应用带来更多可能性。我们期待看到更多创新的模型架构出现推动人工智能技术的进一步发展。10. 参考资料LeCun, Y., Bottou, L., Bengio, Y., Haffner, P. (1998). Gradient-based learning applied to document recognition.Krizhevsky, A., Sutskever, I., Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks.Simonyan, K., Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition.He, K., Zhang, X., Ren, S., Sun, J. (2016). Deep residual learning for image recognition.Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... Polosukhin, I. (2017). Attention is all you need.Devlin, J., Chang, M. W., Lee, K., Toutanova, K. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding.Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... Amodei, D. (2020). Language models are few-shot learners.Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... Houlsby, N. (2020). An image is worth 16x16 words: Transformers for image recognition at scale.本文系统梳理了深度学习模型架构的发展历程从CNN到Transformer分析了它们的核心原理、应用场景以及技术演进关系。希望通过本文的介绍读者能够对深度学习模型架构有更全面的了解为实际应用中的模型选择和设计提供参考。

Scroll Reverser完整教程：如何为macOS设备设置独立滚动方向

Scroll Reverser完整教程：如何为macOS设备设置独立滚动方向【免费下载链接】Scroll-Reverser Per-device scrolling prefs on macOS. 项目地址: https://gitcode.com/gh_mirrors/sc/Scroll-Reverser 你是否经常在MacBook触控板和外接鼠标之间切换使用&#…...

2026/4/26 8:07:03 阅读更多 →

Linearis：专为AI Agent优化的Linear CLI工具，解决MCP上下文负担

1. 项目概述：为AI Agent量身定制的Linear命令行工具如果你和我一样，日常开发工作重度依赖Linear来管理任务和Bug，同时又热衷于探索AI Agent如何融入工作流，那你肯定遇到过那个令人头疼的“令牌税”问题。传统的工具，…...

2026/4/26 7:48:49 阅读更多 →

SuperAGI开源框架：构建自主AI代理的完整指南与实战

1. 项目概述：为什么我们需要一个自主AI代理框架？如果你和我一样，在过去一年里深度折腾过各种大语言模型（LLM）应用，那你肯定经历过这样的场景：想用GPT-4写个周报总结，得自己写prompt、…...

2026/4/26 7:48:47 阅读更多 →

如何3步完成百度文库文档纯净提取：突破付费限制的实用解决方案

如何3步完成百度文库文档纯净提取：突破付费限制的实用解决方案【免费下载链接】baidu-wenku fetch the document for free 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wenku 在信息获取过程中，百度文库的付费门槛、广告干扰和内容加载限…...

2026/4/26 0:06:28 阅读更多 →

zmq源码分析之DEALER/ROUTER 路由机制的应用场景

文章目录 1. 服务集群与负载均衡 2. 消息代理与路由器 3. 异步 RPC 系统 4. 聊天服务器 5. 游戏服务器 6. 金融交易系统 7. 物联网系统 8. 微服务架构代码示例：服务集群负载均衡器 (ROUTER) 服务实例 (DEALER) 客户端总结 DEALER/ROUTER 模式凭借其强大的路由能力和异步特性…...

2026/4/26 0:10:52 阅读更多 →

3分钟恢复Windows 11任务栏拖放功能：简单高效的终极解决方案

3分钟恢复Windows 11任务栏拖放功能：简单高效的终极解决方案【免费下载链接】Windows11DragAndDropToTaskbarFix "Windows 11 Drag & Drop to the Taskbar (Fix)" fixes the missing "Drag & Drop to the Taskbar" support in Windows…...

2026/4/26 0:16:59 阅读更多 →