第13篇：迁移学习实战——站在巨人肩膀上的模型训练捷径（项目实战）

张开发

• 2026/4/16 9:49:25 • 15 分钟阅读

分享文章

文章目录项目背景技术选型架构设计核心实现1. 环境准备与数据加载2. 模型改造加载预训练模型并“换头”3. 训练策略区别对待不同参数4. 训练与验证循环5. 进阶解冻部分层进行微调踩坑记录效果对比项目背景在之前的文章中我们都是从零开始训练模型。但做过几个实际项目后我发现一个痛点数据不够算力有限时间还紧。比如公司想做一个工业瑕疵检测系统但能收集到的合格品和瑕疵品图片只有几千张用传统方法训练一个复杂的CNN模型要么过拟合要么效果平平。这时候迁移学习Transfer Learning就成了我们的“救命稻草”。简单来说迁移学习就是利用在一个大型数据集如ImageNet上预训练好的模型将其学到的通用特征如边缘、纹理、形状迁移到我们自己的、数据量较小的新任务上。这就像一位经验丰富的医生已经掌握了大量基础医学知识再针对某个专科进行短期进修就能快速成为该领域的专家远比从头培养一个医学生要快得多、好得多。这次实战我们就用PyTorch基于预训练的ResNet模型快速构建一个猫狗图像二分类器。虽然猫狗数据集很经典但背后的方法论完全适用于工业检测、医疗影像、卫星图像分析等数据稀缺的领域。技术选型框架PyTorch。它的torchvision.models模块提供了丰富的预训练模型加载和修改极其方便动态图机制也让模型调整和调试更直观。预训练模型ResNet-18。在精度和速度之间取得了很好的平衡模型大小适中非常适合作为入门和实际部署的基线模型。ImageNet上预训练的ResNet已经学会了识别上千种物体的强大特征。数据集Kaggle上的Dogs vs. Cats数据集精简版。我们假设这是一个“小数据”场景只使用训练集中的一小部分例如每类1000张来模拟数据匮乏的情况。核心策略特征提取Feature Extraction与微调Fine-tuning。这是迁移学习最常用的两种方式本次实战我们会结合使用。架构设计我们的目标不是重新设计网络而是对现有的ResNet-18架构进行“外科手术式”的改造。保留特征提取器冻结ResNet-18除最终全连接层外的所有卷积层参数。这些层是模型的“骨干”已经包含了从低级到高级的通用图像特征。替换分类头移除ResNet-18原本为1000类ImageNet类别数设计的最后一个全连接层替换为一个新的、适合我们二分类任务的分类器。渐进式微调可选在特征提取训练稳定后可以解冻部分深层卷积层用较小的学习率进行微调让模型更好地适应我们任务的特有特征。整个流程的架构图可以简化为输入图像-预训练ResNet骨干参数冻结-全局平均池化-新的全连接分类层可训练-二分类输出核心实现1. 环境准备与数据加载首先确保安装了必要的库并按照PyTorch惯例组织数据。假设你的数据目录结构如下data/dogs-vs-cats/ ├── train/ │ ├── cat.0.jpg │ ├── dog.0.jpg │ └── ... └── valid/ ├── cat.2000.jpg ├── dog.2000.jpg └── ...importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorchvisionimportdatasets,models,transformsimportos# 数据增强和归一化必须与预训练模型使用的保持一致# 注意ImageNet预训练模型的均值和标准差是固定的data_transforms{train:transforms.Compose([transforms.RandomResizedCrop(224),# 模型输入尺寸transforms.RandomHorizontalFlip(),transforms.ToTensor(),transforms.Normalize([0.485,0.456,0.406],[0.229,0.224,0.225])]),valid:transforms.Compose([transforms.Resize(256),transforms.CenterCrop(224),transforms.ToTensor(),transforms.Normalize([0.485,0.456,0.406],[0.229,0.224,0.225])]),}data_dirdata/dogs-vs-catsimage_datasets{x:datasets.ImageFolder(os.path.join(data_dir,x),data_transforms[x])forxin[train,valid]}dataloaders{x:torch.utils.data.DataLoader(image_datasets[x],batch_size32,shuffleTrue,num_workers4)forxin[train,valid]}dataset_sizes{x:len(image_datasets[x])forxin[train,valid]}class_namesimage_datasets[train].classesprint(fClasses:{class_names})print(fTraining set size:{dataset_sizes[train]})print(fValidation set size:{dataset_sizes[valid]})2. 模型改造加载预训练模型并“换头”这是迁移学习的核心步骤。defget_model(use_pretrainedTrue,fine_tuneFalse): 加载预训练ResNet-18并替换分类器。 Args: use_pretrained: 是否加载ImageNet预训练权重 fine_tune: 是否微调卷积层参数。False表示只训练新添加的分类层。 # 加载预训练模型modelmodels.resnet18(weightsIMAGENET1K_V1ifuse_pretrainedelseNone)ifnotfine_tune:# 特征提取模式冻结所有卷积层参数forparaminmodel.parameters():param.requires_gradFalseelse:# 微调模式所有参数均可训练forparaminmodel.parameters():param.requires_gradTrue# 获取原始全连接层的输入特征数 (ResNet-18 是 512)num_ftrsmodel.fc.in_features# 替换为一个新的分类器输出为2猫/狗# 这里可以设计得更复杂例如添加Dropout层防止过拟合model.fcnn.Sequential(nn.Dropout(0.5),# 添加Dropout对小数据集尤其重要nn.Linear(num_ftrs,2))returnmodel# 初始化模型第一阶段先不微调卷积层modelget_model(use_pretrainedTrue,fine_tuneFalse)devicetorch.device(cuda:0iftorch.cuda.is_available()elsecpu)modelmodel.to(device)print(model)# 可以打印看看模型结构确认fc层已被替换3. 训练策略区别对待不同参数由于我们冻结了卷积层只需要对新添加的fc层进行较大学习率的训练。# 只收集需要梯度更新的参数params_to_update[]forname,paraminmodel.named_parameters():ifparam.requires_grad:params_to_update.append(param)print(f\t{name})# 打印出实际会被训练的参数# 优化器只作用于这些参数optimizeroptim.Adam(params_to_update,lr0.001)# 损失函数criterionnn.CrossEntropyLoss()4. 训练与验证循环这是一个标准的PyTorch训练循环但要注意模型处于train或eval模式时Dropout和BatchNorm层的行为不同。deftrain_model(model,criterion,optimizer,num_epochs10):forepochinrange(num_epochs):print(fEpoch{epoch}/{num_epochs-1})print(-*10)# 每个epoch都有训练和验证阶段forphasein[train,valid]:ifphasetrain:model.train()# 设置模型为训练模式else:model.eval()# 设置模型为评估模式running_loss0.0running_corrects0# 迭代数据forinputs,labelsindataloaders[phase]:inputsinputs.to(device)labelslabels.to(device)# 清零梯度optimizer.zero_grad()# 前向传播# 只在训练阶段跟踪历史计算图withtorch.set_grad_enabled(phasetrain):outputsmodel(inputs)_,predstorch.max(outputs,1)losscriterion(outputs,labels)# 反向传播优化仅在训练阶段进行ifphasetrain:loss.backward()optimizer.step()# 统计running_lossloss.item()*inputs.size(0)running_correctstorch.sum(predslabels.data)epoch_lossrunning_loss/dataset_sizes[phase]epoch_accrunning_corrects.double()/dataset_sizes[phase]print(f{phase}Loss:{epoch_loss:.4f}Acc:{epoch_acc:.4f})print()returnmodel# 开始训练特征提取阶段modeltrain_model(model,criterion,optimizer,num_epochs5)5. 进阶解冻部分层进行微调当新分类头训练得差不多了我们可以解冻骨干网络的最后几层用更小的学习率进行微调使特征更适应我们的数据。# 微调最后两个卷积块layer3和layer4forname,paraminmodel.named_parameters():# 在ResNet中layer3和layer4是更深层的模块iflayer3innameorlayer4innameorfcinname:param.requires_gradTrueelse:param.requires_gradFalse# 微调时使用更小的学习率避免破坏已有的好特征optimizer_ftoptim.Adam(filter(lambdap:p.requires_grad,model.parameters()),lr1e-5)# 继续训练几个epochmodeltrain_model(model,criterion,optimizer_ft,num_epochs5)踩坑记录归一化参数不一致这是最容易掉进去的坑。ImageNet预训练模型有固定的均值和标准差[0.485, 0.456, 0.406],[0.229, 0.224, 0.225]。如果你用自己的均值和标准差做归一化相当于把模型扔进了一个它不认识的“颜色空间”效果会大打折扣。务必使用与预训练时一致的参数。学习率设置不当对于新添加的层应该使用相对较大的学习率如0.001对于微调的预训练层一定要用很小的学习率如1e-5。因为预训练权重本身已经很好我们只想对它做细微的调整。一个常见的策略是使用torch.optim中的param_groups为不同层设置不同的学习率。忘记切换模型模式训练前model.train()验证/测试前model.eval()。这不仅影响Dropout和BatchNorm的行为在某些情况下还会影响计算图的内存占用。我曾在验证时忘记eval()导致GPU内存暴涨百思不得其解。数据量太少导致过拟合即使用了迁移学习如果自己的数据量极少比如每类几十张新分类头也容易过拟合。务必使用数据增强如随机裁剪、翻转、色彩抖动并在新分类头中添加Dropout层。监控验证集精度如果训练集精度持续上升而验证集精度下降就是过拟合的典型信号。盲目微调所有层对于小数据集微调所有层反而可能导致模型“忘记”预训练时学到的通用特征从而在验证集上表现变差。建议采用渐进式解冻先冻结所有层训练新头然后解冻最后1-2个阶段进行微调观察验证集效果再决定是否解冻更多。效果对比为了直观感受迁移学习的威力我们可以做一个简单的对比实验实验A从头训练初始化一个没有预训练权重的ResNet-18用我们的小数据集训练20个epoch。实验B迁移学习-特征提取如上文所述加载预训练权重冻结卷积层只训练新分类头5个epoch。实验C迁移学习-微调在B的基础上解冻深层网络微调5个epoch。在我的实验中每类1000张训练图200张验证图结果大致如下实验A最终验证精度约70%~75%训练过程波动大收敛慢。实验B仅5个epoch验证精度轻松达到95%。这充分证明了预训练特征的强大。实验C精度可能提升到97%~98%提升幅度取决于数据集与ImageNet的相似度。这个对比清晰地展示了在数据有限的情况下迁移学习能以极小的代价训练时间和数据量获得接近甚至超越大数据训练的效果真正实现了“站在巨人肩膀上”。迁移学习是AI工程师工具箱中的必备利器。掌握它意味着你能在资源受限的真实业务场景中快速交付高质量的模型。希望这个实战项目能帮你打通任督二脉。接下来我们将探讨如何将这些模型部署到生产环境。如有问题欢迎评论区交流持续更新中…

更多文章

前端开发 2026/4/16 9:45:10

Qwen-Image进阶使用：结合Dify平台构建自动化图像生成流水线

Qwen-Image进阶使用：结合Dify平台构建自动化图像生成流水线 1. 引言：自动化图像生成的需求与挑战在当今内容为王的数字时代，企业每天需要生产大量视觉素材用于营销、社交和产品展示。传统设计流程面临三大痛点： 效率瓶颈&…

Qwen3.5-9B效果展示：19GB大模型加载后128K上下文流畅响应实录 1. 模型核心能力展示 Qwen3.5-9B作为一款90亿参数的开源大语言模型，在实际应用中展现了令人印象深刻的能力。这个19GB的大模型不仅加载稳定，还能流畅处理长达128K tokens的上下…

张开发

前端开发 2026/4/16 9:20:36

如何在Windows系统上解锁MacBook Pro Touch Bar的完整功能？

如何在Windows系统上解锁MacBook Pro Touch Bar的完整功能？ 【免费下载链接】DFRDisplayKm Windows infrastructure support for Apple DFR (Touch Bar) 项目地址: https://gitcode.com/gh_mirrors/df/DFRDisplayKm DFRDisplayKm是一个专为Windows系统设计的…

张开发

第13篇：迁移学习实战——站在巨人肩膀上的模型训练捷径（项目实战）

最新文章

MolAid平台快速入门：免费注册与高效检索指南

别再手动移植了！用STM32CubeMX+X-CUBE-MEMS一键生成LSM6DSL驱动（附软件IIC避坑指南）

加密狗 vs USB：从硬件安全到数据传输的全面对比

别再只用STM32CubeMX了！用AD20画个Max7219驱动16x16点阵的PCB，手把手教你从原理图到点亮

实战指南：在CentOS 7.9上构建高可用RKE2集群并集成Rancher 2.9.1管理平台

破解特质波动率之谜：用Python实战Fama-French模型下的异象分析

推荐文章

在Windows系统安装Docker

HagiCode Desktop 混合分发架构解析：如何用 PP 加速大文件下载籽

TensorRT安装避坑指南：解决‘cuda_runtime_api.h not found’等常见错误

WindowsCleaner终极指南：3步解决C盘爆红，让Windows系统重获新生

告别TF卡！手把手教你给ROCK5B的SPI Nor Flash刷入NVMe启动引导（附固件包）

鱿鱼视频小说网站模板源码：快速搭建双模式资源站，轻松开启运营之路

相关文章

钢坯火焰清理机设计【开题报告+任务书+毕业论文+CAD图纸+翻译】

15 | Claude Code Hooks 事件驱动自动化：防微杜渐的安全防线

Linux党福利：Debian12下用VSCode+SDCC玩转51单片机（含WSL配置指南）

从微调到精控：可变电阻在音频电路中的深度应用解析

Mahony、互补滤波与卡尔曼：给嵌入式新手的六轴姿态融合算法选型指南

保姆级教程：在WSL2的Ubuntu 22.04上，用CUDA 12.9编译运行llama.cpp（含模型下载避坑指南）

分享文章

更多文章

Qwen-Image进阶使用：结合Dify平台构建自动化图像生成流水线

HHKB Pro2静电容键盘拆解保养全记录：从润滑脂选择到静音圈安装

Bioicons：3000+开源矢量图标库，如何彻底改变科研可视化？

Graphormer与经典CNN/LSTM对比：在分子属性预测任务上的效果展示

Kindle封面修复终极指南：快速解决电子书封面不显示问题

DeepSeek-OCR-2入门必看：DeepEncoder V2动态重排机制对长文档优势解析

终极Android悬浮窗开发指南：从零实现多窗口、智能过滤与桌面显示

Azure Kinect SDK 实战：从环境搭建到人体追踪应用

GitHub汉化插件终极指南：5分钟让GitHub界面变中文

TI DSP F28335 Bootloader进阶：自己动手实现带协议解析的串口升级上位机

Qwen3.5-9B效果展示：19GB大模型加载后128K上下文流畅响应实录

如何在Windows系统上解锁MacBook Pro Touch Bar的完整功能？