深度学习03 -来源于李宏毅老师的课堂

张

张建站

2026/5/24 7:51:13

10分钟阅读

本人从零开始学习希望各位多多批评指正如果training的loss太大可能是出现了什么问题训练Loss大的两种主要原因一、Model Bias模型偏差/模型能力不足含义模型本身能力不够无法很好地拟合数据简单说就是模型太简单了即使训练到最优也无法达到低loss。原因模型结构太简单层数少、参数少网络表达能力不足模型设计不合理解决方法增加模型复杂度加深网络、增加宽度使用更强大的模型架构增加特征二、Optimization Issue优化问题 ----例如gradient descent梯度下降含义模型有能力但优化过程卡住了没找到最优解模型本身足够强大但训练过程中无法找到好的参数。类比理解大学生做小学题能力够但被蒙住眼睛瞎走能力够但找不到正确方向原因学习率设置不当太大震荡、太小收敛慢陷入局部最优或鞍点梯度消失/爆炸批次大小不合适解决方法调整学习率使用更好的优化器Adam、AdamW使用Batch Normalization调整初始化策略要判断是不是optimization的问题可以用一个比较小的model甚至不是深度学习的先看一看能得到什么样的note如果说你用了两个layer大的那个甚至都不能把小的压过去那说明是optimization的问题比如1layer 是0.2 2layer是0.18 ....5layer是0.34这种情况如何判断是哪种问题┌────────────┬──────────────────────────────┬────────────────────┐ │ 方法 │ Model Bias │ Optimization Issue │ ├────────────┼──────────────────────────────┼────────────────────┤ │ 增大模型后 │ loss明显下降 │ loss几乎不变 │ ├────────────┼──────────────────────────────┼────────────────────┤ │ 现象 │ loss下降但趋于一个较高值 │ loss卡住不动或震荡 │ ├────────────┼──────────────────────────────┼────────────────────┤ │ 检查 │ 看模型是否能在训练集上过拟合 │ 看梯度是否正常更新 │ └────────────┴──────────────────────────────┴────────────────────┘此时再看testingdata loss怎么样如果training的loss小testing的loss大才是overfitting如何解决呢第一个很有效的方法是增加你的训练资料但是补充训练资料是一个比较浪费时间的方法。第二个方法是data augmentation通过自己的理解设计出新的资料比如上下颠倒放缩分辨率倾斜一个角度等等。除了解决资料的方法还有什么解法呢不要让你的模型有很大的弹性给他一些限制比如对选择方向上的限制因为选择的方案有限所以可能很快的就能选到比较接近的function写less parameter但是不能限制过大其他的方法1.less feature 选用少的东西比如给的是三天的资料然后选择用两天 2.early stopping 早停 3.当使用过于复杂的model时也有可能发生到达某个地方忽然loss暴涨如何分training set和validation set呢考虑N-fold cross validation切成n等份随机分1份val剩下n-1份train或者以其他比例划分。

Mozilla开发者推出AI智能体知识共享平台cq解决编程效率问题

Mozilla开发者Peter Wilson在Mozilla.ai博客上宣布推出cq项目，他将其描述为"智能体的Stack Overflow"。这个新兴项目旨在解决一个真正有用的问题，但要获得广泛采用，仍需解决安全性、数据污染和准确性等关键问题。项目背景与目标cq项…...

2026/5/20 0:34:32 阅读更多 →

NullPacketComms：嵌入式UART二进制包通信协议详解

1. NullPacketComms 协议栈深度解析：面向嵌入式系统的二进制包通信框架NullPacketComms（简称 NPC）是一个专为资源受限嵌入式平台设计的轻量级、健壮型二进制包通信协议实现。它并非一个抽象的通信模型，而是一个可直接集成到 Ardui…...

2026/5/21 1:32:11 阅读更多 →

百川2-13B-4bits量化模型API封装：为OpenClaw构建高效调用中间层

百川2-13B-4bits量化模型API封装：为OpenClaw构建高效调用中间层 1. 为什么需要API中间层去年冬天，当我第一次尝试用OpenClaw对接本地部署的百川2-13B模型时，遇到了一个尴尬的问题——每次调用都要等待3-5秒的冷启动时间。这种延迟对于需要…...

2026/5/19 22:34:14 阅读更多 →

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）落地全套文档包含：配置清单、科目映射规则模板、4 类典型调整分录、税会 / IFRS 案例分录，可直接用于实施、方案文档、上线配置。说明：R11 帐套 (SOB)、R12 分类帐 (Led…...

2026/5/24 0:28:44 阅读更多 →

Harness的配置漂移检测与自动修复

云原生时代的稳定性利器：Harness配置漂移检测与自动修复全指南引言痛点引入相信每一位DevOps工程师、SRE或者运维负责人都遇到过这样的噩梦： 测试环境验证了3天的功能，上线到生产10分钟就出现503错误，排查了2小时才发现&…...

2026/5/24 0:34:52 阅读更多 →

【工程实践】代码质量与测试策略：构建可靠的软件交付体系

【工程实践】代码质量与测试策略：构建可靠的软件交付体系引言代码质量是软件项目成功的关键因素之一。良好的代码质量不仅能提高开发效率，还能降低维护成本，提升系统的可靠性。本文将详细介绍代码质量保障和测试策略的最佳实践。一、代码质…...

2026/5/24 0:37:09 阅读更多 →

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经为在不同直播平台同步推流而烦…...

2026/5/24 0:43:15 阅读更多 →