深度学习入门线性回归与分类模型解析一、线性回归从数据拟合到参数求解*线性回归是通过回归分析确定变量间定量关系的统计方法。以房屋销售数据为例假设房价与面积呈线性关系可构建模型y kx b其中x为面积特征y为房价标签。模型扩展若房价与面积x_1、年限x_2等n个特征相关则推广为多维线性函数其中为参数向量为增广特征向量。代价函数与解析解构造均方误差代价函数通过最小化求解参数对求导并令导数为零可得解析解其中为特征矩阵为标签向量。二、线性分类从感知机到Softmax一二分类问题与Logistic回归线性分类器通过特征线性组合实现分类假设样本可通过超平面划分。以苹果分类为例特征为直径和外观评分分类函数为为将输出映射到概率0-1区间引入Sigmoid函数其导数性质为便于后续梯度计算。代价函数与梯度下降采用对数似然损失函数交叉熵损失由于为非线性函数需通过梯度下降法迭代优化参数其中梯度为。二多分类问题与Softmax回归对于K类分类问题引入Softmax函数将线性输出转换为概率分布代价函数为多分类交叉熵梯度更新公式为。三、神经元模型与感知机一人工神经元M-P模型人工神经元模拟生物神经元结构输入通过权重加权求和经阈值函数输出典型激活函数包括阶跃函数如符号函数和Sigmoid函数。例如符号函数定义为。二感知机线性分类的迭代求解感知机是最早的神经网络模型之一用于解决线性可分问题。其模型为损失函数定义为误分类点到超平面的距离之和其中 M 为误分类样本集。通过迭代更新权重纠正误分类为学习率为误分类样本的修正项。多层前馈网络与误差反传算法一、多层感知机多层前馈神经网络1. 核心问题XOR问题- 线性不可分问题如XOR逻辑无法用单层感知机解决需引入多层结构。- XOR输入输出关系。2. 解决方案多层感知机结构- 在输入层与输出层间增加隐层如三层网络输入层隐层输出层通过隐层节点实现非线性变换。- 数学表达式单隐层示例- 隐层节点输出- 输出层节点输出- 激活函数为阶跃函数阈值≥0时输出1否则0。3. 能力定理- 定理1含阈值节点的三层网络可实现任意二值逻辑函数。- 定理2含S型激活函数的三层网络可逼近紧集上的连续函数或平方可积函数。二、BP算法反向传播算法1. 算法定位- 多层前馈网络的有监督学习算法基于梯度下降法优化网络参数权值和阈值。2. 核心流程- 正向传播输入信号经隐层传递至输出层计算实际输出与期望输出的误差。- 反向传播将误差沿原路径反向传播通过梯度下降调整各层参数减小误差。3. 应用场景- 适用于多分类、回归问题需已知输入/输出样本导师信号。三、数据集与程序示例1. Fashion-MNIST数据集- 替代MNIST的图像数据集含10类、7万张28×28灰度图训练集/测试集划分60000/10000。- 可直接用于测试机器学习算法无需修改代码。2. 程序参考- 示例代码使用PyTorch加载Fashion-MNIST数据集实现多层感知机参考D2L 4.2节。四、关键结论- 多层感知机通过隐层解决线性不可分问题BP算法提供参数优化方法二者结合构成BP神经网络。- 三层网络具备较强普适性更多隐层可处理更复杂模式但需权衡计算成本。