从手动推导到自动求导：一个简单线性回归的JAX实现，带你吃透自动微分的数学本质

张

张建站

2026/6/9 6:41:05

10分钟阅读

从手动推导到自动求导一个简单线性回归的JAX实现带你吃透自动微分的数学本质在机器学习的实践中我们常常会听到自动微分这个术语。它像一位隐形的助手默默地在背后计算着梯度驱动着模型的参数更新。但你是否曾好奇过这位助手究竟是如何工作的本文将从一个简单的线性回归模型出发先手动推导其梯度公式再借助JAX这一现代工具实现自动微分通过对比两者结果揭示自动微分背后的数学本质。1. 线性回归模型与手动梯度推导线性回归是机器学习中最基础的模型之一其数学表达式为y_pred w * x b其中w是权重b是偏置x是输入特征y_pred是预测值。我们的目标是找到最优的w和b使得预测值尽可能接近真实值y。1.1 损失函数的定义常用的损失函数是均方误差(MSE)def loss_fn(w, b, x, y): y_pred w * x b return ((y_pred - y) ** 2).mean()1.2 手动计算梯度为了最小化损失函数我们需要计算其对参数w和b的梯度。根据微积分知识对w的偏导数 $$\frac{\partial L}{\partial w} \frac{2}{N}\sum_{i1}^N (w x_i b - y_i) x_i$$对b的偏导数 $$\frac{\partial L}{\partial b} \frac{2}{N}\sum_{i1}^N (w x_i b - y_i)$$注意这里的N是样本数量求和是对所有样本进行的。2. 引入JAX实现自动微分JAX是一个结合了NumPy风格接口和自动微分功能的Python库。它提供了grad函数可以自动计算任意函数的导数。2.1 基本使用import jax import jax.numpy as jnp # 定义损失函数 def loss_fn(params, x, y): w, b params y_pred w * x b return jnp.mean((y_pred - y) ** 2) # 获取梯度函数 grad_fn jax.grad(loss_fn)2.2 梯度计算对比让我们用具体数据来验证手动推导和自动微分的结果是否一致# 生成数据 x jnp.array([1.0, 2.0, 3.0]) y jnp.array([2.0, 4.0, 6.0]) params (1.0, 0.0) # w1.0, b0.0 # 自动微分计算梯度 auto_grad grad_fn(params, x, y) # 手动计算梯度 def manual_grad(params, x, y): w, b params N len(x) dw 2/N * jnp.sum((w * x b - y) * x) db 2/N * jnp.sum(w * x b - y) return (dw, db) manual_grad_val manual_grad(params, x, y)比较结果会发现auto_grad和manual_grad_val完全一致验证了自动微分的正确性。3. 自动微分的数学原理自动微分既不是符号微分也不是数值微分而是一种基于计算图和链式法则的精确微分方法。3.1 计算图的概念任何计算都可以表示为计算图。以我们的线性回归为例输入x → 乘法(w) → 加法(b) → 减法(y) → 平方 → 平均 → 输出L3.2 前向模式与反向模式自动微分有两种主要模式前向模式沿着计算图正向传播同时计算函数值和导数反向模式先正向计算函数值再反向传播导数深度学习框架常用JAX主要使用反向模式自动微分这也是为什么我们调用jax.grad就能得到梯度。3.3 向量-雅可比积(VJP)反向模式自动微分的核心是向量-雅可比积。对于函数$f: ℝ^n → ℝ^m$其雅可比矩阵$J$是一个$m×n$矩阵。反向模式计算的是$$ v^T J $$其中$v$通常是标量函数对输出的梯度在我们的例子中就是1。4. JAX自动微分的高级特性JAX提供了比传统深度学习框架更灵活的自动微分功能。4.1 高阶导数JAX可以轻松计算高阶导数# 计算二阶导数 hessian_fn jax.grad(jax.grad(loss_fn)) hessian hessian_fn(params, x, y)4.2 自定义导数规则可以定义自定义函数的导数规则jax.custom_jvp def custom_fn(x): return x * x custom_fn.defjvp def custom_fn_jvp(primals, tangents): x, primals dx, tangents primal_out custom_fn(x) tangent_out 2 * x * dx return primal_out, tangent_out4.3 批处理与向量化JAX的vmap可以自动向量化函数处理批量数据batch_loss_fn jax.vmap(loss_fn, in_axes(None, 0, 0))5. 实际应用中的注意事项虽然自动微分强大但在实际应用中仍需注意以下几点数值稳定性某些数学表达式可能导致数值不稳定即使数学上正确内存消耗反向模式需要存储中间结果可能消耗大量内存控制流处理循环和条件语句需要特殊处理提示在JAX中使用jax.lax.cond和jax.lax.while_loop等函数来处理控制流而不是Python原生控制结构。6. 性能优化技巧为了充分发挥JAX自动微分的性能可以考虑以下优化JIT编译使用jax.jit加速计算jax.jit def jitted_loss_fn(params, x, y): return loss_fn(params, x, y)设备放置明确指定计算设备with jax.default_device(jax.devices(gpu)[0]): # GPU计算并行计算利用pmap进行多设备并行from jax import pmap parallel_grad pmap(grad_fn)7. 扩展应用超越简单线性回归理解了自动微分的原理后我们可以将其应用到更复杂的模型中神经网络自动计算各层参数的梯度物理模拟求解微分方程概率模型变分推断中的梯度估计优化问题约束优化的梯度计算在实际项目中我发现自动微分特别适合原型开发阶段。它让我们能够快速尝试不同的模型结构而无需手动推导复杂的梯度公式。特别是在研究新型神经网络架构时自动微分大大提高了实验效率。

Horizon UAG部署后别忘了这几步：连接服务器配置优化与安全网关服务重启详解

Horizon UAG部署后的关键优化：连接服务器配置与安全网关服务重启全解析当你在数据中心完成VMware Horizon Unified Access Gateway（UAG）的部署，看到所有服务状态灯都亮起绿色时，可能会认为工作已经结束。然而&#xff…...

2026/6/9 6:40:37 阅读更多 →

生物医学文献结构化提取的OCR-LLM融合技术解析

1. 生物医学文献结构化提取的技术挑战与解决方案在生物医学研究领域，文献数据提取一直是个耗时费力的工作。我曾参与过多个系统评价项目，团队需要花费数月时间人工阅读上千篇文献，提取研究设计、患者特征、干预措施和结局指标等关键信息。这种…...

2026/6/9 6:40:10 阅读更多 →

告别手动截取！用Wireshark tshark + Python，高效准备你的网络流量训练集

从原始流量到AI训练集：基于Wireshark与Python的自动化数据管道构建在网络安全和流量分析领域，将原始网络数据包转化为适合机器学习模型训练的格式是一个常见但繁琐的过程。传统的手工处理方法不仅效率低下，还容易引入人为错误。本文将分享一套…...

2026/6/9 6:31:30 阅读更多 →

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…...

2026/6/9 1:16:23 阅读更多 →

2026实测盘点｜适合国内高校生的AI写作平台，降重润色哪家强？

2026年毕业季，学术审查全面加码。教育部明确要求毕业论文AIGC率不得超过30%，985/211院校更是将红线压到了20%以内，硕士论文甚至卡到15%。与此同时，知网上线AIGC 3.0系统，可实现段落级内容溯源；维普引入语义…...

2026/6/8 4:35:49 阅读更多 →

JewelCraft：Blender珠宝设计的终极免费解决方案

JewelCraft：Blender珠宝设计的终极免费解决方案【免费下载链接】jewelcraft Blender add-on for jewelry design 项目地址: https://gitcode.com/gh_mirrors/je/jewelcraft JewelCraft是一款专为珠宝设计师和3D艺术家打造的Blender插件，提供完整…...

2026/6/9 1:16:30 阅读更多 →