别再被PyTorch的backward()报错搞懵了！手把手教你理解grad_tensors参数（附实战代码）

张

张建站

2026/6/2 13:25:04

10分钟阅读

别再被PyTorch的backward()报错搞懵了！手把手教你理解grad_tensors参数（附实战代码）

PyTorch反向传播实战彻底掌握grad_tensors参数的核心原理从报错现象到本质理解第一次在PyTorch中尝试对非标量输出调用backward()时几乎所有人都会遇到这个令人困惑的错误提示RuntimeError: grad can be implicitly created only for scalar outputs这个错误背后隐藏着PyTorch自动微分系统的核心设计理念。与标量输出不同当我们的输出是多维张量时系统需要明确的指导来确定如何将输出空间的梯度传播回输入空间。这就是grad_tensors参数的用武之地。理解这个机制的关键在于认识到对于向量/矩阵输出PyTorch实际上是在计算Jacobian矩阵。Jacobian矩阵描述了输出向量每个元素对输入向量每个元素的偏导数。例如当输出是m维向量而输入是n维向量时Jacobian矩阵就是一个m×n的矩阵$$ J \begin{bmatrix} \frac{\partial y_1}{\partial x_1} \cdots \frac{\partial y_1}{\partial x_n} \ \vdots \ddots \vdots \ \frac{\partial y_m}{\partial x_1} \cdots \frac{\partial y_m}{\partial x_n} \end{bmatrix} $$grad_tensors的作用就是与这个Jacobian矩阵进行点乘将输出空间的梯度转换为输入空间的梯度。这就是为什么它必须与输出张量形状一致的原因。标量vs非标量反向传播的本质区别标量输出的简单世界当输出是标量时反向传播的过程直观且简单x torch.tensor(2.0, requires_gradTrue) y x**2 3*x y.backward() # 无需grad_tensors print(x.grad) # 输出: 7.0 (因为dy/dx 2x 3 7)这种情况下PyTorch隐式地使用grad_tensorstorch.tensor(1.0)因为标量输出的梯度可以唯一确定。非标量输出的复杂挑战当输出是多维张量时情况变得复杂。考虑这个例子x torch.tensor([1.0, 2.0], requires_gradTrue) y x * 2 # y [2.0, 4.0]如果我们直接调用y.backward()PyTorch不知道如何将y的梯度传播回x。我们需要明确指定grad_tensorsy.backward(torch.tensor([1.0, 1.0])) print(x.grad) # 输出: tensor([2., 2.])这里的[1.0, 1.0]实际上是输出y的伪梯度PyTorch会用它来加权Jacobian矩阵的各行。数学上这相当于计算$$ \frac{\partial L}{\partial x} \sum_{i} \frac{\partial L}{\partial y_i} \frac{\partial y_i}{\partial x} $$其中$\frac{\partial L}{\partial y_i}$就是我们提供的grad_tensors。grad_tensors的实战应用技巧基本使用模式正确的grad_tensors使用遵循以下模式确保grad_tensors的形状与输出张量完全一致每个元素代表对应输出分量的权重通常使用全1张量作为默认值# 正确用法示例 output model(input) # 假设output是形状为(3,2)的张量 grad_output torch.ones_like(output) output.backward(grad_output)高级加权策略grad_tensors的强大之处在于可以自定义不同输出分量的权重# 对不同输出分量赋予不同权重 x torch.tensor([1.0, 2.0], requires_gradTrue) y x ** 2 # y [1.0, 4.0] # 强调第二个输出分量 grad_weights torch.tensor([0.1, 0.9]) y.backward(grad_weights) print(x.grad) # 输出: tensor([0.2000, 3.6000])这种加权策略在以下场景特别有用多任务学习中不同任务的损失权重注意力机制中的重要性分配对输出向量的特定维度给予更多关注典型场景与解决方案场景一向量值函数求导当函数输出是向量时我们需要明确指定如何将输出梯度传播回输入# 向量值函数示例 x torch.tensor([1.0, 2.0], requires_gradTrue) y torch.stack([x[0]**2, x[1]**3]) # y [1.0, 8.0] # 计算dy/dx y.backward(torch.tensor([1.0, 1.0])) print(x.grad) # 输出: tensor([2., 12.])场景二矩阵运算的梯度矩阵运算的梯度传播需要特别注意形状匹配# 矩阵运算示例 A torch.tensor([[1.0, 2.0], [3.0, 4.0]], requires_gradTrue) B torch.mm(A, A.t()) # B A × A^T # 计算梯度时需要提供与B形状一致的grad_tensors grad_output torch.ones_like(B) B.backward(grad_output) print(A.grad)场景三自定义损失函数在实现自定义损失函数时正确使用grad_tensors至关重要def custom_loss(output, target): diff output - target # 对不同维度应用不同权重 weights torch.tensor([1.0, 0.5]) return (diff ** 2) * weights output torch.tensor([2.0, 3.0], requires_gradTrue) target torch.tensor([1.0, 1.0]) loss custom_loss(output, target).sum() # 反向传播时PyTorch会自动处理grad_tensors loss.backward() print(output.grad) # 输出: tensor([2.0000, 2.0000])高级主题Jacobian矩阵计算对于需要完整Jacobian矩阵的场景我们可以通过多次反向传播来实现def compute_jacobian(f, x): 计算函数f在x处的Jacobian矩阵 x x.clone().requires_grad_(True) y f(x) jacobian torch.zeros(y.shape[0], x.shape[0]) for i in range(y.shape[0]): # 清零梯度 if x.grad is not None: x.grad.zero_() # 对第i个输出分量计算梯度 grad_output torch.zeros_like(y) grad_output[i] 1.0 y.backward(grad_output, retain_graphTrue) jacobian[i] x.grad return jacobian # 示例函数 def func(x): return torch.stack([x[0]**2, x[1]**3]) x torch.tensor([2.0, 3.0]) J compute_jacobian(func, x) print(J) # 输出: tensor([[4., 0.], # [0., 27.]])这种方法在以下场景特别有用实现自定义优化算法分析模型的局部行为验证梯度计算的正确性常见陷阱与调试技巧陷阱一形状不匹配x torch.tensor([1.0, 2.0], requires_gradTrue) y x * 2 # 错误grad_tensors形状与y不匹配 try: y.backward(torch.tensor([1.0])) # 应该用[1.0, 1.0] except RuntimeError as e: print(fError: {e})陷阱二忘记retain_graph当需要多次反向传播时x torch.tensor([1.0, 2.0], requires_gradTrue) y x ** 2 # 第一次反向传播 y.backward(torch.tensor([1.0, 0.0]), retain_graphTrue) print(x.grad) # 输出: tensor([2., 0.]) # 第二次反向传播 x.grad.zero_() y.backward(torch.tensor([0.0, 1.0])) print(x.grad) # 输出: tensor([0., 4.])调试技巧检查张量的requires_grad属性验证grad_tensors的形状与输出一致使用.grad_fn属性跟踪计算图对简单案例手工计算验证结果# 调试示例 x torch.tensor(3.0, requires_gradTrue) y x**2 print(y.grad_fn) # 输出: PowBackward0 object at ...性能优化与最佳实践内存效率考虑适时使用with torch.no_grad():禁用梯度计算及时释放不再需要的计算图合理使用retain_graph参数# 内存高效的反向传播 x torch.tensor([1.0, 2.0], requires_gradTrue) y x ** 2 # 只保留必要的计算图 y.backward(torch.tensor([1.0, 1.0]), retain_graphFalse)向量化计算尽可能使用向量化操作而非循环# 非优化版本 def slow_jacobian(f, x): jac torch.zeros(x.shape[0], x.shape[0]) for i in range(x.shape[0]): x_grad torch.zeros_like(x) x_grad[i] 1.0 y f(x) y.backward(x_grad, retain_graphTrue) jac[i] x.grad x.grad.zero_() return jac # 优化版本 def fast_jacobian(f, x): x x.clone().requires_grad_(True) y f(x) jac torch.autograd.grad(y, x, torch.eye(y.shape[0]), create_graphTrue) return jac[0]混合精度训练中的应用在使用混合精度训练时注意grad_tensors的数据类型x torch.tensor([1.0, 2.0], requires_gradTrue, dtypetorch.float16) y x ** 2 # grad_tensors需要与y的数据类型一致 grad_output torch.tensor([1.0, 1.0], dtypetorch.float16) y.backward(grad_output)真实案例自定义神经网络层实现一个自定义的双线性层演示grad_tensors在实际模型中的应用class BilinearLayer(torch.nn.Module): def __init__(self, in_features, out_features): super().__init__() self.weight torch.nn.Parameter(torch.randn(out_features, in_features, in_features)) def forward(self, x): # x shape: (batch_size, in_features) # 输出形状: (batch_size, out_features) return torch.einsum(bi,oij,bj-bo, x, self.weight, x) # 使用示例 layer BilinearLayer(3, 2) x torch.randn(4, 3, requires_gradTrue) # batch_size4 y layer(x) # 计算梯度时需要提供与y形状一致的grad_tensors grad_output torch.ones_like(y) y.backward(grad_output) print(x.grad.shape) # 输出: torch.Size([4, 3]) print(layer.weight.grad.shape) # 输出: torch.Size([2, 3, 3])这个例子展示了如何正确处理批量数据的梯度传播其中grad_tensors的形状必须与输出(batch_size, out_features)匹配。

Degrees of Lewdity 中文整合包：5分钟快速上手终极指南

Degrees of Lewdity 中文整合包：5分钟快速上手终极指南【免费下载链接】DOL-CHS-MODS Degrees of Lewdity 整合项目地址: https://gitcode.com/gh_mirrors/do/DOL-CHS-MODS 想要体验完整汉化美化的Degrees of Lewdity游戏世界吗？DOL-CHS-MODS整…...

2026/5/30 18:24:11 阅读更多 →

C#怎么使用with表达式 C#record类型中with表达式怎么用如何创建对象的修改副本【语法】

with表达式仅支持record类型（含record class/struct），不支持普通class或struct；其为浅拷贝，不递归复制引用对象；init setter中调用with易致无限递归，需避免。with 表达式只能用于 record 类型不…...

2026/5/30 18:34:26 阅读更多 →

Flood Fill：从“池塘计数”到图像连通域分析的算法实践

1. 从池塘计数到图像处理：Flood Fill算法入门第一次接触Flood Fill算法是在解决AcWing的池塘计数问题时。题目要求统计矩阵中相连的"W"区域数量，这让我想起了小时候玩的扫雷游戏——点击一个空白格子，周围所有相连的空白区域都会自…...

2026/5/30 18:28:34 阅读更多 →

量子误差缓解技术：原理、应用与优化

1. 量子误差缓解技术概述量子计算在NISQ（含噪中等规模量子）时代面临的核心挑战之一是量子噪声对计算结果的干扰。误差缓解技术作为当前最实用的解决方案，能够在硬件层面纠错技术成熟前，显著提升量子算法的执行精度。与传统纠错不同…...

2026/6/2 9:54:07 阅读更多 →

从新手到专家：Ryzen SDT调试工具完整指南，轻松解锁AMD处理器隐藏性能

从新手到专家：Ryzen SDT调试工具完整指南，轻松解锁AMD处理器隐藏性能【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Tabl…...

2026/6/2 11:40:26 阅读更多 →

如何用Poppins字体解决多语言设计难题：新手完整指南

如何用Poppins字体解决多语言设计难题：新手完整指南【免费下载链接】Poppins Poppins, a Devanagari Latin family for Google Fonts. 项目地址: https://gitcode.com/gh_mirrors/po/Poppins 你是否曾为多语言项目中的字体选择而烦恼？当你的网站…...

2026/6/2 4:48:10 阅读更多 →