别再死记硬背grid_sample参数了！用NumPy手搓一个PyTorch采样算子（附完整代码）

张

张建站

2026/6/24 20:52:27

10分钟阅读

别再死记硬背grid_sample参数了！用NumPy手搓一个PyTorch采样算子（附完整代码）

从零实现PyTorch的grid_sample用NumPy拆解双线性插值核心逻辑在计算机视觉和深度学习领域特征图的空间变换是一个基础但关键的操作。当我们使用PyTorch进行图像处理或3D重建时经常会遇到需要将特征图从规则网格采样到不规则位置的需求。这就是grid_sample算子的用武之地。但你是否曾好奇过这个看似简单的API背后究竟隐藏着怎样的数学魔法1. 理解grid_sample的核心概念grid_sample本质上是一种通用的空间变换操作它允许我们从输入特征图中按照自定义的网格坐标进行采样。与传统的卷积操作不同grid_sample的采样位置可以是非均匀的、甚至是扭曲的。这种灵活性使其在图像变形、风格迁移、3D重建等任务中不可或缺。1.1 坐标系统的映射关系grid_sample最精妙的部分在于它的坐标映射系统。PyTorch采用归一化坐标将输入特征图的整个空间映射到[-1,1]的范围内(-1,-1)对应输入特征图的左上角(1,1)对应输入特征图的右下角(0,0)对应中心点这种设计带来了几个优势尺寸无关性无论输入特征图的大小如何坐标范围始终一致边界明确可以清晰定义采样点是否在有效范围内数学简洁便于进行插值计算# 坐标映射示例 def normalize_coordinates(grid, H, W): # 将像素坐标转换为[-1,1]范围 grid_x 2.0 * grid[..., 0] / (W - 1) - 1.0 grid_y 2.0 * grid[..., 1] / (H - 1) - 1.0 return np.stack((grid_x, grid_y), axis-1)1.2 双线性插值的数学原理双线性插值是grid_sample最常用的采样模式它通过在四个最近邻点之间进行加权平均来计算采样值。具体来说给定归一化坐标(x,y)我们需要将其映射回输入特征图的像素坐标找到周围的四个整数坐标点根据距离计算权重进行加权求和数学表达式为V(x,y) (1-Δx)(1-Δy)V(x0,y0) Δx(1-Δy)V(x1,y0) (1-Δx)ΔyV(x0,y1) ΔxΔyV(x1,y1)2. 从零实现基础版grid_sample现在让我们用NumPy来实现一个简化版的grid_sample专注于双线性插值的核心逻辑。2.1 基础框架搭建首先定义函数的基本结构import numpy as np def custom_grid_sample(input, grid, modebilinear, padding_modezeros): 自定义grid_sample实现参数: input: 输入特征图形状为(N,C,H_in,W_in) grid: 采样网格形状为(N,H_out,W_out,2) mode: 采样模式仅实现bilinear padding_mode: 边界处理模式仅实现zeros 返回: 采样后的特征图形状为(N,C,H_out,W_out) N, C, H_in, W_in input.shape N_grid, H_out, W_out, _ grid.shape assert N N_grid, Batch size mismatch output np.zeros((N, C, H_out, W_out)) # 实现将在这里填充 return output2.2 坐标转换与采样接下来实现核心的采样逻辑def get_pixel_value(img, x, y): 安全地从图像中获取像素值处理边界条件 H, W img.shape[-2:] x np.clip(x, 0, W-1) y np.clip(y, 0, H-1) return img[..., y.astype(int), x.astype(int)] def bilinear_interpolate(input, grid): N, C, H_in, W_in input.shape H_out, W_out grid.shape[1:3] # 将归一化坐标转换为像素坐标 x (grid[..., 0] 1) * (W_in - 1) / 2 y (grid[..., 1] 1) * (H_in - 1) / 2 # 获取四个邻近点的坐标 x0 np.floor(x).astype(int) x1 x0 1 y0 np.floor(y).astype(int) y1 y0 1 # 计算权重 wa (x1 - x) * (y1 - y) wb (x1 - x) * (y - y0) wc (x - x0) * (y1 - y) wd (x - x0) * (y - y0) # 获取四个点的值 Ia get_pixel_value(input, x0, y0) Ib get_pixel_value(input, x0, y1) Ic get_pixel_value(input, x1, y0) Id get_pixel_value(input, x1, y1) # 加权求和 return wa * Ia wb * Ib wc * Ic wd * Id2.3 完整实现与验证将各部分组合起来并与PyTorch官方实现进行对比def custom_grid_sample(input, grid): N, C, H_in, W_in input.shape output np.zeros((N, C, *grid.shape[1:3])) for n in range(N): for c in range(C): output[n, c] bilinear_interpolate(input[n:n1, c:c1], grid[n]) return output # 测试用例 N, C, H_in, W_in 1, 1, 5, 5 H_out, W_out 3, 3 input_np np.random.rand(N, C, H_in, W_in) grid_np np.random.rand(N, H_out, W_out, 2) * 2 - 1 # 范围[-1,1] # 自定义实现 custom_out custom_grid_sample(input_np, grid_np) # PyTorch实现 import torch input_torch torch.from_numpy(input_np).float() grid_torch torch.from_numpy(grid_np).float() torch_out torch.nn.functional.grid_sample( input_torch, grid_torch, modebilinear, padding_modezeros, align_cornersTrue ) print(最大差异:, np.max(np.abs(custom_out - torch_out.numpy())))3. 处理边界条件与高级特性基础版本虽然能工作但还缺少一些重要的边界处理功能。让我们来完善这些细节。3.1 实现多种padding模式PyTorch支持三种边界处理模式模式描述实现方式zeros越界位置返回0使用np.clip限制坐标border使用边界值填充坐标越界时使用最近的边界值reflection镜像反射填充坐标越界时进行镜像反射def get_pixel_value_advanced(img, x, y, padding_modezeros): H, W img.shape[-2:] if padding_mode zeros: mask (x 0) (x W-1) (y 0) (y H-1) x np.clip(x, 0, W-1) y np.clip(y, 0, H-1) values img[..., y.astype(int), x.astype(int)] return values * mask.astype(float) elif padding_mode border: x np.clip(x, 0, W-1) y np.clip(y, 0, H-1) return img[..., y.astype(int), x.astype(int)] elif padding_mode reflection: x np.where(x 0, -x, x) x np.where(x W, 2*(W-1)-x, x) y np.where(y 0, -y, y) y np.where(y H, 2*(H-1)-y, y) return img[..., y.astype(int), x.astype(int)]3.2 支持align_corners选项align_corners参数控制坐标映射的精确方式True(-1,-1)和(1,1)精确对应角点像素的中心False(-1,-1)和(1,1)对应角点像素的边界def normalize_coordinates_advanced(grid, H, W, align_cornersTrue): if align_corners: grid_x 2.0 * grid[..., 0] / (W - 1) - 1.0 grid_y 2.0 * grid[..., 1] / (H - 1) - 1.0 else: grid_x 2.0 * (grid[..., 0] 0.5) / W - 1.0 grid_y 2.0 * (grid[..., 1] 0.5) / H - 1.0 return np.stack((grid_x, grid_y), axis-1)4. 性能优化与向量化实现前面的实现使用了显式循环效率较低。让我们用NumPy的向量化操作来优化。4.1 向量化双线性插值def vectorized_bilinear_interpolate(input, grid, padding_modezeros): N, C, H_in, W_in input.shape N_grid, H_out, W_out, _ grid.shape # 将归一化坐标转换为像素坐标 x (grid[..., 0] 1) * (W_in - 1) / 2 y (grid[..., 1] 1) * (H_in - 1) / 2 # 获取四个邻近点的坐标 x0 np.floor(x).astype(int) x1 x0 1 y0 np.floor(y).astype(int) y1 y0 1 # 计算权重 wa (x1 - x) * (y1 - y) wb (x1 - x) * (y - y0) wc (x - x0) * (y1 - y) wd (x - x0) * (y - y0) # 获取四个点的值 Ia input[:, :, y0, x0] Ib input[:, :, y0, x1] Ic input[:, :, y1, x0] Id input[:, :, y1, x1] # 加权求和 return (wa[..., None] * Ia wb[..., None] * Ib wc[..., None] * Ic wd[..., None] * Id)4.2 批量处理实现def batch_grid_sample(input, grid, padding_modezeros): # 输入形状检查 assert input.ndim 4, Input must be 4D (N,C,H,W) assert grid.ndim 4 and grid.shape[-1] 2, Grid must be 4D with last dim 2 N, C, H_in, W_in input.shape N_grid, H_out, W_out, _ grid.shape assert N N_grid, Batch size mismatch # 将归一化坐标转换为像素坐标 x (grid[..., 0] 1) * (W_in - 1) / 2 y (grid[..., 1] 1) * (H_in - 1) / 2 # 获取四个邻近点的坐标 x0 np.floor(x).astype(int) x1 x0 1 y0 np.floor(y).astype(int) y1 y0 1 # 处理边界条件 if padding_mode zeros: x0 np.clip(x0, 0, W_in-1) x1 np.clip(x1, 0, W_in-1) y0 np.clip(y0, 0, H_in-1) y1 np.clip(y1, 0, H_in-1) elif padding_mode border: x0 np.clip(x0, 0, W_in-1) x1 np.clip(x1, 0, W_in-1) y0 np.clip(y0, 0, H_in-1) y1 np.clip(y1, 0, H_in-1) elif padding_mode reflection: x0 np.where(x0 0, -x0, x0) x0 np.where(x0 W_in, 2*(W_in-1)-x0, x0) x1 np.where(x1 0, -x1, x1) x1 np.where(x1 W_in, 2*(W_in-1)-x1, x1) y0 np.where(y0 0, -y0, y0) y0 np.where(y0 H_in, 2*(H_in-1)-y0, y0) y1 np.where(y1 0, -y1, y1) y1 np.where(y1 H_in, 2*(H_in-1)-y1, y1) # 计算权重 wa (x1 - x) * (y1 - y) wb (x1 - x) * (y - y0) wc (x - x0) * (y1 - y) wd (x - x0) * (y - y0) # 获取四个点的值 Ia input[np.arange(N)[:,None,None], :, y0, x0] Ib input[np.arange(N)[:,None,None], :, y0, x1] Ic input[np.arange(N)[:,None,None], :, y1, x0] Id input[np.arange(N)[:,None,None], :, y1, x1] # 加权求和 output (wa[..., None] * Ia wb[..., None] * Ib wc[..., None] * Ic wd[..., None] * Id) return output

LinkSwift：八大网盘直链下载的终极解决方案

LinkSwift：八大网盘直链下载的终极解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘 / 迅雷…...

2026/6/19 15:20:09 阅读更多 →

嵌入式系统内存架构与缓存机制深度解析

1. 嵌入式系统内存架构基础解析在嵌入式系统开发中，内存架构直接决定了程序的执行效率和可靠性。与通用计算机不同，嵌入式设备往往具有严格的内存限制和特殊的存储结构。典型嵌入式内存架构包含以下几个关键部分：地址空间布局：嵌入…...

2026/6/19 15:15:17 阅读更多 →

M1 MacBook Air 256G硬盘福音：保姆级教程安装ARM原生版MacTeX-no-gui（附清华源配置）

M1 MacBook Air 256G硬盘福音：保姆级教程安装ARM原生版MacTeX-no-gui（附清华源配置） 对于M1芯片的MacBook Air用户来说，256GB的存储空间常常捉襟见肘。TeX作为科研工作者和学术写作者的必备工具，传统安装方式往往占用大…...

2026/6/19 15:20:13 阅读更多 →

如何快速配置ExplorerPatcher：面向Windows用户的完整界面定制指南

如何快速配置ExplorerPatcher：面向Windows用户的完整界面定制指南【免费下载链接】ExplorerPatcher This project aims to enhance the working environment on Windows 项目地址: https://gitcode.com/GitHub_Trending/ex/ExplorerPatcher 还在为Windows 1…...

2026/6/23 11:48:29 阅读更多 →