引言从矩阵乘法到全连接层,cuBLAS让深度学习框架的底层加速变得触手可及上一节我们学习了cuBLAS的GEMM接口,并见证了它惊人的性能——比手写优化版本快5倍。在深度学习框架(PyTorch、TensorFlow)中,全连接层(Linear Layer)的核心就是矩阵乘法:Y = X * W^T + b。框架底层正是调用cuBLAS来实现这一操作,才能达到高效训练和推理。今天,我们将亲手用cuBLAS构建一个全连接层,并分析它与PyTorch原生实现的性能差异。你会看到,仅仅几行cuBLAS调用,就能达到框架级别的性能。同时,我们也会讨论融合操作(如add bias)和内存布局对性能的影响。一、全连接层的数学定义1.1 前向传播给定输入矩阵X(形状batch_size × in_features),权重矩阵W(形状out_features × in_features),偏置b(形状out_features),全连接层的输出为:Y = X * W^T + b其中*是矩阵乘法。输出Y的形状为batch_size × out