1. 驱动安装从官网下载到系统验证刚拿到RTX 5060ti显卡时很多朋友会急着装CUDA结果发现连最基本的nvidia-smi命令都报错。这事儿我去年帮实验室装机器时就遇到过——当时三个研究生轮流折腾了两天都没搞定最后发现是驱动没装对。现在我把完整避坑流程拆解给你看。官网下载才是王道。别看第三方驱动库方便我实测过Ubuntu默认的nouveau驱动根本带不动5060ti的算力。具体操作打开NVIDIA官网驱动下载页记得用浏览器隐私模式避免缓存干扰产品类型选GeForce系列选RTX 50 Series找到5060ti操作系统选你实际用的版本比如Ubuntu 22.04 LTS下载后缀带.run的安装包约800MB安装时有个细节容易翻车必须关闭图形界面。在Linux下按CtrlAltF2切换到命令行用这个命令停用显示管理器sudo systemctl stop gdm然后给安装文件执行权限chmod x NVIDIA-Linux-x86_64-550.54.15.run sudo ./NVIDIA-Linux-x86_64-550.54.15.run安装完成后别急着重启先跑个验证nvidia-smi正常应该看到类似这样的输出--------------------------------------------------------------------------------------- | NVIDIA-SMI 550.54.15 Driver Version: 550.54.15 CUDA Version: 12.4 | |------------------------------------------------------------------------------------- | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | || | 0 NVIDIA GeForce RTX 5060Ti Off | 00000000:01:00.0 Off | N/A | | 30% 45C P8 15W / 220W | 0MiB / 12288MiB | 0% Default | -------------------------------------------------------------------------------------重点看两个字段Driver Version要和你下载的版本一致CUDA Version显示的是驱动支持的最高CUDA版本不是实际安装版本。我见过有人把这里的12.4当成已安装的CUDA版本结果后面全乱套了。2. CUDA工具包版本选择的血泪教训去年给实验室装RTX 5070ti时我在CUDA版本上栽了四次跟头。第一次装cudatoolkit-12.1报错SM_120架构不支持第二次12.4出现内存泄漏第三次12.6直接黑屏。后来发现5060ti/5070ti这类SM_120架构的显卡必须CUDA 12.8才能完美支持。安装前先卸载旧版本如果有sudo apt-get purge nvidia-cuda-toolkit sudo rm -rf /usr/local/cuda*然后到CUDA工具包归档页面下载12.8版本wget https://developer.download.nvidia.com/compute/cuda/12.8.0/local_installers/cuda_12.8.0_550.54.15_linux.run sudo sh cuda_12.8.0_550.54.15_linux.run安装界面有个关键选项不要勾选Driver安装因为之前已经装过驱动重复安装会导致版本冲突。正确做法是只选CUDA Toolkit和samples。环境变量配置也有讲究。很多教程让你直接改/etc/profile但实测发现conda虚拟环境下会失效。更稳妥的做法是修改用户级配置gedit ~/.bashrc在末尾添加这些内容注意路径中的cuda-12.8要和实际安装版本一致export PATH/usr/local/cuda-12.8/bin:$PATH export LD_LIBRARY_PATH/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH保存后执行source ~/.bashrc生效用nvcc -V验证nvcc: NVIDIA (R) Cuda compiler release 12.8, V12.8.0 Build cuda_12.8.r12.8/compiler.34097988_03. cuDNN安装注册账号与版本匹配cuDNN的安装比CUDA更麻烦主要卡在两点需要注册NVIDIA开发者账号以及版本必须严格匹配。我帮学弟调试时发现用CUDA 12.8配cuDNN 8.9.x才能稳定运行。具体步骤到cuDNN归档页面注册账号建议用学校/企业邮箱下载三个deb包cuDNN Runtime LibrarycuDNN Developer LibrarycuDNN Samples按顺序安装sudo dpkg -i cudnn-local-repo-ubuntu2204-8.9.7.29_1.0-1_amd64.deb sudo cp /var/cudnn-local-repo-ubuntu2204-8.9.7.29/cudnn-local-*-keyring.gpg /usr/share/keyrings/ sudo apt-get update sudo apt-get install libcudnn88.9.7.29-1cuda12.2测试是否成功cd /usr/src/cudnn_samples_v8/mnistCUDNN make clean make ./mnistCUDNN看到Test passed!才算真正搞定。有个坑要注意官方示例的CUDA路径可能不对需要手动修改Makefile中的CUDA_PATH指向你的实际安装路径。4. Python环境配置虚拟环境与依赖管理conda环境能隔离不同项目的依赖但用不好反而会制造混乱。我见过最离谱的情况是有人装了五个虚拟环境每个的CUDA版本都不一样。正确做法是创建专用于5060ti的环境conda create -n rtx5060 python3.10 conda activate rtx5060安装PyTorch时要特别注意版本映射conda install pytorch2.2.0 torchvision0.17.0 torchaudio2.2.0 -c pytorch -c nvidia这个组合在SM_120架构上实测稳定。如果项目需要其他依赖建议先用pip freeze requirements.txt检查已有版本再用pip install -r requirements.txt安装。常见报错解决方案CUDA out of memory通常是cuDNN版本不匹配导致的内存泄漏SM_120 not supported检查CUDA是否≥12.8undefined symbol: cudnnCreate重新安装匹配的cuDNN版本最后分享一个诊断技巧当出现玄学报错时先用这个命令检查各组件版本python -c import torch; print(torch.__version__, torch.version.cuda, torch.backends.cudnn.version())输出应该是类似2.2.0 12.8 8902的格式三个数字分别对应PyTorch、CUDA和cuDNN版本。去年帮人调试时发现有人PyTorch显示CUDA 12.8但实际用的是11.7的运行时就是因为conda环境混用了不同源安装的包。