-3B300、B200、H200、H100参数比较规格项B300B200H200H100架构Blackwell UltraBlackwellHopperHopper显存288 GB HBM3e192 GB HBM3e141 GB HBM3e80 GB HBM3e显存带宽8 TB/s8 TB/s4.8 TB/s3.35 TB/sFP4 稀疏算力14,000 TFLOPS9,000 TFLOPSN/AN/AFP8 稠密算力7,000 TFLOPS4,500 TFLOPS756 TFLOPS756 TFLOPSFP16 算力3,500 TFLOPS2,250 TFLOPS378 TFLOPS378 TFLOPSTDP1,400W1,000W700W700WNVLink 带宽1.8 TB/s1.8 TB/s900 GB/s900 GB/sGPU架构FP8Dense算力显存显存带宽NVLinkB300Blackwell Ultra7000 TFLOPS288GB HBM3e8 TB/s1.8 TB/sB200Blackwell4500 TFLOPS192GB HBM3e8 TB/s1.8 TB/sH200Hopper756 TFLOPS141GB HBM3e4.8 TB/s900 GB/sH100Hopper756 TFLOPS80GB HBM3e3.35 TB/s900 GB/s-2H20L20芯片20250715【美国已批准英伟达 H20 芯片在华销售】据英伟达官方消息H20对中国大陆市场的销售许可获批。其实H20性能一般已经是上一代产品了。美国真恶心人啊参数H20L20GPU架构NVIDIA HopperNVIDIA Ada Lovelace内存类型HBM3GDDR6带ECC内存容量96 GB48 GB内存带宽4.0 TB/s864 GB/sINT8/FP8算力296 TFLOPS239 TFLOPSBF16/FP16算力148 TFLOPS119.5 TFLOPSTF32算力74 TFLOPS59.8 TFLOPSFP32算力44 TFLOPS59.8 TFLOPSNVLink支持支持900 GB/s不支持MIG功能最多7个实例未知L2缓存60 MB96 MB热设计功耗TDP400 W275 W外形规格8路HGXSXM接口2槽FHFLPCIe Gen4 x16适用场景大模型推理、多卡协同工作站、服务器推理-1GeForce RTX 4090价格便宜推理性能较好。GeForce RTX 4090GPU 引擎规格NVIDIA CUDA® 核心数量16384加速频率 (GHz)2.52基础频率 (GHz)2.23显存规格标准显存配置24 GB GDDR6X显存位宽384 位技术支持Ray Tracing Core第 3 代Tensor Cores第 4 代NVIDIA 架构Ada Lovelace支持 NVIDIA DLSS3支持 NVIDIA Reflex是支持 NVIDIA Broadcast是支持 PCI Express 第 4 代是支持 Resizable BAR是支持 NVIDIA® GeForce Experience™是支持 NVIDIA Ansel是支持 NVIDIA FreeStyle是支持 NVIDIA ShadowPlay是支持 NVIDIA Highlights是支持 NVIDIA G-SYNC®是Game Ready 驱动是支持 NVIDIA Studio 驱动是NVIDIA Omniverse是支持 Microsoft DirectX® 12 Ultimate是支持 NVIDIA GPU Boost™是支持 NVIDIA NVLink™ (SLI-Ready)否支持 Vulkan RT API, OpenGL 4.6是NVIDIA 编码器 (NVENC)2x 8th GenerationNVIDIA 解码器 (NVDEC)5th GenerationAV1 编码是AV1 解码是CUDA 能力8.9支持 VR Ready是显示器支持最高数字分辨率和刷新率 (1)4K 240Hz 或借助DSC技术支持显示8K 60Hz HDR效果标准显示器接口HDMI(2), 3x DisplayPort(3)可支持的多显示器数4(5)HDCP2.3显卡尺寸长度304 mm宽度137 mm插槽3 插槽 (61mm)温度和功率规格最高 GPU 温度 (℃)90显卡功率 (W)450 W要求的系统功率 (W) (4)850 W辅助电源接口3 x PCIe 8-pin 转接线附赠适配器或1 根支持 450W 及更大额定功率的第 5 代 PCIe 接口电源线0GeForce RTX 3090显卡好像没有单双精度数据GeForce RTX 3090 TiGeForce RTX 3090GPU 引擎规格NVIDIA CUDA® 核心数量1075210496加速频率 (GHz)1.861.70基础频率 (GHz)1.671.40显存规格标准显存配置24 GB GDDR6X24 GB GDDR6X显存位宽384 位384 位技术支持RT Core第 2 代第 2 代Tensor Cores第 3 代第 3 代NVIDIA 架构AmpereAmpereMicrosoft DirectX® 12 Ultimate是是NVIDIA DLSS是是NVIDIA Reflex是是NVIDIA Broadcast是是PCI Express 第 4 代是是Resizable BAR是是NVIDIA® GeForce Experience™是是NVIDIA Ansel是是NVIDIA FreeStyle是是NVIDIA ShadowPlay是是NVIDIA Highlights是是NVIDIA G-SYNC®是是支持 Game Ready 驱动程序是是NVIDIA Studio 驱动是是NVIDIA Omniverse是是NVIDIA GPU Boost™是是NVIDIA NVLink™ (SLI-Ready)是是Vulkan RT API、OpenGL 4.6是是HDMI 2.1是是DisplayPort 1.4a是是NVIDIA 编码器第 7 代第 7 代NVIDIA 解码器第 5 代第 5 代CUDA 能力8.68.6VR Ready是是显示支持最高数字分辨率 (1)7680x43207680x4320标准显示器接口HDMI(2), 3x DisplayPort(3)HDMI(2), 3x DisplayPort(3)可支持的多显示器数44HDCP2.32.3Founders Edition 显卡尺寸长度12.3 (313 mm)12.3 (313 mm)宽度5.4 (138 mm)5.4 (138 mm)高度3 插槽3 插槽Founders Edition 热功率规格最高 GPU 温度 (℃)9293显卡功率 (W)450350推荐系统功率 (W) (2)850750辅助电源接口3 个 PCIe 8-Pin 辅助供电接口盒装适配器或负载可达 450W 或更高的第五代 PCIe 接口2 个 PCIe 8-Pin 接口1A40The NVIDIA A40 accelerates the most demanding visual computing workloads from the data center, combining the latest NVIDIA Ampere architecture RT Cores, Tensor Cores, and CUDA® Cores with 48 GB of graphics memory. From powerful virtual workstations accessible from anywhere to dedicated render nodes, NVIDIA A40 brings nextgeneration NVIDIA RTX™ technology to the data center for the most advanced professional visualization workloads.居然没有单双精度。带宽也不行。2A30Built for AI inference at scale, the same compute resource can rapidly re-train AI models with TF32, as well as accelerate high-performance computing (HPC) applications using FP64 Tensor Cores. Multi-Instance GPU (MIG) and FP64 Tensor Cores combine with fast 933 gigabytes per second (GB/s) of memory bandwidth in a low 165W power envelope, all running on a PCIe card optimal for mainstream servers.3A100NVIDIA A100 GPU采用全新Ampere安培架构的超大核心GA1007nm工艺542亿晶体管826平方毫米面积6912个核心搭载5120-bit 40/80GB HBM2显存带宽近1.6TB/s功耗400W。NVIDIA A100 Tensor Core GPU 可在各个规模下为 AI、数据分析 和高性能计算HPC应用提供出色的加速性能为全球的 高性能弹性数据中心提供强劲助力。作为 NVIDIA 数据中心平台 的引擎与前一代 NVIDIA Volta™ 相比A100 可使性能提升高达 20 倍。A100 可高效扩展也可借助多实例 GPU MIG技术划分 为 7 个独立的 GPU 实例从而提供统一的平台助力弹性数据中 心根据不断变化的工作负载需求动态进行调整。 NVIDIA A100 Tensor Core 技术支持广泛的数学精度可针对每个 工作负载提供单个加速器。最新一代 A100 80GB 将 GPU 显存 加倍提供 2TB/s 的全球超快显存带宽可加速处理超大型模型 和海量数据集。 A100 是完整 NVIDIA 数据中心解决方案的一部分该解决方案由 硬件、网络、软件、库以及 NGC™ 目录中经优化的 AI 模型和 应用等叠加而成。作为适用于数据中心且功能强大的端到端 AI 和 HPC 平台A100 可助力研究人员获得真实的结果并能将解决 方案大规模部署到生产环境中。可惜不让在中国卖万恶的鬼佬。4V100NVIDIA® V100 Tensor Core GPU 是深度学习、机器学习、 高性能计算 (HPC) 和图形计算的强力加速器。V100 Tensor Core GPU 采用 NVIDIA Volta™ 架构可在单个 GPU 中提供近 32 个 CPU 的性能助力研究人员攻克以前无法应对的挑战。 V100 已在业界首个 AI 基准测试 MLPerf 中拔得头筹以出色 的成绩证明了其是具有巨大可扩展性和通用性的当今世界上 强大的计算平台。比A100差不些但是比A30好一些。美国人脑壳也是逗比5A800NVIDIA将面向中国用户推出新的A800 GPU用于替代A100其符合美政府出口管制政策。根据美政府的政策用于出口的芯片数据传输率不得超过600GB/sNVIDIA A800则设定在400GB/s。但其他规格尚不清楚比如核心数量、运行频率、显存、功耗等。英伟达和 AMD 就表示包括英伟达的数据中心芯片 A100 和 H100 等产品被美国商务部列入出口管制清单。而据英伟达的说法新的 A800 可以替代 A100两者都是 GPU图形处理单元处理器。芯片经销商 OMNISKY 容天官网介绍的英伟达 A800 GPU 信息显示新的芯片数据传输速率为每秒 400GB低于 A100 的每秒 600GB代表了数据中心的性能明显下降。而且A800 支持内存带宽最高达 2TB/s其他参数变化不大。6炸裂的H100NVIDIA H100是一个整体NVIDIA数据中心的一部分站台为AI、HPC和数据构建分析平台加速超过3000个应用程序并且数据无处不在从中心到边缘同时提供显著的性能提升和节省成本的机会。双精度性能达到34TFlops了天啊FP16达到2TFlops间接是AI怪兽访存带宽达到3.35TBNVLINK带宽达到900 GB/s天啊7)H200H200比H100好一些但是也没有很好在LLM有优势。单卡性能方面H200相比H100在Llama2的130亿参数训练中速度提升40%在GPT-3的1750亿参数训练中提升60%在Llama2的700亿参数训练中提升90%。