英伟达再破世界纪录,全球最快Llama 4诞生,每秒1000 token!

你以为,AI推理的速度已经够快了?
不,英伟达还能再次颠覆你的想象——就在刚刚,他们用Blackwell创下了AI推理的新纪录。

仅仅采用单节点(8颗Blackwell GPU)的DGX B200服务器,英伟达就实现了Llama 4 Maverick模型每秒单用户生成1000个token(TPS/user)的惊人成绩!
单节点使用8块B200 GPU
这项速度记录,由AI基准测试服务Artificial Analysis独立测量。

而且,更令人咋舌的是,单台服务器(GB200 NVL72,配备72颗Blackwell GPU)的整体吞吐量,已经达到了72,000 TPS!

GB200 NVL72液冷机架原型机
这场速度革命的幕后,是一整套精心布局的技术组合拳——
使用TensorRT-LLM优化框架和EAGLE-3架构训练推测解码草稿模型;
在GEMM、MoE及Attention计算中全面应用FP8数据格式,有效缩小模型体积并提高计算效率;
应用CUDA内核优化技术(如空间分区、GEMM权重重排、Attention内核并行优化、程序化依赖启动(PDL)等);
运算融合(如FC13+SwiGLU、FC_QKV+attn_scaling、AllReduce+RMSnorm融合)。
由此,Blackwell的性能潜力彻底被点燃,一举实现了4倍加速,直接把之前的最强Blackwell基线甩在身后!

这次优化措施在保持响应准确度的同时,显著提升了模型性能。
英伟达针对GEMM(通用矩阵乘法)、MoE(混合专家模型)及Attention(注意力)运算运用了FP8数据类型,旨在减小模型体积。并充分利用Blackwell Tensor Core技术所带来的高FP8吞吐量优势。
如下表所示,采用FP8数据格式后。模型在多项评估指标上的准确度可与Artificial Analysis采用BF16数据格式(进行测试)所达到的准确度相媲美:

大部分用生成式AI的场景,都要在吞吐量(throughput)和延迟(latency)之间找一个平衡点,好让很多用户同时使用时,都能有个「还不错」的体验。
但是,有些关键场景,比如要迅速做出重要决策的时候,「响应速度」就变得特别重要,哪怕一点延迟都可能带来严重后果。
无论你想要的是同时处理尽可能多的请求,还是希望既能处理很多请求、响应又比较快,还是只想最快地服务单个用户(即最小化单个用户的延迟),Blackwell的硬件都是最佳选择。
下图概述了英伟达在推理过程中应用的内核优化和融合(以红色虚线框标示)。

英伟达实现了若干低延迟GEMM内核,并应用了各种内核融合(如FC13+SwiGLU、FC_QKV+attn_scaling以及A
英伟达再破世界纪录,全球最快Llama 4诞生,每秒1000 token!相关教程
- 英伟达市值突破3.5万亿美元,华尔街看涨,登顶全球市值巅峰!
- 英伟达超微软、苹果登顶全球市值最高上市公司,华尔街震撼!
- 英伟达新一代显卡阵容补齐,中国成全球显卡换代最快地区
- 第二财季净利涨843% “AI总龙头”英伟达业绩爆表,创纪录增长!
- 英伟达:再次炸裂,AI王者的“独角戏”,全球AI领域再次掀起热潮
- 华金证券:英伟达(NVDA.US)Q3业绩超出预期 全球AI算力需求强劲
- 英伟达6月重新夺回全球市值头把交椅,达3.86万亿美元
- 全球芯片战升级!越南迎英伟达技术转移
- 2023全球十大半导体厂商排名公布:英特尔夺冠,英伟达首次进入前五!
- 英伟达CEO黄仁勋或将进入全球最富有25人名单,股价飙升229%
- 英伟达推出赛博朋克2077游戏主题RTX 5090 FE显卡,性能如何?
- 你台式机电脑CPU的核心用够了吗?如何选择适合自己的CPU核心数?
- ChatGPT再现“奶奶漏洞”,网友诱导GPT-4o生成Win7密钥,专家警告用户谨慎使用
- ChatGPT被网友发现“奶奶漏洞”,成功生成Win7密钥,GPT-4o主生成密钥
- NVIDIA参展BW2025大揭秘:抢购公版RTX 5080/5070,错过拍大腿!
- 闪耀核聚变,映众:探秘未来清洁能源的希望