AI Inference

Inference can be deployed in many ways, depending on the use-case. Offline processing of data is best done at larger batch sizes, which can deliver optimal GPU utilization and throughput. However, increasing throughput also tends to increase latency. Generative AI and Large Language Models (LLMs) deployments seek to deliver great experiences by lowering latency. So developers and infrastructure managers need to strike a balance between throughput and latency to deliver great user experiences and best possible throughput while containing deployment costs.

When deploying LLMs at scale, a typical way to balance these concerns is to set a time-to-first token limit, and optimize throughput within that limit. The data presented in the Large Language Model Low Latency section show best throughput at a time limit of one second, which enables great throughput at low latency for most users, all while optimizing compute resource use.

Click here to view other performance data.

MLPerf Inference v4.0 Performance Benchmarks

Offline Scenario, Closed Division

Network	Throughput	GPU	Server	GPU Version	Target Accuracy	Dataset
Llama2 70B	31,712 tokens/sec	8x H200	NVIDIA DGX H200	NVIDIA H200-SXM-141GB-CTS	rouge1=44.4312, rouge2=22.0352, rougeL=28.6162	OpenOrca
	22,290 tokens/sec	8x H100	GIGABYTE G593-SD1	NVIDIA H100-SXM-80GB	rouge1=44.4312, rouge2=22.0352, rougeL=28.6162	OpenOrca
	3,871 tokens/sec	1x GH200	NVIDIA GH200-GraceHopper-Superchip	NVIDIA GH200-GraceHopper-Superchip 144GB	rouge1=44.4312, rouge2=22.0352, rougeL=28.6162	OpenOrca
	15,086 tokens/sec	8x H100 NVL	SYS-521GE-TNRT	NVIDIA H100 NVL	rouge1=44.4312, rouge2=22.0352, rougeL=28.6162	OpenOrca
Stable Diffusion XL	13.2 samples/sec	8x H100	GIGABYTE G593-SD1	H100-SXM-80GB	FID range: [23.01085758, 23.95007626] and CLIP range: [31.68631873, 31.81331801]	Subset of coco-2014 val
	1.8 samples/sec	1x GH200	GH200-GraceHopper-Superchip_GH200-96GB_aarch64x1_TRT	NVIDIA GH200-GraceHopper-Superchip	FID range: [23.01085758, 23.95007626] and CLIP range: [31.68631873, 31.81331801]	Subset of coco-2014 val
	5.04 samples/sec	8x L40S	ESC8000-E11	NVIDIA L40S	FID range: [23.01085758, 23.95007626] and CLIP range: [31.68631873, 31.81331801]	Subset of coco-2014 val
ResNet-50	705,887 samples/sec	8x H100	SYS-821GE-TNHR	H100-SXM-80GB	76.46% Top1	ImageNet (224x224)
	369,341 samples/sec	8x L40S	ESC8000-E11	NVIDIA L40S	76.46% Top1	ImageNet (224x224)
RetinaNet	14,291 samples/sec	8x H100	HPE Cray XD670	H100-SXM-80GB	0.3755 mAP	OpenImages (800x800)
	6,401 samples/sec	8x L40S	ESC8000-E11	NVIDIA L40S	0.3755 mAP	OpenImages (800x800)
BERT	70,759 samples/sec	8x H100	HPE Cray XD670	H100-SXM-80GB	90.874% f1	SQuAD v1.1
	26,430 samples/sec	8x L40S	SYS-521GE-TNRT	NVIDIA L40S	90.87% f1	SQuAD v1.1
GPT-J	243 samples/sec	8x H100	SYS-821GE-TNHR	H100-SXM-80GB	rouge1=42.9865, rouge2=20.1235, rougeL=29.9881	CNN Dailymail
	32 samples/sec	1x GH200	NVIDIA GH200-GraceHopper-Superchip	GH200-GraceHopper-Superchip	rouge1=42.9865, rouge2=20.1235, rougeL=29.9881	CNN Dailymail
	98 samples/sec	8x L40S	ESC8000-E11	NVIDIA L40S	rouge1=42.9865, rouge2=20.1235, rougeL=29.9881	CNN Dailymail
DLRMv2	354,151 samples/sec	8x H100	NVIDIA DGX H100	H100-SXM-80GB	80.31% AUC	Synthetic Multihot Criteo Dataset
	49,651 samples/sec	1x GH200	NVIDIA GH200-GraceHopper-Superchip	GH200-GraceHopper-Superchip	80.31% AUC	Synthetic Multihot Criteo Dataset
	101,691 samples/sec	1x L40S	ESC8000-E11	NVIDIA L40S	80.31% AUC	Synthetic Multihot Criteo Dataset
3D-UNET	52 samples/sec	8x H100	SYS-821GE-TNHR	H100-SXM-80GB	0.863 DICE mean	KiTS 2019
	32 samples/sec	1x L40S	SYS-521GE-TNRT	NVIDIA L40S	0.863 DICE mean	KiTS 2019
RNN-T	191,355 samples/sec	8x H100	GIGABYTE G593-SD1	H100-SXM-80GB	7.45% WER	Librispeech dev-clean
	91,782 samples/sec	1x L40S	ESC8000-E11	NVIDIA L40S	7.45% WER	Librispeech dev-clean

Server Scenario - Closed Division

Network	Throughput	GPU	Server	GPU Version	Target Accuracy	MLPerf Server Latency Constraints (ms)	Dataset
Llama2 70B	29,526 tokens/sec	8x H200	NVIDIA DGX H200	NVIDIA H200-SXM-141GB-CTS	rouge1=44.4312, rouge2=22.0352, rougeL=28.6162	TTFT/TPOT: 2000 ms/200 ms	OpenOrca
	21,504 tokens/sec	8x H100	SYS-821GE-TNHR	NVIDIA H100-SXM-80GB	rouge1=44.4312, rouge2=22.0352, rougeL=28.6162	TTFT/TPOT: 2000 ms/200 ms	OpenOrca
	3,617 tokens/sec	1x GH200	NVIDIA GH200-GraceHopper-Superchip	NVIDIA GH200-GraceHopper-Superchip 144GB	rouge1=44.4312, rouge2=22.0352, rougeL=28.6162	TTFT/TPOT: 2000 ms/200 ms	OpenOrca
	14,275 tokens/sec	8x H100 NVL	SYS-521GE-TNRT	NVIDIA H100 NVL	rouge1=44.4312, rouge2=22.0352, rougeL=28.6162	TTFT/TPOT: 2000 ms/200 ms	OpenOrca
Stable Diffusion XL	13.6 queries/sec	8x H100	SYS-821GE-TNHR	NVIDIA H100-SXM-80GB	FID range: [23.01085758, 23.95007626] and CLIP range: [31.68631873, 31.81331801]	20 s	Subset of coco-2014 val
	1.68 queries/sec	1x GH200	NVIDIA GH200-GraceHopper-Superchip	NVIDIA GH200-GraceHopper-Superchip	FID range: [23.01085758, 23.95007626] and CLIP range: [31.68631873, 31.81331801]	20 s	Subset of coco-2014 val
	4.96 queries/sec	8x L40S	ESC8000-E11	NVIDIA L40S	FID range: [23.01085758, 23.95007626] and CLIP range: [31.68631873, 31.81331801]	20 s	Subset of coco-2014 val
ResNet-50	630,172 queries/sec	8x H100	GIGABYTE G593-SD1	H100-SXM-80GB	76.46% Top1	15 ms	ImageNet (224x224)
	355,029 queries/sec	8x L40S	ESC8000-E11	NVIDIA L40S	76.46% Top1	15 ms	ImageNet (224x224)
RetinaNet	13,676 queries/sec	8x H100	HPE Cray XD670	H100-SXM-80GB	0.3755 mAP	100 ms	OpenImages (800x800)
	5,798 queries/sec	8x L40S	ESC8000-E11	NVIDIA L40S	0.3755 mAP	100 ms	OpenImages (800x800)
BERT	57,293 queries/sec	8x H100	GIGABYTE G593-SD1	H100-SXM-80GB	90.87% f1	130 ms	SQuAD v1.1
	25,121 queries/sec	8x L40S	ESC8000-E11	NVIDIA L40S	90.87% f1	130 ms	SQuAD v1.1
GPT-J	240 queries/sec	8x H100	SYS-821GE-TNHR	H100-SXM-80GB	rouge1=42.9865, rouge2=20.1235, rougeL=29.9881	20 s	CNN Dailymail
	31 queries/sec	1x GH200	NVIDIA GH200-GraceHopper-Superchip	NVIDIA GH200-GraceHopper-Superchip	rouge1=42.9865, rouge2=20.1235, rougeL=29.9881	20 s	CNN Dailymail
	98 queries/sec	8x L40S	ESC8000-E11	NVIDIA L40S	rouge1=42.9865, rouge2=20.1235, rougeL=29.9881	20 s	CNN Dailymail
DLRMv2	333,218 queries/sec	8x H100	SYS-821GE-TNHR	H100-SXM-80GB	80.31% AUC	60 ms	Synthetic Multihot Criteo Dataset
	48,788 queries/sec	1x GH200	NVIDIA GH200-GraceHopper-Superchip	NVIDIA GH200-GraceHopper-Superchip	80.31% AUC	60 ms	Synthetic Multihot Criteo Dataset
	94,969 queries/sec	8x L40S	ESC8000-E11	NVIDIA L40S	80.31% AUC	60 ms	Synthetic Multihot Criteo Dataset
RNN-T	179,985 queries/sec	8x H100	GIGABYTE G593-SD1	H100-SXM-80GB	7.45% WER	1000 ms	Librispeech dev-clean
	87,974 queries/sec	8x L40S	ESC8000-E11	NVIDIA L40S	7.45% WER	1000 ms	Librispeech dev-clean

Power Efficiency Offline Scenario - Closed Division

Network	Throughput	Throughput per Watt	GPU	Server	GPU Version	Dataset
Llama2 70B	17,099 tokens/sec	2.99 tokens/sec/watt	8x H100	Dell PowerEdge XE9680	H100-SXM-80GB	OpenOrca
Stable Diffusion XL	9.65 samples/sec	0.00203 samples/sec/watt	8x H100	NVIDIA DGX H100	H100-SXM-80GB	Subset of coco-2014 val
	4.24 samples/sec	0.00119 samples/sec/watt	8x L40S	PRIMERGY CDI	NVIDIA L40S	Subset of coco-2014 val
ResNet-50	456,575 samples/sec	113 samples/sec/watt	8x H100	Dell PowerEdge XE9680	H100-SXM-80GB	ImageNet (224x224)
RetinaNet	10,106 samples/sec	2 samples/sec/watt	8x H100	NVIDIA DGX H100	H100-SXM-80GB	OpenImages (800x800)
BERT	53,727 samples/sec	11 samples/sec/watt	8x H100	NVIDIA DGX H100	H100-SXM-80GB	SQuAD v1.1
GPT-J	174 samples/sec	0.0377 samples/sec/watt	8x H100	Dell PowerEdge XE9680	H100-SXM-80GB	CNN Dailymail
DLRMv2	283,714 samples/sec	50 samples/sec/watt	8x H100	NVIDIA DGX H100	H100-SXM-80GB	Synthetic Multihot Criteo Dataset
3D-UNET	37 samples/sec	0.009 samples/sec/watt	8x H100	Dell PowerEdge XE9680	H100-SXM-80GB	KiTS 2019
RNN-T	139,938 samples/sec	32 samples/sec/watt	8x H100	NVIDIA DGX H100	H100-SXM-80GB	Librispeech dev-clean

Power Efficiency Server Scenario - Closed Division

Network	Throughput	Throughput per Watt	GPU	Server	GPU Version	Dataset
Llama2 70B	15,487 tokens/sec	2.62 tokens/sec/watt	8x H100	NVIDIA DGX H100	H100-SXM-80GB	OpenOrca
Stable Diffusion XL	8.78 queries/sec	0.00196 queries/sec/watt	8x H100	NVIDIA DGX H100	H100-SXM-80GB	Subset of coco-2014 val
	4.12 queries/sec	0.00117 queries/sec/watt	8x L40S	PRIMERGY CDI	NVIDIA L40S	Subset of coco-2014 val
ResNet-50	400,031 queries/sec	103 queries/sec/watt	8x H100	Dell PowerEdge XE9680	H100-SXM-80GB	ImageNet (224x224)
RetinaNet	8,794 queries/sec	2 queries/sec/watt	8x H100	NVIDIA DGX H100	H100-SXM-80GB	OpenImages (800x800)
BERT	42,386 queries/sec	8 queries/sec/watt	8x H100	NVIDIA DGX H100	H100-SXM-80GB	SQuAD v1.1
GPT-J	150 queries/sec	0.0326 queries/sec/watt	8x H100	Dell PowerEdge XE9680	H100-SXM-80GB	CNN Dailymail
DLRMv2	255,995 queries/sec	44 queries/sec/watt	8x H100	NVIDIA DGX H100	H100-SXM-80GB	Synthetic Multihot Criteo Dataset
RNN-T	123,981 queries/sec	27 queries/sec/watt	8x H100	NVIDIA DGX H100	H100-SXM-80GB	Librispeech dev-clean

MLPerf™ v4.0 Inference Closed: Llama2 70B, Stable Diffusion XL, ResNet-50 v1.5, RetinaNet, RNN-T, BERT 99% of FP32 accuracy target, 3D U-Net 99.9% of FP32 accuracy target, GPT-J 99.9% of FP32 accuracy target, DLRM 99.9% of FP32 accuracy target: 4.0-0002, 4.0-0033, 4.0-0042, 4.0-0044, 4.0-0047, 4.0-0062, 4.0-0063, 4.0-0064, 4.0-0065, 4.0-0066, 4.0-0068, 4.0-0070, 4.0-0071, 4.0-0082, 4.0-0085, 4.0-0086. MLPerf name and logo are trademarks. See https://mlcommons.org/ for more information.
NVIDIA H200 and NVIDIA GH200 GraceHopper-Superchip 144GB is a preview submission
Llama2 Max Sequence Length = 1,024
BERT-Large Max Sequence Length = 384.
For MLPerf™ various scenario data, click here
For MLPerf™ latency constraints, click here