ModelPrecisionInput LengthOutput Length#HPUBatch SizeThroughput (tokens/sec)
LLaMA 2 70bfp8128128217504853
LLaMA 2 70bfp8128204825126835
LLaMA 2 70bfp820481282242506
LLaMA 2 70bfp82048204822412859
LLaMA 3.1 8Bfp81281281153625097
LLaMA 3.1 8Bfp81282048176820425
LLaMA 3.1 8Bfp8204812812562765
LLaMA 3.1 8Bfp82048204813509013
LLaMA 3.1 70Bfp8128128220485466
LLaMA 3.1 70Bfp8128204824506535
LLaMA 3.1 70Bfp820481282223663
LLaMA 3.1 70Bfp82048204821752891
LLaMA 3.1 70Bfp81281288400018290
LLaMA 3.1 70Bfp81282048876821138
LLaMA 3.1 70Bfp8204812885122273
LLaMA 3.1 70Bfp820482048860010600
LLaMA 3.3 70Bfp81281288398616622
LLaMA 3.3 70Bfp812820488204824705
LLaMA 3.3 70Bfp8204812886001890
LLaMA 3.3 70Bfp820482048865011043
LLaMA 3.1 405Bfp8128128829963488
LLaMA 3.1 405Bfp8128204884604998
LLaMA 3.1 405Bfp820481288195394
LLaMA 3.1 405Bfp82048204881802238