Model# HPUSequence Length PrecisionBatch SizeThroughput (tokens/sec)
LLaMA V2 7B8 4,096 FP8 1,024 99,225
LLaMA V2 13B16 4,096 FP8 256 89,946
LLaMA V2 70B64 4,096 FP8 1,024 78,082
LLaMA V3.1 8B8 8,192 FP8 128 59,359
LLaMA V3.1 70B64 8,192 FP8 128 61,153