Бенчмарк LLM GPU-инференса

Сравнение производительности моделей на различных GPU и инференсах

Фильтры
GPU
Модель
Инференс
Docker
Модель
Инференс
GPU
Seq без SO
Seq с SO
Par без SO
Par с SO
Throughput без SO
Throughput с SO
Qwen/Qwen3-4B-Instruct-2507
vLLM 0.14.0
GeForce RTX 3090 GAMING X TRIO 24Gb ×1
83.8981.0568.967.4419.35420.09
Qwen/Qwen3-4B-Instruct-2507
vLLM 0.14.0
Tesla v100 32gb sxm2 ×1
67.3765.8145.1244.14284.19283.68
Qwen/Qwen3-4B-Instruct-2507
vLLM 0.14.0
GPU 1: Tesla v100 32gb sxm2 ×1
GPU 2: GeForce RTX 3090 GAMING X TRIO 24Gb ×1
100.8898.1460.558.84380.61401.99
unsloth/Qwen3-4B-Instruct-2507-GGUF:F16
Llama.cpp 7717
GPU 1: Tesla v100 32gb sxm2 ×1
GPU 2: GeForce RTX 3090 GAMING X TRIO 24Gb ×1
84.5882.8648.544.97250.41259.17
unsloth/Qwen3-4B-Instruct-2507-GGUF:F16
Llama.cpp 7717
Tesla v100 32gb sxm2 ×1
81.7980.3638.9640.21190.19213.47
unsloth/Qwen3-4B-Instruct-2507-GGUF:F16
Llama.cpp 7717
GeForce RTX 3090 GAMING X TRIO 24Gb ×1
90.5688.3446.9946.79262.74257.08