Llama vs vllm: сравнение скорости LLM inference
В этом обзоре рассматривается производительность двух популярных движков для инференса больших языковых моделей (LLM): llama cpp и vllm. Тест проводился с целью выяснить, какой из них обеспечивает более быструю обработку запросов при нагрузке.
Методика тестирования
Для сравнения использовались одинаковые модели LLM, загруженные в оба движка. Тесты проводились под нагрузкой, имитирующей реальный сценарий работы сервиса: параллельные запросы, разный размер входных данных и частота вызовов. В качестве метрик учитывались:
- Время отклика (latency) на запросы различной длины;
- Потоковая производительность (throughput) – количество запросов в секунду;
- Использование ресурсов (CPU, GPU, память).
Результаты
Полные результаты теста доступны в виде видео, где показаны графики и сравнение по ключевым метрикам. Основные выводы:
- llama cpp демонстрирует более низкую задержку при небольших запросах;
- vllm обеспечивает более высокую пропускную способность при больших нагрузках;
- Выбор движка зависит от конкретных требований к сервису: если важна мгновенная реакция на небольшие запросы, лучше использовать llama cpp; если требуется обрабатывать большое количество запросов одновременно, предпочтительнее vllm.
Выводы
Оба движка имеют свои сильные стороны. При выборе подходящего решения необходимо учитывать характер нагрузки, доступные ресурсы и требования к отклику. Для более детального анализа рекомендуется посмотреть видео с полными данными теста.
Теги: #ai, #ИИ, #1С, #llama, #llamacpp, #vllm, #inference
