LLM Inference Benchmark – как измерить производительность языковых моделей на локальном железе

LLM Inference Benchmark

Привет! Я – Илья Низамов. В мире 1С существует популярный тест Гилёва, который показывает, сколько баллов выдаёт ваше железо на бизнес‑задачах 1С. Переквалифицировавшись в разработку ИИ, я заметил, что в этой области тоже часто задают похожие вопросы: как быстро и эффективно запускать модели, какие ресурсы нужны, как сравнивать разные конфигурации.

Почему нужен собственный бенчмарк?

Существует множество каналов и статей, где публикуются результаты тестов разного железа. Однако они редко охватывают всё многообразие современных LLM и инференсов. Поэтому я решил создать инструмент, который позволит:

  • Тестировать модели локально – на CPU, GPU или их комбинации.
  • Собирать результаты и делиться ими с сообществом.
  • Получать представление о том, как конкретная модель будет вести себя на выбранном оборудовании.

Что входит в бенчмарк?

В репозитории InferenceBenchmark собраны:

  • Поддержка нескольких популярных инференсов: Ollama, vLLM, llama.cpp и др.
  • Набор моделей, готовых к запуску – от небольших до больших LLM.
  • Скрипты для запуска тестов на разных платформах (CPU, GPU, смешанные конфигурации).
  • Инструменты для сбора и форматирования результатов.

Как использовать?

  1. Скачайте исходники и сборку из GitHub.
  2. Установите необходимые зависимости (Python, CUDA, библиотеки инференсов).
  3. Запустите скрипт тестирования, указав желаемую модель и конфигурацию оборудования.
  4. Получите таблицу с метриками – время инференса, пропускная способность, потребление памяти.
  5. Сохраните результаты и, при желании, поделитесь ими на странице результатов.

Поддерживаемые инференсы и модели

В бенчмарке реализованы основные инференсы, которые позволяют запускать модели как на GPU, так и на CPU+GPU:

  • Ollama – быстрый запуск LLM с поддержкой различных моделей.
  • vLLM – высокопроизводительный инференс с динамическим буфером.
  • llama.cpp – порт LLaMA на C++, работающий без GPU.
  • И другие, добавляемые по мере необходимости.

Как делиться результатами?

После выполнения тестов вы можете загрузить файл с результатами на сайт или поделиться ссылкой в сообществе. Это поможет другим разработчикам ориентироваться в выборе оборудования и моделей.

Планы и обратная связь

Страничка с тестами и сам бенчмарк пока находятся в стадии разработки. Если у вас есть пожелания, предложения по улучшению или вы хотите доработать проект самостоятельно, пишите в комментариях – ваш вклад будет ценен!

Желаю всем удачи в экспериментах с LLM! 🚀

Посмотрите подробное видео: LLM Inference Benchmark – измерение производительности LLM на CPU/GPU

LLM Inference Benchmark – измерение производительности LLM на CPU/GPU
LLM Inference Benchmark – измерение производительности LLM на CPU/GPU